stt-6005 théorie de l’échantillonnage pierre duchesne courriel:...

35
STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne @dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: www.dms.umontreal.ca /~ duchesne Version: 29 décembre 2010

Upload: morgause-fremont

Post on 04-Apr-2015

120 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005Théorie de l’échantillonnage

Pierre Duchesne

courriel: [email protected]

téléphone: 343-7267

bureau: 4251

web: www.dms.umontreal.ca/~duchesneVersion: 29 décembre 2010

Page 2: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

2

Plan de cours

1. Rappel: Les étapes d’un sondage. 2. Paramètres exprimés en fonction de totaux. 3. Incorporation de l’information auxiliaire. 4. Échantillonnage en deux degrés. 5. Estimation en présence de non-réponse. 6. Estimation de la variance. 7. Estimation pour domaines.

Page 3: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

3

Barême

Le barême proposé est le suivant:

– Examen intra : 25%.– Examen final : 30%.– Devoirs & Projet : 45%.

Ouvrages de référence Särndal, Swensson et Wretman (1992), Model

Assisted Survey Sampling, NY: Springer-Verlag (Obligatoire).

Lohr (1999), Sampling : Design and Analysis, NY: Duxbury Press (Fortement recommandé).

Page 4: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

Échantillonnage (STT-6005)

Chapitre 1

Les étapes d’un sondage.

Page 5: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

5

Qu’est ce qu’un sondage?

Dans la société actuelle, nous avons besoin d’une grande quantité d’information qui doit être précise.– Préférences, choix.– Besoins.– Comportement des individus.

Page 6: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

6

Qu’est ce qu’un sondage?

La partie la plus visible du grand public sont les sondages d’opinion.

De manière générale, on peut considérer que ceux qui ont besoin des sondages sont:– Gouvernements.– Entreprises.– Institutions sociales.

Page 7: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

7

Industries des sondages

Secteur gouvernemental– Statistique Canada, Institut de la statistique du Québec, U.S.

Bureau of Census Secteur privé

– Gallup, Harris Survey, Reid. Ces agences sondent l’opinion publique sur des « sujets chauds ».

Recherche– Universités, hôpitaux.

Gestion, affaires– Études de marché, marketing.

Page 8: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

8

Définition d’un sondage

Méthode de collecte de l’information sur un échantillon d’individus (unités). Ces unités pourraient être des humains, des animaux, des maisons ou encore des entreprises.

Remarque: l’échantillon n’est qu’une fraction de la population, contrairement à un recensement où tous les membres de la population sont étudiés.

Page 9: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

9

Exemples de sondages

Exemple 1:Un échantillon de personnes aptes à voter est questionnée à l’avance sur une élection pour déterminer comment le public perçoit un candidat et les résultats.

Exemple 2: Département de la santé publique veut déterminer la proportion des enfants allant à l’école primaire qui ont été vaccinés contre les maladies infantiles (polio, tétanos, etc).

Page 10: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

10

Concentrons-nous sur le second exemple

Pour des raisons administratives: un mois. Option 1

– On réunit le personnel nécessaire et on va voir chaque enfant dans la région/province.

Frais du personnel? Temps? Frais de déplacement? Contraintes de coûts?

Option 2– On choisit un échantillon représentatif, c’est-à-dire un

sous-ensemble de toutes les mesures, la population. Pour une fraction du coût, permet de gagner du temps.

Page 11: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

11

Erreurs lorsque l’on dispose d’un échantillon (SSW, p. 14; Lohr, p. 15)

Erreurs dues à l’échantillonnage.– Échantillon n’est pas la population.

Erreurs non dues à l’échantillonnage.– Erreurs de mesures; biais de sélection.

Biais de sélection (Lohr; p. 4)– Représentation exagérée d’une partie de la population; Sous-

couverture de la population; doubles dans la base de sondage; interviewer néglige certaines personnes; population cible n’est pas la population échantillonnée; choix délibéré des personnes à interviewer; non-réponse.

Avec un recensement, qu’en est-il?

Page 12: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

12

Échantillon versus recensement

Un échantillon est souvent plus fiable qu’un recensement!

Il ne faut pas penser strictement en termes mathématiques!

Il est vrai qu’avec un échantillon, pas d’erreurs quantitatives dues à l’échantillonnage.

Cependant, les ressources nécessaires pour effectuer un recensement peuvent être telles que:

– Besoin de personnel qualifié en quantité suffisante.– Travail bâclé s’il est trop d’envergure.– Jamais à l’abri de la non-réponse pouvant fausser les

résultats. Avec un échantillon, on peut mobiliser les ressources

afin de contrôler la qualité de l’information recueillie.

Page 13: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

13

Comment choisir l’échantillon?

À l’aveuglette? NON!– On veut une méthode objective.

Parmi les volontaires? NON!– Sur les questions sensibles, seulement ceux qui sont concernés

sont susceptibles de participer.

NON aux SLOPS! (self-selected opinion pools)– Sondages télé où les gens appellent; lignes ouvertes.– Les gens avec des préjugés, fortes opinions (souvent

négatives) s’expriment souvent sur ces questions (avortement, racisme, etc).

Page 14: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

14

Comment choisir l’échantillon? Approche design-based

On se munit d’un plan d’échantillonnage tel que chaque personne dans la population possède une chance mesurable (que l’on peut quantifier) de sélection.

Commenter l’affirmation suivante: pour obtenir un échantillon, il faut que chaque unité possède une chance égale de faire partie de l’échantillon. (ATTENTION au piège!)

Page 15: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

15

Comment choisir l’échantillon? Approche model-based

Un modèle est formulé pour les unités provenant de la population.

Les estimations ne tiennent pas compte du plan d’échantillonnage.

Si le modèle reflète la réalité, les estimations et les intervalles de confiance sont souvent très précis.

Problème potentiel de biais si le modèle n’est pas juste.

Page 16: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

16

Avantages d’une méthode scientifique

Avec une méthode scientifique, tout le monde se voit poser les mêmes questions dans le même ordre.

On peut projeter les résultats de l’échantillon sur toute la population.

Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un profil, de la population.

Page 17: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

17

Les étapes d’un sondage

1. Sélection d’un échantillon.2. Collecte de données.3. Vérification et imputation.4. Estimation et analyse.5. Publication des résultats.

Page 18: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

18

Sélection d’un échantillon

On doit procéder à l’identification de la population cible; population visée?

Construction d’une base de sondage.– Idéalement, on tente de trouver une base de sondage

existante. Sinon, l’on doit en construire une.– Une base de sondage contient la numérotation de

tous les éléments de la population cible; elle contient des étiquettes.

Page 19: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

19

Base de sondage versus population visée

Choses à être conscient:

Est que la base de sondage corresponds à la population visée?

Si on s’intéresse à la population québécoise et que l’on utilise les listes de téléphone, est-ce que la population cible = base de sondage?

On peut contourner certaines difficultés? Conséquences sinon?

Page 20: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

20

1. Sélection d’un échantillon

Une fois que l’on dispose d’une base de sondage, on cherche à choisir un échantillon s dans la population:

U={1,2,…,k,…,N}. On aura ainsi que . Pour obtenir l’échantillon selon une approche

design-based, on procède à un échantillonnage, c’est-à-dire que l’on procède à une sélection dans U selon un plan d’échantillonnage p.

Us

Page 21: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

21

2. Collecte des données

On a besoin d’instruments– Téléphone (méthode CATI).– Interview personnelle (interviewer qui se déplace à la

maison) (méthode CAPI).– Courrier (mail surveys). Doit retourner un

questionnaire.– Accès Internet.

Pour l’enregistrement– Papier/crayon versus ordinateur (CATI/CAPI)

Page 22: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

22

Méthode CATI (Computer assisted telephone interview)

L’interviewer a devant lui un ordinateur. Les questions apparaissent à l’écran. La personne interviewée réponds et les données sont

immédiatement entrées. Avantages: ordre dans les questions toujours le même,

rapide, qualité. Inconvénients: peut être dispendieux à mettre en

œuvre pour les petites boîtes et pour les sondages non-répétés (occasionnels).

Page 23: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

23

Méthode CAPI (Computer assisted personal interview)

L’interviewer se présente chez les gens avec un ordinateur portable (laptop).

L’interviewer ou le répondant peut entrer directement les réponses.

Exemple: le sondage mensuel CPS (Current Population Survey) de la population américaine utilise un mélange des méthodes CAPI/CATI.

Page 24: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

24

Interviewers

Traditionnellement, travail à temps partiel. De plus en plus, être interviewer est un travail

à plein temps dans les grosses boîtes.– Entraînement,– Formation,– Etc.

On ne veut pas que les résultats soient affectés en fonction de l’interviewer.

Page 25: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

25

Questionnaire (Lohr, p.10)

Nécessite la présence des « experts du sujet » (sociologues, psychologues).

Les questions doivent être validées. Exemple: Aux USA, dans un sondage NBC/Wall Street J.

– 1. Êtes-vous en faveur de couper dans les programmes tels la sécurité du revenu, les soins médicaux, les subventions agricoles afin de réduire de déficit?

– 2. Êtes-vous en faveur de coupures gouvernementales afin de réduire le déficit?

Page 26: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

26

Résultats du sondage NBC/Wall Street J.

Gens qui ont répondus à la première question:– Pour: 23%– Contre: 66%– Sans opinion: 11%.

Gens qui ont répondus à la seconde question:– Pour: 61%– Contre: 25%– Sans opinion: 14%.

Page 27: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

27

3. Vérification et analyse

Si pas déjà dans un fichier ordinateur, alors il faut procéder à une transcription des données.– Besoin de Codification? Parfois les logiciels traitent

seulement l’information chiffrées. – Variable Sexe; 1 = H, 2 = F.

Vérification– Est-ce que l’information est cohérente?

Date de naissance: 29/03/99; Permis de conduire: Oui.

– Vérification manuelle/automatique.

Page 28: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

28

Imputation (SSW, Chap. 15)

L’information peut être manquante.– Questionnaire non-rendu.– Trous dans le questionnaire

Non-réponse par item (au moins une question est répondue mais pas toutes)

Non-réponse par unité (la personne ou l’unité ne donne aucune réponse).

Dans de tels cas, il peut être envisagé de procéder à de l’imputation. Imputation: méthodes pour boucher les trous.

Page 29: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

29

Méthodologie dans un recensement

Il est intéressant de noter que si un recensement est entrepris, beaucoup de la méthodologie des sondages doit être mise en œuvre:– Base de sondage à créer, valider,– Personnel à former pour les interviews,– Etc.

Rappelons les sources d’erreurs reliées à un recensement…

Page 30: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

30

4. Estimation et analyse

On doit choisir un estimateur pour chaque paramètre à estimer de la population finie. Exemples:– Moyenne.

– Total.

– Variance.

U kU y

Ny

1

U kyU yt

U UkyU yy

NS 22 )(

1

1

Page 31: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

31

Estimations ponctuelles

Une estimation ponctuelle consiste en un seul chiffre pour estimer un paramètre.

On pourrait le noter:

Un seul chiffre n’est cependant suffisant pour apprécier de la qualité de l’estimation. On utile un estimateur de la variance:

Uy

UyV ˆˆ

Page 32: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

32

Estimateurs

En fait, le chiffre qui servira à estimer le paramètre inconnu est un estimateur.

Un estimateur est une variable aléatoire. Théorie design-based: pour chaque échantillon

possible, l’estimateur prend une certaine valeur. La distribution de l’estimateur est obtenue sur l’ensemble de tous les échantillons possibles.

Théorie model-based: l’estimateur est une variable aléatoire, sauf que la distribution dépend de la structure probabiliste du modèle formulé pour la population.

Page 33: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

33

V versus V chapeau

Remarque: On aimerait idéalement utiliser la vraie variance de l’estimateur:

Cependant, cette dernière est inconnue en pratique.

UyV ˆ

Page 34: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

34

Estimation par intervalles de confiance

Un intervalle de confiance de niveau 95% pour le paramètre moyenne est donné par

Pour que cet intervalle marche, que faut-il?

UU yVy ˆˆ96.1ˆ

Page 35: STT-6005 Théorie de l’échantillonnage Pierre Duchesne courriel: duchesne@dms.umontreal.caduchesne@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web:

STT-6005; Théorie de l'échantillonnage; Chapitre 1

35

5. Publication des résultats

La dernière étape du sondage consiste à publier les résultats.

Cette étape ne doit pas être prise à la légère. On devrait retrouver:

– Conditions de la réalisation du sondage.– Lignes de conduite (dans la précision des résultats).– Discussions des erreurs

Erreurs non dues à l’échantillonnage. Erreurs dues à l’échantillonnage.

Présentation de l’information– Tableaux, graphiques, couleurs, etc.