marc christine* et sébastien faivre** · 2012-01-29 · marc christine* et sébastien faivre** les...

12
43 Courrier des statistiques n° 128, septembre-décembre 2009 Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXI e siècle ! Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent sur une base de sondage de logements appelée « échantillon-maître ». C’est le recensement de la population qui est à l’origine de la constitution de cette base et du système d’échantillonnage de ces enquêtes. L’adoption du nouveau recensement depuis 2004 a provoqué une réflexion sur une refonte de ce dispositif afin de profiter de l’avantage de pouvoir utiliser des bases de sondage annuelles fraîches. Cet article décrit les principales dispositions de ce projet désormais opérationnel. C et article a pour objectif de pré- senter les principales caracté- ristiques méthodologiques du nou- vel échantillon-maître des enquêtes nationales auprès des ménages adapté au contexte original du nou- veau recensement. Ce projet inno- vant et complexe, baptisé « organisa- tion coordonnée de tirages optimisés pour une utilisation statistique des échantillons », lancé officiellement en 2003, s’est achevé à l’été 2009 et est maintenant complètement opé- rationnel pour le tirage de la plupart des enquêtes ménages standard métropolitaines 1 de l’Insee (à l’ex- ception notable de l’enquête Emploi, voir infra). Le système actuel d’échantillon-maître Depuis la décennie 1960, les échan- tillons des enquêtes nationales auprès des ménages réalisées par l’Insee étaient sélectionnés dans des listes de logements constituées à partir de chaque recensement de la popula- tion. Ces listes étaient complétées par des sources annexes (fichiers des permis de construire) permettant la couverture des logements construits postérieurement au dernier recense- ment disponible, dits « neufs » : ainsi était constituée une base de sondage additionnelle (base de sondage des logements neufs, BSLN). Pour assurer le tirage des échan- tillons des principales enquêtes, des systèmes d’échantillonnage standar- disés ont été conçus et mis en œuvre depuis de longues années. La philo- sophie d’ensemble de ces systèmes qui se sont succédés s’est peu modi- fiée. Elle résulte de compromis entre, d’une part, des objectifs statistiques de précision et le souci de rechercher l’optimisation aux différentes phases du processus de construction des plans de sondage à coût donné (mini- misation de la dispersion des poids finaux des logements, réduction de la variance grâce à une stratification ou un équilibrage appropriés, etc.) et, d’autre part, les contraintes induites par le choix de réaliser la plupart de ces enquêtes en face à face, en recourant à un réseau d’enquêteurs localisé à proximité des logements enquêtés et pouvant rester relative- ment stable dans le temps. Le système actuel des échantillons des enquêtes ménages est donc organisé autour d’un échantillon-maître (EM). Celui-ci constitue la base de sondage principale dans laquelle seront sélec- tionnés la plupart des échantillons des enquêtes ménages nationales, à l’exception de l’enquête Emploi qui utilise un autre système (aréolaire) et qui est hors champ du système d’échantillon-maître (le nouvel échan- tillon Emploi initialisé en janvier 2009 est tiré des fichiers fiscaux). Dans l’échantillon-maître, les unités finales sont des logements, mais ceux-ci sont concentrés dans des uni- tés primaires afin de ne pas disperser les lieux d’enquêtes et de limiter les frais de déplacement des enquêteurs (surtout dans la partie rurale). Ce système d’échantillonnage et la base de sondage sur laquelle il s’ap- puie étaient renouvelés après chaque recensement de la population (RP) et restaient fixes pendant la période * Insee, unité Méthodes statistiques (ménages) ** Insee, division des prix à la consommation. Cet article s’appuie sur tout un ensemble de travaux auxquels ont contribué, pour la partie statistique : E. GROS, F. GUGGEMOS, V. LOONIS, E. MAUGENDRE et, pour la partie informatique : B. BERLEMONT A. MULLIEZ 1. Un système spécifique différent a été mis en place en 2005 pour les enquêtes réalisées dans les DOM. Il s’appuie sur les enquêtes car- tographiques préliminaires au recensement, qui permettent un repérage et un dénombrement du bâti. Source : Insee Logo du recensement de la population 2010

Upload: others

Post on 03-Feb-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

43Courrier des statistiques n° 128, septembre-décembre 2009

Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXIe siècle! Marc Christine* et Sébastien Faivre**

Les échantillons des principales enquêtes nationales auprès des ménages se fondent sur une base de sondage de logements appelée « échantillon-maître ». C’est le recensement de la population qui est à l’origine de la constitution de cette base et du système d’échantillonnage de ces enquêtes. L’adoption du nouveau recensement depuis 2004 a provoqué une réflexion sur une refonte de ce dispositif afin de profiter de l’avantage de pouvoir utiliser des bases de sondage annuelles fraîches. Cet article décrit les principales dispositions de ce projet désormais opérationnel.

Cet article a pour objectif de pré-senter les principales caracté-

ristiques méthodologiques du nou-vel échantillon-maître des enquêtes nationales auprès des ménages adapté au contexte original du nou-veau recensement. Ce projet inno-vant et complexe, baptisé « organisa-tion coordonnée de tirages optimisés pour une utilisation statistique des échantillons », lancé officiellement en 2003, s’est achevé à l’été 2009 et est maintenant complètement opé-rationnel pour le tirage de la plupart des enquêtes ménages standard métropolitaines1 de l’Insee (à l’ex-ception notable de l’enquête Emploi, voir infra).

Le système actuel d’échantillon-maître

Depuis la décennie 1960, les échan-tillons des enquêtes nationales auprès des ménages réalisées par l’Insee étaient sélectionnés dans des listes de logements constituées à partir de chaque recensement de la popula-tion. Ces listes étaient complétées par des sources annexes (fichiers des permis de construire) permettant la couverture des logements construits postérieurement au dernier recense-ment disponible, dits « neufs » : ainsi était constituée une base de sondage additionnelle (base de sondage des logements neufs, BSLN).

Pour assurer le tirage des échan-tillons des principales enquêtes, des

systèmes d’échantillonnage standar-disés ont été conçus et mis en œuvre depuis de longues années. La philo-sophie d’ensemble de ces systèmes qui se sont succédés s’est peu modi-fiée. Elle résulte de compromis entre, d’une part, des objectifs statistiques de précision et le souci de rechercher l’optimisation aux différentes phases du processus de construction des plans de sondage à coût donné (mini-misation de la dispersion des poids finaux des logements, réduction de la variance grâce à une stratification ou un équilibrage appropriés, etc.) et, d’autre part, les contraintes induites par le choix de réaliser la plupart de ces enquêtes en face à face, en recourant à un réseau d’enquêteurs localisé à proximité des logements

enquêtés et pouvant rester relative-ment stable dans le temps.

Le système actuel des échantillons des enquêtes ménages est donc organisé autour d’un échantillon-maître (EM). Celui-ci constitue la base de sondage principale dans laquelle seront sélec-tionnés la plupart des échantillons des enquêtes ménages nationales, à l’exception de l’enquête Emploi qui utilise un autre système (aréolaire) et qui est hors champ du système d’échantillon-maître (le nouvel échan-tillon Emploi initialisé en janvier 2009 est tiré des fichiers fiscaux).

Dans l’échantillon-maître, les unités finales sont des logements, mais ceux-ci sont concentrés dans des uni-tés primaires afin de ne pas disperser les lieux d’enquêtes et de limiter les frais de déplacement des enquêteurs (surtout dans la partie rurale).

Ce système d’échantillonnage et la base de sondage sur laquelle il s’ap-puie étaient renouvelés après chaque recensement de la population (RP) et restaient fixes pendant la période

* Insee, unité Méthodes statistiques (ménages)** Insee, division des prix à la consommation.Cet article s’appuie sur tout un ensemble de travaux auxquels ont contribué, pour la partie statistique : E. GROS, F. GUGGEMOS, V. LOONIS, E. MAUGENDRE et, pour la partie informatique : B. BERLEMONT A. MULLIEZ1. Un système spécifique différent a été mis en place en 2005 pour les enquêtes réalisées dans les DOM. Il s’appuie sur les enquêtes car-tographiques préliminaires au recensement, qui permettent un repérage et un dénombrement du bâti.

Sou

rce

: In

see

Logo du recensement de la population 2010

Page 2: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

44

Marc Christine et Sébastien Faivre

inter-censitaire. Le système précé-dent (qui s’est achevé en 2009) était fondé sur les données du recense-ment de 1999.

Le contexte du nouveau recensement de population

Dans le courant de la précédente décennie, l’Insee a décidé de passer du principe de recensement exhaustif de la population française effectué à intervalles de temps quasi-réguliers (7 à 9 ans) à un nouveau mode de recensement rotatif continu. Celui-ci a définitivement été mis en place en janvier 2004 (voir le site Internet de l’Insee : insee.fr).

Désormais, les communes de moins de 10 000 habitants (au dénombre-ment du RP 1999), ou « petites com-munes », sont recensées exhaus-tivement tous les cinq ans : pour cela, cinq groupes de rotation ont été construits, dans lesquels ont été

réparties aléatoirement ces petites communes.

Les communes de 10 000 habitants ou plus (« grandes communes ») font l’objet d’une enquête de recense-ment plus complexe par sondage chaque année au taux moyen de 8 %. Les adresses de ces communes sont réparties aléatoirement entre cinq groupes de rotation disjoints et, cha-que année, les logements appartenant à un échantillon d’adresses puisé dans le groupe de rotation « actif » de l’année sont recensés. Au total, sur un cycle de cinq ans, environ 40 % des logements de la commune sont recensés. Plus précisément, le traite-ment des logements diffère selon que le logement appartient à une « grande adresse2 », une « adresse neuve » ou une « autre adresse ».

Ce changement de méthodologie, s’il induit certes la perte du caractère exhaustif du recensement, offre en contrepartie de nombreux avantages, dont le principal réside dans la fraî-cheur des données recueillies : avec cette méthode de collecte, il y a en effet chaque année un recensement exhaustif dans environ 7 000 petites

communes et une enquête de recen-sement par sondage dans environ 900 grandes communes.

L’opportunité de disposer de bases de sondage annuelles fraîches

L’organisation de la collecte des enquêtes ménages en face à face et la nécessité de ne pas trop dis-perser les lieux d’enquêtes et de limiter les déplacements des enquê-teurs sont demeurées des constantes dans les principes d’organisation des nouveaux échantillons. Elles sont un facteur de maîtrise de la qualité et des coûts. Elles rendent toujours utile un système de type « échantillon-maître ».

Cependant, le changement de contexte lié à la mise en place d’une nouvelle méthodologie de recense-ment depuis janvier 2004 a rendu nécessaire une refonte globale du système d’échantillonnage des enquêtes ménages. En effet, le « nou-veau recensement » fournit des listes d’unités échantillonnables renouve-lées chaque année et permet l’apport

Sou

rce

: W

ikip

édia

- P

atric

k G

iraud

Pour les grandes communes, le principe retenu est que chaque grande commune constitue une ZAE à elle toute seule, dite ZAEGC, (vue sur Lyon depuis la colline de Fourvière).

2. Est considérée comme grande adresse toute adresse dont le nombre de logements est au moins égal à 60 et qui est telle que l’ensemble des grandes adresses ne représentent pas plus de 10 % des logements de la commune.

Page 3: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

45

Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXIe siècle

Courrier des statistiques n° 128, septembre-décembre 2009

d’« information fraîche » mais ne cou-vre plus chaque année qu’un partie du territoire. De surcroît, les concepts manipulés dans le cadre du nouveau recensement ne correspondent plus à ceux habituellement utilisés dans les échantillons (unité urbaine par exem-ple), tandis que d’autres sont apparus (distinction entre petites et grandes communes...).

Du point de vue tant des utilisateurs des enquêtes que des enquêteurs, les améliorations offertes par le nou-veau recensement portent surtout sur la fraîcheur de la base de sondage obtenue en réduisant au maximum le décalage temporel qui existe entre la date de collecte de l’enquête et la date de recensement.

Par conséquent, le principe fonda-mental retenu a consisté à sélection-ner les échantillons des enquêtes dans la partie de la base recensée l’année précédente. Les avantages de ce principe de fraîcheur sont nom-breux :

– il permet de disposer d’une infor-mation récente sur les unités échan-tillonnées. Ceci permet d’améliorer la qualité du ciblage de certaines caté-gories de population dans certaines enquêtes (au moyen de la surrepré-sentation de ces populations dans les échantillons tirés), grâce à la fraîcheur de l’information disponible sur les logements de la base de sondage. On peut ainsi éviter d’envoyer un enquêteur dans un ménage qui s’avè-rerait hors champ. Dans certains cas, cette fraîcheur constitue même un impératif absolu pour tirer un échan-tillon répondant aux spécifications des concepteurs d’enquêtes3 ;

– cette information récente sur les unités échantillonnées va aussi amé-liorer les procédures de calage ex-post des enquêtes ;

– il permettra également de pou-voir s’affranchir d’un système com-plémentaire coûteux de type BSLN pour l’échantillonnage des logements « neufs », puisque la base de sondage contiendra en permanence des loge-ments récents ;

– il devrait minimiser le nombre de logements détruits dans les échan-tillons ainsi que le nombre de « trans-formations » d’une résidence princi-pale en résidence secondaire ou en local industriel ou commercial (hors champ), qui génèrent des déplace-ments inutiles et une fatigue des enquêteurs et sont des causes de surcoût pour les enquêtes ;

– enfin, il rendra possible une dis-jonction maximale des échantillons en garantissant qu’une même feuille de logement ne puisse être sélec-tionnée qu’une seule fois pour des enquêtes ménages au cours d’une période de cinq ans.

Une conséquence fondamentale : la constitution d’unités primaires (UP) particulières

Une conséquence directe de ce prin-cipe de fraîcheur est la nécessité de repenser la construction des unités primaires (les ZAE, Zones d’Action Enquêteur) au sein desquelles seront tirés les échantillons de logements. En effet, ces zones doivent être construi-tes selon les principes suivants :

a) comme par le passé, les ZAE doivent être des zones fixes pour pouvoir leur associer un enquêteur stable dans le temps et localisé à proximité ;

b) mais, ce qui est la nouveauté, elles doivent comporter des commu-nes des cinq groupes de rotation du nouveau recensement pour pouvoir réaliser des enquêtes chaque année sur un échantillon tiré parmi les loge-ments recensés l’année précédente ;

c) elles doivent comporter un nom-bre minimal de logements « échan-tillonnables » par groupe de rotation du RP pour que l’on puisse tirer plu-sieurs échantillons distincts d’enquête la même année sans devoir réinterro-ger les mêmes logements (principe de disjonction), tout en assurant à l’enquêteur affecté sur cette zone une charge de travail annuelle suffisante et stable.

Les contraintes imposées à la consti-tution des ZAE ont donc été les sui-vantes :

– constitution des ZAE réalisant une partition complète du territoire, tout en respectant les frontières régiona-les4 ;

– au moins 300 résidences principa-les par groupe de rotation ;

– un objectif de minimiser leur éten-due géographique.

Pour les grandes communes, le prin-cipe retenu est que chaque grande commune constitue une ZAE à elle toute seule, dite ZAEGC (en effet, par construction, tous les groupes de rotation y sont représentés).

La constitution des ZAE à partir des petites communes (ZAEPC) appa-raît en revanche beaucoup plus déli-cate. Vu le grand nombre de petites communes à affecter à une ZAEPC (35 721 au 1er janvier 2006) et les conditions d’optimalité recherchées,

Sou

rce

: W

ikip

édia

- A

dam

Bak

er

La constitution des ZAE à partir des petites communes (ZAEPC) apparaît en revanche

beaucoup plus délicate (Saint-Cirq-Lapopie, Lot, France).

3. C’est le cas par exemple pour l’enquête Modes de garde, ciblant notamment les loge-ments dans lesquels vit un enfant de moins de trois ans.4. Dans le cas de l’Île-de-France, les ZAE constituées respectent aussi la séparation grande couronne/petite couronne.

Page 4: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

46

Marc Christine et Sébastien Faivre

un processus de constitution automa-tisée des ZAE a été développé.

L’algorithme5 mis en œuvre à cet effet a pour principe de construire une ZAEPC par agrégations successives de communes autour d’une commune-pivot constituant le « centre » de la ZAE. À une étape donnée de la procédure, les communes disponibles (non encore affectées à une ZAE), situées à une distance à vol d’oiseau de la commune-pivot inférieure à une distance maximale fixée, sont alors incorporées successivement à la ZAEPC, jusqu’à obtenir 300 logements par groupe de rotation. Dès que cette condition est remplie, la ZAEPC est constituée et les communes qui la composent sont définitivement affectées.

Si les communes disponibles situées à une distance inférieure au seuil limite ne permettent pas de remplir les critères de constitution (notam-ment, si un groupe de rotation n’at-teint pas la taille requise en nom-bre de logements), alors la tentative de constitution est un échec et les communes examinées restent non affectées. On passe alors à une autre commune-pivot potentielle.

L’algorithme comporte donc une phase de « vol »6, qui conduit à ne retenir dans un premier temps que les seules communes les plus pro-ches de la commune-pivot, stricte-ment nécessaires à la constitution de la ZAEPC (pour le respect de la contrainte de taille), les autres étant remises dans les communes « non encore affectées ». Cela permet ainsi d’augmenter le nombre de ZAEPC constituées et de minimiser le nombre de communes par ZAE.

Une phase « de vol » se déroule alors dans une région donnée de la manière suivante :

– l’algorithme démarre en essayant de constituer une ZAEPC à partir de la commune la plus grande (en termes de nombre de résidences principales) jouant le rôle de pivot ;

– à une étape quelconque de la phase de vol, l’algorithme essaie de constituer une ZAEPC en pre-nant comme commune-pivot la plus grande (en termes de nombre de rési-dences principales) des communes non encore affectées à ce stade ;

– la phase de vol se termine quand la plus petite des communes non encore affectées a été examinée comme commune-pivot.

À l’issue de la phase de vol, une partie des communes n’ont pas été affectées. On passe alors à la phase « d’atterrissage »7 consistant à affecter les communes non affectées lors de la phase de vol à la ZAEPC la plus « proche » (c’est-à-dire à la ZAEPC ayant la commune-pivot la plus proche de la commune à affecter).

Un paramètre essentiel est alors le « rayon » maximal de la ZAE, c’est-à-dire la distance maximale (à vol d’oiseau) à la commune-pivot d’une commune candidate pour appartenir à la ZAE. En effet, un « rayon » trop large conduit à constituer des ZAE très étendues, entraînant des dépla-cements importants pour les enquê-teurs. Mais, à l’inverse, un « rayon » trop étroit conduit à constituer un nombre faible de ZAE, avec un grand nombre de communes non affectées à l’issue de la phase de vol.

Différentes simulations ont été effec-tuées, en faisant varier ce paramètre et en analysant l’étendue moyenne des ZAE constituées à l’issue de la phase d’atterrissage. Celle-ci a été prise conventionnellement comme la longueur maximale, sur les cinq années du cycle RP, du trajet moyen effectué par un enquêteur supposé résider dans la commune-pivot de la ZAE, pour atteindre un logement

quelconque recensé dans la ZAE au cours de l’année. Ces simulations ont conduit à choisir un rayon maximal de 20 km.

Au final, outre les 850 ZAEGC corres-pondant aux 850 grandes communes, le choix de ce scénario a conduit à la constitution de 2 893 ZAEPC regrou-pant 35 721 petites communes.

Pour juger de l’optimalité en termes d’étendue, on a ensuite vérifié que les distances intra-ZAE étaient compara-bles avec celles des unités primaires constituées pour l’échantillon-maître 1999 et demeuraient acceptables. Sur la base des travaux menés à cet effet, la moyenne des distances par la route entre la commune-pivot et les logements à enquêter sur les 2 893 ZAEPC constituées est estimée à 10 km, à comparer à celle des 3 202 UP 1999 constituées dans les stra-tes « rural » et « petit urbain »8, soit 8 km. La distance annuelle maximale moyenne pour les ZAEPC est de 18 km. Ces distances ont été consi-dérées comme raisonnables, ce qui a permis de valider les ZAE consti-tuées.

En revanche, contrairement aux échantillons-maîtres précédents, il n’a pas été possible, au moment de la construction des ZAE, de s’ap-puyer sur une partition des commu-nes par type d’espace (espace rural /espace urbain ventilé par tranche de taille d’unité urbaine). Certaines ZAE se trouvent donc à cheval sur deux types d’espace.

Allocations et tirage des ZAE de l’échantillon-maître national (ZAE-EM)

Une fois les ZAE construites, on va en tirer un échantillon qui constituera l’échantillon-maître national. Les ZAE sont tirées proportionnellement à leur taille (nombre de logements princi-paux), certaines étant retenues d’of-fice (« exhaustives »). Le tirage a lieu de manière indépendante dans chaque région, avec, dans le cas par-ticulier de la région Île-de-France, une stratification grande couronne / petite couronne / Paris.

5. Proposé par V. LOONIS6. Ce terme est issu de la terminologie employée par l’algorithme du CUBE permet-tant l’équilibrage d’échantillons. La phase de vol peut être comprise ici comme une phase de recherche d’un premier jeu de solutions incomplètes, tandis que la phase d’atterrissage permet d’obtenir la solution définitive en réglant tous les cas particuliers non examinés pendant la phase de vol.7. Voir note 68. Par convention, la « commune-pivot » d’une unité primaire 1999 est la plus grande commune de l’unité primaire en termes de nombre de rési-dences principales.

Page 5: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

47

Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXIe siècle

Courrier des statistiques n° 128, septembre-décembre 2009

Le nombre de ZAE-EM à tirer a été fixé en prenant l’hypothèse conven-tionnelle suivante (analogue à celle prise pour l’échantillon-maître issu du recensement de 1999) : pour une enquête nationale au taux moyen t = 1/2000 (un peu moins de 12 000 logements principaux), on affecte e = 20 Fiches-adresses par enquê-teur, le principe général étant qu’une ZAE est affectée à un seul enquêteur, hormis celles formées de grandes communes exhaustives.

On montre que le seuil d’exhaustivité, c’est-à-dire la taille au-dessus de laquelle toutes les communes seront retenues d’office dans l’échantillon-

maître, vaut :

S = .

Ce seuil ne dépend pas de la région considérée.

On obtient aussi le nombre de ZAE à tirer parmi les autres ZAE :

k = , où : N =

avec : Ni = taille de la ZAE i et N = taille de la région (nombre de logements principaux).

On obtient alors les résultats sui-vants :

– le seuil d’exhaustivité résultant est de 40 000 logements principaux ;

– 37 grandes communes exhaustives (« ZAE exhaustives ») (voir liste en annexe) ;

– 488 ZAE non exhaustives tirées. On a constaté après tirage (aucune contrainte de ce type n’étant imposée a priori) qu’on a obtenu :

o 286 ZAE-PC,

o 202 ZAE-GC non exhaustives.

Le tirage est stratifié par région. Il uti-lise également le principe d’un équili-brage sur des totaux régionaux.

L’équilibrage permet d’assurer que l’échantillon des ZAE tirées sera un modèle réduit le plus conforme possi-ble à la population. Plus précisément, il impose que l’estimation de totaux de différentes variables d’intérêt, réa-lisée à partir du jeu de ZAE retenu, en utilisant les probabilités d’inclu-sion de celles-ci, soit identique aux vrais totaux connus dans l’ensemble de la population. Il assure ainsi une « représentativité » de l’échantillon des ZAE par rapport à la population de référence.

Dans la pratique, l’équilibrage se fait sur chaque sous-échantillon annuel

correspondant aux communes appar-tenant aux ZAE tirées et à chacun des cinq groupes de rotation du RP. Ceci permet de disposer chaque année d’une base de sondage « représen-tative ». L’inconvénient est que cela multiplie le nombre de contraintes d’équilibrage (cinq contraintes pour une variable) et réduit d’autant le nombre de variables indépendantes à introduire.

Pour choisir les variables d’équilibrage et optimiser la qualité de l’équilibrage, on a procédé à de nombreuses simu-lations de tirage en analysant l’impact des scenarii étudiés sur l’estimation

Encadré 1 – Sélection des logements dans une ZAE formée de Petites Communes : exemple de la ZAEPC Z17434 (Surgères)

Les chiffres à côté des noms de communes indiquent leurs nombres de loge-ments principaux.

En pratique, dans le cas de la ZAE de Surgères, si elle appartient à l’échantillon-maître, les logements à interroger pour une enquête donnée seront tirés dans la ZAE de la manière suivante :

– dans cette ZAE, la commune de Surgères est recensée l’année du groupe 1 (2009). Pour les échantillons tirés courant 2010, les logements tirés dans la ZAE sont tirés dans la commune de Surgères ;

– la commune de Saint-Germain-de-Marencennes appartient au groupe 2. Elle alimentera les échantillons de logements tirés dans la ZAE courant 2011 ;

– de même, les logements tirés en 2012 dans la ZAE seront tirés à Saint-Georges du Bois (groupe 3), ceux tirés en 2013 à Saint-Mard (groupe 4) et enfin ceux tirés en 2014 à Chambon et Vouhé (groupe 5 : deux communes étaient ici nécessaires pour atteindre le seuil de 300 logements principaux dans ce groupe). En 2015, on reviendra à la commune de Surgères.

Page 6: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

48

Marc Christine et Sébastien Faivre

d’un certain nombre de variables d’in-térêt. À l’issue de ces simulations, on a finalement retenu : le nombre de résidences principales des ZAE par groupe de rotation ; le revenu fiscal 2004 ventilé par groupe de rota-tion ; enfin, le nombre de résidences principales dans les différents types d’espace (rural, périurbain et urbain) (Guggemos, 2009).

On constate après tirage que le seuil d’exhaustivité apparent constaté après tirage et dépendant de ce der-nier, c’est-à-dire la taille au-dessus de laquelle toutes les communes sont observées dans l’échantillon, certaines étant retenues d’office (voir supra), les autres tirées aléatoirement, se situe à 34 045 résidences prin-cipales9 (commune d’Asnières-sur-Seine), la plus grande commune non retenue étant Cannes (33 583). Les douze plus grosses ZAEGC non inclu-ses dans l’échantillon-maître sont : Cannes, Béziers (31 438), Aulnay-sous-Bois (27 128), Niort (26 588), Ajaccio (22 448), Issy-les-Moulineaux (24 094), Clichy (23 678), Antony (23 355), Chalon-sur-Saône (23 329), La Seyne-sur-Mer (24 318), Maisons-Alfort (22 979), Saint-Malo (22 868).

Les unités primaires (ZAE) ont été tirées en 2007 ; elles sont prévues pour le tirage des échantillons de logements des enquêtes ménages pendant dix ans entre 2009 et 2019. À cette date, il sera sans doute néces-saire de procéder à un tirage de nouvelles unités primaires pour limi-ter les réinterrogations successives des logements et pour prendre en compte les modifications démogra-phiques survenues pendant les dix années écoulées.

L’échantillon-maître pour les extensions régionales (Emex)

Contrairement à l’échantillon-maître 1999 où il avait été mis en place postérieurement, la conception et le tirage de l’échantillon-maître pour les extensions régionales, l’Emex, ont ici

été réalisés conjointement avec ceux de l’EM. Des ZAE complémentaires ont donc été tirées pour la constitu-tion de cet échantillon. On a constitué deux types d’Emex : « restreint » et « élargi ». En fonction de la taille de l’extension régionale à tirer, on mobi-lisera soit le premier Emex, soit le second, ce qui accroît le nombre total de ZAE mobilisées dans les régions à extension (doublement du nombre de ZAE non exhaustives dans le 1er cas, triplement dans le 2nd) et permet d’obtenir une taille d’échantillon de logements plus importante, avec une meilleure couverture régionale.

Pour assurer le tirage des ZAE concer-nées par l’Emex, on procède par tira-ges emboîtés successifs : un 1er tirage constitue l’échantillon des ZAE qui seront mobilisées pour l’EM et l’Emex élargi ; au sein de cet échantillon, on tire le sous-échantillon de celles formant l’EM et l’Emex restreint, puis, au sein de ces dernières, les ZAE formant l’EM seul. On conserve à chaque étape de tirage à la fois

la notion de ZAE exhaustive ainsi que les propriétés d’équilibrage. La méthodologie est détaillée dans l’ar-ticle de Marc Christine et Emmanuel Gros, également présenté lors des JMS 2009 (voir bibliographie).

Le tirage des logements dans les ZAE : calcul des allocations et des pondérations

Une année donnée, la base de son-dage annuelle est constituée à partir des listes de logements issues de la dernière enquête annuelle de recen-sement (EAR) disponible :

– dans les ZAEGC tirées (ou exhaus-tives), liste des logements de la com-mune recensés lors de la dernière enquête annuelle de recensement (environ 8 % des logements de la commune) ;

– dans les ZAEPC tirées, liste des logements du recensement exhaustif

Encadré 2 – Cas particulier de la région Île-de-France

En Île-de-France, le tirage a été stratifié en « grande couronne » et « petite cou-ronne » (Paris retenue exhaustivement) afin d’assurer une bonne représentation de ces deux zones géographiques aux caractéristiques différentes. Par ailleurs, il a été possible d’introduire des variables d’équilibrage supplémentaires, compte tenu du nombre plus important de ZAE à tirer et des particularités de la région (quasi-absence de communes en zone rurale), permettant ainsi de mieux rendre compte des spécificités de la région.

Au final, les conditions d’équilibrage introduites sont données dans le tableau suivant :

Petite couronne (2 ZAEPC sur 108 ZAE)

Grande couronne

Nombre de résidences principales

Nombre de résidences principales par groupe de rotation

Nombre de résidences en zone périurbaine

Revenu fiscal 2004 Revenu fiscal 2004 par groupe de rotation

Nombre de personnes de moins de 20 ans

Nombre de personnes entre 20 et 59 ans

Nombre de personnes de 60 ans et plus

Nombre d’étrangers

Nombre de familles monoparentales

Nombre de familles de grande taille (quatre enfants ou plus)

Nombre de propriétaires de leur logement

Nombre de logements HLM

Nombre de personnes habitant en logement collectif

9. Selon les données du RP 1999

Page 7: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

49

Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXIe siècle

Courrier des statistiques n° 128, septembre-décembre 2009

des communes de la ZAEPC appar-tenant au groupe de rotation impacté par la dernière enquête annuelle de recensement disponible.

Toutefois, dans les grandes com-munes, une phase intermédiaire est nécessaire. En effet :

– la 1ère phase RP (affectation des adresses aux groupes de rotation) conduit à une affectation inégale (et non à probabilités égales 1/5) des adresses dans les différents groupes de rotation : les grandes adresses et les adresses neuves ont été affectées, pour la majorité des grandes commu-nes, de manière semi-déterministe à un des cinq groupes tandis que les autres adresses étaient réparties de manière aléatoire entre ces groupes. De ce fait, les déséquilibres entre groupes de rotation peuvent être rela-tivement importants au niveau de la strate des grandes adresses ;

– la seconde phase du tirage RP sélectionne, pour un groupe de rota-tion donné, les adresses qui seront recensées. Les grandes adresses et les adresses neuves sont recensées exhaustivement (elles sont donc sur-représentées), puis les autres adres-ses sont échantillonnées de telle sorte que l’échantillon total (y compris les grandes adresses et les adresses neuves enquêtées exhaustivement) représente 40 % des logements du groupe de rotation couvert.

Ainsi, la probabilité qu’un logement soit recensé varie suivant le type d’adresse (grande, neuve ou autre) : afin d’assurer la construction d’une base de sondage dans laquelle tous les logements ont une probabilité égale de figurer, il faut procéder à une opération statistique préalable : le rééchantillonnage des logements situés en grandes adresses et en adresses neuves. En pratique, l’ob-jectif du rééchantillonnage est de ne conserver dans la base de sondage qu’une partie des logements recen-sés en grandes adresses et en adres-ses neuves, de manière à éliminer la sur-représentation de ces strates par le recensement.

Ceci permet ensuite d’effectuer des tirages de logements à probabilités

égales dans chacune des ZAE tirées, et éviter ainsi que la disjonction n’al-tère la « représentativité » de la base après chaque tirage.

Au final, la base de sondage annuelle est constituée à partir des listes de logements de l’enquête annuelle de recensement par :

– les logements de l’EAR conservés à l’issue du rééchantillonnage dans les ZAEGC tirées ;

– les logements appartenant à la fraction recensée (logements des petites communes appartenant au groupe de rotation impacté) dans les ZAEPC tirées.

Lors de la constitution des échan-tillons de logements pour une enquête donnée, on recherche en général deux objectifs : assurer l’équipondération des logements tirés et l’équi-alloca-tion entre les différentes unités pri-maires (même nombre de logements tirés dans chacune).

Ces objectifs étaient atteints dans les échantillons-maîtres précédents où il n’y avait pas de distinction par groupe de rotation. En revanche, la méthode de constitution de la nouvelle base de sondage (où l’on ne mobilise cha-que année qu’une fraction des ZAE tirées, ces fractions pouvant être de tailles très variables d’une année et d’une ZAE à l’autre) ne permet pas de satisfaire simultanément ces deux contraintes.

La détermination du nombre de loge-ments à tirer dans chaque ZAE a consisté à chercher à minimiser la dispersion des pondérations finales logements, sous des contraintes :

– de taille totale d’échantillon fixée ;

– de charge minimale et maximale par enquêteur (c’est-à-dire par ZAE non exhaustive) : par exemple, four-chette 20-40 pour une enquête de 20 000 logements.

Les étapes sont alors les suivantes :

– une allocation régionale est tout d’abord calculée proportionnellement

à la taille de chaque région (nombre de résidences principales) ;

– dans chaque région, l’allocation à tirer est ventilée entre chacune des ZAE exhaustives et « l’ensemble des ZAE non exhaustives », proportion-nellement aux tailles de ces zones ;

– l’allocation à tirer dans la zone « ensemble des communes non exhaustives de la région » est enfin ventilée entre les ZAE non exhausti-ves tirées dans la région, au moyen d’un algorithme de calcul spécifique10 qui assure la minimisation de la dis-persion des poids finaux des loge-ments, sous les contraintes énon-cées ci-dessus. Cette minimisation peut se faire au niveau de chaque région, ou bien au niveau national sur la zone « ensemble des com-munes non exhaustives de « France Métropolitaine ».

Pour un tirage d’enquête, la « base de sondage utile » de la ZAE est consti-tuée de l’ensemble des logements de la ZAE appartenant à la dernière cam-pagne et échantillonnables (n’ayant pas été déjà tirés dans un échantillon antérieur ni dans l’enquête Emploi). Ces logements sont triés selon des critères (cinq variables au maximum, issues du recensement) choisis par l’expert-sondage11, assurant ainsi la meilleure « représentativité » possible vis-à-vis des objets principaux de chaque enquête.

Les logements sont ensuite tirés par tirage systématique à probabilités égales au sein de la fraction utile de chaque ZAE retenue. Au cas où les logements chargés pour la dernière campagne sont épuisés, on tire alors parmi les logements échantillonna-bles des campagnes antérieures.

Calcul du poids de sondage final des logements

La « probabilité » de tirage d’un loge-ment dans l’échantillon (inverse du

10. Proposé par V. LOONIS11. Par exemple, dans le cas de l’enquête IVQ sur l’illettrisme, on pourra choisir parmi les cri-tères de tri le niveau de diplôme de la personne de référence.

Page 8: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

50

Marc Christine et Sébastien Faivre

poids de sondage) tient compte des différentes paramètres intervenant au long des différentes étapes du pro-cessus de tirage.

– Pour les logements appartenant à des ZAEPC :

o probabilité d’affectation de la petite commune à un groupe de rota-tion (1/5),

o probabilité de tirage de la ZAE d’appartenance,

o probabilité de tirage du logement parmi les logements de la commune.

– Pour les logements appartenant à des ZAEGC :

o probabilité d’affectation du loge-ment à un groupe de rotation (dont la valeur est fonction de la strate d’adresses à laquelle le logement appartient) (= 1ère phase du recense-ment),

o probabilité de tirage du loge-ment pour l’enquête Annuelle de Recensement au sein du groupe de rotation impacté (valant 1 pour les logements des strates des grandes adresses et des adresses neuves) (= 2nde phase du recensement),

o fraction des logements chargés qui sont conservés dans la base de sondage annuelle à l’issue du réé-chantillonnage,

o probabilité de tirage de la ZAE d’appartenance πZAE,

o probabilité de tirage du logement parmi les logements utiles de la com-mune.

Amélioration de la qualité des bases de sondage annuelles : le principe du calage des ZAE

La « représentativité » des unités pri-maires tirées pour l’échantillon-maî-tre est un paramètre essentiel de la qualité des échantillons de logements tirés dans ce système.

En pratique, on étudie la « représenta-tivité » des unités primaires tirées vis-à-vis de différentes variables auxiliai-res en comparant l’estimateur du total « France entière » pour ces variables, obtenu à partir des totaux observés sur les ZAE effectivement tirées et de leurs probabilités de tirage, avec le vrai total, supposé connu. On peut alors calculer un écart relatif pour chaque variable d’intérêt étudiée. Cet écart reflète la plus ou moins bonne qualité de l’échantillon obtenu pour les variables d’intérêt considérées.

Les résultats ont montré des fluc-tuations importantes d’une année sur l’autre, et tout particulièrement pour les variables de segmentation « urbain / périurbain / rural ».

Voici l’exemple de l’écart relatif observé sur la variable « nombre de résidences en zone rurale au RP 1999 » en fonction des groupes de rotation :

Groupe de rotation

Ecart relatif sur la variable « nombre de résidences

principales en zone rurale »

GR1 + 3,4 %

GR2 - 3,3 %

GR3 - 7,9 %

GR4 - 8,1 %

GR5 - 9,4 %

Ainsi, un tirage dans le groupe 1 conduirait à retenir un échantillon de communes présentant une erreur relative de + 3,4 % en termes de nombre de résidences principales en zone rurale, alors qu’un tirage dans le groupe 5 conduirait, sur cette varia-ble, à un écart relatif de - 9,4.

On a observé également des varia-tions importantes au niveau des variables « nombre de personnes employées par secteur », avec, pour la variable « nombre de personnes employées dans l’industrie au RP 1999 », une erreur relative de - 3,9 % dans le groupe 3 et de + 5 % dans le groupe 4.

Le moyen retenu pour améliorer la « représentativité » des bases de sondage annuelles a été de caler les ZAE tirées sur un certain nombre de variables d’intérêt (segmentation urbain / péri-urbain / rural, nombre de personnes employées par secteur, tranches d’unités urbaines). Ceci a conduit à repondérer les ZAE pour que l’estimation des variables auxi-liaires calculée à partir de l’échantillon de ZAE tirées coïncide avec le total « France entière » de ces variables.

On peut alors considérer qu’avec le recalage des ZAE, les échantillons de logements seront bien représentatifs, dans la mesure où :

– on aura au premier degré une « base de sondage annuelle » (échantillon de communes de chaque groupe de rotation au sein des ZAE tirées) repré-sentative de l’ensemble du territoire ;

– on tirera au sein de cette base annuelle un échantillon de logements représentatif de la fraction recensée.

En pratique, le calage des ZAE est effectué séparément pour chacune des cinq bases de sondage annuel-les sur les 488 ZAE non exhaustives tirées pour l’échantillon-maître natio-nal : à chaque ZAE non exhaustive sera donc affecté un poids, différent d’une année sur l’autre.

Après comparaison de plusieurs sce-narii de calage, les variables de calage retenues ont été :

– les variables d’équilibrage introdui-tes lors du tirage des ZAE ;

– l’âge en trois tranches (nombre de personnes de moins de 20 ans, de 20 à 59 ans et de plus de 60 ans) ;

– les nombres de personnes employées par secteur (agriculture, industrie, construction, tertiaire) ;

– la répartition des logements prin-cipaux par tranches de taille d’unité urbaine.

En pratique, le calage sera effectué chaque année sur la base des don-nées détaillées du dernier cycle de

Page 9: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

51

Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXIe siècle

Courrier des statistiques n° 128, septembre-décembre 2009

recensement, associées aux derniè-res populations légales disponibles. Pour la campagne de l’année N, le calage des ZAE sera donc effectué sur des variables au 1er janvier N-2. Le recalage des ZAE permet donc aussi d’incorporer une information socio-démographique fraîche alors que les variables qui ont servi à leur construction et à leur tirage étaient issues du RP 1999.

Les conséquences du calage sur le poids des logements ont été égale-ment étudiées. À partir de simula-tions de tirages d’un échantillon de 20 000 logements sans calage, puis

avec calage des ZAE, on a analysé la répartition de leurs poids dans les deux scenarii. On constate que les rapports inter-fractiles varient peu d’un scénario à l’autre, ce qui indique que le calage des ZAE n’augmente pas significativement la dispersion des poids des logements, donc n’al-tèrera pas la précision des estima-tions.

De nombreuses autres fonctionnalités

Le nouveau système procure de nom-breuses fonctionnalités pour s’adap-

ter à la diversité ou aux contraintes spécifiques des enquêtes ménages.

Ainsi, il sera possible, à titre excep-tionnel, de déroger au principe de tirage dans la dernière campagne de recensement et d’impacter simul-tanément cinq campagnes en peti-tes communes, pour chaque tirage d’échantillon. Ceci concerne certai-nes enquêtes réalisées à un rythme annuel et visant avant tout à mesu-rer des évolutions, comme l’enquête Cadre de vie et Sécurité. L’objectif est d’éviter qu’un « biais de rotation », lié au changement de communes com-posant la base de sondage annuelle en ZAEPC, ne vienne perturber l’es-timation des variations annuelles ou infra-annuelles mesurées.

Une autre fonctionnalité permet la constitution d’une base annuelle de logements en zones urbaines sensi-bles (ZUS), créée en chargeant tous les logements des ZUS présents dans les cinq dernières enquêtes annuelle RP, que ces logements soient situés ou non dans une ZAE tirée. Elle donne la faculté d’obtenir des infor-mations sur les populations y rési-dant, grâce à un sur-échantillonnage ad hoc dans cette base.

Certaines enquêtes s’intéressent plus particulièrement à des sous-popula-tions, soit qu’elle délimitent le champ d’étude, soit qu’elles cherchent à surreprésenter celles-ci (selon des critères d’âge, de diplôme, de com-position du ménage…). À cette fin, une procédure de tirage en deux phases a été introduite : on tire tout d’abord un échantillon de première phase « classique », en population générale, puis, au sein de ce premier échantillon, un second où les caté-gories d’intérêt sont surreprésentées. Les logements tirés en 1ère phase mais non utilisés dans l’enquête sont éliminés, ce qui permet de ne pas altérer la « représentativité » de la base de sondage.

Enfin, ce nouveau système assure la disjonction entre les différentes enquêtes ménages tirées en son sein : tout logement tiré pour une enquête est marqué pour n’être pas retiré la même année pour une autre enquête.

Encadré 3 – Schéma récapitulatif de la procédure de constitution de l’échantillon-maître

Petites communes Grandes communes

1ère étape : échantillonnage RP

Constitution aléatoire de 5 groupes de rotation équiprobables de communes

Constitution aléatoire de 5 grou-pes de rotation d’adresses dans chaque commune

Echantillon annuel d’adresses formant des grappes de logements à recenser (taux moyen = 8 % des logements de chaque commune)

Les grandes et les nouvelles adresses forment une strate exhaustive.

2e étape :construction des Unités Primaires

(ZAE)

Stratification géographique (par région)

Construction des ZAE par agré-gation de communes condition-nellement au résultat de l’étape d’échantillonnage RP

Chaque grande commune forme une ZAE à elle toute seule.

3e étape :échantillonnage des logements

Définition des grandes communes retenues d’office (au-dessus du seuil d’exhaus-tivité)

1er degré : tirage équilibré des UP dans chaque région (tirage en 2 phases EM +Emex)

UP fixes pour 5 ou 10 ansBase de sondage annuelle = intersection des UP tirées et des logements appartenant au groupe de rotation de l’année

Rééchantillonnage des loge-ments appartenant aux grandes adresses pour assurer des proba-bilités égales pour tout logement appartenant à la base de sondage

Base utile = base de sondage annuelle privée des logements non rééchantillonnés, éliminés et des logements tirés antérieurement ou dans l’enquête Emploi, exclus

2ème degré (pour chaque enquête) : tirage équiprobable des logements dans chaque UP tirée au 1er degré

Page 10: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

52

Marc Christine et Sébastien Faivre

Par ailleurs, le mode de construction des bases de sondage, fondé sur les groupes de rotation, montre que cel-les-ci sont disjointes sur une période de cinq ans.

La disjonction avec l’enquête Emploi, bien que plus complexe compte tenu du fait que les bases de sondage employées sont différentes (fichiers de la taxe d’habitation pour le nouvel échantillon emploi), est également assurée.

Conclusion

Le recours à un recensement annuel permet un gain substantiel en qualité

de la base de sondage, notamment en permettant de puiser les échan-tillons de logements dans une base dont l’ancienneté maximale est d’un an et demi environ et en donnant la possibilité de les cibler sur des caractéristiques connues récentes, ayant une faible probabilité d’avoir été modifiées depuis le recensement. Mais il en est résulté une complexifi-cation très importante du processus d’échantillonnage.

Outre les investissements théoriques nécessités par un contexte très inno-vant, beaucoup de travaux empi-riques ont été conduits à partir de simulations pour vérifier les propriétés statistiques des échantillons (erreurs relatives sur totaux connus, disper-

sion des poids…), et s’assurer ainsi de la qualité à tous les niveaux.

S’il est vrai que le projet vient de s’achever et que le produit est main-tenant complètement opérationnel, le travail devra néanmoins se pour-suivre : il conviendra de faire un bilan de l’outil, tant sur le plan statisti-que qu’informatique, en comparaison notamment avec les systèmes précé-dents ou les systèmes complémen-taires d’échantillonnage (notamment ceux utilisant les fichiers fiscaux).

L’étape majeure ultime, nécessitant des développements importants qui sont en cours, sera celle de la réso-lution du calcul de précision dans les échantillons tirés de l’échantillon-maître. n

Page 11: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

53

Le nouvel échantillon-maître tiré dans les enquêtes de recensement, base pour les enquêtes ménages du XXIe siècle

Courrier des statistiques n° 128, septembre-décembre 2009

Bibliographie

Marc Christine, Laurent Wilms : « Problèmes théoriques et pratiques de la construction de l’Emex », Journées de méthodo-logie statistique 2002.

Marc Christine, Sébastien Faivre : « le projet Octopusse de nouvel échantillon-maître de l’Insee ». Journées de méthodologie statistique 2009.

Marc Christine, Emmanuel Gros : « Constitution de l’échantillon-maître pour les extensions régionales : une procédure de tirage d’échantillons équilibrés emboîtés », Journées de méthodologie statistique 2009.

Fabien Guggemos : « Simulation de tirages de zones d’action enquêteurs pour les enquêtes ménages de l’Insee ». Journées de méthodologie statistique 2009.

Laurent Wilms : « L’échantillon-maître 99 et application au tirage des unités primaires par la macro CUBE » Journées de méthodologie statistique 2000, Insee-Méthodes n° 100.

Page 12: Marc Christine* et Sébastien Faivre** · 2012-01-29 · Marc Christine* et Sébastien Faivre** Les échantillons des principales enquêtes nationales auprès des ménages se fondent

54

Marc Christine et Sébastien Faivre

Annexe : liste des 37 grandes communes exhaustives dans le nouvel échantillon-maître

Région Identifiant des ZAE exhaustivesNombre de résidences principales au RP 1999

Île-de-FranceZ75056 PARIS 1 110 912

Z92012 BOULOGNE-BILLANCOURT 52 333

Champagne-Ardenne Z51454 REIMS 83 262

Picardie Z80021 AMIENS 57 593

Haute-NormandieZ76351 HAVRE 79 863

Z76540 ROUEN 54 133

CentreZ37261 TOURS 6 6627

Z45234 ORLEANS 50 689

Basse-Normandie Z14118 CAEN 54 358

Bourgogne Z21231 DIJON 71 334

Nord Pas-De-Calais Z59350 LILLE 99 846

LorraineZ57463 METZ 53 048

Z54395 NANCY 52 981

AlsaceZ67482 STRASBOURG 116 767

Z68224 MULHOUSE 45 926

Franche-Comté Z25056 BESANCON 55 159

Pays de la Loire

Z44109 NANTES 130 582

Z49007 ANGERS 70 810

Z72181 MANS 66 487

BretagneZ35238 RENNES 99 462

Z29019 BREST 70 552

Poitou-Charentes Z86194 POITIERS 42 337

Aquitaine Z33063 BORDEAUX 114 133

Midi-Pyrénées Z31555 TOULOUSE 199 430

Limousin Z87085 LIMOGES 66 271

Rhône-Alpes

Z69123 LYON 216 157

Z42218 SAINT-ETIENNE 82 269

Z38185 GRENOBLE 75 227

Z69266 VILLEURBANNE 55 136

Auvergne Z63113 CLERMONT-FERRAND 67 612

Languedoc-Roussillon

Z34172 MONTPELLIER 112 008

Z30189 NIMES 60 191

Z66136 PERPIGNAN 49 902

Provence-Alpes-Côte d’Azur

Z13055 MARSEILLE 346 820

Z06088 NICE 164 910

Z83137 TOULON 73 849

Z13001 AIX-EN-PROVENCE 60 880