-
' ..~.:.i,'
Gr6upde Travail r .N. s. E. E. - 1. N.E. D. - ORSTOM
Manuel de dpouille~ent
d' enqutes
(v ersion provisoire)
Avril 1977
-
Ch. 1 -
Ch. 2 -
Ch. 3 -
Ch. 4 -
Ch. 5 -
Ch. 6 .! :~I
Ch. 7 -
Ch.' 8 -
Ch. 9 -
Ch.10
Ch.11
PLAN de l'OUVRAGE
Introduction - Objectifs du manuel
Contrles et corrections d'erreurs
Codification
Organisation de l'atelier manuel
La saisie des donnes
Le questionnaire
Organisation des fichiers squent~els
La chaine d'apurement
La tabulation
L'informatioh en sortie
La planification des travaux et la documentation des traitementsle cahier des charges
-
Rdacteurs
Chapitre 1
Introduction - Objetifs du. manUel
L. BREAS,
JLJ3.BODIN
Etat de la rdaction
Plan du Ch&pitre
complte - provisoire
- Objectifs du manuel,
- Plan du manuel,
- Organi~ation gnrale du dpouillement
-
CHAPITRE
INTRODUCTION
Le dpouillellont des enqu~tes statistiques relve, par nature, du.
tra;itement automatique de l'information: traitement clairement dfini et
e~gnral assez simple appliquer un grand nombre do dossiers (ici des
qUGstionnaires)au stade du contr~le, de la correction et de'la codification
des donnes ; comptages no~breux, selon des critres trs varis au stade de
l'exploitation des rsultats, etc
On rencontrera lors ~~ l'lllformatisation du dpouillement d'une enqute
des problmes de mme nature que lors de l'informatisation d'un processus ~i
nistratif avec une difficult supplmentaire qui tient ce que le systme
mis en place ne f'onc tdonner-a que pndarrt un laps de temps limit (sauf pour les
enqutes rptitives) alors qu'en gestion administrative les systmes sont gn-
ralement destins f'ono td.onne.r pendant plusieurs annesjce qui laisse le temps
demienx les tudier puis de les; perfectionner si, Il'tlSuge, il appara'i.t
qu'ils prsentent des laCtUles.
A quoi tiennent les difficults ? Essentiellement au fait que vont tre
amens a::travail1er ensero.ble des honaes dont la formation, les centres dfin-
trts, les nthodes de trav:1' les langages techniques sont diffrents. Il
faut craindre qu'ils ~e comprennen't mal, que chacun enferm dans Sa spcia-
lit ne prelule pas suffisrunment conscience des objeotifs et des contraintes de
travail des autres.
Dans le cas du dpouillement des enqutes, trois types dl 'acteurs" sont
en prsence :
1. Les statisticiens,
2. Les agents chargs de la codifioation, de la saisie et de la gestionde lrenqu~te,
(ci-aprs qualifis de lI ges t i onna i r es ll),
3. Les informaticiens.~ * ./0..
-
(En principe, la distinctiol1l1 lest pas toujOUl'S faite entre le statisticien
et l'inforMaticien, soit qu'il s'agisse effectivement de la m~me personne, soit
que le statisticien soit amen e.mpt~ StIT le domaine de comptence de l'in-
formaticien)
Le statisticien est l'initiateur, il dfinit Itenqu~te ou prcise les
objectifs et o0ID11ande le travail. C'est pour 11 essentiel 1L.'1. l'lomne d'tudes,
un cherchet hautenent qualifi dont le souci est d'analyser les structures
conomiques et socinles ; l'enqu~te est pOUT lui un moyen d'y parvenir.
Les JIges tiolli.1.aires" et 11 Lnf'ormaticien sont dos pres tatairas de service
qui mettent au srvice du statisticien des techniques et des moyens humains
et matriels propres rsoudre son problme. Tecm1iques et moyens t~s dif-
frents de l'un l'autre
pour la partie "gestion" de l'onqu~te, les moyens matriels sont assez fru.s-
tes et les moyens humed.ns importants ; la technicit est assez faible le tra-
vail est rptitif et simple; le problme essentiel est de prvoir les charg~s,
d'organiser les tQches, de les planifier; de les rpartir entre les agents,
dl veiller au respect des consignes de travail (le nombre d'agents ooncerns est
important), et au rendement de l'atelier,
- pour l'inforillaticien les moyens ~~triels sont trs sophistiqus,les
moyens humains peu nombreux, la tec~icit leve avec une tendance lsot-
risne; les t~ches'sont d'une grande complexit; le dlai de ralisations est
souvent important; la possibilit de les fractionner est limite; le contrle
de leur fiabilit est trs dlicat la prvision des oharges est difficile
et reste le plus souvent assez floue car elle dpend largement du niveau intel-
lectuel et technique de ceux qui ralisent. L'informatique reste un "mtier
d'art" avec tous les llpondrables que cela suppose~
Donc, trois types d'agents dont les profils sont trs diffrents. Si
le dialogLw ne s'instaure pas, si chnctm ne fait pas l'effort ncessaire pour
acqurir tU~e connaissance sOIDL1aire des techniques, des problmes et des contrain-
tes des deux autres, le risque de conflit, voire d'chec est srieux. Par eX8uple,
il est tout fait ncessaire que
- le statisticien admette que la prsentation du questionnaire peut avoir
!... / ...
-
des incidences importantes sur le travail du gestiolUlaire dt de l'informaticien ~
qu i il accepte, autant que faire se peut, les modifications quecceux-cL lui propo-
seront afin de fnodliter leurs tQches ; qu'il adnett:e aussi qu'un systme infor-
no. tic;.ue es t une cons traction d.Lf cate que des modifications, qui lui paraissent
de dtail, peuvent compr-onebtrre trssrieusnent.
- llinfornaticien prenne conscience de ce que la logique informatique est
souvent bien loin du sens CODIlun et qu'il 'lui faudra apprendre, s'il souhaite
.' ~tre conpr i s , dcoder li Lnf'o'rmation qu'il transnettra 3. ses partenaires sous
forne c18 notes, d'tats infol'Datiques, de messages d l anoma.Les , qu'il se pntre
du~'oblne traiter afin d'tre en mesure de juger de la pertinence de ce que
l'on lui demande, et de proposer des solutions alternatives qui pernettent d'aboutir
au m~ile rsultat moindre coOt.
cJr"
Le but principa~ que se sont fixb les auteurs de ce manuel est de fac~liter
l'ouverture du dialogue entre le statisticien et l'informaticien en fm.s3l1t le
point des problmes et des nthodes de dpouillement cl' enqutes , On n' y trrouvoa-a
rien d'original, ni de rvolutionnaire. Il s'agit seulement d'un point, sal~ aUClli~
doute incomplet, de s acquis ( de l'LN.S.B.E. pour l'essentiel) en la matire.
Un informaticien rompu au traitement des enqu~tes statistiques trouvera salm doute
les chapitres relatifs au ttaitement sur ordinateur bien banals. Un praticien
de lastatiGtique aur.:t probablement la m@ue raction devant les chapitres gui
b'aiten-c de contrle et de codification.. L'inportant est qu'il dcrive l'en-
semble du processus de dpouillement dlenqu~te, oe qui, notre cOlulaissance, n'aval
jo~ais t fait. Certains chapitres stadressent'd'abord aux statisticiens, d'au-
tres au:c gestionnaires, d'autres encore aux informaticiens. Il nous parait essen-
tiel qU'il soit lu entirement par tous afin que ohacun ait une vue globale du
processus et acquiert cette connaissance minimale des techniques et problmes1 .
de ses partenaires qui nOl parait indispensable lm. travail d'quipe fru~.
Un aspeot du travail a t pratiquement pass SOl silence dalm ce manuel
cJest celui des oprations de collecte sur le terrain (par enqu~te). Bn effet,
dlune part il existe de nombreux manuels traitant de cet aspect du problme, et
d'autre part, il y a une certaine indpendance entre les oprations de collecte
et les oprations de dpouillement d'enqu~te qui font l'objet de ce manuel. I~
point de rencontre entre ces deux ~Jpes de proccul~tions est le questionnaire qui
/ / 4;
-
4.
doit ~tre adapt aux impratifs de la collecte (progression des questions,
libell, pr6sentation, etc .. ) comme ~l ceux du dpouilleBent ; le statisticien
sera le "contact" avec l' homme du terrain, mis trs gnralement, ce sera lui
le responsable de la collecte.
PHESENTATION GE1TERALE DU IvL:'\.NUI~L
1. La dernire partie du prasent chapitre dcrit les diffrentes phases de la
conoeption, de la ralisation et du dpouillement dlw~e enqute. Elle en prsente
sOill1airenent le contenu et dcrit les liens fonctiOIDlels qui les unissent.
2~ Les chapitres 2 (contrles et redressements) et 3 (~odifications) l~sen
tent les principaux ty:;?es ce corrtr-.Les , redresseLlents et codifications utiliss, d'If"',
dans le trai 'temerrt des enqutee statistiques : Point de vue/ statisticien. j C'est
tUl sujet qui peut~tre, et a t (rfrences bibliographiques ?), plus largement
dvelopp qu'il ne l'a t ici. On siest volontairement liL1it file description
relativoment son1aire destine sel~ir d'aide-lnemoire au statistiien et de
prsentation du pr'ob.l me au II ges t i onna i r tl et 11 Lnf'or-matdcf.en , Pour ce dernier
notaLUlent, lorsqu'il est habitu traiter des problmes de gestion administrativ,
il tait ncessaire de prsenter les caractres trs spcifiques des contrles
et cor~ctions statistiques.
3. Les chapitres 4 & 5 sont consacrs l'organisation de l'atelier de
traitement Banuel et la saisie des donnes. C'est l le domaine de comptence
propre des ll ges t i onna i r es ll
On s'est attach mettre en vidence les interactions qui existent entre
cette phase du traitement et la phase proprement informatique. Eni effet, l'appott
des techniques informatiques dborde de plus eh plus du dbmaine traditionnel
des corrtr-Lee "batch" et de la tabulation dj pris en coopte par la mcanographie
classique. Il convi en t donc dl organiser les travaux des "ges td.onnairea'' en tenant
compte de ces nouvelles possibilits: messages dlanoNalies expdis par le cen-
tre de traitement informatique llatelier"onnulfl 1 nouvelles possibilits offer-
tes par les mthodes oodernes de saisie etc
.../ ...
-
5.
4. Le chapt hoe 6 (forne et contonu du ques tdonnaf.r-e ) est un chapitre pivot
entre le traitement manuel et le traitenent infornatiquoo. Il n'a pas pour objetl
de dcrire la ou les mthodes de cons truction d 'ml questionnaire, ce qui a souvent
t fait par ailleurs (rfrences bibliographiques ?) uais seulement de prsen~
ter les amnagements de mise en forme, prsentation, prcodification, primpres-
sion de donnes d'identifications issues du fichier de lancenent, etc qu'il
peut ~tre souhaitable d'apporter auquesti01Lnaire afin do faciliter et simpli-
fier las ,ttlchos des gestionnaires et des Lnf'orraa'ti.cLena , accr1tre la fiabili.t
des oontr81es, etc
5. Les chapitres 7 (organisation des fichiers squentiels), ( 8 (la chaine
d'apl1rement) et 9 (la tabulation) prsentent les traitemnts informatiques clas-
siques~ . Ils fornent le noyau central de ce manuel.
5~1~ Le chapitre 7 pr6sente somnairement la notion de fichier. Son principal
objectif est de mettre en valeur l'interaction entre structure des fichiers et la
structure des progratrrleS ; si la structure des fichiers est dfinie par des rgles
cohrentes et gnirales, il en ira de m~D.e de la structure des programmes dont
la construction se trouvera ainsi facilite. C'est pourquoi on s'est limit
la description d'un seul type de structte qui se rvle particulirement
exenp'lu.re ,
,.5.2. Le chapitre 8 dcrit la chaine d'apurement c'est-dire l'enseml)le des
op~~tions qui, partir des donnes, sur car-tes OU support magntique, en. .
provenance de la saisie concourent l'laboration d'~~ fichierexhaastif et
apur de ses erreurs, c'est--dire susceptible dt~tre exploit statistiquement.
La dmarche consiste nettre en valew: le fcdt que le nombre de ces oprations i
est limit et connu, que cer-tafnes posent des problmes types auxquels on peut
appliquer des solutions-types. Une fois tout ceci recens, il apl~rait que
construire une chaine d'apLement consiste assembler logiquement un ensemble
de modules, dont le nombre varie selon les caractristiques de l!enqute, dont
certains sont entirement standards dlLLne enqute l'autre, d'autres sont
partiellement standards, d'autres encore entirement spcifiques
.. .1.. . .
-
6.
5.3. Le chapitre 9 traite de la fabrication des tableaux statistiques.
L'objectif est double:
a) prsenter la notion de tableau ou dcrire les concepts, proposer un
vocabulaire sans ambiguits qui puis~;e ~tre utilis par les statisticiens COillle
par les informaticiens. Cet aspect est essentiel: les statisticiens savent,
certes, ce qu'est un tableau statistique, mais cette connaissance acquise, un
peu sur le tas, au fil de l'apprentissage de lem' Iltier, est, bien souvent,
Bal forDalise, sans soubassement thorique i il en rsulte une certaine diffi-
cu.lb Il exposer de raand.r-e comp.L te et cohrente. Quant aQ~ infornaticiens
non hp,bitus au trniteuent des snqutes statistiques, il sIen font une ide lirc1i-
toe ce qu'ils ont eu l'occasion de raliser lors dlE,pplications administratives,
c'est--dire des tats trs simp13s, le plllS souvent une seule dimension, trs
loin de la complexit que peuvent atteindre les tableaux utiliss par des
s tatis ticiens.
b) de la mne nanj..re que dans le chapitre prcdent, faire appara i, tre que la
fabr.ication des tableaux repose sur la mise en oauvre d'un ensemble bien dfini
d'ol,rations qu'il stfit d'agencer correctement pour laborer des programmes
de tabulation qui rpondent des rgles de construction bien prcises.
6. Le chapitre 10 (llinforilation en sortie) traite de problmes qui sont
la frontire de l'informmtique et de llimprimerie et de la diffusion. L'informa-
tion produite lors de llexploitation des rsultats devra tre diffuse, reproduite,
nrohiv6e, Le chapitre recense les mthodes et les moyens dont on peut dis-
poser pour ce faire. Il est rare que l'informaticien et le statisticien se proc-
cupent des problmes matriels de diffusion. Il est vrai que llimportance de ces
l)roblrc,es est lie l'iL.l1,ortance du volume de "sorties" envisag6es. Il n ' en
est p~8 noins apparu ncessaire eQ~ auteurs de consacrer lm chnpitre ce sujet.
'7~ Le chapitre 11 (cahier des charges et documentation) prsente l'instrument
de corunurri.cati on entre les parties associes au dlJouillenent de 11enqute (sta-
tisticiens, "gestionnaires", inform~ticiens). Nous prsentons dons ce chapitre
lme 801ution, le cahier des charges, qui doit, aVl1nt tout, permettre le dialogue
ellt~ce ces lXtrtenaiTes. Il f'aut que ce dialogue soit olair, sans ambiguits ;
il fe..ut que soient cLa.iremen t lJrc;ses les t 6011es 'a ' l' l l cl~ ~ u rea lser, es c1arges e
.. -/ .. ~
-
trayail qu'elles induisent, les dlais de ralisation; que ce soit entre les
quipes (statistiques, gestion DanuG~~nforillatique), ou au sein des quipes. Il
faut donc qu'il y en ait une trace crite laquelle on pourra se rfrer en
cas de litige. Le chapitre 11 propose ~~ schma d'organisation du cahier des
charges ont le but est de prciser les responsabilits de chacun, l'affecta-
tion des t~ches, les charges et dlais de ralisation, indique COnflent ses dif-
frentes par-t'Les POlIT1'Ol sr laborer au fil de 11 avancement des travaux, dcrit
le oontenu des diffrents dossiers (dlanO-lyse, do progrrunnation, d'exploitation
qui, viendront le conplter. Le schma propos n rest certes paa uni.que ; di.eons
simplenent qu' i.l c.. concrtement fait la pre.uve de son efficacit dans un cer-
tain nonbro d'applications.
8. On trouvera enfin, en annexe, une prse:.'ltation commente de quelques
logiciels de dpoUillementd'enqutes. L non pl~g on nIa pas cherch l'exhaus~
tivit. On s'est liLt 3 exemples, connus des. auteurs du nanue l , qui sont
re)rsentatifs de 3 grandes classes de logiciels 1
- Le 1er est trs puissant nais requiert des Doyelw maclnes importants
(LEDA) - 256 k-octets de DBbire,
- Le 2ne est plus j~ste mais peut fonctiolliler sur des machines de faible
capacit (GROULT + CEI~S),
- Le 3mo enfin est un systne ouvert dont les fonctions de base sont re1.:::__
tiv8nent rduites mais conu pour intgrer aisment des fonctions complnentail'os
(qulil faut progrillllller en FORTRA1J) propres . telle ou telle application
(SLiXE - INED) ~
-
ORGM~ISATION GE~RALE DU DEPOUILLEMENT
L'organisation gnral du dpouillement consiste faire un descriptif
global des diffrentes phases et de leurs liaisons fonctionnelles, dfini~
le lI chemin critique" c'est--dire, notamment, reprer les pha.ses pour les-
quelles un retard de ralisation entrainera ipso-facto un retard pour le
travail dans son ensemble. La mise au point d'un "graphe des contraintes"
faisant apparaitre les interactions et la dure prvisible de chaque phase
pour-ra aider mettre au point le sbhma gnral du dpouillement de l t enqute.
La liste des phases indique ci-aprs est donne titre purement indi- -
catif. Il conviendra de l'tablir pour chaque nouveau travail.
A - Dfinition des objectifs
AO - Objectifs gnraux,
A1 - Ebauche du plan de tabulation,
A2 - CHoix des questions poser,
A3 - Choix des codes et nomenclatures utiliss pour le chiffrementet la saisie,
A4 - Plan drchantillc~nage - Effectif enqut,
A5 - Priodicit.
B - Analyse des moyens disponibles et souhaitables
B1 - Moyens humains (personnels de chiffrelllent, de gestion, desaisie des donnes, d'analyse~programmation, ),
B2 - Moyens matriels (saisie, traitement, )
C - Dfinition des contrles et red~sement~
C1 - Avant la saisie (contrles "manuels"),
C2 - Pendant la saisie,
C3 - Sur ordinateur,
C4 - Recours au redressement manuel
D - Chgix d..u mode de sai~ie
... / ...
-
R - Choix du mod.s> de CQllectE;l (par enqu teur , par voie "postale. par-------s-ous-.::produit dl oprabons administra tives, )
F - Dfinition du questionnaire,
G - Droulement de l'enqute "sur le terrain" (collecte) 9
NB - E~ fait, cette phase peut se dcomposer en un grand nombre de sous-
phases lmentaires. De nombreux ouvrages ayant t consacrs la collecte,
on ne cherchera pas dtailler la prsentation de cette phase.
H - Ongallisation d9 la saisie et de l'apurement du fichier
Ilt -
R2
R3 -R4 -
H5 -
Organisa~ion et dfinition des tches de l'atelier de chiffrement:
Organisation et dfinition des ttches de l'atelier de saisie etcodage des formats de saisie,
Analyse et progra~ation des traitements sur ordinateur,
Organisation de llexpLoitation sur ordinateur,"~;
Dfini don des liens f'oric t.LcnneLs entre atelier de chiffrement"atelier de saisie et ordinateur,
l - Exploitation des rsult~
11 - Plan de tabulation dfinitif,12 - Dfinition des codifications,
13- . Analyse et programmation des codi~ications,
14 - Analyse et programmation des tableaux,
J - Analyse des rsultats.
La phase A est de la responsabilit du statisticien qui devra ce stade
dfinir les objectifs gnraux de l'enqute et montr~en quoi elle peut
satisfaire les besoins exprims,
- rdiger 1U1 avant-projet prcisant la liste des questions et les tableaux ~U'OD
espre laborer, le nombre d'units interroger, le mode d'enqute, etc
- essayer de prciser les lments de cot,
- soumettre le proje~ aux diffrentes administrations ou at~~ diffrents
organismes intresss, par le canal ventuel des commissions ou comits prvus
le cas chant cet effet (comme, par egemple, en France, le Conseil Natiol1al
de la Statistique).
-
La phase B est galement de la responsabilit du statis~cien, mais
il aura besoin du concours des techniciens-informaticiens ou autres - pour
amliorer ses estimations et valuations. Dans cet~ phase, interviennent
aussi les reRponsables administrati!Set financiers de l'organisme dans
lequel travaille le statisticien. En fait, pendant toute la prparation de
l'enq.t3, il y aura 'feed-back" entre les phases oprationnelles (telles que
C, D, il, I, etc ) et cette phase B, dans la mesure o il s'avrera nces-
saire d'ajuster les choix techniques aux moyens humains et financiers disponiblA R .
Seules certain~ des phases C J font l'objet de ce manuel ainsi qu'il
e t dj expos. Les phases D, Es et F, ae seront abordes qu'en ce qui
concerne leurs interactions avec les autres phases du dpouillement. Les phaues
G et J ne seront pas abordes.l'CT
On t~Quvera ciap~s, titre purement illustratif, un exempl d'analyse
sous forme de t.ableau des interactions entre les diffrentes phases et sous-
phases, ainsi que le graphe des contraintes qu'on peut dduire de ce tableau.
-
- 1 -
MANUEL DE DEPOUILLEMENT n'ENQ.UETES
F. PRADEL de LAMAZE
Chapitre II : Contrales et Corrections d'Erreurs
Une enqute statistique prsentera invitablement un ~ertain nombre d'e'rreurs,
les unes fondamentales et d'autres ngligeables. Il importe au plus haut point d'-
viter les erreurs fondamentales qui mettent en cause la validit mme de l'enqute
et son int~t, mais ce serait une grave faute de ngliger au dpart les erreurs mi-
nimes. Si, en effet, de petites erreurs n'ont pas, du point de vue statistique, d1im-
portance cap!tale, elles entraneront tout au long de la cha!ne dt exploitationj y
compris dans les tableaux: de rsultats, des dboires considrables allant de cer-
taines inctlhrences des rejets purs et simples par les chanes informatiques.
L'opration de contrale et ventuellement de correction des erreurs doit donc @tre
tudie avec beaucoup de soins, en vue de plusieurs objectifs.
fu. strict point de vue de 1 r exploitation d'une enqute, qui nous retiendra
dans cet ouvrage, le but de~ contreles est relativement clair : il . s'agit 'd'obte-
nir un fichier tel que la production de tableaux se fasse sans difficults. Cela.
se traduit par quelques notions simples : aucun enregistrement ne doit manquer (ou
fortiori se trouver en trop !), chaque enregistrement doit tre complet, toutes
les modalits d'un caractre rencontres dans un enregistrenent (y compris 0, non
dclar, ne sait pas, etc ) doivent @tre prvues et avoir leur place dans les ta-
bleaux des rsultats.
Au statisticien toutefois, d'autres objectifs s'imposent ; un fichier intor-
matiquement parfait risque, en effet, de recouvrir une enqute dplorable et il
importe videmment d'viter ce risque, d'autant plus grave que l'informatique per-
met la production rapide d'une trs grande quantit de tableaux dont on n'a pas
toujours le loisir d' examiner la valeur avant de les diffuser. Les responsables
dtenqu~tes devront donc avoir souci d'utiliser les ressourses de l'informatique
pour les aider prciser certains points.
1LIimportant sera en particulier de dtecter le plus rapidement possible les
erreurs les plus graves, et de savoir en tirer les consquences m~me les plus
lourdes: retour sur le terrain. limination de certaines parties du questionnaire,
restrictions sur la dif:f'usion des rsultats, etc Il est, en effet, presque tou-
jours possible de donner une "propret" formelle un fichier, mais, aussi bien
exploite t une mauvaise enqute ne saurait devenir bonne par la magie de l'exploi-
tation informatique.
En dehors des cas f heureusement assez rares, ou la val1dit mme de l' enqu~te
peut tre remise en cause, l' objectif du statisticien sera pour 1 t essentiel :
... / ...
-
- 2 -
d'liminer des erreurs de dtail sans intr~t statistique mais souvent
~nants ;
- d'assurer la cohrence des rsultats, en particulier d'un tableau 1'autre.
Ce dernier point rev8t une certaine importance et amne fournir des tableaux d'u-
ne grande prcision (souvent 7 ou 8 chiffres significatifs) comptable. On doit te-
nir compte de l'utilisateur qui sera souvent un peu perdu par divers concepts, en
particulier le champ sur lequel porte un tableau, et pour lequel l' exactitude comp-
table peut servir de point de repre, voire de boue de sauvetage.
Cet ouvrage s'intressant essentiellement l'exploitation informatique des
enqu~tes, nous n'insisterons pas davantage sur la ncessit de contrles trs ser-
rs sur le terrain, contrles pour lesquels l'intervention de l'informatique est
priori assez faible. Mais il nous parat essentiel de rappeler au dbut de ce
chapitre, et de ne jamais le perdre de vue, qu'une enqu~te se passe d'abord et
avant tout sur le terrain, et que les erreurs initiales se retrouveront, peut ~tre
trop souvent masques, dans les rsultats.
Par ailleurs, il est toujours possible, souvent souhaitables, de dcompter,,.fr'
les erreurs et les corrections apportes au' cours de l' exploitatian. Mais il se-
rait illusoire de penser que toutes les erreurs soient pour autant limines, ni
fortiori dcomptes. On doit toujours savoir au mieux ce que l'on a fait en ce
sens (nombre d'erreurs repres, mthode de correction, biais ventuel indroduit
par ces corrections), mais ne pas se leurer l'excs. La seule indication relle
que donneront des tableaux de dcomptes d'erreurs est subjective : si un bon fil-
trage ne laisse appara1:tre que peu d'erreurs, l' enqu-te est probablement Donne,
s'il laisse appara1tre beaucoup d'erreurs on doit ~tre trs prudent.
A - Contrles des enregistrements.
Les donnes de lfenqu~te tant enregistres sur support magntique, on devra
procder deux types de contrles : contrele de la forme des enregistrements et
contrles logiques des liaisons internes ces enregistrements ; ventuellement si
le fichier est organis selon une rgle prtablie (fichiers hirarchiss, fichiers
chronologiques, etc ) on procdera de plus un contrle de structure. Ces contr-
les se feront bien entendu selon un ordre dfini, priori le suivant : contrOles
de structure, contrOles de forme, contrrl.es logiques. Mais en fait pour chaque
enqute et ventuellement chaque type de corrtrl,e , cet ordre peut 8tre chang. Le
contrle n'tant pas une fin en soi mais ayant pour but essen~lel la correction
des erreurs, par un procd quelconque (correction manuelle par retour au dossier,
correction automatique ou alatoire, etc ), on devra aussi effectuer ces correc-
tions selon un ordre dtermin, gnralement le mme que celui adopt pour les
corrtr-'l.ea , La dimension du fichier aura une grande importance dans le choix de la
... / ...
-
. ..1...
- 3 -
1
stratgie, chaque programme de dtection et de correction d'erreur ncessitant un
passage de la totalit du fichier i sur de petits fichiers on pourra donc envisa-
ger plusieurs programmes successifs, et m~me ventuellement des corrections par
itrations: sur de gros fichiers par contre il y aura intrt utiliser un pre>--
gramme unique, permettant au cours du droulement du fichier de procder toutes
les oprations de contrle et de correctim1S i un tel programme est videmment
beaucoup plus difficile mettre au point qu'une succession de programmes lgers,
et parfois, mais pas toujours, moins satisfaisant. En tout tat de cause plus le
fichier sera important meilleures pourront ~tre les corrections apportes, non au
niveau individuel mais dans leur ensemble.
1 - a) Contr81es de forme
Un fichier d' enqute se prsente comme une suite d'enregistrements, chaque
enregistrement correspondant un questionnaire. Nous verrons plus tard comment
doit ~tre contrle la structure du fichier.
- a.a) Exhaustivit
Le premier contrale doit porter sur l'exhaustivit du nombre d'enregistre-
ments. Gnralement ce nomb~re est connu et il suffira de dcompter les enregis-
trements.
Comme en cas de non coincidence on ne saurait pas quels sont les enregistrements
manquants, ou excdentaires, on davra avoir avoir pris soin de numroter les ques-
tionnaires soit selon un ordre naturellement ascendant (de 1 n) soit selon des
squences successives (de 1 n
-
.../ ...
- 4 -
Troisime cas : on a interrog 10 000 personnes caractrises par un numro
d' identi t 10 chiffres. On confrontera alors la liste des numros de personnes
interroges celle des onregistrements.
De tels contr~les, extrmement sin~les, permettent d'viter souvent de trs
graves erreurs : lots de questionnaires oublis (voire saisies deux fois), bandes
magntiques incompltes, enregistrement erron non effac, etc La correction est
alors vidente.
Nota : Il arrive assez souvent, dans le cas correspondant aux exemples 1 et 2,
que les nombres n , n', etc ne soient pas connus priori. Dans la mesure o l'on
a adopt une numrotation squentielle, cela ne sera pas trop grave, le numro le
plus lev rencontr dans les enregistrements fournissant postriori cc ~tgbren,
les "trons" dans la squence restent vidents. Le seul risque est alors que ce
soient les derniers numros qui manquent, mais lorsqu'il ne manque que quelques
enregistrements il est rare que ce soient IGS derniers, lorsqu'il en manque un lot
important on a toujours une indication du nombre approximatif de questionnaires,
- a. b .) l Q-e: ~tifiantsJ-'
Chaque enregistrement doit ~tre reprable par un numro. Dans les cas simples
un numro d'ordre suffira (voir 1-a.a), dans d'autres cas plus complexes il sera
judicieux d'identifier l'enregistrement par un numro analytique. Par exemple,dans
un questionnaire auprs des mnages chaque individu sera identifi par son numro
propre, son numro de mnage et ventuellement son appartenance une unit gogra-
phique donne. L' exactitude de ces identifiants est d'une trs grande importance
car c'est sur eux que se feront certains rapprochements (attribution d'un salaire
un individu, puis un mnage, rapprochement des dates de naissances des enfants
avec celle de leur mre, etc ). Une vrification des identifiants 'est possible si
ceux-ci ont t construits de faon obir certaines lois relativement simples,
souvent appeles "cls de contrle".
Exemple : on identifiera un individu par son numro de commune de rsidence,
son numro de mnage l'enqute et son numro d'ordre l'intrieur du mnage.
A cet identifiant comprenant 8 chiffres on aj~utera systmatiquement un 9me chif-
fre tel par exemple que la somme des chiffres constituant l'identifiant
soit paire:
205 623 01 , la somme est impaire, on adjoint 1
205 623 02 ,la aontae est paire ,on adjoint 2
Les identifiants complets deviennent :
205 623 01 1 et 205 623 02 2
En vrifiant la parit on voit qu'on dtectera immdiatement les identifiants
somme impaire donc errons.
-
- 5 -
. La 'bl" prise comme exemple est d'une grande simpliit, mais malheureusement
de ce fait insuffisante. Une erreur transformant un 3 en 5 par exemple passera
inaperue. Selon l'importance attache l'identifiant on devra donc rechercher
des cls plus ou moins complexes, une grande simplicit rendant la cl assez fra-
gile, une grande complexite la rendant plus difficile tablir et surtout cal-
culer. Un peu plus dlicate manier que la prcdente, mais beaucoup plus sre
serait par exemple la condition "la somme des chiffres de l'identifiant doit ~tre
divisible par 7". On a alors :
205 623 01 2
205 623 02 1
205 623 03 0
205 623 04 6
1 - a;c) Valeurs itlpossibles. :
En examinant une par une les rponses enregistres on dtectera aisment cer-
taines inpossibilits, soit naturelles (un sexe ne saurait ~tre que masculin ou
fminin), soit imposes parl'enqu~te (une enqu~te sur des lves d'une cole de.#'
garons ne saurait comprendre de filles). L'examen question par question est la-
borieux mais les moyens informatiques pernettentde la raliser trs rapidement;
sans prjuger de l'attitude adopter en cas de dcouverte d'une erreur, on s'ef-
forcera de dtecter ces erreurs en tablissant une liste de tous les cas possibles.
Parmi ces cas possibles certaines ventualits sont parfois envisager bien qu'el-
les paraissent priori invraissemblables, par exemple pour le sexe on peut avoir
trois cas : masculin, fminin et non dclar, ce troisime cas tant distinct dru.ne dclaration er-rone (traduit en code on pourra ainsi accepter un sexe = 1 (It18S-'"culin) = 2 (fminin) X (non dclar), mais on refusera tout code diffrent(0, 3, 4, z . ) pour un salaire on doit vrifier qu'il soi t situ dans unecertaine fourchette, mais on peut accepter qu'il soit nul (si par exemple l'enqu.3te
ne relve que les salaires reus au cours d'une priode donne, etc ).
D'une faon gnrale il importe de bien distinguer parmi les ventualits
"anormales", celles qui correspondent une absence de rponse (non dclar, refus
de rponse) et celles qui sont effectivement nulles. Un zro rel est souvent
acceptable tel quel alors qu'un "non rponse" ne correspond que rarement un tat
rel nul.
Cette opration de dtection des "dpassements de code" prsente un grand in-
trt mais aussi un certain danger. C'est, en effet, lors de cette tape que lIon
va dtecter le plus grand nombre d'erreurs apparentes, et l'on s'efforcera ensuite
de les corriger. Mais en fait ne sont dtectes que les erreurs souvant minimes,
surtout lorsque les ventualits acceptables sont nombreuses. Les cas IIhors code"proviennent plus souvent d'erreurs de perforation, relativement rares, que d'er-
.../ ...
-
- 6 -
reurs de chiffrement, beaucoup plus frquentes : une difficult lors du chiffre-
ment est en effet rarement rsolue par une codification "hors norme ll mais le plus
souvent par le recours une codification "fourre tout" (autres cas, non dclar" )
voire par une codification arbitraire mais formellement acceptable.
1 - b) Contrles de structures :
Les contrles formels dont nous avons parl dans les paragraphes prcdents
peuvent s'effectuer sur un ficl1ior en dsordre, ds lors que sur ce fichier chaque
enregistrement est bien individualis. Mais le plus gnralement on aura tout int-
rt travailler sur des fichiers ordonns, selon des rgles simples ou plus labo-
res. (A noter que les contrles de structure peuvent selon la ncessit prcder
ou suivre les contrales formels, mais gnralement il vaut mieux qu'ils prcdent).
- b.a) Fichiers ordonns simples
Nous appelerons f'Lcho.r ordonn simple un fichier dans lequel les enregistre-
ments sont distincts les uns des autres et se suivent selon une loi simple : ordre
chronologique, ordre ascendant des numros do questionnaire, ordre gographique,etc
-De tels fichiers prsente dt'l' intr~t dans la mesure o ils permottent d'isoler
trs simplement une portion du fichier (donnes portant sur telle anne, sur telle
unit gographique, etc ). Leur contrle est relativement simple, et peut aisment
tre coupl avec le contrle d'exhaustivit: l'ordre tant dfini (par exemple clas-
sement des enregistrements selon l'ordre alphabtique des communes dans des rgions)
on classe le fichier selon cet ordre et on vrifie que chaque enregistrement se trou-
ve bien sa place. Lors de ces oprations on trouvera souvent, soit rejete en fin
du fichier soit isols au coeur du fichier quelques enregistrements inclassables.
Il pourra s'agir simplement, dans le caS le plus frquent, d'erreurs d'identifica-
tion (numros mal perfors, erreur sur la commune de rsidence, etc ) ; parfois
on dtectera des erreurs plus graves absence complte d'une anne (confusion en-
tre la date de l'enquSte et celle de l'vnement observ par exemple), prsence de
deux lots de questionnaires sur une mme commune (confusion par exemple entre lieu
de rsidence et lieu de travail, ou erreur systmatique sur le chiffrement de la
rgion, ete ).
1 - s.u.) Fichiers hirarchiss :
Il est souvent commode de classer les fichiers en utilisant les "facteurs
communs ll Par exemple, lors d'une enqu~te dmographique les individus seront obser-
vs travers les mnages et dans une commune de rsidence. Les caractres propres
l ' individu lui sont personnels, mais il partage avec d'autres indivf.dus certains
caractres communs (appartenance un mnage de n personnes, rsidence dans un
logement sans eau, rsidence dans une commune de n habitants, etc ). Plut8t que
de rpter dans chaque enregistrement individuel des caractristiques communes on
... / ...
-
- 7 -
prfrera souvent enregistrer sparment les donnes individuelles et les donnes
collectives, et organiser le fichier de faon pouvoir rattribuer chaque indi-
vidu ses caractres collectifs. En conservant l'exemple prcdent on pourra organi-
ser un fichier trois niveaux hirarchiques :
niveau commune de rsidence
niveau 2
niveau 3
mnage
individu
. . .1...
Les enregistrements de niveau 1 comprendront toutes les caractristiques utiles
de la commune: caractre urbain ou rur.al, taille, situation gographique, prsence
d'une cole, d'Uk~ hpital, etc
Les enregistrements de niveau 2 porteront sur les caractristiques du mnage :
nombre de personnes (ventuellement par sexes), ge du chef de mnage, profession et
catgorie socio-professionnelle du chef de mnage, nombre d'actifs, caractristiques
de l'habitat, etc
Les enregistrements de niveau 3 enfin ne concerneront que les caractres pro-
pres l ' individu sexe, ~, tat matrimonial, revenu individuel, etc
On voit que, condition de disposer d'un identifiant commun parfaitement sr,
il est loisible de rapprocher les caractristiques d'un individu de celles de sa
commune de rsidence, mr dans le cas o les enregistrements de niveau 1 sont
"physiquement" loigns de ceux de niveuu 3. On prfre toutefois le plus souvent
fondre les 3 niveaux selon une rgle simple :
A la suite du premier enregistrement de niveau 1 (commune de rsidence) on ran-
ge le premier enregistrement de niveau 2 (mnage rsidant dans cette commune) puis
les enregistrements de niveau 3 (individus appartenant ce mnage) correspondBnts,
ensuite le second enregistrement de niveau 2 suivi des enregistrements de niveau 3
correspondants, etc... Ainsi la suite de chaq"':le mnage sont rangs tous les indi-
vidus lui appartenant, la suite de chaque commune tous les mnages et tous les
individus y rsidant.
L'adoption d'une telle hirarchisation des fichiers prsentera des avantages
considrab~es pour la confection des tableaux (plus grande rapidit, facilit des
tris, cohrence des rsultats,etc ) mais ncessitera un contrle trs troit de la
structure du fichier, toute erreur entra1nant une rupture de 11quilibre recherch.
Le contrele devra reposer sur des principes aussi simple que possible. Dans
l'exemple choisi ces principes sont les suivants
- aucun enregistrement de niveau 3 ne peut exister sans ~tre prcd des niveaux
2 et 1 auxquels il doit se rattacher,
- tout enregistrement de niveau 2 doit ~tre suivi d'au moins 1 enregistrement deniveau 3 (il n'existe pas de "nage" vide, mais il peut exister des mnages dt"lme
seule personne),
-
...1...
- 8 -
- tout enregistrement de niveau 1 doit tre (sauf si explicitement on a prvul'existence de commune sans population enqu te ) suivi d'au moins 1 enregistrement
de niveau 2 et d'au moins 1 enregistrement de niveau 3.
A ces principes de base on pourra adjoindre, ce qui peut permettre de dtec-
ter certaines erreurs, des principes complmentaires : ordre dans la numrotation
des mnages (niveau 2) et des individus (niveau 3), nombre maximum des mnages par
communes et d'individus par mnage, etc ...
1-b.c.) Rapprochement des fichiers~
Proche dans son principe du cas prcdent, le rapprochement de 2 fichiers
priori indpendants pose certains problmes complmentaires. Supposons par exemple
que l'on dispose d'une part d'un fichier concernant des salaris d'une entreprise
(sexe, ~ge, niveau professionnel, etc ) d'autre part, d'un fichier donnant les
salaires de ces employs. Le rapprochement n'est videmment possible que si l'on
dispose sur l'un et l'autre fichier d'un identifiant commun et sr (nom de l'em-
ploy par exemple) (cet identifiant n'est pas toujours suffisamment sr, les cas
d'homononymies tant relativement frquents). Mais cette condition n'est pas suf-
fisante, il faut de plus qt' chaque individu figurant sur le fichier 1 corres-
ponde un enregistrement sur le fichier 2 et rciproquement. Il sera donc ncessai-
re pour permettre ce rapprochement de vrifier que cette concordance existe et
sinon de la crer artificiellement (soit par limination des individus ne figurant
que sur l'un des fichiers, soit par cration, ventuellement grce un complment
d'enqute, d'un fichier supplmentaire).
Dans le mme ordre d'ide le rapprochement de 2 fichiers de population des
dates diffrentes pourra ncessiter la cration d'enregistrements concernant des
individus fictifs ( natre ou dcds) afin d'viter la recherche indfinie d'un
individu disparu du fichier pour une cause connue (dcs), videmment distiIlte de
celle d' un individu disparu par erreur.
1- c.) ContrOles logiques:
Tous les types de contrles envisags jusqu'ici ne concernaient que la forme
idu fichier, il s'agissait de s'assurer que rien ne viendrait troubler la produc-
tion de rsultats formelleme~t acceptables. Dans la mesure du possible les contr8-
les doivent tre pousss davantage, la cohrence de forme risquant de cacher des
incohrences de fond.
- c.a.) Cohrence interne:
A l'intrieucr' d'un questionnaire les questions sont rarement indpendantes, et le
rapprochement des rponses pourra permettre soit d'liminer des erreurs de dtail
soit ventuellemeut de dtecter des questionnaires inexploitables (rponses volon-
tairement incohrentes, incertitudes trop nombreuses, etc ).
-
- 9 -
Il sera d'ailleurs ncessaire lors de la rdaction mme du questionnaire de
prvoir certaines questions redondantes ou apparemment inutiles, dont le but est
prcisment de vrifier la qualit des rponses. Ce rapprochement est une opra-
tion extrmement dlicate, car souvent les contradictions n'apparaissent que par
la confrontation de 3 ou 4 rponses, voire davantage. Il importera donc de limi-
ter ces contr81es, d'une part sur les incohrences simples et videntes, d'autre
part sur les questions fondamentales.
Rarement les incohrences sont rigoureusement inacceptables (du type avoir
15 ans et avoir eu 5 enfants, habiter une maison sans eau courante et avoir une
douche, etc ) mais le plus souvent elles se situent dans une marge plus ou moins
large d'acceptabilit (avoir 18 ans et 5 enfants, ~tre chef de mnage et n'avoir
aucun revenu, ).
Nous pensons qu'en fait ces problmes doivent tre rsolus sur le terrain,
la rigueur lors des contrOles en bureau mais non au moment de l'exploitation.
Le seul rle, au demeurant important, d'une recherche d'incompatibilits inter-
nes sur les fichiers dj$nregi.strs doit se limiter notre avis l' limina-
tion d'erreurs matrielles (erreurs de chiffrement, erreurs d'units), on a une
aide aux contrles en bureau (liste de questionnaires suspects, de cas particu-
liers trop nombreux, etc ).
Gnralement donc on examinera question par question les incohrences inad-
missibles d'une part, les incohrences fortement suspectes d'autre part, par r-
frence un ou deux critres choisis comme dterminants. Si, par exemple, on tu-
die le nombre de naissances survenues dans l'anne pour une femme, le critre d'-
ge pourra faire ressortirfcomme situ~~ion impossible une naissance poun6ne mred'ge infrieur 10 ans ou suprieur 60 ans, comme suspectes les naissances
parmi les mres d'ge 10, 11 ou 12 ans ou 50 59 ans, comme suspectes aussi les
naissances suprieures 2 dans une anne. Selon le cas on adoptera des mthodes
de correction sans recours au fichier manuel ou au contraire avec retour au dos-
sier.
La liste des incohrences inadmissibles doit ~tre tablie avec grand soin,
et sera gnralement assez brve. Celle des incohrences suspectes aura plutOt un
caractre de test sur la validit de l'observation, et sera donc relativement brve
elle aussi, ne portant que sur les caractres mal observs, et souvent davantage
pour avoir une ide de la qualit de l'enqute que pour en rechercher une correc-
tion tout prix.
-c.b.) Cohrence externe
S'il existe des liaisons entre des diverses questions figurant dans un ques-
tionnaire, il eY~ste aussi des liaisons d'une enqute l'autre, ou d'un fichier
... / ...
-
- 10 -
un autre, L' exis tence de donnes extrieures peut constituer un guide prcieux
pour l'examen de quelques questions pour lesquelles on ne dispose sans cela d'au-
cun critre objectif. Si, par exemple, lors d' une enqute antrieure on a pu
constater que les salaires se hirarchisent selon l'ge et qu'ils voluent, un
~ge donn, dans une certaine fourchette on pourra utiliser cette fourchette (ven-
tuellement mise jour) comme critre 'acceptabilit d'une rponse.
1 - d) Hirarchie des contr~les :
Les cont.rl.es ont un double but : d'une part liminer du fichier toute impro-
pret formelle qui rendrait impossible la confection des tableaux, d'autre part
liminer les cas les plus invraisemblables qui risquent de fausser les calculs
(moyennes carts, etc . ). Une enqu~te se droulent en plusieurs tapes, terrain,
chiffrement expIaitation et analyse, lors de chaque tape devront avoir lieu des
conbres et chaque fois selon une himrdhie diffrente. Sur le terrain et lors
du chiffrement l'important est dl obtenir des renseignements les meilleurs possi-
bles. L'intervention trs rapide des moyens informatiques peut permettre une aide
ces contreles, essentiellement parce qu'elle permet alors des retours sur le
terrain. Par contre lors de l' exploitation proprement dite Cl est essentiellement
sur le plan formel que pourront et devront se drouler les contrles. Nous avons
essay de donner la liste des principaux contrales en~r. En pratique un
certain nombre de choix devront tre fait tant dans la quantit de contr~les que
dans leur ordre. Cet ordre n'est en effet pas iIllBiffrent, d'autant plus que
souvent l'on effectuera les corrections au fur et mesure que seront dtectes
les erreurs. Llorganisation qui nous semble la meilleure pour une grande enqube
pourrait tre la suivante :
- mise en ordre du fichier avec contrele des identifiants, correction des iden-
tifiants errons et remise en ordre dfinitiv'? (surtout pour les fichiers hi-
rarchiss). (Le contir'le d!e:lha.ustivit peut aisment se faire au cours de
cette tape),
- contrles logiques des principales variables, avec retour au fichier manuel
pour les cas les plus aberrants, rejet dans la catgorie "non dclare" pour les
cas certainement errons, mais de peu de consquence (ventuellement correction
automatique sur critre interne de ces cas),
- contrle de validit de la totalit des codes et correction simultane.
B - Corrections des erreurs.
Dans la partie consacre aux contreles nous avons dfini deux ~es d'objec-
tifs : vrifier qu'aucune erreur de forme ne subsiste dans le fichier afin d'en
permettre l'exploitation et dtecter dans la mesure du possible, les erreurs fon-
damentales, que celles-ci soient systmatiques ou accidentelles. Ces oprationsde contreJ.e sont indispensables, mais ne se suffisent pas en elles-mdmes : d'une
.../ ...
-
- 11 -
faon ou. dl une autre les erreurs de forme devront ~tre corriges, et les erreurs de
fond devront au moins ltre connues, m~me si elles restent difficiles .corriger.
Divers types de corrections peuvent ~tre envisags, soit directement par ordi-
nateur ( on parle alors de "correction automatique"), soit manuellemeut par substi-
tution dlun enregistrement rput exact un enregistrement erron. On utilisera
llun ou l'autre de ces types do corrections, souvent les deux, selon les contrain-
tes propres llenqute : importance du fichier, possibilit du travail en atelier
ou de retour sur le terrain, dure des oprations.
- Co~rections automatiques.-_._------_......::--Ce type de cor-rectaon sc fait par ordinateur, en principe sans intervention
manuelle. Les errours rencontres lors de la lecture d1un fichier pourront ~tre sys-
tnatiques (erreurJ d;units, dcalages ) ou alatoires. Dans la mesure o elles
pourront tra dtoctos et ou lIon dispose des lments permettant de les rectifier
leo eTI~eUl'S systm~tiques peuvent ~tre corriges par procds automatiques (change-
ment dl~~t par e~Gmple), mais le plus souvent on prfrera soit les traiter ma-
nuaLl.emerrt , soit Jes consid~r comme alatoires. Dans certains cas dl ailleurs une
erreur syntmatiqua pourra subsister dans le fichier, aucune correction raisonnable
nI tant possible: sous estimation vidente des salaires, oubli d'vnements trop
anciens, etc ; lors de l'analyse des rsultats il sera bien entendu ncessaire
de connatre llexistence de ces biais, ventuellement d'en estimer l'importance.
Les orreurs alatoires pourront ~tre de tous les genres ; faute de frappe,
omission dlun renseignement, code erron, etc Elles se trouveront disperses
dans le fichier sans ordre apparent. On fera donc gnralement l'hypothse que ces
erreurs touche~t des units statistiques quelconques (il importe de s'en assurer)
et les modes delcorrec~.'.ons seront alors bass sur des principes de probabilit.
Finalement les procds de corrections automatiques que nous allons exposer
s'appliqueront donc a~cr erreurs alatoires et ventuellement certaines erreurs
systmatiques ou des biais considrs connue alatoires. En d'autre terme tout ce
qui est considr comme suspect et pour lequel on ne dispose pas d'informations va-
lables (et dans la mesure o on ne recours pas la correction manuelle) sera d'a-
bord rej8t en "non dclar" puis trait comme tel.
Il est noter que le rejet en "non dclar" de tout renseignement erron ou
susnect l'cut tre considr comme suffisant sur le plan formel, puisqu'on peut alors
produire des tableaux la soul,e condition que des cases "non dclar" y figurent.
Nous reviendrons eL conclusion sur cette possibilit.
1 - a) Corrections alternatives.Ce procd est le plus simple, mais il n'est satisfaisant que quand des erreurs
sont r:.l.s.tivement rares. En cas d1erreurs on attribue alternativement chacune des va-
valeurs possibles.
-
b ) Correction par le conterie.
- 12 _.
Exemple 1 : sexe non dclar ; lorsque l'on rencontre un errre ~i8 i::remcnt pr-
sentant ce dfaut on lui attribue le code 1 (masculin), puis la seconde rC:lcontre
le code 2 (fminin), puis alternativement 1,2,1,2, etc On voit qu'on obtient
une rpartition par sexe en principe proche de la rpartition rGlle, les ho-::::::s et
les femmes tant en nombre voisin dans la population, (il s'agit bien sCr d'lL10 en-
qu~te sur la population totale).
Exemple 2 : tat matrimonial non dclar ; comme dans le C5.S prcdent 0:1 at-
tribue alternativement des valeurs 1 (clibataire), 2 (mari), 3 (VC\l:f) et 4 (di-
vorc, spar) Puis nouveau 1, 2, 3,4, 1, 2, etc Ce cas est dj lgrement
diffrent du 1er puisque la rpartition dans l'ensemble de la population n'est pas
aussi rgulire. ON peut perfectionner le systme en adoptant une pondration dif-
frente des corrections, par exemple 1, 2, 2,3, 1, 2, 2,4, etc , soit 2 cliba-
taires et 4 maris pour 1 veuf et 1 divorc, rpartition dj plus proche de la r-
alit. Cette pondration pourra de plus ~tre diffr~nte selon l'ge.
L'inconvnient vident de ce procd,' par ailleurs de mise en oeuvre ext~me
ment simple, est ~ue la fr~quence relle des tats possibles n'9t&~t pas ~CDLue
priori on doit en prjuger. Par ailleurs rien ne prouva que les erreurs soient ef-
fectivement alatoires, donc que la population corrige, artificiellement rendue
semblable au reste de la popul.ataon, l'tait effectivement.
Pour l'application de ce procd on prend gnralement comme rfrence la r-
partition attendue dans l'ensemble de la population. Si une indication mme sub-
jective, permet de penser qu'en ralit les erreurs touchent une catgorie parti-
culire de population on peut choisir une rpartition volontairement biaise. Si
par exemple on a constat chez les divorcs une tendance ne pas dcl~~r leur
tat matrimonial on pourra adopter le cycle de correction 1, 4, 2, 4, 3, 4, etc
faisant appara!tre 3 divorcs pour 1 clibataire. 1 mari et 1 veuf. Ce jeu a ce-
pendant ses limites, en particulier du fait que dans le cas envisag la tendance
sera plus frquemment pour un divorc de se dclarer mari que de ne pas rpondre.
1
Pour certains caractres les liaisons entre plusieurs questions figurant dans
l'enregistrement permettent de fixer de faon peu prs certaine la rponse exacte.
Par exemple certains ges l'tat matrimonial ne peut ~tre que clibataire, ou le
statut d'occupation qu'inactif (ou colier). La correction est alors vidente.
Ce procd ne peut toutefois qu'@tre assez partiel, car il est rare que plu-
sieurs questions soient strictement redondantes ; mme dans ce cas d'ailleurs se
posera une question de priorit car s'il y a contradiction entre deux rponses la-
quelle doit ~tre considre comme exacte?Coupl avec la correctionalternative il al' avantage d'liminer d'ventuelles
incohrences inteJlmes. /... ...
-
- 13 -
1 c ) Correction par ratiou.
Si les liaisons certaines entre caractres d'un m~me individu sont relative-
ment rares, les liaisons entre un caractre et une quantit, ou entre 2 quantits
sont beaucoup plus frquentes. Ainsi par exemple la relation entre salaires et
charges sociales (assurances, retraites, etc ) est assez rigide, celle entre ~ge,
catgorie socio-professionnelle et salaire est plus eouple mais relle, etc
On peut alors ventuellement calculer l' 4J.mment manquant partir de ceux d.ont
on dispose ; connaissant le sexe, l'~ge et la catgorie socio-professionnelle d'un
individu on peut lui attribuer un salaire correspondant au salaire moyen des in-
dividus de mmes caractristiques.
Ce procd est relativement difficile mettre en oeuvre, par les calculs
qu'il exige et par ses limites propres ; il est en effet ncessaire de disposer
des "ratios" permettant les corrections. Parfois une source extrieure peut per-
mettre de savoir p:dori quels seront les ratios et il suffit alors de les appli-
quer mais dans le cas le plus gnral on devra les extraire de l' enqute elle-
mme un premier passage ~u fichier permet de calculer par exemple le salaire
moyen par C.S., sexe et ge , ppur les individus ayant dclar ces 3 lments et on
applique lors d'un second passage ce eal.ai.re moyen aux individus ayant seulement
dclar CS et ge , On voit que s'il manque l'un de ces lments on est arrt, sauf
les "corriger" eux-mnes.
d ) Correction par "profils types"
Semblable dans son principe au cas prcdent, mais portant aussi sur les ca-
ractres qualitatifs, on peut dterminer un tat moyen pour un individu sur lequel
on a assez peu d'informations : par exemple un homme de 45 ans sera lien moyenne"
mari, salari, etc A partir de quelques donnes de base on pourra donc affec~
ter un individu des caractristiques moyennes, qui auront surtout l'avantage
d' ~tre .parfaitement banales.
L'tablissement des cew profils types prsente videmment los m~mes inconv-
nients que prcdemment : ou bien on les tire de renseignenents extrieuxs l'en-
qute, mais alors corrbspondent-ils la population tudie, ou bien on les extrait
de l'enqu~te elle-mme, d'o ncessit de plusieurs passages.
1. e) Mthode du "HOT DECKll
Dans les quatre types de redressement automatique prcdents la correction
consistait remplacer le renseigneme~t erron par un renseignement en moyenne exact,
les mthodes 1a et 1b supposant que la distribution de rfrence soit connae (ou im-
pose), les mthodes 1c et 1d se rfrant la distribution rellement observe.
Al' exception de la premire ces mthodes sont relativement difficiles mettre .en oeuvre, sans que cette difficult soit compense par une qualit incontestable
.../ ...
-
- 14 -
Le procd du "Hot Deck'' allie les avantages d'une bonne mthode et d'une mise en
oeuvre aise.
Dans son principe le "hot deck" consiste, lorsque l'on rencontre unenregis..;
trement erron, le remplacer par un autre enregistrement exact pris au hasard
dans le fichier. Sur un f;ich!-er important les lois des _probabilits pourront .
jouer, et l'enregistrement de remplacement correspondra en esprance mathmatique
au cas moye:J.. On aura donc pat' rapport au redressement alternatif supprim les
incohrences (tout enregistrement erron est remplac par un enregistrement exis-
tant au fichier et non erron; donc cohrent) et. 1farbitraire (la loi de remplace-
ment n'est pas fixe par l' oprat(;,::-~r mais par le hasard).
En pratique, et cela constituera un avantage supplmentaire, on pourra pro-
eder au redressement au fur et mesure du droulement du fichier : lorsque l'on
rencontrera une erreur on prendra parmi les renseignements prcdents l'enregis-
trement correctif.
On peut corriger soit la totalit de 11 onregistrement , soit seulement une
partie ou un seul ,lment.,. Le procd reste sensiblement le mme partir de
2 ou 3 caractres simples de rfrence (gui alors drd,vent tous ~tre sans erreur)
on slectionne parmi les units statistiques prcdant celle corriger celle qui
en est le plus proche (par exemple mme sexe, mme ge et mme tat matrimonial)
puis on attribue l'enregistrement erron le ou les caractres de l'unit ainsi
slectionne.
L'inconvnient dans la mise en pratique est qu'il est alors ncessaire soit
de revenir en arrire sur le fichier soit de conserver en mmoire quelques enr&-
gistrements parmi lesquels on procdera la slection. Cet inconvnient sera
supprim si l'on se fixe les rgles simples :
a) remplCement d'un enregistrement erron par un enregistrement complet :
la prsence d'une seule er-reur dans Il enregistrement justifie alors son rejet to-
tal il' enregistrement remplaant pourra ~tre caluile prcdant immdiatement
(il suffit donc de conserver toujours en mmoire un seul enregistrement, l'avant
dernier lu). Si les erreurs sont rparties alatoirement dans le fichier, les cor-
rections sont aussi alatoires, puisque dtermines par leur place.
b) correction d'un seul caractre erron : si un caractre es t erron (par
exemple le salaire) on recherche dans les enregistrements prcdents le salaire
d'un individu prsentant par exemple mme sexe, mme groupe d'ge et mmecatgo-
rie socio-profesBiopn~~~~. JI faut alors co~tt~ex, et ronserver en m~moire,un
tableau "df'ormab.le" donnant pour chaque sexe, groupe d'ge et CS, le dernier sa-
lair.e rencontr dans le fichier (tableau :rempli arbitrairement avant le dbut du
... 1...
-
- 15 -
droulement du fichier, et qui se dformera de lui-mme au fur et mesure de
la lecture). Lorsque l'on rencontre un salaire erron on lit l'ge, le sexe et
la CS de l'individu concern, on recherche dans le tableau un individu de mme
sexe, ge et CS et on remplace le salaire erron par celui lu dans le tableau.
Si l'on adopte cette correction d'un seul caractre, il faudra faire
plusieurs opr-atri.onajr une pour chacun des caractres susceptibles d'tre corri-
gs, ce qui peut entra1ner la construction d'un nombre assez considrable de
tableaux de rfrence, donc un encombrement non ngligeable de la mmoire.
Le rapporchement de la mthode du hot deck avec la mthode des sondages
est vident: les corrections sont prises au hasard dans l'ensemble des rponses
exactes. Pour respecter strictement ce hasard on aurait intrt travailler
sur des fichifrs les plus dsordonns possibles; en ralit un "bonI! ordre du
fichier est souhaitable, correspondant l'ide de stratification: si le fichier
est rang dans un ordre gographique, par exemple, l'individu slectionn pour
corriger une erreur prse~tera, outre les caractres communs recherchs (sexe,
~ge, etc ) une proximit gographique.
2 Redressements manuels
Malgr leur limite les redressements automatiques prsentent de trs
grands avantages pratiques et doivent tre utiliss chaque fois que cela sera
possible. Leur inconvnient majeur tient leur absence de souplesse, inhrent
leur dfinition. Par ailleurs, ils doivent en principe tre raliss un
moment bien prcis de l'exploitation, aprs l'introduction du fichier en machine
et avant la production des tableaux.
Beaucoup plus souples, et pouvant tre ralises lors de toutes les
tapes de l'exploitation (y compris, bien que cela nous paraisse condamnable,
aprs la production des tableaux), les corrections manuelles seront gnralement
plus difficiles mettre en oeuvre.
Tenant compte des avantages certains de la rigidit (la correction ne
dpend pas de l'oprateur) et de la rapidit de la correction automatique et des
avantages de souplesse de la correction manuelle un certain nombre de choix
seront faire pour tablir le plan de redressement. Gnralement on procdera
une correction automatique pour les questions d'importance relativement secon-
daire et les erreurs plus fondamentales, soit en raison de l'importance de la
question soit cause du poids du questionnaire seront traites la main
..-./...
-
- 16 -
Dans une enqute sur la gestion financire des entreprises par exemple
on pourra dcider de faire deux lots de questionnaires, l'un concernant les
grandes entreprises, peu nombreuses mais chiffre d'affaires lev, qui seront
ventuellement corriges la main, l'autre concernant les petites entreprises,
beaucoup plus nombreuses, pour lesquelles on corrigera automatiquement la plu-
part des erreurs et manuellement certaines erreurs plus consquentes (masse des
salaires par exemple).
2. a. Redressement la saisie
Ce procd de redressement est li ia nature du matriel informatiquedont on peut disposer. Il est en effet ncessaire de pouvoir vrifier la vali-
dit d'une information au moment mme o elle est saisie (transfere du document
manuscrit de base sur un support, carte ou bande magntique, exploitable par
l'ordinateur), et ventuellement de signaler la non-validit l'oprateur afin
qu'il la corrige. Un jeu de claviers .e perforation associs des crans per-
mettant la lecture de messa-ges ou a une "imprimarrte" le tout li un ordinateur
est donc ncessaire.
Lorsque l'on dispose d'un tel matriel beaucoup de contrles sont possi-
bles : acceptabilit de l'identifiant (si celui-ci a une clef), non dpassement
de code, ratios convenables etc Quand une valeur de code, ou une quantit,
vient d'tre saisie l'ordinateur peut en effet vrifier que la valeur est accep-
table, que la quantit entre dans une "fourchette" prtablie etc et si tel
n'est pas le cas le signaler l'oprateur. Celui-ci disposant en principe du
dossier pourra selon le cas retranscrire le code exact s'il s'agissait d'une
erreur de frappe, le rechercher s'il s'agissait d'une erreur de chiffrement etc
-On voit cependant tout de suite la lourdeur de l'opration car s'il ne s'agit
pas d'une faute de frappe l'oprateur doit dcider lui-mme de codes ou va-
leurs de remplacement, ce pour quoi il n'est pas obligatoirement comptent. De
plus le programme de recherche des erreurs, lourd, immobilisera une partie impor-
tante de l'ordinateur pendant toute la dure de la saisie, qui peut s'tendre
sur plusieurs mois.
En pratique on nutilise le plus souvent ce procd que pour des contrles
relativement simples et pour lesquels la correction ventuelle est lmentaire,
ou peut tre diffre afin de ne pas immobiliser la chane de saisie trop long-
temps (contrles d'exhaustivit, d'identifiants, de structure, codes simples)
. . .1. . .
-
- 17 -
2. B. Redressement en ligne
Ncessitant le mme matriel que prcdemment ces types de redressement
sont plus riches, mais demandent une participation plus pousse de l'ordinateur.
La manipulation initiale tant la mme l'oprateur introduit une valeur de code,
l'ordinateur vrifie la validit de ce code (non dpassement ou cohrence avec
d'autres lments du questionnaire) et en cas d'erreur proposera une ou plusieurs
solutions (par redressement automatique).
L'oprateur alors pourra choisir l'une des solutions proposes ou ven-
tuellement en proposer une lui-mme.
Souvent on profite de ces oprations pour consulter automatiquement des
nomenclatures: l'oprateur frappera par exemple en clair l'activit conomique
et l'ordinateur donnera lui-mme le numro correspondant, s'il existe, ou deman-
dera des prcisions s'il y a ambiguit.
On voit que pour utiliser les deux procds ci-dessus il sera ncessaire
d'une part de consentir l'immobilisation d'un matriel trs important, d'autre
part, de disposer d'un corps d'oprateurs au courant de l'enqute et capablev
d'initiative. Afin de p~llier les difficults qui pourraient natre il sera
toujours ncessaire de prvoir la possibilit d'un rejet provisoire du question-
naire erron, ce rejet permettant aux oprations de continuer par ailleurs.
2. c. Redressement diffr
Plutt que de chercher redresser le fichier au moment de la saisie,
gain de temps qui se traduira souvent par un investissement trs lourd en person-
nelet en matriel, et qui ne se justifie pas toujours par son efficacit, on
prfre souvent produire des listes d'erreurs que l'on corrigera tte repose.
La procdure est alors la suivante : lorsqu'une erreur est dtecte,
l'enregistrement correspondant est soit exclu du fichier soit plac en rserve,
un message d'erreur est mis, l'aide de ce message on recherche le dossier
correspondant, on le corrige et l'on remplace alors l'ancien enregistrement
erron par un nouvel enregistrement corrig. Il est souvent plus interessant
d'annuler la totalit de l'enregistrement erron (partie lexacte et partie errone
que de n'en corriger qu'une partie. Le risque est toutefois alors d'introduire
une nouvelle erreur dans la partie saine.
Le redressement diffr est incontestablement la meilleure formule pour
corriger un fichier, puisqu'il permet l'examen cas par cas des erreurs, et leur
correction (y compris par retour sur le terrain). Il prsente cependant un
premier inconvnient par sa formule mme : on doit retourner, parfois assez
longtemps aprs, des dossiers dj exploits; souvent alors le personnel de
l'enqute a t dispers, parfois certains dossiers ont t gars, les renseigne
ments sont trop anciens pour tre vrifis sur le terrain etc
..../~ ..
-
- 18 -
D'autre part il faudra crer un nouveau fichier correctif,qui lui aussi
prsente des risques d'erreurs,. Enfin la procdure est trs longue, pour un
bnfice, souvent illusoire.
2. d. Messages d'e~reurs
En tout tat de cause les erreurs dtectes et corriges doivent tre
dcomptes. D'autre part si l'on procde un redressement diffr il sera
ncessaire de travailler sur des listes d'erreurs afin de pouvoir les corriger.
On devra donc dans tous les cas mettre des messages faisant ressortir les ano-
malies rencontres. Ces messages doivent permettre la fois le dcompte et la
correction des erreurs. Ils devront donc
- permettre d'identifier sans difficult les enregistrements errons,
d'abord pour retrouver les dossiers correspondants, ensuite pour revenir
l'enregistrement mis en cause;
- permettre d'identifier l'erreur trouve, en la signalant trs claire-
ment (ex : manqu,e salaire, ~harges sociales trop leves, etc ) ;
- reproduire la donne suspecte, celle-ci pouvant servir la correction
(si par exemple il s'agit d'une erreur de perforation la seule indication
"salaire trop lev" est incomprhensible sur le dossier).
D'autres qualits sont demandes aux messages d'erreurs, essentiellement
d'ordre pratique: maniabilit, classement selon le type d'erreur, homognit
des indications fournies etc
Dans le cas de redressement la saisie, ou en ligne, ces conditions
sont automatiquement remplies puisque c'est au moment o l'on rencontre l'erreur
qu'on la signale et la corrige. Les messages d'erreurs n'auront alors qu'un
intrt d'archivage et peuvent la rigueur se limiter au dcompte de ces erreurs.
Dans le cas du redressement diffr peut se poser un problme pratique gnant :
doit-on signaler toutes les erreurs d'un enregistrement ou tous les enregistre-
ments correspondant un type d'erreur. Dans le p~emier cas le dossier ne sera
sorti qu'une seule fois et corrig entirement mais l'organisation de l'atelier
de correction peut s'en ressentir puisque d'un document l'autre des erreurs
de type trs diffrent seront rencontres. Dans le second cas on pourra au
contraire corriger, type d'erreur par type d'erreur, mais les manipulations
seront plus nombreuses.
. . .1...
-
- 19 -
3 Conclusions sur les redressements d'erreurs.
Un fichier prsentera toujours des erreurs de forme et de fond, et les
moyens informatiques offrent la facilit de dtecter un certain nombre de ces
erreurs.
Pour ce qui est des erreurs formelles il faudra toujours les corriger,
d'une faon ou d'une autre, car leur maintien entra!nerait l'impossibilit de
fournir les tableaux, objectif mme d'une exploitation. Les autres erreurs,
souvent plus fondamentales, posent la fois un problme thorique et un pro-
blme pratique : la mise en oeuvre d'un systme de dtection et de correction
est fort onreuse, et peut-on, ou mme doit-on, remplacer une rponse suspecte
par une autre plus satisfaisante apparemment, mais arbitraire? Le purisme
consisterait ne procder qu' des corrections neutres, formellement accepta-du
bles, qu'on peut en gros ramener l'utilisation systme de cases linon dclar"
dans les tableaux. Cette attitude nous para!t proscrire, d'abord parce qu'elle
entretient l'illusion que tout ce qui est dclar est exact, ensuite parce
qu'elle n'a aucun intrt pratique: l'habitude est prise depuis fort longtemps
de lire la partie saine des tableaux et de ngliger ou de rpartir proportion-
nellement le contenu des cases linon dclares". Un mode de correction relativement
simple donne les mmes rsultats, sans l'inconvnient de "tra!ner" en perma-
nence des tableaux incomplets. Il reste que la perfection formelle des tableaux
corrigs est trompeuse. Il importera de ne pas oublier que cette apparente
perfection n'a pu tre obtenue que par l'limination d'un certain nombre
d'erreurs.
Contrles des rsultats:
Le fichier ayant t rendu propre sur le plan formel et dbarrass dans
la mesure du possible des erreurs individuelles flagrantes, il reste produire
des tableaux. Gnralement on ne lancera pas tout de suite un programme trs
lourd des tableaux mais on COmmencera par l'dition de quelques tableaux de
contr81e
Tableaux de dcompte d'erreurs
Lors de la mise au propre du fichier on a dtect un certain nombre d'erreurs
que l'on aura corrig. Les erreurs matrielles (erreur de perforation par
exemple, erreur d'unit, etc ) n'ont plus grande importance ds lors qu'on
a pu les rectifier. Il est cependant utile d'en conna!tre le nombre car il est
certain que le nombre d1erreurs de ce type non dtectes est proportionnel
celui des erreurs dtectes. Si par exemple on a trouv 10 %d'individu ausexe diffrent de 1 (masculin) ou 2 (fminin) ces erreurs ne peuvent gure
provenir que d'une mauvaise perforation et il est alors probable que pour les codes
-
- 20 -
plus complexes le nombre d'erreurs de perforation sera important. Les erreurs
de fond par contre (par exemple absence systmatique de r~ponse certaines questio
questions, confusion entre nombre d'enfants n~s vivants et nombre d'enfants
actuellement en vie etc ) doivent faire l'objet de tableallx d~taill~s qui
permettront l'analyste de proposer des explications, ou qui dans tous les
cas devraient lui permettre d'viter des interprtations errones car les cor-
rections apportes au fichier dans ces cas sont toujours plus ou moins arbi-
traires, et le biais introduit par ces corrections sera ngligeable si elles
sont rares, considrable si elles sont nombreuses.
On devrait toujours constituer pour chaque enqute un dossier compor-
tant un tableau statistique de dcompte des erreurs dtectes, le mode de
correction adopt et ventuellement une liste des questionnaires comportant
de graves erreurs,. En pratique de tels dossiers sont assez rares et toujours
confidentiels !
2 Tableaux des donnes brutes
Dans la mesure o le fichier constitu le permet, avant tout contrle
et toute correction, il est souvent judicieux de produire quelques tableaux
assez simples (rpartition par sexe et age, distribution des salaires selon le
sexe par tranches, nombre d'enfants selon l'ge des mres etc ) Ces tableaux
prsenteront l'avantage de permettre rapidement de dtecter des anomalies
considrables (par exemple confusion des salaires mensuels et annuels) et de
faire apparatre dans les cases prvues cet effet (non dclar, autres cas )
l'importance des erreurs probables. Ils permettront aussi, par comparaison avec
des tableaux dfinitifs de mesurer l'influence de corrections que souvent on
ne maitrise pas compltement. Eventuellement on peut produire ces tableaux
partir d'un chantillon relativement restreint de questionnaires.
3 Tableaux de contrles
A partir du fichier propre la production de tableaux extrmement simples
donnera les principaux rsultats. Une analyse rapide de ces rsultats permettra
d'une part d'estimer, intuitivement peut-tre, la vraissemblance des rsultats
d'ensemble, d'autre part de dcider rapidement du degr de finesse que l'on
pourra rechercher dans les rsultats dtailles.
-
Chapitre III
MANUEL DE DEPOUILLEMENT D'ENQUETES
Codification
F. PRADEL de LAMAZE
- 1 -
A partir d'une population donne l'objet de la statistique est de classer
les individus formant cette population selon leurs caractres. Ces caractres pour-
ront se prsenter de faon claire, quasi vidente, et avec un nombre de modalits
restreintes (ou en tout cas dnombrables) comme dans le cas du soxe, de l'ge, du
nombre d'enfants etc , ou de faon beaucoup plus complexe. Dans l'un comme dans
l'autre cas le statisticien devra tablir une nomenclature, liste ~xhaustive et
ordonne des modalits possibles, et pour les besoins de l'exploitation, particu-
lirement du point de vue informatique, cette nomenclature devra tre associ
un code, tel qu' chaque cas envisag dans la nomenclature corresponde un signe
(gnralement un nombre) et un peul.
Etablir une nomenclature est gnralement une opration dlicate, ds lors
qu'il ne s'agit pas de caractres simples. L'objet de ce manuel n'tant pas la
thorie statistique nous ne dvelopperons pas ce point, mais il est cependant nces-
saire de rappeler quelques contraintes :
a) une nomenclature n'a de raison d'tre que si elle est opratoire. L'exhaustivit
des cas possibles est donc ncessaire, mais le problme est le plus souvent de
contracter d'une faon ou d'une autre le nombre de ces cas. Enumrer par exemple
tous, les emplois possibles et affecter chacun un numro d'ordre de 1 n, n pouvant
alors ~tre de l'ordre de centaines de milliers, n'a aucune raison d'tre puisque
sur un tableau statistique une centaine d'ventualits semble un maximum. Dans ce cas
donc il s'agira de r9grouper, par proximit, tous les emplois se "ressemblant".
Malheureusement la ressemblance sera rarement v~ente et pourra varier selon le
point de vue d'o l'on se place: regrouper d'une part les emplois de bureau, d'autre
part les emplois ouvriers etc peut ~tre trs lgitime pour une tude selon la
. nature de l'emploi occup, mais perd beaucoup de son intr3t si Iton envisage par
exemple l'tude de la dispersion des salaires.
b) une nomenclature doit avoir une certaine permanence dans le temps et l'espace.
Une tude isole est certes interssante mais le plus souvent ne prend sa pleine
dimension que dans la comparaison, soit avec une situation passe soit avec une
autre population.
.../ ...
-
- 2 -
D'une date l'autre ou d'un pays l'autre beaucoup de choses voluent1
pour reprendre l'exemple des emplois certains de ceux-ci disparaissent avec
le temps, d'autres apparaissent, et une tendance la spcialisation plus ou
moins pousse se fait jour un peu partout. Conserver longuement une nomencla-
ture, aussi bonne soit-elle, sera donc gnralement difficile ; la changer
toute occasion sera extrmement dangereux
c) Une nomenclature doit tenir compte la fois de l'instabilit de certains
caractres et de la prcision de l'enqute. Il serait ainsi illusoire de pr-
tendre observer de faon trs dtaille certaines caractristiques si dans la
population ces caractristiques ne reprsentent pas une situation bien dfinie.,
ou si la nature mme de l'enqute ne permettait pas de distinction trs fine.
L'emploi pourra ici. aussi servi:&.' d'exemple : dans la plupart-des pays en voie
de dveloppement surtout de trs nombreux mtiers plus ou moins marginaux sont
occups pendant des priodes trs brves par certains individus ; recenser
tous ces emplois marginaux serait assez vain (sauf au cas o l'enqute aurait
justement cette fin), les classer et prtendre ainsi reprsenter l'tat de la
population serait trs probablement erron.,.".'
Afin de tenir compte de ces cOtraintes on sJefforcera donc d'tablir des
nomenclatures ~elativement dtailles au dpart, permettant divers regroupements.
Des mthodes plus ou moins astucieuses, dont l'essence apparait dans les nomen-
clatures "emboites", ont t utilises l'poque de la mcanographie. Actuel-
lement on fait plus souvent appel des "tables de passage" qui permettent,
partir d'une nomenclature fine de reconstituer rapidement telle ou telle nomen-
clature agrge. En pratique pour raliser des exploitations informatiques on
devra toujours prvoir, de faon automatique, une tape de "recodificationll
La procdure est alors la suivante : partir d'un questionnaire de base
on procde au chiffrement (opration consistant partir de l'information
littrale la transformer en un nombre ou ventuellement en signe alphabtique)
dtaill de chacun des caractres. Le dtail de ce chiffrement est alors fonc-
tion essentiellement de la prcision de IJenqute, sans prjuger ni de la
forme des tableaux ni de leur nombre de lignes ou de colonnes ; par contre il
devra tenir compte de certaines contraintes concernant les modes de tegroupe-
ment possibles: par exemple si l'on chiffre la branche d'activit laquelle
appartient une entreprise on devra pouvoir isoler les coopratives agricoles
qui dans certains regroupements pourront tre agrgs l'agriculture, dans
d'autres l'industrie ou mme au commerce. A partir de ce chiffrement, aprs
mise sur bande magntique, contrale et ventuellement correction, on raffecte
l'individu l'ensemble des codes correspondant chacune des nomenclatures
dfinitives envisages, et ceci en faisant appel soit un seul caractre soit
parfois plusieurs. Les exemples suivants illustrent cette procdure
.. .1..
-
.../ ...
1 Exemple 1.: Dans les cas les plus simples (caractres qualitatifs non ambigus),
nomenclatures et codes sont tablis trs rapidement: masculin = 1, fminin = 2ou clibataire = 1, mari = 2, veuf = 3, divorcs spars = 4, etc.
Exemple 2 : Un cas relativement plus dlicat est celui o les individus peuvent
appartenir plusieurs classes. Dans ce cas, il est gnralement prfrable
d'tablir une hirarchie des classes et de ne placer l'individu que dans la classe
la plus haute. On peut aussi utiliser un systme de codification un peu complexe
mais qui n'entraine pas de perte d'information (code binaire).
Exemple : Diplmes d'instruction gnrale
Systme 1
Nant 0
Sait lire et crire 1
Certificat d'tude 2
BEPC 3Bacc. ou plus 4
;"
Chaque individu tant class selon son niveau le plus haut.
Systme 2
Nant 0
Sait lire et crire 1
Certificat d'tude 2
BEPC 4
Bac. et plus 8
Chaque individu est cod selon la somme des codes correspondants aux dipl~
mes dont il dispose. Ainsi tout ~ndividu cod 1, 3, 5 ou 9 sait lire et criretout individu cod 5 sait lire et crire et n'a que le BEPC; tout individu
cod 7 sait lire et crire et a le certificat d'tudes et le BEPC.
La dcomposition de tout nombre en puissances successives de 2 tant uniquei
on peut grce ce systme dcompter aussi bien les individus ayant un diplme
donn quels que soient leurs autres diplmes, que ceux combinant plusieurs diplmes.
Exemple 3 Dans le cas le plus gnral, le nombre de possibilits est trs
grand. Il faut alors constituer des nomenclatures "emboites", telles que l'on
puisse procder des regroupements successifs, du caractre le plus dtaill au
caractre le plus gnral. Un systme de codification ~u type dcimal s'adapte
g~ralement assez bien ce type de nomenclature: dans un tel systme, le 1er
chiffre rassemble tous les individus appartenant un grand groupe, les deux
premiers permettent de distinguer les principaux sous-groupes, 1 ou 2 chiffres
supplmentaires permettent d'atteindre le dtail le plus fin.
-
-4
Voici par exemple la nomenclature des professions (extrait) utilise pour
le recensement de l'Algrie (1966)
1GROUPES
GROUPE 0
PROFESSIONS
PERSONNES EXERCANT UNE PROFESSION LIBERALE ,TECHNICIFBSET ASSIMILES.
CODES
,GROUPE 1
GROUPE 2
Architectes, ingnieurs et gomtres 00Chimistes, physiciens, gologues et autres spcialistesdes sciences physiques 01Biologistes, vtrinaires, agronomes et spcialistesexerant des pr~fessions connexes 02Mdecins, chirurgiens et dentistes 03Infirmiers et sage-femmes 04Spcialistes et techniciens paramdicaux 05Personnel enseignant 06Prtres et mem~es assimils d'ordre religieux 07Juristes 08Artistes, crivains et assimils 09Dessinateurs et techniciens des sciences physiqueset des sciences appliques OXAutres personnes exerant une profession librale,techniciens et assimils OY
;,DIRECTEURS ET CADRES ADMINISTRATIFS SUPERIEURS
Directeurs et cadres suprieurs de l'Administration publique 10Directeurs, cadres administratifs suprieurs etpropritaires exploitants 11
EMPLOYES DE BUREAU
GROUPE 3
Aides comptables, teneurs de livres et caissiersStnographes et dactylographesAutres employs de bureau
VENDEURS
202129
Propritaires exploitants (commerce de gros et dtail) 30Agents d'assurances, agents immobiliers, dmarcheurs debanque, agents de vente de service, et vendeurs auxenchres, courtiers maritimes, apprteurs 31Voyageurs de commerce, reprsentants et placiers 32Commis, vendeurs, employs et travailleurs assimils 33
GROUPE 4 AGRICULTEURS, PECHEURS, CHASSEURS, FORESTIERS ETTRAVAILLEURS ASSIMILES
Agriculteurs et directeurs d'exploitations agricolesTravailleurs agricolesChasseurs et travailleurs assimilsPcheurs et travailleurs assimilsBacherons et autres travailleurs forestiers
40/4142444546
GROUPE 5 MINEURS, CARRIERS ET TRAVAILLEURS ASSIMILES
Mineurs et carriers 50Foreurs de puits et travailleurs assimils 51Ouvriers spcialiss dans l'enrichissement des minerais 52
.../ ...
-
*lE'
Exemple Nomenclature ..
- 5 -
des catgories socio-professionnelles (extrait)
Branche Statut Profession Dimension Catgorie Code
d'activit de professionnelle CSPl'entreprise(CSP)
1 Propritaire Agriculteur }Aide familial " AgriculteurAgricultur~. Fermier " ) Exploitant 10Mtayer "
"- Salari " Salo agricole 11
1 Indpendant Directeur 6 sal et + Industriel 20
" 0 5 sale Artisan 21Industrie ~ Aide familial 6 sal et + Industriel 30
0 5 aa.l , Artisan 31
"- Salari {Directeur Cadre supr. 40Contremaitre ~ Cadre moyen 50Ouvrier Ouvrier 60Le caractre n'est pas pris en compte pour la dtermination de la CSP.
Exemple 5 :Sur le questionnaire initial et sur la carte perfore correspondante,
on a cod l'ge exact selon un code 2 chiffres (25 = 25 ans rvolus). Onsait que certains tableaux devront tre produits pour des regroupements d'ges
quiquennaux, ou dcennaux, d'autres seulement pour certains ges, etc Lors
du transfert de la carte perfore sur bande magntique, on va donc transformer
ce code "ge" en divers codes "ges regroups", qui serviront de critres
ligne (ou colonne~" pour l'tablissement des tableaux, selon le systme suivant
** ~xemple 4 :: Dans certains cas on a synthtiser dans un mme code deux ou plu-sieurs caractres que peuvent prsenter les individus. Ce genre de problme a in-
t~t ~tre trait de faon irigoureusement systmatique l'ordinateur, mais pehtl t ~tre ventuellement la main. Le traitement par ordinateur suppose bien enten-
du qu'au pralable ait t chiffr chacun des "'.lract~.re~ composants :
... / ...
-
- (Age AR1 AR2 AR3 AR4
dtaill
... } } ...11 01 01 1112 1213 ... 1314
..., .... 1415 02 1516 04 ) 02 03 1617
104 17
18 05 1819
\ )06 . 19
20 0721 0822 05 ) 03 09 'r
20
23 10 i24 .J ) 11 )-25
} } } }26 06 04 12 212728 ,if29
Age AR1 AR2 AR3 AR4dtaill
30 -... ... ... ...616263
! "64 h.6566 > 1467 i6869
'}) >
70 12 2071 15727374 .,iJ. J7576- -
-,
-
/JLB/AV
- 1 -
Chapitre IV
Organisation des ateliers
Il co~prend~a trois parties :
- le rle de l'atelier manuel
la place de l'atelier manuel dans la cka1ne d'exploitation
- l'organisation optimale de l'atelier
4 - 1 - Le rle de l'atelier manuel
Ne pas oublier que le rle de l'atelier manuel ne se limite pas au
seul chiffrement des documents d'enqute (c'est d'ailleurs pourquoi le n