gestion et analyse de données d’enquêtes épidémiologiques … · 1000104 2 800 idadu idmen...

28
Pierre Traissac Pierre Traissac UMR 204 UMR 204 « Pr Prévention des malnutritions et pathologies associ vention des malnutritions et pathologies associées es » IRD, Montpellier, France IRD, Montpellier, France Projet Obe Maghreb Projet Obe Maghreb Ecole th Ecole thématique gestion et analyse de donn matique gestion et analyse de données es 20 au 29 avril 2010 20 au 29 avril 2010 Gestion et analyse de donn Gestion et analyse de donné es es d’ enquêtes enquêtes é pid pidé miologiques miologiques Gestion de donn Gestion de donné es es Mise en Mise en œuvre avec EpiData Analysis uvre avec EpiData Analysis Institut de recherche pour le développement 2 Gestion de donn Gestion de donné es es Conservation Conservation - sécurit curité - sauvegardes sauvegardes Pr Préparation avant analyse paration avant analyse - sélections (individus, variables) lections (individus, variables) - mise en relation, fusion de fichiers mise en relation, fusion de fichiers - calcul de nouvelles variables calcul de nouvelles variables - recodages recodages - documentation (versions fichiers, documentation (versions fichiers, dictionnaires) dictionnaires) Outil logiciel Outil logiciel - SGBD (e.g. MS SGBD (e.g. MS- Access, Oracle, Access, Oracle, …) - gestion de donn gestion de données dans logiciels es dans logiciels statistiques (SAS, Stata, SPSS) statistiques (SAS, Stata, SPSS) ou g ou généralistes (EpiData) ralistes (EpiData) Data manager Data manager Ù sp spécialiste discipline cialiste discipline 1- Accès aux données 2- Gestion des données 3- Analyse des données 4- Présentation des données

Upload: others

Post on 04-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Pierre TraissacPierre TraissacUMR 204 UMR 204 «« PrPréévention des malnutritions et pathologies associvention des malnutritions et pathologies associééeses »»

IRD, Montpellier, FranceIRD, Montpellier, France

Projet Obe MaghrebProjet Obe Maghreb

Ecole thEcole théématique gestion et analyse de donnmatique gestion et analyse de donnééeses20 au 29 avril 201020 au 29 avril 2010

Gestion et analyse de donnGestion et analyse de donnéées es dd’’enquêtes enquêtes éépidpidéémiologiquesmiologiques

Gestion de donnGestion de donnééesesMise en Mise en œœuvre avec EpiData Analysisuvre avec EpiData Analysis

Institut de recherchepour le développement

22

Gestion de donnGestion de donnééesesConservationConservation-- sséécuritcuritéé-- sauvegardessauvegardes

PrPrééparation avant analyseparation avant analyse-- sséélections (individus, variables)lections (individus, variables)-- mise en relation, fusion de fichiersmise en relation, fusion de fichiers-- calcul de nouvelles variablescalcul de nouvelles variables-- recodagesrecodages-- documentation (versions fichiers, documentation (versions fichiers, dictionnaires)dictionnaires)

Outil logicielOutil logiciel-- SGBD (e.g. MSSGBD (e.g. MS-- Access, Oracle, Access, Oracle, ……))-- gestion de donngestion de donnéées dans logiciels es dans logiciels

statistiques (SAS, Stata, SPSS) statistiques (SAS, Stata, SPSS) ou gou géénnééralistes (EpiData)ralistes (EpiData)

Data manager Data manager spspéécialiste disciplinecialiste discipline

1- Accès aux données

2- Gestion des données

3- Analyse des données

4- Présentation des données

33

ModModèèle de donnle de donnééesesReprRepréésentation schsentation schéématique monde rmatique monde rééelel

Région

Ménage

Adulte

Prescolaire

Aliment

Entité (u.s.)

Relation (lien)

Monde réel(très complexe)

Question(e.g. de nutrition)

44

ModModèèle entitle entitééss--relationsrelations

Base de donnBase de donnéée relationnellee relationnelleRégion

Ménage

Adulte

Prescolaire

Alimentprescos

alim

adulte

region

menage

idaduidmen

idmen

idreg

idalim

idalim

55

Gestion de donnGestion de donnééeses

Langage de gestion de donnLangage de gestion de donnééeses-- mise en forme des donnmise en forme des donnéées avant analysees avant analyse-- crcrééation de nouvelles tables ation de nouvelles tables

(op(opéérateurs de srateurs de séélection de lignes, colonnes, fusion de tables)lection de lignes, colonnes, fusion de tables)-- crcrééation de nouvelles variablesation de nouvelles variables

(recodage, calcul d(recodage, calcul d’’indices, de scores, indices, de scores, ……))-- documentation des donndocumentation des donnéées es

(labels et notes pour tables et variables)(labels et notes pour tables et variables)

Concepts vs. mise en Concepts vs. mise en œœuvre pratiqueuvre pratique-- concepts, opconcepts, opéérateurs : invariantsrateurs : invariants-- mise en mise en œœuvre informatique: duvre informatique: déépend du logicielpend du logiciel

Oracle, MsOracle, Ms--Access, SAS, SPSS, Stata, EpiData Analysis, Access, SAS, SPSS, Stata, EpiData Analysis, ……-- SQL (Standard Query Language) +/SQL (Standard Query Language) +/-- standard (pas dans Epidata Analysis)standard (pas dans Epidata Analysis)-- MenusMenus vs. vs. langage de commandelangage de commande / programmes / programmes

(documentation, (documentation, tratraççabilitabilitéé ))

66

Gestion de donnGestion de donnééesesOpOpéérateurs sur une seule table rateurs sur une seule table -- sséélection (slection (séélection de lignes) =>lection de lignes) =>

-- projection (sprojection (séélection de colonnes/variables)lection de colonnes/variables) =>=>

-- changement dchangement d’’unitunitéé statistique statistique =>=>(table large devient table longue ou inversement)(table large devient table longue ou inversement)

OpOpéérateurs sur 2 tables et +rateurs sur 2 tables et +-- langage relationnel (intersection, rlangage relationnel (intersection, rééunion, jointure)union, jointure)

-- fusion horizontale (mise en relation) : et =>fusion horizontale (mise en relation) : et =>

-- fusion verticale : et =>fusion verticale : et =>

-- requêtes imbriqurequêtes imbriquééeses

77

Gestion de donnGestion de donnééesesOpOpéérateurs sur une seule table rateurs sur une seule table -- sséélection (slection (séélection de lignes) =>lection de lignes) =>

-- projection (sprojection (séélection de colonnes/variables) =>lection de colonnes/variables) =>

-- changement dchangement d’’unitunitéé statistique statistique =>=>(table large devient table longue ou inversement)(table large devient table longue ou inversement)

OpOpéérateurs sur 2 tables et +rateurs sur 2 tables et +-- langage relationnel (intersection, rlangage relationnel (intersection, rééunion, jointure)union, jointure)

-- fusion horizontale (mise en relation) : et =>fusion horizontale (mise en relation) : et =>

-- fusion verticale : et =>fusion verticale : et =>

-- requêtes imbriqurequêtes imbriquééeses

88

Gestion de donnGestion de donnééesesSSéélection de colonneslection de colonnes

-- But : crBut : crééer table er table «« anthroanthro »» àà partir de la table partir de la table «« adultesadultes »»sséélection colonnes : sexe, gross, taille, poids, tt, thlection colonnes : sexe, gross, taille, poids, tt, th

-- Epidata AnalysisEpidata Analysisread "adultes.rec" read "adultes.rec" /close /close (possible aussi de lire format .dbf)(possible aussi de lire format .dbf)keep idadu sexe gross taille poids tt th keep idadu sexe gross taille poids tt th ouou drop idreg age csp nivscodrop idreg age csp nivsco

savedata "anthro.rec" savedata "anthro.rec" /replace /replace (cr(crééation table anthro)ation table anthro)

read "adultes.rec" read "adultes.rec" /close /close list list (ou(ou browsebrowse) ) idadu sexe gross taille poids tt th idadu sexe gross taille poids tt th (liste variables (liste variables àà afficher afficher àà ll’é’écran)cran)

!!! IDENTIFIANT(S) !!!!!! IDENTIFIANT(S) !!!

idadu idadu idregidreg sexesexe ageage cspcsp nivsconivsco grossgross tailletaille poidspoids tttt thth

99

Epidata AnalysisEpidata AnalysisGestion de donnGestion de donnééeses

1010

Gestion de donnGestion de donnééesesSSéélection de ligneslection de lignes

-- But : crBut : crééer table er table «« hommeshommes »» àà partir de la table partir de la table «« adultesadultes »»sséélection des lignes sexe masculinlection des lignes sexe masculin

-- EpidataEpidataread "adultes.rec" read "adultes.rec" /close /close select if sexe=1select if sexe=1 (s(séélection temporaire)lection temporaire)countcount (donne le nombre de lignes s(donne le nombre de lignes séélectionnlectionnéées)es)list list (ou(ou browsebrowse) (affichage ) (affichage éécran de la scran de la séélection)lection)

read "adultes.rec" read "adultes.rec" /close /close select if sexe=1select if sexe=1savedata "hommes.rec" savedata "hommes.rec" /replace /replace (cr(crééation table hommes)ation table hommes)

idaduidadu idregidreg sexesexe ageage cspcsp nivsconivsco grossgross tailletaille poidspoids tttt thth

112211

1111

Gestion de donnGestion de donnééesesSSéélection de ligneslection de lignes-- sexe=1 sexe=1 condition logique (rcondition logique (réésultat=0 (faux) ou 1 (vrai) )sultat=0 (faux) ou 1 (vrai) )si vrai : ligne ssi vrai : ligne séélectionnlectionnéée, e, si faux : ligne non ssi faux : ligne non séélectionnlectionnééee-- Exemples de conditionsExemples de conditionsage<=24 poidsnai<2500age<=24 poidsnai<2500 region<>3 obese=region<>3 obese=««ouioui»»

doivent respecter les domainesdoivent respecter les domaines-- Combinaison de conditions avec and, or, notCombinaison de conditions avec and, or, notsexe=1 and csp=5 sexe=1 and csp=5 (et logique)(et logique)sexe=1 or csp=5 sexe=1 or csp=5 (ou inclusif)(ou inclusif)malade=1 and not(csp=5)malade=1 and not(csp=5)sexe=2 and gross=2 and (csp=3 OR nivsco>=2)sexe=2 and gross=2 and (csp=3 OR nivsco>=2)

-- Annulation sAnnulation séélection temporaire :lection temporaire : select select (sans rien (sans rien ……) sinon ) sinon sséélections slections s’’aditionnent (aditionnent (ééquivalent de AND)quivalent de AND)

1212

Gestion de donnGestion de donnééesesSSéélection de lignes lection de lignes etet colonnescolonnes-- But : crBut : crééer table er table «« anthroFanthroF »» àà partir de la table partir de la table «« adultesadultes »»

sséélection colonnes : sexe, taille, poids, tt, thlection colonnes : sexe, taille, poids, tt, thsséélection lignes : femmes non enceinteslection lignes : femmes non enceintes

-- Epidata AnalysisEpidata Analysisread "adultes.rec" read "adultes.rec" /close /close select if sexe=2 and gross=2select if sexe=2 and gross=2keep idadu sexe taille poids tt thkeep idadu sexe taille poids tt thsavedata " anthroF.rec" / replace savedata " anthroF.rec" / replace (cr(crééation table anthroF)ation table anthroF)

!!! IDENTIFIANT(S) !!!!!! IDENTIFIANT(S) !!!ou ou read "adultes.rec" read "adultes.rec" /close /close select if sexe=2 and gross=2select if sexe=2 and gross=2list (list (ouou browse) idadu sexe taille poids tt th browse) idadu sexe taille poids tt th (liste de variables (liste de variables àà afficher)afficher)

1313

Gestion de donnGestion de donnééeses

Changement dChangement d’’unitunitéé statistique statistique -- But : crBut : crééer une variable nombre der une variable nombre d’’adultes par madultes par méénage (nbadult) ou nage (nbadult) ou

somme des revenus par msomme des revenus par méénage (revtotal) nage (revtotal) àà partir de la table partir de la table «« adultesadultes »»

u.s. : adulteu.s. : adulte

u.s. : mu.s. : méénagenage

idmenidmen nbadultnbadult revtotalrevtotal

10001021000102 33 17001700

10001031000103 44 21002100

10001041000104 22 800800

idaduidadu idmenidmen sexesexe revenusrevenus ……

100010201100010201 10001021000102 11 900900

100010202100010202 10001021000102 22 800800

100010203100010203 10001021000102 22 00100010301100010301 10001031000103 11 11001100100010302100010302 10001031000103 22 600600100010303100010303 10001031000103 11 00100010304100010304 10001031000103 11 400400100010401100010401 10001041000104 11 800800100010402100010402 10001041000104 22 00

1414

Gestion de donnGestion de donnééesesChangement dChangement d’’unitunitéé statistiquestatistique

-- Epidata AnalysisEpidata Analysisread "adultes.rec" read "adultes.rec" /close/closeaggregate idmen /sum=aggregate idmen /sum=““revenusrevenus““ /close (possible aussi /save=/close (possible aussi /save=“…“…..””))

drop nrevenusdrop nrevenusrename n to nbadultrename n to nbadultrename sumrevenus to revtotalrename sumrevenus to revtotalsavedata "men_rev.rec" savedata "men_rev.rec" /replace/replace

idmen N Nrevenus SUMrevenus

1000102 3 3 1700

1000103 4 3 2100

1000104 2 2 800

1515

Gestion de donnGestion de donnééeses

Changement dChangement d’’unitunitéé statistique statistique u.s. : adulteu.s. : adulte

u.s. : mu.s. : méénagenage

idmenidmen nbadultnbadult revtotalrevtotal

10001021000102 33 17001700

10001031000103 44 21002100

10001041000104 22 800800

idaduidadu idmenidmen sexesexe revenusrevenus ……

100010201100010201 10001021000102 11 900900

100010202100010202 10001021000102 22 800800

100010203100010203 10001021000102 22 00100010301100010301 10001031000103 11 11001100100010302100010302 10001031000103 22 600600100010303100010303 10001031000103 11 00100010304100010304 10001031000103 11 400400100010401100010401 10001041000104 11 800800100010402100010402 10001041000104 22 00

1616

Gestion de donnGestion de donnééesesOpOpéérateurs sur une seule table rateurs sur une seule table -- sséélection (slection (séélection de lignes) =>lection de lignes) =>

-- projection (sprojection (séélection de colonnes/variables) =>lection de colonnes/variables) =>

-- changement dchangement d’’unitunitéé statistique statistique =>=>(table large devient table longue ou inversement)(table large devient table longue ou inversement)

OpOpéérateurs sur 2 tables et +rateurs sur 2 tables et +-- langage relationnel (intersection, rlangage relationnel (intersection, rééunion, jointure)union, jointure)

-- fusion horizontale (mise en relation) : et =>fusion horizontale (mise en relation) : et =>

-- fusion verticale : et =>fusion verticale : et =>

-- requêtes imbriqurequêtes imbriquééeses

1717

Gestion de donnGestion de donnééesesFusion horizontale Fusion horizontale -- Relation 1:1Relation 1:1-- ButButtable : adusoec(table : adusoec(idaduidadu, , idmenidmen, sexe, age, statmat, csp, nivsco) , sexe, age, statmat, csp, nivsco) n x 7n x 7table : adunutr(table : adunutr(idaduidadu, , idmenidmen, cal, lip, glu, pro) , cal, lip, glu, pro) n x 6n x 6crcrééation table : ation table : adutot(adutot(idaduidadu, sexe, age, statmat, csp, nivsco, cal, lip, glu, pro) , sexe, age, statmat, csp, nivsco, cal, lip, glu, pro) n x 12n x 12

!!! Identifiant commun !!! Identifiant commun idaduidadu !!!!!!

-- Epidata AnalysisEpidata Analysisread "adusoec.rec" read "adusoec.rec" /close/closemerge idadu /file= "adunutr.rec" /tablemerge idadu /file= "adunutr.rec" /tablebrowse browse ouou list list (affichage (affichage éécran)cran)savedata "adutot.rec" /replace savedata "adutot.rec" /replace (cr(crééation table adutot)ation table adutot)

-- Si les n sont diffSi les n sont difféérents (pb de rrents (pb de rééfféérence) ?rence) ?

1818

Gestion de donnGestion de donnééesesFusion horizontale (mise en relation)Fusion horizontale (mise en relation)-- Relation 1:nRelation 1:n-- But But table : adunutr(table : adunutr(idaduidadu, , idmenidmen, cal, lip, glu, pro) , cal, lip, glu, pro) n x 6n x 6table : menage(table : menage(idmenidmen,, datenqm, nbpers, revenus) datenqm, nbpers, revenus) m x 4m x 4 m<=nm<=ncrcrééation table : ation table : adunutrme(adunutrme(idaduidadu, , idmenidmen, cal, lip, glu, pro, datenq, nbpers, revenus) , cal, lip, glu, pro, datenq, nbpers, revenus) n x 9n x 9

!!! Identifiant commun !!! Identifiant commun idmenidmen !!!!!!-- Epidata AnalysisEpidata Analysisreadread "adunutr.rec" /close"adunutr.rec" /closemerge idmen /file="menage.rec"merge idmen /file="menage.rec" /table/tablebrowse browse ouou list list (affichage (affichage éécran)cran)savedata " adunutrme.rec" /replace savedata " adunutrme.rec" /replace (cr(crééation table adunutrme)ation table adunutrme)

-- Si pb de rSi pb de rééfféérence (rence (idmenidmen prpréésent dans adunutr mais pas dans sent dans adunutr mais pas dans menage) ?menage) ?

1919

Gestion de donnGestion de donnééesesFusion horizontale (mise en relation)Fusion horizontale (mise en relation)-- Relation 1:nRelation 1:n

????????

-- Duplication (redondance) des donnDuplication (redondance) des donnéées mes méénage dans table rnage dans table réésultante : sultante : . non unicit. non unicitéé de de idmenidmen. tous adultes d. tous adultes d’’un même mun même méénage ont même valeur des nage ont même valeur des

variables mvariables méénagenage

adunutr.rec

menage.rec

adunutrme.rec

idmenidadu idadu idmen

2020

Gestion de donnGestion de donnééesesRelation 1: n Relation 1: n -- Duplication donnDuplication donnéées mes méénagenage

-- table adunutrme(table adunutrme(idaduidadu, , idmenidmen, cal, lip, glu, pro, datenqm, nbpers, revenus) , cal, lip, glu, pro, datenqm, nbpers, revenus) n x 9n x 9

idaduidadu idmenidmen calcal liplip gluglu propro datenqmdatenqm nbpersnbpers revenusrevenus

100010203100010203 10001021000102 24/10/200024/10/2000 55 1000010000100010206100010206 10001021000102 24/10/200024/10/2000 55 1000010000100020702100020702 10002071000207 31/10/200031/10/2000 77 85008500

100020703100020703 10002071000207 31/10/200031/10/2000 77 85008500100020704100020704 10002071000207 31/10/200031/10/2000 77 85008500100031706100031706 10003171000317 04/11/200004/11/2000 22 1200012000100031803100031803 10003181000318 12/11/200012/11/2000 33 90009000100031806100031806 10003181000318 12/11/200012/11/2000 33 90009000100010203100010203 10001021000102 12/11/200012/11/2000 44 50005000

2121

Gestion de donnGestion de donnééesesFusion 1:n (e.g u.s. menage : u.s. personne)Fusion 1:n (e.g u.s. menage : u.s. personne)

-- NNéécessaire pour certaines analysescessaire pour certaines analyses((éétude conjointe variables mtude conjointe variables méénage et personne)nage et personne)

-- Ne pas utiliser pour analyses u.s. mNe pas utiliser pour analyses u.s. méénagenage!!! Redondance donn!!! Redondance donnéées mes méénages !!!nages !!!

2222

Gestion de donnGestion de donnééesesFusion verticaleFusion verticale

-- But :But :table Tunisie : adutun(table Tunisie : adutun(idaduidadu, , idmenidmen, sexe, age, statmat, csp, nivsco) , sexe, age, statmat, csp, nivsco) nn11 x 7x 7table Maroc : adumar(table Maroc : adumar(idaduidadu, , idmenidmen, sexe, age, statmat, csp, nivsco) , sexe, age, statmat, csp, nivsco) nn22 x 7x 7crcrééation table : ation table : adumag(adumag(idaduidadu, , idmenidmen, sexe, age, statmat, csp, nivsco) , sexe, age, statmat, csp, nivsco) ((nn11++ nn22) x 7) x 7mêmes variables, lignes des 2 tablesmêmes variables, lignes des 2 tables

-- Epidata AnalysisEpidata Analysisread "adutun.rec" /closeread "adutun.rec" /closeappend "adumar.rec" append "adumar.rec" browse browse ouou list list (affichage (affichage éécran)cran)savedata "adumag.rec" /replace savedata "adumag.rec" /replace (cr(crééation table adumag)ation table adumag)

-- ATTENTION : unicitATTENTION : unicitéé de de idaduidadu dans adumag ???? Code pays ????dans adumag ???? Code pays ????

-- Si les variables sont diffSi les variables sont difféérentes ? se passe +/rentes ? se passe +/-- bien suivant logiciel.bien suivant logiciel.

2323

Gestion de donnGestion de donnééesesRequête imbriquRequête imbriquééee-- sséélection de lignes dlection de lignes d’’une table une table sur une condition utilisant une variable dsur une condition utilisant une variable d’’une autre tableune autre table

-- adunutr(adunutr(idaduidadu, , idmenidmen, cal, lip, glu, pro) n x 6, cal, lip, glu, pro) n x 6

-- sséélectionner dans cette table les individus dont le mlectionner dans cette table les individus dont le méénage nage comprend plus de 2 adultes comprend plus de 2 adultes

-- ? variable nbadult dans : menage(? variable nbadult dans : menage(idmenidmen, datenqm, nbadult, revtotal), datenqm, nbadult, revtotal)

-- certains langages (e.g. SQL, mais pas Epidata Analysis) : certains langages (e.g. SQL, mais pas Epidata Analysis) : requêtes imbriqurequêtes imbriquéées directes sans fusion des tableses directes sans fusion des tables

2424

Gestion de donnGestion de donnééeses

Requête imbriquRequête imbriquééee

adunutr.rec

menage.rec

adunutr2.rec

2525

Gestion de donnGestion de donnééeses(pseudo) requête imbriqu(pseudo) requête imbriquéée Epidatae Epidata-- mise en relation (fusion temporaire) tables adunutr et menagemise en relation (fusion temporaire) tables adunutr et menage-- sséélection de ligneslection de lignes-- crcrééation table adunutr2 contenant seulement les variables ation table adunutr2 contenant seulement les variables

adunutr pour les u.s. sadunutr pour les u.s. séélectionnlectionnééeses-- Epidata AnalysisEpidata Analysisread "adunutr.rec" /close read "adunutr.rec" /close merge idmen /file="menage.rec" /tablemerge idmen /file="menage.rec" /tableselect if nbadult>=2select if nbadult>=2keep idadu idmen cal lip glu prokeep idadu idmen cal lip glu prosave "adunutr2.rec" /replacesave "adunutr2.rec" /replace

2626

Gestion de donnGestion de donnééeses

SSéélection lignes, colonneslection lignes, colonnes

Fusion verticale, horizontaleFusion verticale, horizontale

!!!! V!!!! Véérifier la table rrifier la table réésultante !!!sultante !!!-- nombre de lignes ?nombre de lignes ?-- nombre de colonnes ?nombre de colonnes ?

-- mise en relation correcte ?mise en relation correcte ?

2727

Gestion de donnGestion de donnééesesConservationConservation-- sséécuritcuritéé-- sauvegardessauvegardes

PrPrééparation avant analyseparation avant analyse-- sséélections (individus, variables)lections (individus, variables)-- mise en relation, fusion de fichiersmise en relation, fusion de fichiers-- calcul de nouvelles variablescalcul de nouvelles variables-- recodagesrecodages-- documentation (versions fichiers, documentation (versions fichiers, dictionnaires)dictionnaires)

Outil logicielOutil logiciel-- SGBD (e.g. MSSGBD (e.g. MS-- Access, Oracle, Access, Oracle, ……))-- gestion de donngestion de donnéées dans logiciels es dans logiciels

statistiques (SAS, Stata, SPSS) statistiques (SAS, Stata, SPSS) ou gou géénnééralistes (EpiData)ralistes (EpiData)

Data manager Data manager spspéécialiste disciplinecialiste discipline

1- Accès aux données

2- Gestion des données

3- Analyse des données

4- Présentation des données

2828

A vous

Gestion de donnGestion de donnééeses

Exercices pratiques Exercices pratiques gestion de donngestion de donnéées (1)es (1)-- lecture de fichiers, visualisationlecture de fichiers, visualisation-- vvéérifications (tris, stat. rifications (tris, stat. éélléémentaires)mentaires)-- sséélection de lignes, colonneslection de lignes, colonnes-- changement dchangement d’’unitunitéé statistiquestatistique-- fusion de tablesfusion de tables-- sauvegarde des nouvelles tablessauvegarde des nouvelles tables-- documentationdocumentation

2929

Gestion de donnGestion de donnééesesModModèèle de donnle de donnéées pour les exerciceses pour les exercices

Ménage

Femme adulte

tableauu.s. x var.menages Idfem : clé primaire (unicité)

Tableauu.s. x var.femmes

Idmen : clé secondairecode le lien

Idmen : clé primaire (unicité)

Lien ménage – femmepar idmen

3030

Gestion de donnGestion de donnééesesConservationConservation-- sséécuritcuritéé-- sauvegardessauvegardes

PrPrééparation avant analyseparation avant analyse-- sséélections (individus, variables)lections (individus, variables)-- mise en relation, fusion de fichiersmise en relation, fusion de fichiers- calcul de nouvelles variables- recodages-- documentation (versions fichiers, documentation (versions fichiers, dictionnaires)dictionnaires)

Outil logicielOutil logiciel-- SGBD (e.g. MSSGBD (e.g. MS-- Access, Oracle, Access, Oracle, ……))-- gestion de donngestion de donnéées dans logiciels es dans logiciels

statistiques (SAS, Stata, SPSS) statistiques (SAS, Stata, SPSS) ou gou géénnééralistes (EpiData)ralistes (EpiData)

Data manager Data manager spspéécialiste disciplinecialiste discipline

1- Accès aux données

2- Gestion des données

3- Analyse des données

4- Présentation des données

3131

Gestion de donnGestion de donnééeses

DiffDifféérents types statistiques de variablesrents types statistiques de variables-- QuantitativeQuantitative . continue (taille en cm : 175,6 ; ing. continue (taille en cm : 175,6 ; ingéérréé : 2456 kcal): 2456 kcal)

. discr. discrèète (nombre de personnes dans mte (nombre de personnes dans méénage : 12)nage : 12)

ValeursValeurs dans dans domainedomaine (intervalle)(intervalle)

-- QualitativeQualitative . ordonn. ordonnéée (e (éétat habitat : bon , moyen, mauvais)tat habitat : bon , moyen, mauvais). quelconque (statut matrimonial : . quelconque (statut matrimonial :

ccéélibataire, marilibataire, mariéé, veuf, divorc, veuf, divorcéé, autre), autre). dichotomique (sexe : F/M, fumeur : oui/non). dichotomique (sexe : F/M, fumeur : oui/non)

ModalitModalitéés exclusives, exhaustives (cats exclusives, exhaustives (catéégorie gorie «« autreautre »»))

ModalitModalitéés dans s dans domainedomaine (liste de modalit(liste de modalitéés)s)

3232

Gestion de donnGestion de donnééeses

DiffDifféérents types informatiques de variables rents types informatiques de variables -- numnuméériques (entiers, rriques (entiers, rééels)els)-- caractcaractèèrere((-- date : type numdate : type numéérique, nombre de jours depuis date de rique, nombre de jours depuis date de rrééfféérence , souvent le 1rence , souvent le 1erer janvier 1960)janvier 1960)

Notion de codageNotion de codage

3333

Gestion de donnGestion de donnééesesVariables numVariables numéériquesriques

-- entiers : 0, 1, 15, 345entiers : 0, 1, 15, 345-- rrééels : 3.56, 100, els : 3.56, 100, --2.52.5-- longueur, dlongueur, déécimales ( #, ###, ####.##)cimales ( #, ###, ####.##)-- opopéérations algrations algéébriques : +, x, briques : +, x, --, /, log, ^2, , /, log, ^2, ……..-- comparaisons : < >, <=, =, <>comparaisons : < >, <=, =, <>-- valeur manquante : .valeur manquante : .

-- CrCrééation de variable dans Epidata Analysis (e.g. variable ration de variable dans Epidata Analysis (e.g. variable rééelle)elle)define caltot ####.##define caltot ####.##caltot=calprot+calglu+callip+calalccaltot=calprot+calglu+callip+calalcouougen caltot=calprot+calglu+callip+calalcgen caltot=calprot+calglu+callip+calalclabel caltot label caltot «« Energie totale (calories)Energie totale (calories) »»

possible prpossible prééciser le type (i :entier, f: rciser le type (i :entier, f: rééel)el)gen i var= gen i var= …….. .. gen f var=gen f var=…….. ..

3434

Gestion de donnGestion de donnééesesVariables caractVariables caractèère (alphanumre (alphanuméériques)riques)

-- contenu : obcontenu : obèèse, oui, non, c2, 145, 4.5, pierrese, oui, non, c2, 145, 4.5, pierre-- longueurlongueur-- pas dpas d’’opopéérations algrations algéébriquesbriques-- comparaison =comparaison =-- fonctions spfonctions spéécifiques (sous chacifiques (sous chaîînes, nes, ……))-- valeur manquante : chavaleur manquante : chaîîne videne vide

-- CrCrééation de variable dans Epidata Analysisation de variable dans Epidata Analysisdefine define nom ________nom ________ (nom, type caract(nom, type caractèère, longueur 8)re, longueur 8)nom=nom=expression expression ou ou gen s nom=expressiongen s nom=expression

label nom label nom ««Nom de famille de la personneNom de famille de la personne»»

-- EpidEpidéémiologie / statistique : peu utilismiologie / statistique : peu utiliséées en pratiquees en pratique

3535

Gestion de donnGestion de donnééesesVariables dateVariables date

-- type numtype numéérique, nombre de jours depuis le 1rique, nombre de jours depuis le 1erer janvier 1960janvier 1960-- diffdifféérents formats rents formats -- opopéérateurs, comparaisons rateurs, comparaisons

(~ idem variables num(~ idem variables numéériques)riques)-- valeur manquante : .valeur manquante : .

-- CrCrééation de variable dans Epidataation de variable dans Epidatadefine datvis <dd/mm/yyyy>define datvis <dd/mm/yyyy>datvis=dmy(jourvis,moisvis, anvis) datvis=dmy(jourvis,moisvis, anvis) (par exemple) (par exemple) datvis=todaydatvis=todayouougen d datvis=dmy(jourvis,moisvis, anvis)gen d datvis=dmy(jourvis,moisvis, anvis)

label datvis label datvis ««Date de visiteDate de visite»»

3636

Gestion de donnGestion de donnééesesNotion de codage Notion de codage -- variable quantitative : variable quantitative : unitunitééss

taille : 1.756 m, 175.6 cm, 1756 mmtaille : 1.756 m, 175.6 cm, 1756 mm

-- variable qualitative : variable qualitative : codescodes (beaucoup de choix possibles)(beaucoup de choix possibles)Satut matrimonial :Satut matrimonial :ValeursValeurs ------------------------------ DiffDifféérents codages possibles rents codages possibles ------------------------------

CCéélibatairelibataire CCéélibatairelibataire CELCEL CC 11 55 44MariMariéé(e)(e) MariMariéé MARMAR MM 22 44 55Veuf(ve)Veuf(ve) VeufVeuf VEUVEU VV 33 33 66DivorcDivorcéé(e)(e) DivorcDivorcéé DIVDIV DD 44 22 77Autre Autre AutreAutre AUTAUT AA 55 11 88

-- !!! codes !!! codes ≠≠ valeurs de la variable (cf. analyse) !!!valeurs de la variable (cf. analyse) !!!

-- documentation : unitdocumentation : unitéés, codes (variables de base ET calculs, codes (variables de base ET calculéées)es)

3737

Gestion de donnGestion de donnééesesCodage valeurs manquantes Codage valeurs manquantes -- u.s. : mu.s. : méénage (dnage (dééfinition finition ……))-- variable : variable : «« nombre de personnes dans le mnombre de personnes dans le méénagenage »»

type type statistique statistique : quantitative discr: quantitative discrèète (1 te (1 àà 20)20)informatique :informatique : variable nbpers numvariable nbpers numéérique rique

-- Valeurs manquantes ??Valeurs manquantes ??statistique /statistique /éépidpidéémiologie :miologie : on non n’’a pas la donna pas la donnéée pour ce me pour ce méénagenageinformatique :informatique : on non n’’a pas affecta pas affectéé de valeur pour ce mde valeur pour ce méénage (vide)nage (vide)

Choix possibles :Choix possibles :-- codage(s) spcodage(s) spéécifique(s) manquants (e.g. code 9 ou 99 ou 9999)cifique(s) manquants (e.g. code 9 ou 99 ou 9999)

=> manquant => manquant «« statistiquestatistique »» diffdifféérent de rent de «« manquant informatiquemanquant informatique »»on peut imaginer avoir on peut imaginer avoir àà la fois des . (i.e. on nla fois des . (i.e. on n’’a rien saisi)a rien saisi)

et des 99 (on a saisi code manquant)et des 99 (on a saisi code manquant)-- codage par non affectation de valeur (e.g. pas de saisie) si pacodage par non affectation de valeur (e.g. pas de saisie) si pas la donns la donnééee

=> les deux notions se confondent=> les deux notions se confondent

3838

Gestion de donnGestion de donnééesesVariables transformVariables transforméées (recodages)es (recodages)-- Taille en m (1,756) => Taille en cm (175,6) Taille en m (1,756) => Taille en cm (175,6)

quantitatif => quantitatifquantitatif => quantitatif-- CatCatéégories dgories d’’âgeâge

18 <= âge < 25 18 <= âge < 25 : cat: catéégorie 1gorie 125<=âge < 4025<=âge < 40 : cat: catéégorie 2gorie 240<= âge40<= âge : cat: catéégorie 3gorie 3

quantitatif => qualitatifquantitatif => qualitatif-- AnAnéémie :mie :

hb <110 g /Lhb <110 g /L : oui: ouihb>=110 g/L hb>=110 g/L : non: non

quantitatif => dichotomiquequantitatif => dichotomique

3939

Variables transformVariables transforméées (recodages)es (recodages)

-- MariMariéé (oui/non) :(oui/non) :statut matrimonial = maristatut matrimonial = mariéé : oui: ouistatut matrimonial = cstatut matrimonial = céélibataire,veuf, divorclibataire,veuf, divorcéé, autre , autre : non: non

qualitatif qualitatif «« quelconquequelconque »» => dichotomique=> dichotomiquedichotomique dichotomique : : codage en 1/2 ou en 1/0codage en 1/2 ou en 1/0

-- Variable qualitative => indicatrices (pour les modVariable qualitative => indicatrices (pour les modèèles)les)une nouvelle variable en 0/1 (=indicatrice) pour chaque une nouvelle variable en 0/1 (=indicatrice) pour chaque modalitmodalitéé de la variable qualitativede la variable qualitativestatut matrimonial : 5 modalitstatut matrimonial : 5 modalitéés => 5 indicatricess => 5 indicatrices

Gestion de donnGestion de donnééeses

4040

Gestion de donnGestion de donnééesesVariables calculVariables calculéées (indices, scores)es (indices, scores)A rA rééflflééchir en fonction de lchir en fonction de l’é’étape tape «« Analyse des donnAnalyse des donnééeses »»

-- IMC = poids/tailleIMC = poids/taille22 kg/mkg/m22 (quantitatif => quantitatif)(quantitatif => quantitatif)

-- Equipement du mEquipement du méénagenageWC (oui/non), WC (oui/non), éélectricitlectricitéé (oui/non), eau (oui/non), (oui/non), eau (oui/non), éégout (oui/non)gout (oui/non)

=> score d=> score d’é’équipement : 0 quipement : 0 àà 4 (quantitative discr4 (quantitative discrèète)te)

-- questionnaire de frquestionnaire de frééquence activitquence activitéé physiquephysique=> d=> déépense pense éénergnergéétique totaletique totale

-- questionnaire questionnaire ééchelle dchelle d’’attitudesattitudes=> attitude vis=> attitude vis--àà--vis de lvis de l’’obobéésitsitéé

4141

Gestion de donnGestion de donnééesesVariables transformVariables transforméées (unites (unitéés)s)

taille => taille2taille => taille2taille en m taille en cmtaille en m taille en cm

1.5341.534 153.4153.4

gen taille2=taille*100gen taille2=taille*100label taille2 label taille2 ««Taille en cmTaille en cm»»

agejour => agemoisagejour => agemoisâge en jours âge en mois dâge en jours âge en mois déécimauxcimaux

567567 18.6218.62

gen agemois=agejour/30.4375gen agemois=agejour/30.4375label agemois label agemois ««Age en moisAge en mois»»

VVéérifier les recodages (e.g.rifier les recodages (e.g. describe taille taille2describe taille taille2))

4242

Gestion de donnGestion de donnééeses

Variables transformVariables transforméées (recodages)es (recodages)-- qualitatif => qualitatifqualitatif => qualitatifStatmat : type numStatmat : type numéérique valeurs (1,2,3,4,5) rique valeurs (1,2,3,4,5)

((ccéélibataire, marie, veuf, divorclibataire, marie, veuf, divorcéé, autre), autre)⇒⇒ statmat3 : type numstatmat3 : type numéérique valeurs (1,2,3) rique valeurs (1,2,3)

(c(céélibataire, marilibataire, mariéé, autre), autre)

define statmat3 #define statmat3 #recode statmat to statmat3 1=1 2=2 3,4,5=3recode statmat to statmat3 1=1 2=2 3,4,5=3label statmat3 label statmat3 ««Statut matrimonial en 3 classesStatut matrimonial en 3 classes»»(possible aussi d(possible aussi d’’attribuer des attribuer des «« labelsvalueslabelsvalues »» (exercices)(exercices)

-- VVéérifier le recodage (rifier le recodage (tables statmat statmat3tables statmat statmat3))-- Mettre Mettre àà jour le dictionnaire de variablesjour le dictionnaire de variables

4343

Gestion de donnGestion de donnééesesVariables transformVariables transforméées (recodages)es (recodages)

-- qualitatif => qualitatif dichotomiquequalitatif => qualitatif dichotomique

Statmat : type numStatmat : type numéérique valeurs (1,2,3,4,5)rique valeurs (1,2,3,4,5)(c(céélibataire, marilibataire, mariéé, veuf, divorc, veuf, divorcéé, autre), autre)

⇒⇒ marie : type nummarie : type numéérique valeurs (1,0) rique valeurs (1,0) (mari(mariéé, autre), autre)

define marie #define marie #recode statmat to marie (2=1) (1,3,4,5=0)recode statmat to marie (2=1) (1,3,4,5=0)ou ou select statmat<>. select statmat<>. (sinon les manquants sont recod(sinon les manquants sont recodéés en 0)s en 0)gen i marie=(statmat=2)gen i marie=(statmat=2)selectselectlabel marie label marie ««Statut matrimonial en 2 classes : mariStatut matrimonial en 2 classes : mariéé ou non)ou non)»»

-- VVéérifier le recodage ( e.g. rifier le recodage ( e.g. freq statmat marie freq statmat marie ))-- Mettre Mettre àà jour le dictionnaire de variablesjour le dictionnaire de variables

4444

Gestion de donnGestion de donnééesesVariables transformVariables transforméées (recodages)es (recodages)

-- Quantitatif => qualitatifQuantitatif => qualitatifage (âge en annage (âge en annéées) : type numes) : type numéérique valeurs 18 rique valeurs 18 àà 7979

=> catage3 : type num=> catage3 : type numéérique 1: 18 rique 1: 18 àà 24, 2: 25 24, 2: 25 àà 39, 3: 40 et +39, 3: 40 et +

define catage3 #define catage3 #recode age to catage3 lorecode age to catage3 lo--24.999=1 2524.999=1 25--39.999=2 4039.999=2 40--hi=3hi=3label catage3 label catage3 ««Age en 3 classesAge en 3 classes»»

-- VVéérifier recodage (min et max de age par catrifier recodage (min et max de age par catéégorie de catage3)gorie de catage3)means age catage3means age catage3ou bien ou bien sort age sort age browse age catage3browse age catage3

-- Mettre Mettre àà jour le dictionnaire de variablesjour le dictionnaire de variables

4545

Gestion de donnGestion de donnééesesVariables transformVariables transforméées (recodages)es (recodages)

-- Variable qualitative => indicatricesVariable qualitative => indicatricesStatmat : type numStatmat : type numéérique valeurs (1,2,3,4,5) (crique valeurs (1,2,3,4,5) (céélibataire, marilibataire, mariéé, veuf, , veuf,

divorcdivorcéé, autre), autre)=> 5 indicatrices : type num=> 5 indicatrices : type numéérique valeurs (1,0)rique valeurs (1,0)

idaduidadu statmatstatmat mat1mat1 mat2mat2 mat3mat3 mat4mat4 mat5mat5

100010203100010203 33 00 00 11 00 00

100010206100010206 11 11 00 00 00 00

100020702100020702 11 11 00 00 00 00

100020703100020703 44 00 00 00 11 00

100020704100020704 22 00 11 00 00 00

100031706100031706 55 00 00 00 00 11

100031803100031803 55 00 00 00 00 11

4646

Variables transformVariables transforméées (recodages)es (recodages)-- Variable qualitative => indicatricesVariable qualitative => indicatricesselect statmat<>. select statmat<>. (sinon les manquants sont recod(sinon les manquants sont recodéés en 0)s en 0)gen i mat1=(statmat=1) gen i mat1=(statmat=1) (si statmat=1 mat1=1 et 0 sinon)(si statmat=1 mat1=1 et 0 sinon)gen i mat2=(statmat=2) gen i mat2=(statmat=2) (si statmat=2 mat2=1 et 0 sinon)(si statmat=2 mat2=1 et 0 sinon)gen i mat3=(statmat=3) gen i mat3=(statmat=3) (si statmat=3 mat3=1 et 0 sinon)(si statmat=3 mat3=1 et 0 sinon)gen i mat4=(statmat=4) gen i mat4=(statmat=4) (si statmat=4 mat4=1 et 0 sinon)(si statmat=4 mat4=1 et 0 sinon)gen i mat5=(statmat=5) gen i mat5=(statmat=5) (si statmat=5 mat5=1 et 0 sinon)(si statmat=5 mat5=1 et 0 sinon)selectselect

VVéérifier les nouvelles variablesrifier les nouvelles variablesfreq statmat freq statmat freq mat1 mat2 mat3 mat4 mat5freq mat1 mat2 mat3 mat4 mat5(freq de mat1=1 : fr(freq de mat1=1 : frééquence de modalitquence de modalitéé 1 de statmat, etc..)1 de statmat, etc..)

-- Utile pour codage des variables qualitatives dans les modUtile pour codage des variables qualitatives dans les modèèleslese.g. e.g. regress imc mat1 mat2 mat3 mat4 (regress imc mat1 mat2 mat3 mat4 (àà voir + tardvoir + tard……))

Gestion de donnGestion de donnééeses

4747

Gestion de donnGestion de donnééesesCalcul nouvelles variables (indices, scores)Calcul nouvelles variables (indices, scores)

-- Calcul âge :Calcul âge :àà partir de datenq, datnai : type datepartir de datenq, datnai : type date

gen agean= (datenq gen agean= (datenq –– datnai)/365.25datnai)/365.25label agean label agean ««Age en annAge en annééeses»»describe ageandescribe agean

-- Calcul IMC (indice)Calcul IMC (indice)àà partir de poids (poids en kg), taille (taille en m)partir de poids (poids en kg), taille (taille en m)

gen imc= poids / (taille^2)gen imc= poids / (taille^2)label imc label imc ««Indice de masse corporelle en kg/m2Indice de masse corporelle en kg/m2»»describe imcdescribe imc

-- Exemple : recodage IMC >=30kg/mExemple : recodage IMC >=30kg/m22 (ob(obéésitsitéé))select imc<>.select imc<>.generate obese=(imc>=30) generate obese=(imc>=30) selectselectlabel obese label obese ««Personne obPersonne obèèse (1:oui, 0:non)se (1:oui, 0:non) »»means imc obesemeans imc obese

-- VVéérifier les nouvelles variables rifier les nouvelles variables -- Mettre Mettre àà jour le dictionnaire de variablesjour le dictionnaire de variables

4848

Gestion de donnGestion de donnééesesCalcul nouvelles variables (indices, scores)Calcul nouvelles variables (indices, scores)

-- e.g. score de biens posse.g. score de biens possééddéés par le ms par le méénagenageàà partir de frigo, malav, cuisi, tv, voitu, para, ordi, internpartir de frigo, malav, cuisi, tv, voitu, para, ordi, interntoutes de type #, 1:oui 0:nontoutes de type #, 1:oui 0:non

gen i nbiens=frigo+malav+ cuisi + tv+ voitu+para+ordi+interngen i nbiens=frigo+malav+ cuisi + tv+ voitu+para+ordi+intern=> nbiens : domaine (valeurs) de 0 => nbiens : domaine (valeurs) de 0 àà 88

Remarque : possible pondRemarque : possible pondéérer (valeur monrer (valeur monéétaire, autre taire, autre ……))gen i val_biens=400*frigo+500*malav+ 250*cuisi +250* tvgen i val_biens=400*frigo+500*malav+ 250*cuisi +250* tv

+ 5000*voitu+300*para+1000*ordi+250*inter+ 5000*voitu+300*para+1000*ordi+250*internn-- Examen distribution :Examen distribution :freq nbiens /mfreq nbiens /mbar nbiensbar nbiensRecodage e.g. 3 catRecodage e.g. 3 catéégories (voir signification en fonction rgories (voir signification en fonction réépartition)partition)define nbiensc3 #define nbiensc3 #recode nbiens to nbiensc3 0,1,2=1 3,4,5=2 6,7,8=3recode nbiens to nbiensc3 0,1,2=1 3,4,5=2 6,7,8=3freq nbiens nbiensc3freq nbiens nbiensc3

-- VVéérifier les nouvelles variables rifier les nouvelles variables -- Mettre Mettre àà jour le dictionnairejour le dictionnaire de variablesde variables

4949

Gestion de donnGestion de donnééesesVariables transformVariables transforméées (recodages)es (recodages)

Variables calculVariables calculéées (indices, scores)es (indices, scores)

Rajouter variables dans nouvelle(s) table(s)Rajouter variables dans nouvelle(s) table(s)read read ""table_entree.rectable_entree.rec"" /close/close

calculs nouvelle(s) variable(s)calculs nouvelle(s) variable(s)recodagesrecodages ……labels labels ……

savedata savedata ""table_sortie.rectable_sortie.rec"" /replace/replace

Mettre Mettre àà jour le dictionnaire de variablesjour le dictionnaire de variables

5050

Gestion de donnGestion de donnééesesConservationConservation-- sséécuritcuritéé-- sauvegardessauvegardes

PrPrééparation avant analyseparation avant analyse-- sséélections (individus, variables)lections (individus, variables)-- mise en relation, fusion de fichiersmise en relation, fusion de fichiers-- calcul de nouvelles variablescalcul de nouvelles variables-- recodagesrecodages-- documentation (versions fichiers, documentation (versions fichiers, dictionnaires)dictionnaires)

Outil logicielOutil logiciel-- SGBD (e.g. MSSGBD (e.g. MS-- Access, Oracle, Access, Oracle, ……))-- gestion de donngestion de donnéées dans logiciels es dans logiciels

statistiques (SAS, Stata, SPSS) statistiques (SAS, Stata, SPSS) ou gou géénnééralistes (EpiData)ralistes (EpiData)

Data manager Data manager spspéécialiste disciplinecialiste discipline

1- Accès aux données

2- Gestion des données

3- Analyse des données

4- Présentation des données

5151

Gestion de donnGestion de donnééeses

QualitQualitéé TraTraççabilitabilitéé DocumentationDocumentation

Documenter les opDocumenter les opéérations sur les fichiers rations sur les fichiers (fusions, cr(fusions, crééation de variables)ation de variables)

Mise Mise àà jour des dictionnaires de variablesjour des dictionnaires de variables

Programmation vs. mode interactifProgrammation vs. mode interactifEntêtes / commentaires dans les programmes (// )Entêtes / commentaires dans les programmes (// )

5252

TraTraççabilitabilitéé : gestion et analyse: gestion et analyse

Programmes : oui !

5353

TraTraççabilitabilitéé : gestion et analyse: gestion et analyseEntête des programmes (e.g. Epidata Analysis)Entête des programmes (e.g. Epidata Analysis)

//**************************************************************//******************************************************************************************************************************//// Nom du programmeNom du programme :: gen_femmes2.pgmgen_femmes2.pgm//// Type de programmeType de programme :: Epidata AnalysisEpidata Analysis//// AuteurAuteur :: PT, IRD, UR 106 Nutrition, Alimentation, SociPT, IRD, UR 106 Nutrition, Alimentation, Sociééttééss//// DateDate :: 08/05/200708/05/2007//// LieuLieu :: IRD, Montpellier IRD, Montpellier –– IRD, TunisIRD, Tunis// // ButBut :: Calculs et recodages donnCalculs et recodages donnéées femmes en pres femmes en prééalable alable àà analyseanalyse// facteurs de risque de l// facteurs de risque de l’’obobéésitsitéé// // // // DonnDonnéées en entres en entrééee ::// femmes.rec (u.s. : femme adulte, n=1849)// femmes.rec (u.s. : femme adulte, n=1849)////// // DonnDonnéées en sortiees en sortie :: femmes2.rec (n=1763) femmes2.rec (n=1763) // // // // Remarques diverses :Remarques diverses : pgm reprix de exercices Stata SED et PTpgm reprix de exercices Stata SED et PT//**************************************************************//**********************************************************************************************************************************ÀÀ partir dpartir d’’ici les instructions de programmation proprement ditesici les instructions de programmation proprement dites

5454

TraTraççabilitabilitéé : gestion et analyse: gestion et analyse

read "femmes.rec "read "femmes.rec " /close/close// cr// crééation nouvelle variable imcation nouvelle variable imcgen imc=poids/(taille/100)^2gen imc=poids/(taille/100)^2label imc "Indice de masse corporelle en kg/m2 "label imc "Indice de masse corporelle en kg/m2 "// imc en 4 classes (bornes OMS : maigreur, surpoids, // imc en 4 classes (bornes OMS : maigreur, surpoids, obobéésitsitéé))define imc4 #define imc4 #label imc4 "Indice de masse corporelle en 4 classes"label imc4 "Indice de masse corporelle en 4 classes"// // àà ce stade elle n'a que des valeurs manquantesce stade elle n'a que des valeurs manquantesrecode imc to imc4 lorecode imc to imc4 lo--18.4999=1 18.5018.4999=1 18.50--24.9999=2 25.024.9999=2 25.0--29.9999=3 3029.9999=3 30--hi=4hi=4// on peut assigner des labels aux codes ainsi cr// on peut assigner des labels aux codes ainsi créééésslabelvalue imc4 /1="maigre" /2="normal" /3="surpoids" /4="oblabelvalue imc4 /1="maigre" /2="normal" /3="surpoids" /4="obèèse"se"// codage obesit// codage obesitéédefine obesite #define obesite #recode imc to obesite lorecode imc to obesite lo--29.999=0 3029.999=0 30--hi=1hi=1

// sauvegarde nouvelles variables dans table femmes2// sauvegarde nouvelles variables dans table femmes2savedata "femmes2.rec"savedata "femmes2.rec" /replace/replace

Commentaires dans les programmesCommentaires dans les programmes

5555

Gestion de donnGestion de donnééeses

A vousExercices pratiques Exercices pratiques gestion de donngestion de donnéées (2)es (2)-- crcrééation de nouvelles variables, indicesation de nouvelles variables, indices-- recodagesrecodages-- sauvegarde des nouvelles variablessauvegarde des nouvelles variables-- éécriture de programmes EpiData Analysiscriture de programmes EpiData Analysis-- mise mise àà jour dictionnaire de variablesjour dictionnaire de variables