getting research statistics for the...

Actes du neuvième séminaire

Innovation dans la fourniture et la production de statistiques:

importance des nouvelles technologies

Helsinki, Finnland, 20 et 21 janvier 2000

9e séminaire CEIES – Innovation dans la fourniture et la production de statistiques 1

2 9e séminaire CEIES – Innovation dans la fourniture et la production de statistiques

CONTENU

Page

1re journée: Thème 1 : Nouvelles technologies

Entrepôt de données et INS G. Zettl.................................................................7

Application des techniques de gestion des entrepôts de données dans un environnement statistique

M. Vucsan..........................................................24

SISSIEI - Système d'information statistique sur les entreprises et les institutions

E. Giovannini.....................................................36

Nouvelles technologies en statistique et exigences des utilisateurs vis-à-vis des institutions centrales

Ch. Androvitsaneas............................................57

2e journée: Thème 2 : Situation actuelle

État de la questionProblèmes/Solutions/Technologies

D. Burget...........................................................67

Collecte des données, charge des répondants, répertoires d'entreprises

J. Grandjean......................................................80

Expérience en matière de diffusion de données sur le Web- Le service en ligne StatFin

S. Björkqvist.......................................................91

Acces aux donnees contre protection de la vie privee : perspective de l'utilisateur analytique

U. Trivellato.......................................................98

Obligation de fournir des informations et utilisation des statistiques dans les entreprises

R. Suominen.....................................................116

Statistiques: XML-EDI pour la collecte, l'échange et la diffusion de données

W. Knüppel......................................................122

Thème 3: Logiciels disponibles

Politique en matière de TI pour le SSERéponse d'Eurostat

D. Defays.........................................................137

Récapitulation par le président du sous-comité P. Geary...........................................................141

Liste des participants.................................................................................................................. 145


1re journée:THÈME 1 :

NOUVELLES TECHNOLOGIES


ENTREPÔT DE DONNÉES ET INS

Günther Zettl*

Institut national de statistique autrichienHintere Zollamtsstr. 2bA-1033 [email protected]

Introduction

Depuis quelques années, les instituts de statistique (INS en abrégé: instituts nationaux de statistique) du monde entier doivent faire face à nombre de demandes, d'attentes et de problèmes nouveaux:

Leurs missions sont plus complexes et plus vastes; Dans le même temps, les effectifs et les ressources financières sont gelés voire réduits; Les fournisseurs de données souhaitent voir diminuer les dépenses liées à leur obligation de

déclaration; Les utilisateurs de données ont une approche entièrement nouvelle de la recherche, de la

consultation et de la réutilisation des données: le rôle des intermédiaires (par exemple, le personnel du service d'information d'un institut de statistique) est devenu secondaire; les clients sont maintenant habitués à collecter des informations de façon (inter)active, en ligne et "à la demande" grâce à des fonctions de recherche appropriées et à les traiter sur leur ordinateur personnel. Cette clientèle sans cesse croissante attend des fournisseurs d'informations qu'ils s'adaptent à cette nouvelle situation;

Les besoins des responsables politiques, administratifs et économiques en statistiques actuelles, de grande qualité et comparables au niveau international pour étayer les processus de décisions, augmentent régulièrement;

Les progrès techniques réalisés dans le secteur informatique (cycles d'innovation de plus en plus courts) s'accompagnent d'un facteur d'incertitude important en ce qui concerne les investissements à long terme: le produit ou la technique choisie aujourd'hui peut être obsolète dès demain.

Satisfaire ces exigences, résoudre ces problèmes et répondre de façon souple à des attentes futures nullement prévisibles, voilà une mission qui s'apparente à la quadrature du cercle. À ce propos, Bo Sundgren (institut de statistique suédois) écrit:

"Répondre aux attentes, aux demandes et aux exigences émanant d'un environnement de plus en plus dynamique constitue un défi pour un institut de statistique moderne. La société elle-même, dont les statistiques sont le reflet, évolue de plus en plus rapidement. En amont comme en aval, les systèmes d'information statistiques gérés par les instituts de statistique doivent être plus variables et plus souples. Un INS doit envisager des actions au niveau des systèmes pour faire face à la plus grande variabilité requise dans les échanges de données avec l'extérieur, alors

* Günther Zettl (né en 1961) a poursuivi des études de gestion d'entreprise (spécialisation: informatique) à l'université de sciences économiques de Vienne. En 1988, il a rejoint le service informatique de l'institut central de statistique (maintenant "institut fédéral de statistique autrichien"). Depuis 1995, il dirige l'unité de "gestion centrale des données", principalement chargée des systèmes de méta-informations statistiques ainsi que des concepts et technologies TI modernes (COM/DCOM, XML, entrepôt de données). Il participe en outre à plusieurs équipes de projet au sein d'ÖSTAT (équipe 5 chargée du projet de réorganisation Diebold, du projet "SDSE" (système de réalisation des enquêtes statistiques) et du groupe de travail STNE ("statistiques, réseaux télématiques et EDI") d'EUROSTAT.


même que les ressources financières sont gelées ou en diminution. Il ne suffit pas de faire plus ou plus vite. Une réorganisation plus radicale s'impose". [SUNDGREN 1996]

Des initiatives ponctuelles ne suffisent pas au niveau des systèmes. Il serait plus approprié de prendre un ensemble de mesures cohérentes d'ordre organisationnel, statistique et technique. Comme les données sont au cœur du processus de production statistique et que l'ordinateur est devenu le principal outil de travail des statisticiens, l'élaboration d'un projet stratégique global pour l'utilisation de l'informatique (avec un accent particulier sur la gestion des (méta)données (voir [FROESCHL 1999a])) joue un rôle important à cet égard.

On peut considérer la production de statistiques sous différents angles. Dans l'un des modèles les plus simples, l'INS est défini comme un système de traitement des données composé de deux interfaces (graphique 1).

Graphique 1

1. Au niveau des entrées, les données brutes sont communiquées par les fournisseurs de données (répondants, répertoires de données existants) au "système INS".

2. Au niveau des sorties, les résultats statistiques (données et métadonnées à divers niveaux de détail et sous différentes formes) sont transmis aux utilisateurs de données.

De nombreux INS travaillent à des projets informatiques destinés à moderniser le "système INS" et ses interfaces en vue de les adapter aux nouvelles exigences.

Concernant les entrées, la limitation des contraintes imposées aux répondants (principalement les entreprises) est souvent au cœur des préoccupations. L'un des principaux projets dans ce domaine s'appelle TELER; il a été mis au point par l'institut de statistique néerlandais. ÖSTAT a pour sa part lancé le projet SDSE ("système de réalisation d'enquêtes statistiques") en étroite coopération avec une société externe de conception de logiciels; l'élément central de ce projet est un système électronique de gestion des questionnaires.

Au sein des INS, la collecte, la gestion et l'utilisation systématiques de métadonnées est un défi essentiel. Plusieurs INS ont déjà commencé à élaborer des systèmes intégrés de méta-informations (METIS).

En ce qui concerne les sorties, les "clients" ne se satisfont plus depuis longtemps des publications papier. Dans ce domaine, les efforts portent surtout sur la mise à disposition des résultats statistiques sous forme électronique. Des projets prévoient de diffuser les données par le biais d'Internet, d'accélérer et d'uniformiser les transmissions de données à EUROSTAT en


utilisant le logiciel STADIUM/STATEL et le format GESMES. En Autriche, la nouvelle loi fédérale 2000 sur les statistiques stipule explicitement que les résultats statistiques doivent être disponibles gratuitement sur Internet.

Ces derniers temps, l'expression "entrepôt de données" a été employée de plus en plus fréquemment dans les discussions sur l'infrastructure technique des INS et à propos de projets informatiques concrets (principalement pour la production de données, mais également au niveau interne des INS). Cependant, ce concept est parfois utilisé dans un sens bien plus large qu'à l'origine, ce qui peut engendrer certaines erreurs d'interprétation.

C'est pourquoi nous expliquerons ci-après le concept d'entrepôt de données (ainsi que les expressions "dépôt de données" et "système de traitement analytique en ligne" (OLAP)). Nous nous efforcerons par ailleurs d'établir un lien entre ce concept et le processus de production de statistiques et de voir comment les concepts et les technologies d'un entrepôt de données permettent aux INS de répondre aux exigences.

Qu'est-ce-qu'un entrepôt de données?

Ces dernières années, l'entrepôt de données est devenu un concept à la mode dans le secteur informatique:

Les fabricants de matériel fournissent à leurs clients des systèmes informatiques performants pour la mise en place d'un entrepôt de données.

Les fabricants de logiciels vendent des outils et des applications onéreux (dont le prix atteint souvent plusieurs millions d'ATS) et ne sont pas exposés à la concurrence de Microsoft (toutefois, la situation a changé entre-temps dans certains domaines (stockage de données et OLAP) avec serveur MS SQL 7.0 et services OLAP).

Les sociétés de conseil se réjouissent car de nombreuses entreprises souhaitant mettre en place un entrepôt de données font appel à leurs services.

Pour les auteurs d'ouvrages spécialisés, il s'agit d'un sujet idéal de livre et d'article. Le "Data Warehousing Information Center" (http://pwp.starnetinc.com/larryg) a, jusqu'à présent (décembre 1999), répertorié plus de 130 livres, 70 Livres blancs et 100 articles accessibles sur Internet, ce qui ne constitue bien sûr qu'une partie des ouvrages réellement disponibles.

Il existe également de nombreuses définitions pragmatiques, dont voici une petite sélection:

Selon W.H. Inmon (souvent désigné comme le "père de l'entreposage de données"), un entrepôt de données est "un ensemble de données thématiques, cohérentes, évoluant dans le temps, fiables, sur lequel les dirigeants fondent leur processus de décision“ [INMON 1995].

Ralph Kimball, qui est probablement le "gourou" le plus connu après W.H. Inmon dans le domaine des entrepôts de données, définit ce concept comme "un exemplaire de données relatives à des transactions structuré spécifiquement à des fins de consultation et d'analyse“ [KIMBALL 1996].

Pour Sean Kelly, un entrepôt de données est "une architecture d'entreprise permettant l'exploitation des données au niveau global, dotée de normes, de principes et d'une infrastructure qui sert de base à toutes les applications d'aide à la décision" [KELLY 1997].

Selon Sam Anahory et Dennis Murray, "Un entrepôt de données comprend les données (métadonnées/fait/dimension/agrégation) et les gestionnaires de processus (chargement/entrepôt/consultation) qui mettent les informations à disposition et permettent aux gens de prendre des décisions éclairées“ [ANAHORY/MURRAY 1997].

Barry Devlin décrit un entrepôt de données comme étant "une mémoire unique, complète et cohérente de données provenant de sources diverses et mises à la disposition des utilisateurs


finals sous une forme compréhensible et utilisable dans un contexte commercial“ [DEVLIN 1997].

Selon l'université de Stanford, un entrepôt de données est "un répertoire d'informations cohérentes, disponibles à des fins de consultation et d'analyse. Les données et les informations sont tirées de diverses sources... La consultation de données provenant à l'origine de différentes sources est ainsi plus facile et plus efficace" [STANFORD].

Aucune de ces brèves définitions ne suffit pour expliquer l'expression "entrepôt de données". Cependant, elles contiennent toutes des caractéristiques essentielles détaillées ci-après. Même si les théoriciens sont d'accord sur la plupart des caractéristiques, leurs points de vue peuvent toutefois diverger considérablement dans les détails. Ainsi, l'entrepôt de données de W.H. Inmons ne correspond pas en tous points à celui de R. Kimball.

À l'origine, les ordinateurs étaient utilisés dans le domaine commercial en premier lieu pour étayer et automatiser les opérations commerciales (par exemple, la gestion des commandes, la facturation, la comptabilité, la gestion des stocks, etc.). Ces fonctions devaient être plus rapides, moins onéreuses et permettre aux entreprises de répondre plus vite aux exigences des clients, le but essentiel étant naturellement d'acquérir un avantage concurrentiel.

Dans les documents relatifs aux entrepôts de données, les systèmes informatiques utilisés dans ces domaines sont appelés systèmes OLTP (traitement de transactions en ligne). Ils sont programmés de sorte à fournir rapidement des réponses concernant des transactions simples, prédéfinies qui consistent souvent à modifier, à ajouter ou supprimer certains ensembles de données. Grâce à la modélisation normalisée de données (de préférence, la troisième forme standard, dans la mesure où certains compromis ne sont pas requis pour des raisons de performance), il doit être possible de changer un élément dans une seule ligne d'un tableau.

Toutefois les programmes OLTP ne conviennent pas pour la mise à disposition d'informations à des fins d'analyse. Certes, d'ordinaire ils permettent de publier certains rapports; mais lorsque des données complémentaires sont nécessaires, le service TI doit effectuer une programmation particulière dans la mesure où les données sont encore disponibles (par exemple, un système de gestion des stocks permet de consulter le niveau des stocks actuel mais pas celui des mois précédents, de l'année précédente ou à une date encore antérieure).

Les systèmes OLTP ne peuvent guère être utilisés à des fins d'analyse en raison de leur fonctionnalité et de leur conception. Pour compenser ce désavantage, on a eu l'idée - dans les années 80 - d'en extraire des données périodiquement, de les dater et de les stocker dans un système à part: l'entrepôt de données.

Comme les données proviennent la plupart du temps de plusieurs systèmes en amont, indépendants les uns des autres, elles peuvent être incohérentes (par exemple, numéros de produits et descriptifs différents dans les programmes de gestion des commandes et des stocks, attributs non concordants pour les mêmes clients lorsqu'une entreprise a plusieurs domaines d'activité et utilise donc plusieurs programmes de gestion des commandes, etc.). Avant que les données soient chargées dans l'entrepôt, elles doivent donc être globalement coordonnées et leur structure et format uniformisés (ces mesures représentent parfois jusqu'à 80 % des dépenses totales liées à la création d'un entrepôt de données).

À la différence des systèmes OLTP dont la structure est plutôt fonctionnelle, dans un entrepôt de données, les données sont disponibles selon les principaux domaines d'analyse (clients, produits, fournisseurs, etc.). C'est ce que W.H. Inmon appelle "l'orientation thématique".


Les utilisateurs de l'entrepôt de données doivent pouvoir trouver les données dont ils ont précisément besoin pour leurs travaux, les extraire et les évaluer sans l'intervention d'informaticiens. Pour ce faire, une modélisation spéciale des données, dite dimensionnelle, s'impose. Ce modèle de données est souvent représenté sous la forme d'un cube (graphique 2); on attribue une dimension à chaque côté (dans le cas d'un entrepôt de données pour une chaîne de supermarchés, par exemple: produit, magasin et temps) et ses caractéristiques (membre). À l'intérieur du cube, des données numériques figurent à l'intersection des différentes dimensions (par exemple, le chiffre d'affaires réalisé un jour précis dans un magasin donné pour un produit particulier).

Les éléments d'une dimension sont structurés de façon hiérarchique et peuvent comporter plusieurs niveaux (par exemple, produit groupe de produits; magasin ville région Land; jour mois trimestre année). On peut aussi attribuer des caractéristiques à des fins d'analyse (couleur du produit, surface de vente du magasin, etc.).

La consultation et l'évaluation d'un cube de ce type (qui peut bien sûr comporter plus de trois dimensions) sont appelées traitement analytique en ligne (on line analytical processing (OLAP)). Les programmes clients OLAP ont pour objectif de présenter à l'utilisateur certaines sections du cube, combinant différentes composantes (les tranches et les dés). À tout moment, l'utilisateur peut également naviguer entre les différents niveaux hiérarchiques (niveau agrégé ou niveau détaillé) (déroulement).

Les cubes OLAP peuvent être enregistrés dans un format propriétaire dans une banque de données multidimensionnelle: un serveur OLAP (MOLAP = OLAP multidimensionnel). Mais souvent, les données sont également enregistrées dans des banques de données relationnelles (ROLAP = OLAP relationnel) pour lesquelles le schéma dit en étoile est fréquemment utilisé. Chaque dimension figure alors avec tous ses attributs et niveaux hiérarchiques dans un tableau de dimensions. Les valeurs de l'intérieur du cube sont enregistrées dans le tableau de faits avec les clés étrangères des tableaux de dimensions (graphique 3).


Graphique 2

Les cubes OLAP peuvent être enregistrés dans un format propriétaire dans une banque de données multidimensionnelle: un serveur OLAP (MOLAP = OLAP multidimensionnel). Mais souvent, les données sont également enregistrées dans des banques de données relationnelles (ROLAP = OLAP relationnel) pour lesquelles le schéma dit en étoile est fréquemment utilisé. Chaque dimension figure alors avec tous ses attributs et niveaux hiérarchiques dans un tableau de dimensions. Les valeurs de l'intérieur du cube sont enregistrées dans le tableau de faits avec les clés étrangères des tableaux de dimensions (graphique 3).

La déstandardisation est une caractéristique importante du schéma en étoile. Pour des raisons de performance (éviter de réunir des tableaux), les attributs des objets enregistrés dans un modèle de données standardisé dans les tableaux correspondants et référencés au moyen d'un lien entre clé principale et clé étrangère, sont stockés dans les tableaux de dimensions (par exemple pour le graphique 3: noms de ville, de région et de Land dans la dimension "magasin"). Les opérations de mise à jour sont plus difficiles à cause du stockage de données redondantes; c'est pourquoi un entrepôt de données est normalement accessible en lecture seule par les utilisateurs en ligne ou, selon la terminologie de W.H. Inmon, est "inaltérable".

Un entrepôt de données peut contenir des quantités considérables de données, d'une part en raison de la redondance implicite du schéma en étoile, et d'autre part du fait des longues périodes pour lesquelles des données sont enregistrées. Le niveau de détail doit être le plus élevé possible sinon des possibilités d'analyse sont éliminées. Dans le cas du graphique 3, si l'on se fonde sur une extraction de données quotidienne et si l'on suppose qu'en moyenne la moitié des 2 000 produits est vendue au moins une fois par jour dans 500 magasins, le tableau de faits contiendra près d'un demi-milliard d'enregistrements au bout de trois ans!

Pour éviter d'accéder à des données détaillées lors de chaque consultation, des agrégats souvent requis dans un entrepôt de données sont calculés au préalable selon les hiérarchies des dimensions et stockés dans des tableaux distincts. Ces agrégations préalables permettent d'accélérer les consultations mais provoquent une augmentation considérable de l'espace de stockage nécessaire. Dans ces conditions, il n'est pas étonnant que certains entrepôts de données aient une capacité de stockage de l'ordre du téra-octet.


Graphique 3

Ralph Kimball est un farouche défenseur de la modélisation dimensionnelle. Selon lui, un entrepôt de données devrait être constitué de plusieurs schémas en étoile avec des cubes de données thématiques reliés entre eux et formant un "dépôt de données". Des liaisons transversales sont établies entre les différents dépôts au moyen de dimensions homogènes (par exemple, le "client" ou le "produit"). Les données relatives aux dimensions provenant des différents systèmes en amont sont consolidées et intégrées dans une "zone de transfert" (qui ne doit pas nécessairement être relationnelle mais peut se composer de fichiers plats).

D'autres auteurs en revanche, comme W.H. Inmon, définissent un entrepôt de données comme un répertoire standardisé à l'échelle de l'entreprise auxquels les utilisateurs finals peuvent accéder directement, seulement dans des cas exceptionnels. Des quantités fragmentaires de données circulent de ce lieu de stockage central vers des dépôts de données spécifiques à des services et fonctions et dotés d'une structure multidimensionnelle. Cette architecture à plusieurs niveaux requiert l'élaboration d'un modèle de données à l'échelle de l'entreprise; dans la pratique, l'échec des projets portant sur des entrepôts de données est souvent imputable à la complexité de cette tâche.

À cet égard, il convient également de souligner qu'il n'existe pas de définition précise d'un "dépôt de données". Outre les acceptions susmentionnées, ce concept est aussi parfois utilisé dans le sens de "petit entrepôt".

Un entrepôt de données ne contient pas seulement des données mais englobe également tous les processus et programmes nécessaires à l'extraction des données de systèmes situés en amont, à leur correction, leur transformation et leur stockage dans l'entrepôt où des agrégations et des consultations/évaluations sont réalisées (graphique 4). On peut distinguer trois sous-systèmes principaux:

1. Le système de gestion des entrées, où ont lieu l'extraction et le traitement des données de base et la saisie des données "corrigées" dans l'entrepôt.

2. Le système de conservation des données, qui permet d'effectuer le stockage et la gestion des données (y compris les agrégations et la sauvegarde/l'archivage).

3. Le système de gestion des sorties, par le biais duquel les utilisateurs ont accès aux données stockées dans l'entrepôt au moyen de différents outils (par exemple, générateurs de rapports, programmes client OLAP). Ce sous-système chevauche en partie l'usine d'informations (applications pour le traitement des données de l'entrepôt).


Graphique 4

Dans les trois sous-systèmes, des métadonnées décrivant les données stockées et traitées sont également nécessaires. Idéalement, il devrait y avoir une base de métadonnées centrale utilisée par tous les programmes de l'entrepôt. Toutefois, dans la pratique, c'est précisément l'inverse qui se produit souvent: les métadonnées des outils utilisés ne sont pas compatibles entre elles et doivent être définies et gérées indépendamment les unes des autres, ce qui peut accroître considérablement la charge de travail dans la réalité. Dans le cadre du groupe de gestion objet (OMG), on s'efforce actuellement d'uniformiser l'échange de métadonnées (Common Warehouse Metadata Interchange (CWMI); informations disponibles à l'adresse suivante: http://www.omg.org/techprocess/meetings/schedule/CWMI_RFP.html). L'avenir dira si les propositions présentées ont été retenues et effectivement mises en œuvre par les fabricants de logiciels.1

En résumé, on peut dire que:

Un entrepôt de données est un concept. Un entrepôt de données est un processus. Un entrepôt de données doit être élaboré de façon à répondre aux exigences. Toutefois, un entrepôt de données n'est ni un produit unique ni un logiciel standard. Il existe

bien sûr une série d'outils qui couvrent certaines des fonctions d'un entrepôt et naturellement leurs fabricants assurent que ces programmes permettent de résoudre très rapidement tous les problèmes ("entrepôt à 90 jours"). Cependant dans la pratique, il est bien plus important de traiter les questions de conception, d'organisation, d'architecture et de modélisation des données. Il n'est utile de savoir quels outils doivent éventuellement être utilisés pour élaborer un entrepôt de données qu'à un stade relativement tardif.

1 L'entreprise Dimension EDI et les consultants d'Eurostat (Chris Nelson, Anders Tornqvist) participent au projet de spécification d'un métamodèle d'entrepôt commun. Leur proposition relative à un ensemble d'informations concerne une extension importante du concept d'entrepôt pour les offices statistiques, notamment la collecte de données brutes au moyen de questionnaires électroniques.


La banque de données des résultats statistiques comme entrepôt de données

Toute personne travaillant dans un institut de statistique connaît certainement de façon approfondie les caractéristiques d'un entrepôt de données énoncées dans le chapitre précédent. Par exemple, l'approche multidimensionnelle des faits en statistique existe depuis longtemps sous la forme de tableaux croisés qui fournissent une représentation bidimensionnelle de données (logiquement) multidimensionnelles.

Les éléments suivants ne sont pas des nouveautés pour les INS:

Quantités très importantes de données; Données portant sur une très longue période; Nécessité de valider, transformer et intégrer les données; Liens hiérarchiques entre les caractéristiques de classification; Agrégation de données détaillées; Stockage de ces agrégats; Métadonnées décrivant d'autres données.

Seule la terminologie utilisée diffère (par exemple, critères de ventilation au lieu de dimensions, objets au lieu de faits, microdonnées au lieu de données détaillées, séries chronologiques au lieu de "données variables dans le temps") mais les concepts fondamentaux sont les mêmes.

Ces correspondances entre l'entreposage de données et le processus de production de statistiques ont toutefois été négligées jusqu'à présent dans la littérature relative aux entrepôts de données. Des études historiques situent l'apparition des premiers entrepôts de données dans les années 80:

"L'entreposage de données est apparu pour la première fois entre 1984 et 1988". [DEVLIN 1997]

"Les tout premiers entrepôts de données ont été élaborés aux États-Unis, au milieu des années 80, par de grandes entreprises des secteurs du commerce, de la banque et des télécommunications. D'une manière générale, ces précurseurs avaient l'intention d'intégrer des données trop fragmentées entre de grandes structures complexes; les applications les plus courantes étaient (et sont encore) effectuées dans le domaine de la commercialisation et de la vente". [KELLY 1997]

Toutefois, si l'on ne limite pas strictement le concept d'"entrepôt de données" aux entreprises commerciales et aux données relatives à leur activité, les premières réalisations remontent aux années 70: il s'agissait des banques de données des résultats statistiques.

La production de statistiques dans les INS a souvent une structure en "tuyau de poêle" (cf. [PRIEST 1996]). Diverses enquêtes - de la conception des questionnaires et de la sélection des répondants à l'élaboration de tableaux de résultats et de publications en passant par la collecte et le traitement des données - sont en grande partie réalisées indépendamment les unes des autres, par différentes unités de la structure. Il n'y a pas de fusion. Chaque "tuyau de poêle" doit être considéré comme un système d'information statistique autonome, ce qui pose de nombreux problèmes (absence de vue globale du système; redondances imprévues entraînant des coûts d'entretien plus élevés et un risque d'incohérence plus grand; désaccord et divergence des concepts statistiques, des définitions, des variables, des classifications, des résultats, etc.; absence de normalisation de la conservation et du traitement des données; réutilisation limitée des logiciels).

Une banque de données "sorties" (graphique 5) rassemble dans une application centrale destinée à permettre une consultation facile, par l'utilisateur final, des données et des métadonnées provenant


de systèmes en amont, distincts les uns des autres; il ne s'agit pas de programmes OLTP, comme dans le cas d'un entrepôt de données classique, mais d'enquêtes. Certes, cela ne permet pas de résoudre rétrospectivement les problèmes mentionnés, mais l'existence d'une banque de données sorties apporte des avantages considérables aux "clients statistiques" par rapport à une organisation purement en "tuyau de poêle". Idéalement, toutes les informations diffusées par un INS dans des publications, des communiqués de presse, sur des pages Web, etc. devraient également être disponibles dans la banque de données sorties à un niveau plus détaillé ou pouvoir être obtenues à partir de cette source.

ÖSTAT a mis au point la banque de données sorties ISIS ("système d'information statistique intégré", également connue au niveau international sous l'abréviation LASD – "système de données statistiques à grande échelle") dès 1972/73 c'est-à-dire bien avant que les expressions "entrepôt de données" et "OLAP" aient été inventées. Néanmoins, on peut aujourd'hui qualifier la banque de données ISIS de serveur MOLAP:

Elle comprend plus de 4 000 cubes multidimensionnels de format propriétaire, avec un maximum de 7 dimensions par cube.

Au total, il existe plusieurs centaines de dimensions qui peuvent être structurées de façon hiérarchique.

Certaines agrégations de dimensions hiérarchiques sont calculées au préalable et mémorisées lorsque les données sont enregistrées alors que d'autres ne le sont qu'au moment de la consultation "à la volée".

L'utilisateur peut extraire des résultats pour n'importe quelles dimensions et à différents niveaux hiérarchiques (tranche, dé, niveau agrégé, niveau détaillé) grâce à un langage de consultation puissant. De nombreuses fonctions mathématiques et statistiques sont également disponibles.

Outre les données, ISIS contient également des métadonnées: il est possible de trouver un cube précis (par exemple au moyen d'une liste thématique structurée hiérarchiquement ou d'une recherche en texte intégral) ou des informations sur les données d'un cube (par exemple, source de données, ruptures dans les séries, etc.).

ISIS est exploitée sur l'unité centrale IBM d'ÖSTAT et se compose de quelque 800 modules assembleurs et PL/1, y compris divers programmes de gestion pour l'administrateur de la banque de données. Comme elle existe depuis longtemps (E.F. Codd venait juste de publier les réflexions théoriques qui devaient servir de base aux systèmes de banques de données relationnelles), ISIS a


Graphique 5

dû être créée dans les moindres détails. Si sa mise en œuvre commençait aujourd'hui, on utiliserait probablement des langages de programmation orientés objets, une architecture à n-niveaux utilisant DCOM ou CORBA et, pour le stockage des données, une banque de données relationnelle et éventuellement un serveur commercial OLAP (par exemple, Services OLAP de Microsoft ou Hyperion Essbase). Mais même si ISIS n'utilise plus vraiment les toutes dernières TI, elle reste à la pointe du progrès en ce qui concerne ses concepts appliqués!1

Il faut rappeler qu'au cours des dernières années, trois catégories de critiques ont été adressées à ÖSTAT au sujet d'ISIS:

1. Son contenu n'est pas toujours entièrement à jour.2. L'interface utilisateur ne répond plus aux attentes modernes.3. Son langage de consultation est difficile à apprendre et s'oublie rapidement si on ne l'utilise pas

régulièrement.

La première critique a trait à l'importance de la banque de données sorties dans le cadre de la production statistique. Pour certains services spécialisés, la fourniture de données pour ISIS semble un mal nécessaire, relégué au second plan (après la production de publications dans différents formats). Toutefois les décisions de gestion appropriées prises par l'institut de statistique autrichien - doté d'une nouvelle structure depuis le 1er janvier 2000 - et de nouvelles mesures d'organisation devraient permettre de résoudre facilement ce problème.

La deuxième critique est un défi pour le service informatique. À l'heure actuelle, celui-ci travaille à une interface graphique permettant de consulter ISIS à partir de n'importe quel navigateur WWW compatible avec Java et pouvant aussi être utilisée comme application indépendante. Comme il n'est plus nécessaire de connaître le langage de consultation propriétaire d'ISIS pour utiliser ce nouveau logiciel client, la troisième critique n'a par conséquent plus lieu d'être.

Mis à part le fait qu'une banque de données des résultats statistiques ne contient pas de données détaillées, elle possède toutes les caractéristiques essentielles d'un entrepôt de données. Toutefois, lorsque l'on dit aux experts en la matière, qui travaillent dans le domaine commercial sur la base des publications de W. H. Inmon à M. Kimball, que les grosses banques de données statistiques contiennent des milliers de cubes multidimensionnels et des centaines de dimensions différentes, les réactions sont en général les suivantes:

"Je me demande qui, dans le monde, pourrait gérer mentalement 113 dimensions dans un modèle multidimensionnel. Du point de vue conceptuel, les gens ont du mal à gérer plus de sept dimensions à la fois, même si les outils ont une plus grande capacité".

"Je vous suggérerais de revoir votre projet, surtout s'il comprend plus de 100 dimensions. Je réexaminerais aussi la conception de votre tableau d'objets, en particulier s'il en contient plus de 100".

"J'ai également travaillé pendant plus de 20 dans un institut national de statistique (Statistics Canada) et analysé avec grand intérêt le modèle de dimension parfaite (6 à 12 dimensions) ainsi que quelques tableaux d'objets. Ces dernières années, j'ai présenté le modèle de recensement canadien à l'occasion de diverses réunions locales et internationales; les 'experts' m'ont signalé que le modèle composé de centaines de dimensions n'était pas satisfaisant en termes de conception et de planification et ne pourrait pas être utilisé ou ne serait pas gérable".

1 Et le passage à l'an 2000 n'a posé aucun problème!


(Toutes ces citations proviennent de contributions à la "Data Warehouse Mailing List"2 de novembre/début décembre 1999 en réponse à un message électronique d'une personne travaillant dans un institut statistique – qui n'a malheureusement pas pu être identifiée à partir de son adresse électronique).

D'où proviennent les nombreuses dimensions d'une banque de données des résultats statistiques?

L'augmentation spectaculaire du nombre des dimensions est liée à la fonction d'une telle banque de données: elle doit fournir les résultats des processus de production de statistiques sous une forme multidimensionnelle pour que les utilisateurs finals puissent les consulter. Les informations statistiques ne sont pas individuelles mais collectives; en d'autres termes, les INS ne peuvent publier que des données agrégées – ne serait-ce que pour respecter la loi. C'est pourquoi une banque de données sorties ne contient pas de données au niveau le plus détaillé.

Si l'on prend l'exemple du recensement de la population réalisé une fois tous les dix ans (y compris l'enquête exhaustive annexe sur les logements), on voit vite que le schéma en étoile n'est pas vraiment adéquat dans ce cas. Si l'on n'utilise pas les concepts perfectionnés de la modélisation dimensionnelle telle que les "mini-dimensions démographiques" (cf. [KIMBALL 1996]), on obtiendrait probablement une étoile avec deux dimensions seulement, à savoir la "personne" (avec de nombreux attributs tels que le "sexe", l'"âge", la "situation de famille", la "nationalité", le "nombre d'enfants", etc.) et le "logement" (avec une hiérarchie régionale et également une série d'attributs). Il n'y a pas de dimension temporelle car toutes les données personnelles doivent être anonymes pour empêcher que des données sur la même personne puissent être extraites à partir des recensements de 1981 et 1991, par exemple.

Le schéma en étoile serait également très déséquilibré en ce qui concerne le nombre d'ensembles de données. Habituellement, les tableaux relatifs aux dimensions en contiennent peu et les tableaux de faits en comprennent beaucoup (cf. l'exemple pris ci-dessus d'un cube de données pour une chaîne de supermarchés avec 500 entrées pour la dimension magasin, 2 000 pour la dimension produit et à peine 1 000 – trois années sur la base d'une extraction de données quotidienne – pour la dimension temporelle: si 50% des produits en moyenne sont vendus par jour et par magasin, le tableau de faits comprendrait près d'un demi-milliard de lignes au bout de trois ans). En comparaison, l'étoile "recensement de la population" en Autriche comprendrait quelques 8 millions d'ensembles de données pour la dimension personne (aux États-Unis, on dépasserait même les 200 millions!) et 3,5 millions pour la dimension logement; en revanche, les tableaux de faits ne dépasseraient pas les dix millions.

Comme cela a été mentionné précédemment, une banque de données des résultats statistiques ne contient pas de données détaillées mais de nombreux cubes de données relativement petits, obtenus en additionnant les différentes variables de l'enquête. Ainsi, un cube pourrait décrire le "nombre de personnes" et les dimensions "temps" (disponible pour les agrégats mais pas pour le niveau le plus détaillé), "région" (une hiérarchie avec les niveaux "commune", "région" et "Land"), "sexe", "âge" (avec des classes d'âge hiérarchiques) et "situation familiale"; un autre cube pourrait représenter les dimensions "temps", "région", "nationalité", "nombre d'enfants" et "âge" et ainsi de suite.

Cela signifie qu'au niveau des données détaillées, les attributs deviennent les dimensions d'un ou plusieurs cubes de données agrégées. Dans le cas d'une importante banque de données des résultats statistiques, cela provoque une augmentation considérable des dimensions. Jusqu'à présent, ce phénomène n'a été mentionné dans aucun des documents relatifs aux entrepôts de données que j'ai consultés.

2 Possibilité d'abonnement à l'adresse suivante http://www.datawarehousing.com


L'INS comme entrepôt de données

Comme cela a été expliqué dans le paragraphe précédent, il est tout à fait justifié de qualifier une banque de données des résultats statistiques d'entrepôt de données. On peut franchir un pas supplémentaire et appeler "entrepôt" l'ensemble de l'INS. À ce propos, il convient d'examiner avec un peu plus d'attention le "système INS" du graphique 1.

Pour résoudre les problèmes découlant de l'organisation en "tuyau de poêle", de nombreux INS élaborent des concepts et des projets pour la gestion des objets et des métadonnées ainsi que pour la mise au point de systèmes de méta-informations statistiques intégrés. L'objectif est de regrouper horizontalement (c'est-à-dire au niveau des enquêtes) et verticalement (au-delà des étapes de la production de statistiques) les systèmes d'information statistique en une infrastructure d'information universelle.

Les objectifs fondamentaux sont les suivants:

fournir aux utilisateurs de statistiques internes aux INS et également externes un accès complet, flexible, ouvert mais également simple et convivial aux objets et métadonnées qui les intéressent;

prévoir les redondances et éviter les incohérences; réaliser la collecte, le stockage et l'utilisation (multiple) des métadonnées comme prévu (ce qui

rend nécessaire leur normalisation et leur uniformisation); établir des normes pour la conservation des données en général et les interfaces entre les

logiciels utilisés pour la production de statistiques; apporter une aide aux utilisateurs en ce qui concerne les outils généralisés, c'est-à-dire qui n'ont

pas été conçus pour une enquête particulière, lors de la réalisation des travaux qui leur incombent dans le cadre de la production et de l'utilisation de statistiques;

imposer des solutions globales, c'est-à-dire concernant l'ensemble de l'INS, au lieu de solutions isolées ou de développements doubles et multiples;

enfin, toujours tenir compte des besoins divergents, parfois inconnus ou difficilement prévisibles, des différents groupes d'utilisateurs.

Ces exigences vont au-delà de la mise en place d'un système d'information à l'échelle de l'INS couvrant toutes les enquêtes et l'ensemble du processus de production de statistiques (allant de la préparation d'une enquête jusqu'à la diffusion des résultats) au moyen d'outils appropriés.


Le graphique 6 présente le concept BASIS2000+ (système d'information statistique basé sur des métadonnées) mis au point par ÖSTAT ainsi que les liens et les flux de données vers d'autres systèmes. BASIS2000+ se compose de trois éléments: La composante "données" contient des données statistiques à différents niveaux de compression.

Le premier niveau correspond aux microdonnées vérifiées et corrigées, provenant de toutes les enquêtes réalisées par ÖSTAT. Dans le cadre du processus de production de statistiques, les microdonnées sont agrégées en macrodonnées, qui font elles-mêmes partie de la composante "données" et, dans de nombreux cas, servent de base à d'autres évaluations. Le niveau de compression le plus élevé est constitué par les informations statistiques disponibles sous forme de tableaux et de graphiques. L'objectif est que toutes les informations produites par ÖSTAT soient accessibles au moyen de BASIS 2000+.

La composante "métadonnées" est au cœur du concept BASIS2000+. Le contenu de la composante "données" doit être détaillé pour permettre aussi bien l'accès physique aux données que l'interprétation de leur contenu. Avec ses informations sur les nomenclatures, les enquêtes, les concepts statistiques, les variables, les stocks de données, les publications etc., la composante métadonnées constitue une banque de données de référence complète qui rend les informations statistiques d'ÖSTAT accessibles aussi bien aux utilisateurs internes qu'externes.

Les informations stockées dans la composante données et métadonnées sont accessibles au moyen d'interfaces programme et utilisateurs. Elles doivent être considérées comme des éléments de la troisième composante de BASIS2000+, tout comme les formats de données standardisés et les outils généralisés utilisés dans les différentes phases du processus de production de statistiques.

Le cycle de vie d'une enquête statistique commence par une phase d'observation qui englobe toutes les activités liées à la préparation et à la planification de l'enquête et à la collecte de données. Elles sont réalisées dans le système "entrées" où les métadonnées déjà stockées dans BASIS2000+ sont accessibles et où les nouvelles métadonnées sont ajoutées. Dès que ces informations sont disponibles dans la composante métadonnées, elles peuvent être exploitées au moyen d'outils du niveau outils/interfaces de BASIS2000+.

La deuxième phase d'une enquête a lieu dans le système "entrées" (préparation c'est-à-dire collecte, vérification et correction des données brutes). Là aussi, outre des logiciels uniques, on peut utiliser


Graphique 6

des outils généralisés et accéder au contenu de la composante métadonnées centrale. Enfin, les microdonnées considérées comme correctes sont entrées dans BASIS2000+ dans un format standardisé.

Les microdonnées sont agrégées en macrodonnées dans la phase suivante de la production de statistiques. Cette étape est réalisée de façon automatisée en partie dans BASIS2000+ et en partie dans le système "production" où les stocks de macrodonnées produites sont à nouveau entrées dans la composante données et les compléments ou actualisations sont effectués dans la composante métadonnées.

Cette division des tâches s'applique également au processus "utilisation": les microdonnées et les macrodonnées (y compris les descriptions connexes) mises à disposition dans BASIS2000+ servent de base à chaque évaluation. Elles sont soit traitées au moyen d'outils généralisés ou exportées dans le système "production" (où, par exemple, des évaluations sont réalisées au moyen de SAS ou de logiciels spécifiques). Les informations produites dans le système "production" (tableaux achevés, graphiques, textes) sont enregistrées dans des formats normalisés dans BASIS2000+ et détaillées dans la composante métadonnées. Le processus "utilisation" comprend aussi la recherche et l'extraction d'informations statistiques par des clients externes; cela est réalisé exclusivement dans BASIS2000+.Le graphique 6 présente également le système de gestion qui englobe toutes les applications qui ne sont pas liées à la production de statistiques - ou le sont seulement indirectement (par exemple, un système d'information du personnel). Des flux de données ont lieu entre l'administration et la composante métadonnées de BASIS2000+, par exemple lorsque le numéro de téléphone actuel du responsable d'une enquête fait l'objet d'une demande.

Il convient de souligner que BASIS2000+ n'est pas une application monolithique unique. Elle se compose de sous-systèmes plus petits, rassemblés sur la base des données et des métadonnées normalisées utilisées conjointement. BASIS2000+ est avant tout un concept essentiel, un objectif. Cette application constitue un cadre qui permet de commencer la mise en œuvre au niveau des sous-secteurs, de mettre au point des prototypes avec des résultats utilisables dans la pratique et de rassembler des faits et des expériences aussi rapidement que possible, ce qui permet d'affiner et d'adapter le concept global.

Voilà pour la présentation de l'application BASIS2000+ en quelques lignes. L'emploi du terme d'entrepôt de données est-il maintenant justifié?

Je ne pense pas. On peut, bien sûr, établir plusieurs parallèles avec les concepts, les processus et les caractéristiques de l'entrepôt de données (en particulier lorsque l'on ne définit pas un entrepôt comme une collection de schémas en étoile mais comme un répertoire de données intégré à l'échelle de l'entreprise et à plusieurs niveaux), mais le cadre et l'étendue d'une architecture comme BASIS2000+ dépassent nettement la signification que 95% des informaticiens donnent au terme "entrepôt de données".

L'interprétation du concept de métadonnées à lui seul doit être bien plus large dans un cadre statistique. Les données statistiques sont toujours une combinaison de données et de métadonnées, ces dernières étant produites au cours du processus de production de statistiques et entrant à nouveau dans le processus comme entrées dans d'autres étapes de travail.


Les nomenclatures statistiques, par exemple, peuvent être des métadonnées (attribution de textes à des codes) aussi bien que des "éléments d'informations" indépendants et complexes, disponibles dans différentes versions, dont les éléments peuvent être liés à ceux d'autres versions et classifications et auxquelles les métadonnées (par exemple, attribution de termes techniques à des éléments de la classification) appartiennent également. Par conséquent, une banque de données de classification est un élément essentiel de la composante métadonnées de BASIS2000+ pour la gestion de classifications et des métadonnées y afférentes; en revanche, pour un entrepôt de données, une telle application n'est pas nécessaire dans le domaine commercial.

Dans le cadre des réflexions sur les systèmes d'information statistique, on s'éloigne plus encore du concept classique d'entrepôt lorsque l'on met l'accent moins sur des métadonnées descriptives axées sur les utilisateurs humains que sur les aspects de procédure (métadonnées actives, intégrées, système de méta-informations comme "référence"; voir par exemple [BETHLEHEM et al. 1999] et [FROESCHL 1999b]).

Comme l'utilisation de l'expression "entrepôt de données" pour désigner une banque de données sorties peut, à elle seule, engendrer des confusions lors de discussions avec des experts "entrepôt" du domaine commercial, il semble judicieux de ne pas utiliser ce terme pour qualifier les systèmes de (méta-)information des INS. On pourrait ainsi éviter un important travail d'explication.


Bibliographie

[ANAHORY/MURRAY 1997] Sam Anahory/Dennis Murray, Data Warehousing in the Real World, éditions Addison-Wesley, ISBN 0-201-17519-3

[BETHLEHEM et al. 1999] Jelke Bethlehem, Jean-Pierre Kent, Ad Willeboordse et Winfried Ypma, "On the Use of Metadata in Statistical Data Processing", rapport destiné à la "UN/ECE Work Session on Statistical Metadata", Genève, du 22 au 24 septembre 1999

[DEVLIN 1997] Barry Devlin, Data Warehouse: from architecture to implementation, éditions Addison-Wesley, ISBN 0-201-96425-2

[FROESCHL 1999a] Karl A. Froeschl, "Metadata Management in Official Statistics – An IT-based Methodology Approach", in Austrian Journal of Statistics, Vol. 28 1999 numéro 2

[FROESCHL 1999b] Karl A. Froeschl, "On Standards of Formal Communication in Statistics“, rapport destiné à la "UN/ECE Work Session on Statistical Metadata", Genève, du 22 au 24 septembre 1999

[INMON 1995] W.H. Inmon, "What is a Data Warehouse?", publié sur le Web à l'adresse suivante: http://www.cait.wustl.edu/cait/papers/prism/vol1_no1

[KELLY 1997] Sean Kelly, Data Warehousing in Action, éditions John Wiley & Sons, ISBN 0-471-96640-1

[KIMBALL 1996] Ralph Kimball, The Data Warehouse Toolkit, éditions John Wiley & Sons, ISBN 0-471-15337-0

[PRIEST 1996] G. Priest, "Issues of Meta Information and Integration", rapport destiné à la "UN/ECE Work Session on Registers and Administrative Records in Social and Demographic Statistics", Genève, du 11 au 13 novembre 1996

[STANFORD] Der Stanford University zugeschriebenes Zitat, publié sur le Web à l'adresse suivante: http://www.datawarehousing.com

[SUNDGREN 1996] Bo Sundgren, "Making Statistical Data More Available", in International Statistical Review (1996)


APPLICATION DES TECHNIQUES DE GESTION DES ENTREPÔTS DE DONNÉESDANS UN ENVIRONNEMENT STATISTIQUE

M.H.J. VucsanStatistics NetherlandsDivision Recherche et DéveloppementDépartement InformatiquePostbus 4000NL-2270 JM [email protected]

Résumé – L'enregistrement de données dans une base de données construite sur le modèle dimensionnel est bénéfique pour la production statistique. Le modèle dimensionnel permet d'enregistrer les données textuelles sous la forme de "dimensions" et les données chiffrées, accompagnées de clés de conversion en dimensions, dans un tableau de faits. C'est ce qu'on appelle un dépôt de données. Un projet pilote mené au sein du département Population du CBS, au moyen d'un logiciel Microsoft et de processeurs Intel, a donné des résultats positifs. Un entrepôt de données comportant deux dépôts de données a été constitué pour la production statistique régulière et les questions ad hoc.

Mots clés: entrepôt de données, dépôt de données, modèle dimensionnel, statistiques, système OLAP, Microsoft

1. PRINCIPES DU MODÈLE DIMENSIONNEL

Le concept d'entrepôt de données n'est évidemment pas nouveau pour le CBS. En effet, les fichiers-papier anciennement utilisés constituaient un entrepôt de données: les fiches représentaient les tableaux de faits et les listes de codes les dimensions. Mais revenons-en à notre sujet...

1.1 Interrogation ou transaction

1.1.1 Qu'est-ce que le système OLAP?

OLAP signifie On Line Analytical Processing (traitement analytique en ligne). Le but de ce système est de répondre dans les plus brefs délais aux grandes questions adressées à la base de données.

À cet effet, la base de données est non seulement munie d'applications « moyennes » spéciales, mais elle a également subi une modélisation particulière, dans le cadre de laquelle la redondance est préférée à la normalisation.

1.1.2 L'établissement et l'analyse de statistiques relèvent-ils de l'OLAP?

Oui, bien que l'on puisse distinguer deux types de production. Le premier est la production régulière habituelle, c'est-à-dire des tableaux d'ensemble définis qui contribueront en définitive à une publication du CBS. Ce type de production relève bien du système OLAP, mais ne remplit pas obligatoirement les conditions nécessaires et suffisantes pour constituer un entrepôt de données. Nous reviendrons plus loin sur les raisons de ce choix.

Lors du deuxième type de production statistique, l'analyse, un entrepôt de données peut s'avérer précieux. En effet, en dehors des méthodes automatiques d'extraction de données, l'analyse humaine reste la meilleure manière de tirer les informations les plus intéressantes des données. On pourrait comparer cette démarche à un processus de raffinage: les données brutes de l'entrepôt de


données doivent être corrélées de diverses manières par les individus pour que des informations puissent en être extraites.

Enfin, à l'avenir, dans le processus de production statistique, les statistiques "modèles" sur papier seront progressivement éliminées par les moyens automatisés qui permettront, dans une certaine mesure, d'élaborer de manière électronique des statistiques ad hoc pour les utilisateurs, distants ou non. Une des activités traditionnelles du CBS, le calcul d'agrégats, deviendra de plus en plus rare.

1.2 Cohérence

1.2.1 Le système OLAP est globalement cohérent

Le fonctionnement d'un entrepôt de données est tout à fait différent de celui d'une base de données OLTP. Non seulement un certain nombre de données auront une "précision calculée", mais toutes les données ne seront peut-être pas présentes.

La "précision calculée" signifie que, si un fait tel que la vente en magasin a également une colonne "marge", cette marge est évidemment un nombre provenant de la comptabilité qui a été calculé à partir du niveau global. À ce niveau-ci, le nombre risque donc d'être incorrect. La marge pour une barre de chocolat est-elle réellement de 0,001 centime? Toutefois, si nous assemblons des agrégats en puisant dans l'entrepôt de données et que nous obtenons les totaux de cette colonne, nous retombons dans le champ de définition du concept de marge.

Le fait que toutes les données ne peuvent être présentes n'est bien entendu pas dû à l'absence structurelle d'entrées, mais bien à la suppression arbitraire d'erreurs manifestes ou à de petites fautes lors du traitement des données. Si ces événements sont arbitraires, ils ne représentent aucun risque, pour autant que l'on puisse encore constituer des grilles correctes.

1.2.2 Le système OLAP est cohérent dans le temps

Une fois que les données sont introduites dans un entrepôt de données, elles y restent. Les résultats relatifs à une période donnée restent les mêmes. Un entrepôt de données est fondamentalement une série chronologique, mais nous y reviendrons.

1.3 Le modèle dimensionnel

1.3.1 Le cube de données

Ce concept est particulièrement important dans le domaine statistique. L'idée est que l'on peut toujours répartir les données selon plusieurs axes. La métaphore du cube est souvent utilisée, car on étudie l'évolution de deux variables dans le temps, ce qui crée une sorte d'espace tridimensionnel, à savoir un cube (comportant éventuellement des totaux marginaux). Ce terme est également utilisé pour désigner des domaines thématiques au sein d'un dépôt de données.

Statline utilise cette technique.

1.3.2 Le dispositif en étoile ("star join")

Il n'est pas difficile d'enregistrer des cubes dans une base de données relationnelle, à condition de garder à l'esprit que la densité des cubes est généralement faible, le terme anglais "sparse" signifiant que les données sont réparties de manière éparse entre les cellules disponibles.

L'enregistrement de ces cellules revient évidemment à établir simplement un tableau des clés correspondant à toutes les dimensions du cube et à introduire les valeurs des cellules.


Les dimensions sont donc ni plus ni moins que les titres des colonnes (« column » au sens de SQL). Ces dimensions font également l’objet de tableaux: ce sont les tableaux de dimension. Exemple: les codes des municipalités.

Par conséquent, le fait de demander un cube impose toujours de mettre en rapport le tableau de données et les tableaux de dimension. La proposition "WHERE" est la condition restrictive qui est appliquée aux données dans les tableaux de dimension. Exemple: "where nom de municipalité = AMSTERDAM".

Un dispositif en étoile comporte donc toujours un grand tableau (tableau de faits) et plusieurs petits tableaux (les dimensions). Le tableau de faits s'exprime en gigaoctets et les tableaux de dimension sont de l'ordre de 100 mégaoctets. L'optimiseur de la base de données a des solutions particulières.

Qu'y a-t-il donc de neuf, puisque nous faisions déjà tout cela au CBS? L'idée qu'il s'agit d'une discipline sportive plutôt que d'une solution occasionnelle à un problème de programmation.

1.3.3 Le dépôt de données

Un dispositif en étoile constitué d'un tableau de faits et de plusieurs tableaux de dimension est également appelé "dépôt de données". Un dépôt de données contient des informations sur un sujet spécifique, lequel est presque toujours un processus. En voici quelques exemples caractéristiques:

vente en magasin d'un produit à un client à un moment précis;

déplacement du client en véhicule vers et depuis le point de destination;

livraison de marchandises au client depuis la plate-forme de chargement à une date précise;

traitement d'un patient dans un hôpital à un moment précis;

solde du compte du client à un moment déterminé;

présence d'un oiseau sur une aire de couvaison à un moment déterminé.

L'avantage d'un dépôt de données est le fait que les données ne sont pas isolées. Elles font (ou devraient faire) partie d'un entrepôt de données.

1.3.4 L'entrepôt de données

La force d'un entrepôt de données réside dans le fait qu'il se compose uniquement de dépôts de données coordonnés, c'est-à-dire que les dimensions sont harmonisées. Pour tous les dépôts de données, le tableau des codes municipaux ou la dimension "lieu" doit évidemment être identique ou constituer un sous-ensemble/ensemble plus global.

Un entrepôt de données qui se compose de dépôts de données a une valeur ajoutée très élevée. En effet, il permet d'établir une relation entre de nombreux processus. Ainsi, la comparaison entre le dépôt de données des ventes en magasin et le dépôt de données des achats permet de déterminer les quantités volées ou endommagées.

Dans cette optique, le CBS pourrait devenir l'entrepôt de données des Pays-Bas.

Il est important de comprendre que la coordination des différents dépôts de données et de leurs dimensions est un concept logique. Il n’est pas du tout nécessaire d'introduire concrètement deux dépôts de données dans la même base de données ou dans le même ordinateur. Nous n'approcherons jamais deux dépôts de données avec un énoncé SQL unique, car cela prendrait trop de temps. Il existe de bien meilleures solutions, telles que celle qui consiste à procéder à deux interrogations séparées et à laisser le client fusionner les résultats.


1.4 Tableaux de faits et de dimension

1.4.1 Qu'est-ce qu'un tableau de dimension?

Nous avons déjà cité un exemple de dimension (assez simple): le tableau des codes municipaux. Fondamentalement, un tableau de dimension se résume au nom d'une colonne déterminée. Mais si l'on y réfléchit, les choses ne sont pas aussi simples. Revenons aux codes des municipalités. La dimension "municipalité" ne sera probablement pas d'une grande utilité dans tous les dépôts de données. Il convient plutôt d'adopter une dimension "lieu".

À quoi ressemble une dimension "lieu"? La première démarche consiste évidemment à introduire les codes des municipalités. Mais il faut également pouvoir préciser les hameaux et les provinces. Nous constatons que le code municipal ne nous suffit pas et nous passons à un nombre entier de 4 ou 5 chiffres. Il s'agit d'un nombre ordinaire qui n'a aucune valeur intrinsèque. Chaque enregistrement est associé à un nouveau numéro. Ce numéro est la clé primaire.

Examinons un fragment de cette dimension:

clé province municipalité hameau

00234 Hollande-Méridionale alkmaar oude-pekela

00233 Hollande-Méridionale alkmaar nieuwe-pekela

00232 Hollande-Méridionale beverwijk beverwijk

Cette dimension permet de créer un dispositif au niveau des municipalités, mais aussi à celui des hameaux et des provinces.

1.4.2 Qu'est-ce qu'un tableau de faits?

Un tableau de faits contient les variables de processus qui nous intéressent. Si nous examinons le processus "vente en magasin", nous voulons non seulement savoir ce qui a été vendu, quand et à qui, mais aussi en quelle quantité et à quel prix. Cela n'a pas beaucoup de sens de créer une dimension contenant tous les montants et toutes les quantités possibles. De plus, il faut pouvoir les totaliser. Nous allons en réalité créer un enregistrement avec une clé primaire constituée de clés étrangères pour les dimensions et un ou plusieurs attribut(s) indiquant des quantités ou d'autres variables à exprimer en chiffres.

Voici un extrait du tableau de faits:

lieu temps prod. client nbre montant

00234 00011 88234 211154 2 400

00233 00003 78986 329809 1 3400

La combinaison des clés de dimension lieu, temps, produit et client permet d’appréhender dans un seul enregistrement qui achète quoi, à quel moment et à quel endroit. Les seules informations encore inconnues sont la quantité et le prix, mais on les trouve ailleurs dans l'enregistrement. Les quatre clés étrangères constituent une combinaison d'attributs textuels qui décrivent parfaitement l'événement. Le tableau de faits ne contient que des données numériques, ce qui est dû à deux raisons principales: la concision et le souhait de pouvoir additionner les données du tableau de faits. Le souhait de pouvoir additionner les attributs du tableau de faits signifie que le montant est un total, sinon nombre*prix apparaîtrait sans cesse dans le SQL, ce qui réduirait fortement la


performance. Si nous voulons appréhender le prix unitaire, nous pouvons le faire dans la dimension "produit" (si le prix ne varie pas trop souvent) ou en calculant le prix/nombre.

Un autre aspect important est le fait que les clés n'ont pas de valeur intrinsèque et qu'elles sont composées de nombres entiers qui leur ont été attribués, ce qui semble tout à fait normal pour le CBS.

1.5 Série chronologique

En termes abstraits (et très simples), le processus statistique consiste en l'observation de variables à un moment déterminé. Avec un peu de bonne volonté, toute statistique peut donc être envisagée comme une série chronologique.

1.5.1 Un entrepôt de données est une série chronologique

Les données enregistrées dans les entrepôts de données ont pour le moins un caractère statique. Le but n'est pas de modifier les données de l'entrepôt de données, même si cette possibilité existe. On complète un entrepôt de données, on ne le recharge pas.

Les données d'un entrepôt décrivent des processus et leur déroulement dans le temps. C'est ce qui fait que l'entrepôt de données convient parfaitement à l'établissement de statistiques. Les entrepôts de données existants servent presque tous à créer des statistiques, même si l'agrégation est évidemment effectuée par le client.

1.5.2 Modification des dimensions

Un des problèmes les plus complexes liés à l'établissement de statistiques est celui de la modification des codes. Ce problème se pose également dans le cadre des entrepôts de données. C'est pourquoi des solutions très similaires à celles déjà utilisées par le CBS ont été adoptées.

La première solution à la variation des codes consiste à utiliser une clé dénaturée, c'est-à-dire un nombre entier aléatoire. Si un enregistrement d'une dimension change parce qu'un attribut change, il ne sera pas modifié, mais un nouvel enregistrement sera créé avec une nouvelle clé.

Lorsque de nouveaux faits se présenteront, la nouvelle combinaison sera utilisée. Cette solution a pour avantage de supprimer tout problème lors de la modification des codes.

Exemple:

Dans la dimension "lieu", le 1er novembre 1996, le hameau de Baarsland est transféré de la municipalité de Rijnsburg à la municipalité de Rijnswoude. Les interrogations qui se limitent à la Hollande-Méridionale ne sont pas influencées par cette modification, pas plus, évidemment, que celles utilisant la grille sous-jacente. Les interrogations qui remontent jusqu'au niveau municipal feront apparaître un changement pour les deux municipalités. La grande question est de savoir si c'est souhaitable.

Les tableaux de l'annuaire statistique ne peuvent se contenter d'afficher un transfert entre deux municipalités sans fournir d'explication, puisque l'utilisateur n'a aucun moyen de savoir quelle en est la cause!

Dans un entrepôt de données, l'utilisateur est censé interpréter lui-même les résultats. Par conséquent, on peut s'attendre à ce qu'un utilisateur qui découvre des anomalies dans les données sur les deux municipalités exécute le programme pour consulter la superficie par an, par commune,


etc. et s'assurer que la modification de la première interrogation n'est pas due à des causes mineures, telles que le déplacement des frontières municipales.

J'en conclus que l'introduction de ce type de modification dans les tableaux de dimension ne semble pas poser de problème, du moins pour le moment.

1.5.3 Le temps est une dimension à part

Personne ne contestera que le temps est une dimension à part. Toutefois, la manière dont il est traité dans les modèles dimensionnels n'est pas celle à laquelle on penserait de prime abord.

A priori, il semble raisonnable d'introduire dans les enregistrements du tableau de faits la date au format de la base de données interne, ou au format aammjj, comme il est habituel de le voir dans de nombreuses statistiques. Cette approche n'est toutefois pas très pratique.

Voici quelques-uns des problèmes que posent les dates dans les tableaux de faits:

conversion fastidieuse en numéros de semaine, etc.;

le calcul de la date allonge le délai de réponse aux interrogations;

ce n'est qu'APRÈS l'interrogation sur le tableau de faits que l'on sait si Q1 76 se trouve dans la base de données.

Tous ces problèmes peuvent être évités en utilisant un tableau de dimension séparé pour le temps. Ce tableau fournit toutes les représentations de temps possibles au moyen de clés numériques dénaturées. La clé (un nombre aléatoire) est ensuite utilisée comme lien avec le tableau de faits.

Voici un exemple de tableau de dimension consacré au temps:

clé jour mois trimestre année statut du congé***

00093 mercredi 12 4 1977 0

00094 jeudi 12 4 1977 1

00095 vendredi 01 1 1978 1

La situation est claire: toutes les variables de temps et dates possibles sont données sous une forme non standardisée.

Si je veux savoir ce qui s'est passé le jeudi au fil des ans, le dispositif sera le suivant:

blabla WHERE jour = "jeudi" etc.

Pas très compliqué et assez rapide. D'autres tâches, comme l'établissement d'agrégats mensuels, sont également accomplies plus facilement.


1.6 Agrégats

1.6.1 Nécessité d'agrégats

Dans les tableaux de faits de plusieurs gigaoctets, il est judicieux de créer quelques agrégats pour certaines des données du dépôt les plus souvent demandées.

D'une manière générale, l'utilisation d'agrégats prédéfinis constitue le principal moyen d'améliorer les performances des entrepôts de données. Les raisons en sont évidentes.

1.6.2 Navigation automatique

Lorsqu'un entrepôt de données contient des agrégats, leur utilisation dans les interrogations constitue l'un des principaux problèmes, car elle nécessite l'accès à une sorte de dictionnaire des données et à un logiciel permettant la navigation automatique.

En fin de compte, la création de tableaux de faits séparés contenant l'agrégat et de petits tableaux de dimension séparés pour les dimensions faisant l'objet de l'agrégation s'est avérée la meilleure solution pour conserver des agrégats dans la base de données.

Par ailleurs, les moteurs OLAP modernes, qui fournissent des cubes aux utilisateurs finals, ont complètement automatisé la gestion des agrégats et la navigation.

1.6.3 Gestion

Avec la navigation automatique, la gestion des agrégats est devenue une tâche exclusive du GBD. C'est lui qui examine les chiffres des performances collectés dans le courant de la journée et détermine si des agrégats sont nécessaires et si oui, lesquels. Le calcul d'agrégats est donc un processus dynamique qui relève du secteur de la gestion.

Force est de constater que cela simplifie fortement la création des entrepôts de données.

2. COMPLICATIONS LORS DE LA CRÉATION DE DÉPÔTS DE DONNÉES STATISTIQUES

L'image du supermarché n'est pas adaptée dans le cas de la création d'un dépôt de données destiné à être utilisé dans un environnement statistique. Il semble y avoir un problème dès le stade de la procédure. Quelle procédure adopter lors de l'examen des données de la population?

La situation n'est pas vraiment meilleure en ce qui concerne la création des dimensions. Il est difficile d'identifier non seulement les dimensions, mais également leurs attributs.

Dans les environnements statistiques, il faut également tenir compte du fait que les dimensions doivent inclure un certain nombre de codes qui ont toujours joué un rôle majeur en statistique. En effet, lors d'une analyse requérant des outils autres que les outils d'interrogation standard, ces codes sont souvent nécessaires pour éviter, en cas d'extraction d'un sous-ensemble de données, des opérations complexes visant à reconvertir les textes en codes.

Lors de la création, c'est généralement non seulement le besoin de données, mais aussi et surtout la disponibilité des données qui jouent un rôle essentiel.


3. POSSIBILITÉS D'APPLICATION DANS UN PROCESSUS DE PRODUCTION STATISTIQUE

En examinant objectivement le cadre conceptuel de la gestion d'entrepôt de données, il nous apparaît clairement que cette méthode de création des statistiques est simple. Cette technique pourrait s'avérer très utile pour le CBS si nous parvenons à l'adapter quelque peu.

3.1 Contrôle et corrections

Sachant à quel point les statisticiens ont du mal à se retrouver dans la masse des données qui sont mises à leur disposition, il est clair qu'un entrepôt de données peut constituer un formidable outil. En effet, tant que les données sont enregistrées dans des fichiers plats, nous devons nous aider d'un programme pour poser la bonne question et obtenir une réponse, et c'est tout ce que nous obtenons. L'utilisation d'un entrepôt de données permet de contrôler les données quasi visuellement. Non seulement cela permet de produire n'importe quel agrégat ou presque en quelques secondes, mais les anomalies qui apparaissent dans les sous-totaux ne peuvent nous échapper, puisqu'elles s'affichent à l'écran!

Nous avons constaté que les statisticiens veulent charger les données à un stade de plus en plus précoce pour mieux maîtriser le processus de contrôle et de correction. Il est déjà arrivé que le programme de contrôle et de correction fasse disparaître des phénomènes réels parce qu'ils étaient jusqu'alors improbables. Le chargement répété d'un dépôt de données dans le cycle de correction et de contrôle en vue de diriger ce cycle paraît concevable. Un premier pas dans cette direction a été franchi avec le projet en cours sur les statistiques démographiques: des données provisoires sont chargées et traitées avant que toutes les opérations ne soient terminées et que toutes les données secondaires ne soient connues. Le risque de publier ainsi des chiffres erronés est relativement réduit parce qu'en communiquant le nom des cubes et en mettant le matériel à la disposition des utilisateurs, le gestionnaire prend les précautions nécessaires.

3.2 Analyse

Lors de l'analyse de statistiques, l'entrepôt de données est important non seulement pour remplacer les systèmes d'interrogation ad hoc, mais également pour appréhender la population "nettoyée". Pour mener une analyse plus approfondie, il importe de pouvoir définir des sous-ensembles de données. Les entrepôts de données ne sont pas des outils adéquats pour fournir des estimations basées sur les modèles, des tableaux spéciaux avec le programme SPSS, etc. Par ailleurs, avec ce type d'outils, il faut s'attendre à ce que les activités de contrôle, de correction et d'analyse soient de plus en plus imbriquées.

3.3 Production

Les entrepôts de données constituent d'excellents supports de sortie, mais il serait prématuré de les utiliser ou de permettre d'y accéder en dehors du CBS. En effet, les procédures de sécurité, notamment les mesures de protection visant à éviter la consultation répétée et la recombinaison des données, ne sont pas encore au point. Pour le moment, dans le cadre de cette activité, le CBS utilise le programme StatLine, qui est d'ailleurs basé sur les principes de la gestion d'entrepôts de données.

4. RÉALISATION TECHNIQUE PAR LE CBS

Lors de la création du premier dépôt de données, nous avons choisi le logiciel Microsoft. Peu de temps auparavant, le CBS avait décidé que les logiciels Microsoft constitueraient désormais la norme. En proposant le serveur SQL 7, Microsoft a délibérément opté pour une utilisation de masse de la technique de gestion d'entrepôts de données. Non seulement le serveur SQL comprend le


moteur de cube Plato, mais des outils tels que EXCEL2000 sont compatibles avec le logiciel d'arrière-plan.

Le diagramme illustre la manière dont les composants du serveur interagissent et dont le lien s'établit avec l'application cliente (EXCEL 2000). Le lien entre le poste de travail et le serveur est géré par la base de données OLE.

4.1 L'entrepôt de données se compose de dépôts de données

Étant donné que le CBS a choisi de décentraliser et de réduire une majeure partie des travaux de traitement, il a été décidé de ne pas installer l'entrepôt de données sur un grand ordinateur. Au contraire, nous sommes partis du principe qu'un entrepôt de données est une unité logique, composée de nombreux dépôts de données, et qui peut très bien se répartir entre un grand nombre de machines. Pour des raisons pratiques, il a toutefois été décidé de ne pas diviser les dépôts de données entre plusieurs ordinateurs autonomes. Cette approche présente plusieurs avantages.

4.2 Configurations en étoile dans une base de données relationnelle du serveur SQL

Bien que le moteur Plato soit parfaitement capable de créer des cubes avec un modèle normalisé à partir d'une base de données OLTP, nous avons décidé dès le départ de ne pas le faire et ce, pour deux raisons. Tout d'abord, la presse spécialisée commençait à dire que l'idée n'était peut-être pas si bonne que ça, notamment parce qu'il serait très difficile d'enregistrer un historique. Ensuite, nous voulions consulter les cubes au moyen d'outils interactifs, mais aussi pouvoir extraire des sous-ensembles de données de l'entrepôt de données. C'est ainsi que nous avons décidé de créer de véritables configurations en étoile. Ces configurations en étoile seront ensuite enregistrées dans la base de données relationnelle avec le noyau du serveur SQL 7.

4.3 Agrégats et cubes dans PLATO

Le moteur Plato a été ajouté au logiciel du serveur SQL. Il peut tourner soit dans la base de données elle-même, soit sur un serveur propre. Il fonctionne également avec les bases de données d'autres fabricants que Microsoft. Sa dénomination officielle est Microsoft DSS services.

Si nous voulions vraiment suivre les règles à la lettre, les agrégats devraient aussi être introduits dans la base de données et mis à jour lors du chargement. Dans notre cas, le fait de pouvoir utiliser le moteur Plato pour créer automatiquement des agrégats en vue d'étendre l'espace ou d'améliorer l'efficacité était suffisant.


La création des différents cubes est une tâche relativement simple qui incombe au gestionnaire (décentralisé). Un outil graphique permet d'indiquer facilement quels champs composés de quelles dimensions et de quelles données numériques doivent être transformés en cube. C'est alors que peut commencer un processus simple et transparent de définition et de traitement.

En optant pour un serveur DSS (Plato, Pivot table services, etc.: les dénominations ne manquent pas) pour fournir des données aux utilisateurs finals interactifs, nous choisissons également de permettre l'accès par les cubes. Dans ce contexte, les cubes sont des domaines thématiques au sein d'un dépôt de données (configuration en étoile). En pratique, le gestionnaire choisit un certain nombre de dimensions parmi toutes les dimensions disponibles du dépôt, puis sélectionne une donnée numérique dans le tableau de faits et prétraite le tout afin de former un cube. Les performances sont ainsi meilleures que lors d'une interrogation directe de l'étoile dans la base de données relationnelle.

4.4 Outils de l'utilisateur final

EXCEL2000

Dans les applications statistiques, les tableurs constituent un excellent outil pour parcourir un entrepôt de données avec un moteur DSS. EXCEL2000 peut contacter le fournisseur OLAP Plato (Microsoft DSS services) par la base de données OLE et ainsi proposer assez facilement des cubes à l'utilisateur.

Le langage du tableur est bien adapté aux compétences des statisticiens et permet une amélioration immédiate de la productivité.

Notre outil d'extraction des données

Nous aussi avons dû nous atteler à la conception d'un outil propre. Dans un entrepôt de données situé dans un environnement statistique, il faut pouvoir extraire non seulement les agrégats ad hoc, mais aussi des sous-ensembles de données. Les "pivot table services" de Microsoft ne constituent pas la meilleure solution à cet égard. C'est pourquoi nous avons développé, pour ce projet, un programme simple qui permet d'attribuer des sélections à un fichier et de formuler facilement une interrogation sans devoir maîtriser le SQL. Il est toutefois possible d'étudier l'énoncé SQL et de l'utiliser également comme produit semi-fini.

5. LE RECENSEMENT STRUCTUREL ANNUEL DES MUNICIPALITÉS NÉERLANDAISES

(Annual Enumeration of the whole of the population).

Le département des statistiques démographiques effectue un recensement annuel basé sur les données démographiques des municipalités néerlandaises. Jusqu'ici, ce recensement était constitué d'un nombre important de grands fichiers séquentiels qui, au moyen d'un logiciel spécial, permettaient d'effectuer des calculs. La gestion de ces fichiers est difficile de par leur nombre et leur taille, mais aussi du fait que leur consultation doit être planifiée. Il n'était pas rare d'enregistrer des temps de passage (y compris le désarchivage) de 60 heures.

Il y a deux ans, nous avons décidé, en concertation avec notre département Automatisation, d'entreprendre une étude pilote afin de déterminer si un entrepôt de données pouvait régler les problèmes existants. Nous avons alors entamé conjointement un projet qui a permis de comprendre peu à peu le mode de fonctionnement idéal d'un entrepôt de données dans un environnement statistique, et qui a montré que la modélisation ne pouvait se baser exclusivement sur le modèle connu du supermarché.


5.1 Structure du modèle

Au début, un seul dépôt de données semblait suffire à satisfaire les besoins en informations, mais il s'est rapidement avéré que le dépôt de données ADRESPERSOON (adresse/personne) ne pouvait fournir aucun renseignement sur les relations entre les personnes résidant à la même adresse. Il a alors été décidé de créer un deuxième dépôt de données (ADRESGEZINRELATIE – adresse/relation familiale), aujourd'hui simplement appelé GEZIN. La structure globale des deux dépôts de données est la suivante:

5.1.1 Dépôt de données PERSOON

Le dépôt de données PERSOON est entièrement axé sur l'analyse de la résidence d'une personne à une adresse donnée. Toutes les informations concernant cette personne sont introduites dans le dépôt de données, pour autant qu'elles se trouvent dans le registre de la population.

5.1.2 Dépôt de données ADRESRELATIE

Ce dépôt de données met l'accent sur la relation entre deux personnes. Les clés des deux partenaires, ainsi que celles des aînés et cadets sont incluses dans le tableau de faits. De nombreuses données sont également reprises du dépôt PERSOON afin d'éviter de devoir toujours combiner deux dépôts.

5.2 Mise en œuvre pratique

Comme je l'ai déjà souligné, nous avons choisi Microsoft pour la base de données, le service DSS et l'outil permettant de formuler des interrogations. Ce choix s'explique principalement par le fait


que le CBS disposait déjà du logiciel. Il faut d'excellentes raisons pour se détourner des standards existants.

5.2.1 Logiciel sur mesure pour le chargement des données

Le chargement de l'entrepôt des données était plus problématique. Tout d'abord, Microsoft ne proposait aucun outil à cette fin. Ensuite, la recherche d'un logiciel de chargement disponible dans le commerce s'est révélée vaine, car, si de nombreux outils prétendaient être compatibles avec les dépôts de données, ils ne l'étaient pas réellement. Étant donné que le calendrier risquait de ne pas être respecté, il a été décidé de réaliser un logiciel sur mesure au moyen du programme Visual Basic de Microsoft. Une fois l'étude pilote achevée, le logiciel de chargement a été produit et il a semblé raisonnable de le développer à des fins commerciales.

5.3 Gestion

L'ensemble du projet a été transféré à son titulaire, le département Population. En d'autres termes, nous (services TI et développement des applications) continuons à contribuer aux recherches et fournissons une assistance, mais c'est le département Population qui gère l'entrepôt de données et en est responsable.

5.3.1 Contenu

La gestion du contenu est assurée par un statisticien désigné sur place. Même s'il a acquis les connaissances requises pour créer des cubes, définir et ajouter des utilisateurs et des rôles, il reste fondamentalement un statisticien. Nous sommes ainsi assurés du fait que l'entrepôt de données ne fera pas l'objet d'une course aux prouesses techniques, mais restera avant tout un outil statistique.

5.3.2 Technique

La gestion du logiciel et du modèle des données est confiée aux experts locaux chargés de l'automatisation, qui dépendent du gestionnaire du contenu.

6. Conclusion

Dans les instituts nationaux de statistique, les dépôts de données peuvent constituer une solution pour l'établissement de statistiques et remplacer les méthodes actuelles lorsqu'un nombre croissant de données des dépôts est rassemblé pour former un entrepôt de données intégré. Il a été établi que des gains considérables peuvent être enregistrés en termes de contrôle, de correction et d'analyse.

Bibliographie

The Data Warehouse Toolkit, Ralph Kimball, Wiley; ISBN 0-471-15337-0

SQLserver7 Data Warehousing, Michael Corey et al, Osborne; ISBN 0-07-211921-7

The Data Warehouse Lifecycle Toolkit, Ralph Kimball, Wiley; ISBN 0-471-25547-5

Building the Data Warehouse, W.H. Inmon, Wiley; ISBN 0-471-14161-5


SISSIEI - SYSTÈME D'INFORMATION STATISTIQUE SUR LES ENTREPRISES ET LES INSTITUTIONS

Enrico GiovanniniDirecteur central des statistiques des entreprises et des institutionsISTATvia C. Balbo, 16,IT- 00184 Roma [email protected]

et Alberto SorceResponsable de la coordination des systèmes d'information de la Direction centrale des statistiques des entreprises et des institutionsISTATvia C. Balbo, 16IT- 00184 [email protected]

1. Introduction

L'organisation et les activités des Instituts nationaux de statistique (INS) sont bouleversées par différents facteurs tels que l'évolution des règles européennes dans le domaine des statistiques, les besoins d'informations croissants des utilisateurs, la nécessité de réduire la charge statistique pesant sur les répondants et les innovations permanentes dans le secteur de l'informatique. À l'heure actuelle, les services des INS sont de plus en plus fréquemment approvisionnés suivant le modèle du "système d'information", lequel implique un changement radical de l'approche des statisticiens et affecte l'organisation et la méthodologie adoptées.

En raison de cette approche "système", qui perturbe profondément le fonctionnement et les services des Instituts de statistique, il n'existe aucune solution "toute faite" pour répondre aux différents besoins et aux situations diverses. Les efforts visant à imposer un ordre rationnel, déployés par des experts internationaux réputés, sont utiles dans le cadre d'une approche théorique, mais sont difficiles à mettre en œuvre. Par ailleurs, plusieurs travaux reposent sur le point de vue des experts en informatique, alors que les systèmes d'information statistique sont plus complexes, les statistiques suivant des "protocoles" plus spécifiques (à savoir la disponibilité des métadonnées pour obtenir des statistiques de meilleure qualité).

Ainsi, il conviendrait d'analyser les acquis réels au sein des Instituts nationaux de statistique qui procèdent à une refonte de leurs activités, conformément à cette approche. Ce document examine notamment le SISSIEI, système d'information statistique sur les entreprises et les institutions, élaboré par la Direction centrale des statistiques des institutions et des entreprises (DCII) de l'Institut italien de statistique (ISTAT). Il représente une structure multidimensionnelle destinée à couvrir les statistiques produites par la DCII relatives aux unités agricoles, aux entreprises privées, et aux institutions publiques et privées.

Ce système est élaboré en tant qu'élément d'uniformisation des activités menées à bien dans le domaine des statistiques sur les entreprises et les institutions. Il s'agit d'un outil permettant d'acquérir des données plus efficaces et de rationaliser les flux informationnels collectés auprès des unités statistiques. Il implique également un véritable changement "culturel" concernant la façon dont les enquêtes sont réalisées. En réalité, de même que pour la comptabilité nationale, ce système édifie un cadre où toutes les activités d'enquête et de traitement (ex ante et ex post) devraient être définies, codées et étayées de façon appropriée1.

Le premier paragraphe de ce document analyse le rôle des règlements communautaires dans le domaine des statistiques destinées à la mise en œuvre des systèmes d'information. Les lignes directrices du système d'information statistique d'ISTAT sur les entreprises et les institutions seront

1 Voir Egidi e Giovannini (1998) sur les caractéristiques du système d'information statistique.


ensuite examinées. Le troisième paragraphe étudie l'approche générale relative à la construction d'un entrepôt de données statistiques, les quatrième et cinquième paragraphes illustrent les entrepôts de données d'ISTAT en matière de statistiques structurelles sur les entreprises et de statistiques sur le commerce extérieur. Les conclusions figurent à la fin du présent document.

2. Règlements communautaires et mise en œuvre des systèmes d'information

Au cours des dernières années, les règlements communautaires dans le domaine des statistiques, notamment des statistiques économiques, ont jeté les bases d'un système d'information et il a été demandé aux États membres d'introduire des changements notables dans les structures existantes et les méthodologies adoptées. Les règlements sur les unités statistiques, la nomenclature des activités économiques, les répertoires d'unités, les statistiques structurelles, les statistiques conjoncturelles, la comptabilité nationale et plusieurs secteurs (tourisme, transports, etc.) établissent des ensembles de concepts, de définitions et de classifications harmonisés, représentant les pièces maîtresses d'un système complexe d'enquêtes et de traitement statistique des différentes données.Dans le même temps, les systèmes statistiques nationaux devaient atteindre le plus haut niveau d'efficacité en raison du besoin d'informations statistiques et de la nécessité de réduire la charge statistique pesant sur les répondants, tandis que les exigences communautaires en termes de qualité aboutissent à la mise en œuvre de techniques statistiques plus élaborées. En Italie, l'introduction de règlements communautaires a été accueillie comme une possibilité de développer le système d'information statistique, et non de le limiter. De plus, ISTAT a bénéficié de transferts gouvernements plus importants, soutenant l'innovation des statistiques sur les entreprises et impliquant: une utilisation étendue des informations administratives à des fins statistiques; de nouvelles méthodologies utilisées lors des différentes phases d'enquêtes; l'optimisation de l'organisation générale; de nouveaux systèmes informatiques et concepts connexes, de l'architecture centrale aux

systèmes décentralisés; la participation des utilisateurs (des associations commerciales en règle générale) à la définition

des produits et stratégies pour éveiller l'intérêt des répondants.

Le plan de développement du système d'information statistique sur les entreprises et les institutions a été en partie mis en œuvre (60 %) et il sera achevé dans un délai de deux ans, lorsque tous les règlements auront été ratifiés.

La restructuration des statistiques adoptant une approche "système" comporte plusieurs avantages. La conception méthodologique a été suivie de la redéfinition de l'organisation de différents "services" produisant des statistiques. En 1997 notamment, la Direction centrale des institutions et des entreprises (voir schéma 1) a été subdivisée en trois macrozones, à savoir: les statistiques structurelles sur les entreprises et les institutions; les statistiques conjoncturelles sur les entreprises; les recensements économiques et les répertoires statistiques.

La zone des statistiques structurelles a elle-même été subdivisée en trois "services": statistiques agricoles, statistiques structurelles sur les entreprises industrielles et de service, statistiques sur les institutions publiques et privées. Les statistiques conjoncturelles ont été réparties en quatre "services": statistiques sur les prix, statistiques du commerce extérieur, statistiques conjoncturelles sur l'emploi et sur le coût de main d'œuvre. La dernière zone s'attache à la création et à la mise à jour des répertoires statistiques (sur les exploitations agricoles, les entreprises, les institutions publiques et privées) et aux recensements. Ces trois macrozones sont "secondées" par des unités coordonnant la mise en œuvre des systèmes d'information, effectuant des recherches dans les domaines économique et méthodologique, et s'occupant de la publication et de l'organisation.


L'adoption de l'approche "processus" (et non par "secteur") dans l'organisation de la Direction centrale s'est axée sur l'amélioration des différentes phases d'enquête et de traitement des données, aboutissant à une meilleure utilisation des ressources humaines et à la diffusion plus opportune des données. De plus, la structure actuelle en zones suit le modèle proposé par les règlements communautaires; il est également plus aisé pour les services spécifiques de remplir les conditions communautaires et de coordonner les relations avec Eurostat2.

Une organisation basée sur le "processus" n'illustre pas les diverses dimensions des données statistiques. Les utilisateurs demandent plus souvent des tableaux d'informations intégrés (tels que le marché de l'emploi) ou des données sur un secteur économique spécifique, lesquelles ne peuvent être fournies qu'au moyen d'une lecture globale des données conjoncturelles et structurelles. En conséquence, une organisation basée sur le "processus" devrait être consolidée par des outils spécifiques permettant la lecture transversale des données, d'un point de vue "matriciel" pour les processus/produits.

SISSIEI, le système d'information statistique sur les entreprises et les institutions (étudié dans le paragraphe suivant) répond au besoin suivant: à partir de chaque processus de production de données, il intègre des informations traitées au niveau des microdonnées. Il conviendrait de souligner que l'approche "système" décrite, relative aux statistiques "de base", suit le même modèle que la comptabilité nationale, système accessible le plus performant en termes d'informations statistiques. La comptabilité nationale intègre les sources disponibles, conformément aux définitions et classifications harmonisées, pour fournir des informations à plus forte valeur ajoutée informationnelle que chaque source individuelle.

À titre d'exemple, le règlement concernant les statistiques structurelles sur les entreprises stipulait que les estimations devraient reposer sur l'intégration de différentes sources, et que les États membres devraient transmettre des évaluations cohérentes, basées sur des définitions et des classifications conformes à la comptabilité nationale. En d'autres termes, l'intégration des données, qui n'avait été effectuée que par la comptabilité nationale, constitue désormais une tâche dont doivent s'acquitter les fournisseurs de "données d'enquêtes statistiques de base", lesquels devraient élaborer un "système intermédiaire", différent des enquêtes individuelles et de la comptabilité nationale.

Par ailleurs, la mise en œuvre d'un système d'information statistique avant le "niveau" de la comptabilité nationale affecte les relations entre ces dernières et les statistiques de base, ainsi que la possibilité de réaliser des analyses économiques. En disposant d'un système d'information statistique "de base", la comptabilité nationale peut directement obtenir des informations harmonisées et intégrées aux définitions et classifications du Système européen des comptes (SEC 95). De plus, les différences entre les statistiques sur les entreprises et la comptabilité nationale peuvent être plus facilement identifiées et interprétées3, de sorte que les connexions micro et macro caractérisant les phénomènes économiques puissent être mieux analysées.

3. Vue d'ensemble du système d'information statistique sur les entreprises et les institutions

En conséquence, les raisons d'un tel changement devraient être claires. Par ailleurs, il conviendrait de signaler que le système économique italien se caractérise par un nombre considérable de petites

2 La Direction d'Eurostat sur les statistiques d'entreprise (et quelques instituts de statistique) a été réorganisée en adoptant un point de vue "réglementaire" et les relations entre les experts nationaux et européens se sont considérablement améliorées, tout comme l'efficacité des groupes de travail.

3 L'économie parallèle est un exemple. Elle représente l'une des principales différences entre les résultats d'enquêtes et la comptabilité nationale.


entreprises, lequel augmente la charge statistique pesant sur les répondants et sur l'Institut national de statistique. En réalité, de nombreuses unités sont nécessaires pour produire les données requises par les règlements communautaires; en outre, le traitement des données est également très complexe. Voilà pourquoi l'élaboration d'un système d'information intégré s'inscrit dans une stratégie plus importante visant à coordonner la production des données statistiques.

D'après les Nations unies (1999), “l'approche "système" est une approche générale humaine pour décrire, analyser et contrôler des phénomènes complexes. Certaines propositions de base y afférentes sont les suivantes: un phénomène complexe peut être conceptualisé comme une sorte de système "insaisissable", car

il ne peut être totalement appréhendé grâce à un simple acte mental; un système se subdivise en parties; une subdivision d'un système est en elle-même un autre système, soit un sous-système du

premier; tout système, même le phénomène dans son ensemble initialement observé, s'inscrit dans un

système plus important, un super système ou un environnement du premier système; les parties d'un système sont reliées entre elles, et au système dans son ensemble, lequel est relié

à ses subdivisions ainsi qu'à d'autres systèmes de son environnement".

Le système d'information statistique sur les entreprises et les institutions (SISSIEI) est notamment un super système offrant la possibilité d'intégrer toutes les informations statistiques disponibles concernant une exploitation agricole, une entreprise, une institution isolées, quelles que soient les caractéristiques de la source spécifique (enquête statistique, données administratives, etc.). Ce système permet de comparer les données relatives à une même variable dans différentes enquêtes (mensuelles, annuelles, etc.) pour chaque unité statistique, et d'analyser l'évolution de l'unité en termes de fusions et d'acquisitions, de contrôler la qualité des données, de préparer les produits à leur diffusion, d'effectuer des analyses microéconométriques, etc. au sein du même système d'information, avec une réduction manifeste des coûts et une nette amélioration de la productivité statistique. De plus, SISSIEI permet aux utilisateurs internes (statisticiens) d'accéder aux outils généralisés pour conduire des enquêtes, tels que les logiciels d'analyse des échantillons, de gérer les questionnaires et les contacts avec les entreprises par courrier postal, télécopieur ou courrier électronique, de contrôler les données, etc.

D'un point de vue architectural, le système comprend quelques systèmes de gestion de bases de données relationnelles (RDBMS) décentralisés sur un réseau métropolitain. Il a principalement été élaboré à l'aide des programmes SAS et Oracle. Il est possible d'y accéder par l'Intranet, depuis tous les bureaux d'ISTAT, sous le contrôle strict et centralisé des utilisateurs et ce, en vue de garantir la confidentialité des données.

Le graphique 1 illustre la structure du système, en décrivant les bases de données individuelles sur lesquelles repose SISSIEI. Le système est divisé en deux zones: la première concerne les exploitations agricoles, les entreprises industrielles et de service; la seconde couvre les institutions publiques et privées. Chaque sous-système s'appuie sur les unités juridiques et économiques connexes, conformément au règlement communautaire n° 2186/93. Le système sur les entreprises notamment (SISSI) dispose d'ASAIA (répertoire statistique des exploitations agricoles et des entreprises) et d'ASIA (répertoire statistique des entreprises actives dans les secteurs industriels et de service); pour les institutions, ASIP1 (répertoire statistique des institutions publiques) et ASIP2 (répertoire statistique des institutions privées) sont disponibles.

La création et la mise à jour des répertoires d'unités juridiques-économiques ont été largement soutenues par le développement de sources administratives, d'études statistiques et de systèmes d'information. Auparavant, les répertoires étaient mis à jour dans l'intervalle entre les recensements


généraux, en utilisant quelques données disponibles sur les unités déclarantes. Au cours de la seconde moitié des années 90, le répertoire statistique des entreprises actives (ASIA) a pu être mis en œuvre grâce à l'élaboration de répertoires administratifs. ASIA est basé sur la mise à jour permanente des données4; ainsi, un "recensement annuel" à moindre coût peut être réalisé, comme l'exige le règlement communautaire n° 2186/93; la qualité des données est en outre nettement meilleure que dans les "recensements traditionnels".

L'approche concernant la création d'ASIA a été adoptée pour mettre en œuvre les répertoires des exploitations agricoles, des institutions publiques et des institutions privées. Les répertoires suivants sont actuellement disponibles: - ASIA, comprenant environ 3 500 000 entreprises industrielles et de service;- ASIP1, comprenant environ 13 000 institutions publiques; - la première version d'ASIP2, comprenant environ 400 000 unités qui devraient être des

institutions privées; ASIP2 devrait être contrôlé après le mois de janvier 2000, au moyen d'une enquête spécifique;

- la première version d'ASAIA, comprenant 3 000 000 exploitations agricoles est actuellement contrôlée au titre des activités préalables pour le recensement agricole de l'an 2000.

Les répertoires fournissent les codes (code du contribuable, code des chambres de commerce, code de sécurité sociale, etc.) à rattacher à toutes les autres informations statistiques issues des différentes enquêtes. Chaque partie du système intègre les informations présentes dans le répertoire avec les données émanant d'autres sources (enquêtes ou données administratives) et se rapportant aux phénomènes économiques spécifiques; chaque sous-système peut être associé aux autres systèmes à l'aide d'outils de navigation spécifiques établissant un lien entre les informations disponibles dans différentes bases de données physiques (mais logiquement non différentes).

Le sous-système se rapportant aux entreprises industrielles ou de service, basé sur ASIA, intègre notamment les enquêtes suivantes, couvrant la période 1989-19955:- enquête annuelle sur les bilans de grandes entreprises (70 000 unités par an);- enquête annuelle sur les bilans de petites entreprises (50 000 unités par an);- enquête annuelle sur les estimations préalables des bilans de très grandes entreprises (8 000

unités par an);- enquêtes ponctuelles sur les innovations technologiques des entreprises industrielles (5 000

unités par vague);- enquêtes ponctuelles sur les innovations technologiques dans les entreprises de service (6 000

unités par vague);- enquête ponctuelle sur le coût de main d'œuvre (12 000 unités)- enquête annuelle sur la recherche scientifique (2 000 unités par an);- enquête ponctuelle polyvalente (300 000 unités);- statistiques mensuelles du commerce extérieur (intrastat et extrastat, environ 300 000 unités par

an);- enquête mensuelle sur les commandes et le chiffre d'affaires des entreprises industrielles (14 000

unités par mois);- enquête mensuelle sur les ventes au détail (6 000 unités par mois);

4 Le répertoire a été élaboré en intégrant les données présentes dans les archives du ministère des finances, de l'INPS (institut national de sécurité sociale), de l'INAIL (institut national pour l'assurance contre les accidents du travail), des chambres de commerce, de ENEL et des prestataires de service téléphoniques. Ces données sont ensuite intégrées aux informations issues des enquêtes d'ISTAT.

5 Concernant les statistiques du commerce extérieur, la période de référence est 1991-99; pour les autres statistiques mensuelles, il ne s'agit que de la période 1996-99; pour PRODCOM, 1996-99. Le système a été conçu pour accepter les données exprimées en lires ou en euros et peut également convertir les données en différentes monnaies.


- enquête mensuelle sur l'emploi et le coût de main d'œuvre dans les grandes entreprises (1 000 unités par mois).

Schéma 1: système d'information statistique sur les entreprises et les institutions

Remarques ______ zone mise en œuvre

- - - - - - zone en cours de mise en œuvre

………. zone en cours d'élaboration

Dans quelques mois, le système sera étendu pour couvrir d'autres enquêtes et d'autres secteurs (l'agriculture). De plus, le système statistique sur l'administration publique, réalisé à partir du répertoire récemment élaboré, sera mis en œuvre. En réalité, l'extrême souplesse de ce système permet d'intégrer des informations de nature et d'origine diverses; il est par ailleurs très performant: les utilisateurs peuvent effectuer très rapidement des recherches extrêmement complexes dans les bases de données.

SISSIEI n'est pas seulement un réseau de bases de données. Il s'agit d'un instrument venant étayer de nombreuses phases de la production statistique: planification de nouvelles enquêtes, en termes de variables et de structure de l'échantillon, contrôle et correction des données collectées, analyse de la qualité, diffusion des résultats, etc.

Comme l'illustre le graphique 2, la possibilité d'utiliser des logiciels généraux, pour le plan d'enquête, permet de simuler différentes stratégies en termes de coûts et de charge statistique. À titre d'exemple, la possibilité de vérifier si une entreprise spécifique est déjà couverte dans d'autres enquêtes, autorise à définir l'échantillon de la nouvelle enquête en excluant l'entreprise en question, afin de réduire la charge statistique (stratégie de l'échantillon coordonné)6.

Schéma 2: logiciels et outils généraux utilisés dans le système d'information statistique sur les entreprises et les institutions

6 Pour sélectionner notamment des entreprises à partir d'une structure d'échantillon, un entrepôt de données a été mis en œuvre grâce aux informations sur les entreprises actives (environ 3 500 000) et leurs unités locales. Cette approche est plus efficace et plus actuelle que l'ancienne basée sur les procédures standard SAS appliquées aux fichiers séquentiels.


Une fois l'enquête planifiée, il est nécessaire de transmettre les questionnaires aux entreprises. Le répertoire étant généralement basé sur les informations portant sur les 18 derniers mois, il se peut que les adresses des entreprises ne soient pas mises à jour. Voilà pourquoi SISSIEI offre aux utilisateurs une version préliminaire du répertoire ASIA, dans lequel les caractères d'identification sont actualisés grâce à toutes les informations issues des enquêtes existantes, notamment les enquêtes conjoncturelles, et les sources administratives se rapportant à ces caractères. Les questionnaires sont ensuite envoyés grâce à des procédures généralisées permettant de contacter les entreprises par courrier postal, télécopieur ou courrier électronique.

Au cours du traitement, SISSIEI reçoit des données brutes, corrigées et finales. Chaque fois qu'une étape s'inscrivant dans les contrôles de qualité est terminée, les données sont transmises au système qui les enregistre avec un code spécifique, se rapportant au "niveau de qualité". De plus, lors des contrôles d'une enquête déterminée, il est possible d'utiliser les données issues d'autres enquêtes: à titre d'exemple, lors du contrôle du chiffre d'affaires calculé à partir de l'enquête annuelle relative aux bilans d'une certaine entreprise, il est possible de comparer la valeur brute avec l'agrégation annuelle des données mensuelles collectées pour la même unité statistique.

Dans cette optique, SISSIEI contient des navigateurs destinés aux données statistiques et à un dictionnaire général de données. Ce système offre un accès en ligne aux microdonnées grâce des commandes SQL intégrées. Grâce à un protocole OLAP7 (traitement analytique en ligne), il est également possible d'afficher, sur une fenêtre à l'écran, tous les indices et valeurs relatifs à des groupes d'entreprises .

Ce système permet d'établir les critères de qualité, en transmettant ces informations au SIDI, système d'information relatif aux documents liés aux enquêtes mises en œuvre par ISTAT, et à d'autres systèmes d'information de métadonnées.

Enfin, lorsque les données finales sont calculées, SISSIEI sert de base à la construction des entrepôts de données, dans le cadre de la diffusion. Tel que cela est décrit dans le chapitre suivant, au cours de l'année 1998, ISTAT a produit son premier entrepôt de données pour diffuser les résultats issus du recensement économique intermédiaire de 1996. Le succès de ce nouvel instrument a été largement reconnu par les utilisateurs: la base de données était disponible sur le site Internet (adresse: http://cens.istat.it), à titre gratuit, et 2 500 utilisateurs l'ont visitée en l'espace de neuf mois, réalisant approximativement 200 000 extractions de données. En quelques mois, environ 20 CD-ROM et 120 ouvrages ont été élaborés à partir de cette base de données et ce, sans autre intervention éditoriale.

La structure générale de ce système est une application du schéma 3, émanant des Nations unies (1999). Plusieurs fonctions, analysées dans le paragraphe intitulé "a vision for the future", ont déjà été mises en œuvre par SISSEI. Il existe encore un certain nombre de systèmes de traitement des enquêtes, un entrepôt de données (ou d'un ensemble de données) d'entreprise, un certain nombre de systèmes de traitement analytique; l'entrepôt de données contient des "zones" de données brutes, de

7 OLAP offre une solution rapide de visualisation et d'analyse des données, d'où que l'on se situe, sans avoir à spécifier à l'avance la perspective et le niveau de détail requis. En conséquence, OLAP représente une avancée considérable sur les outils et techniques élaborés à l'origine du sytème d'information sur les entreprises. OLAP est particulièrement bien adapté pour répondre aux besoins d'interrogation générale des travailleurs de l'information. Cependant, le niveau d'analyse requis peut imposer l'utilisation d'outils de modélisation plus puissants pour rechercher la force et les causes éventuelles des relations. Dans ces cas d'espèce, les outils d'OLAP devraient être intégrés à d'autres systèmes d'information sur les entreprises et avec des outils analytiques et scientifiques. Pour obtenir les meilleurs résultats, les applications OLAP devraient reposer sur les bases solides de l'entreposage. Dans des applications où les volumes de données sont élevés et où les utilisateurs présentent des domaines d'intérêt spécifiques, des gains d'efficacité peuvent être obtenus grâce à l'utilisation de "dépôts de données" pour les applications les plus fréquemment utilisées et à l'exploitation d'outils permettant aux informations d'atteindre l'entrepôt de données.


métadonnées et de répertoires d'observations finales; l'ensemble des différentes étapes de réalisation des enquêtes (planification, exécution, évaluation) peut être géré par le système.

Schéma 3: architecture des systèmes d'information des organisations statistiques.

Légendes:- Generalized software and reusable software components: logiciel généralisé et composantes

logicielles réutilisables- Analytical processing system: système de traitement analytique- Data provider: fournisseur de données- Data entry: introduction des données- The corporate data warehouse: entrepôt de données d'entreprise- Global metadata including registers: métadonnées globales comprenant les répertoires- Electronic documents: documents électroniques- Printing: impression- User: utilisateur- Raw data: données brutes- Final observation registers: répertoires d'observations finales- Final multidimensional statistics: statistiques multidimensionnelles finales- Survey processing system: système de traitement des enquêtes


4. Environnement de l'entrepôt de données

Tel que cela est décrit plus haut, l'élaboration des entrepôts de données constitue un élément clé de la nouvelle "vision" de la production statistique. L'entrepôt de données est un système d'information où les données sont organisées et structurées pour faciliter l'accès des utilisateurs et supporter les processus de prise de décision. Les systèmes suivants sont activés depuis l'entrepôt de données: DSS (système d'aide à la décision) EIS (système d'information décisionnelle).

Le premier système est utilisé pour résoudre les problèmes spécifiques, alors que le second permet de fournir un flux permanent de données ne variant pas suivant les problèmes spécifiques.

L'entrepôt de données est un système de traitement analytique en ligne (OLAP) différent des systèmes OLTP (traitement de transaction en ligne), bien que les données émanent de ces derniers. Les systèmes OLAP sont des systèmes orientés sur le sujet, intégrés, historiques et permanents. Ils n'incluent pas de données analytiques statiques comme les systèmes OLTP, mais plutôt des données flexibles; de plus, les données OLAP ne sont pas actuelles mais historiques, celles-ci étant utilisées dans les analyses et non affectées par les transactions actuelles.

Un entrepôt de données est toujours indépendant de son environnement opérationnel, tout en incluant toutes les données issues de cet environnement. Les données de l'entrepôt ne doivent pas être modifiées; elles sont d'abord chargées puis accessibles, mais elles ne sont jamais mises à jour, contrairement à celles des systèmes OLTP. Avant d'être chargées dans l'entrepôt, les données sont intégrées selon différentes stratégies, par noms, mesures des variables, structures de décodage, attributs, etc.

La source de données d'un système de prise de décision (tel que l'entrepôt de données) est un système opérationnel, bien que le premier ne soit pas une simple réplique du second. Les deux systèmes ont donc une redondance réduite: les données d'un système de prise de décision sont filtrées, horodatées, incluent des résumés et sont physiquement et fondamentalement modifiées avant d'être chargées dans l'entrepôt de données. Outre des données détaillées, les chiffres sont notamment condensés selon deux niveaux d'agrégation différents: le premier (dépôt de données de premier niveau), spécifie l'unité temporelle et, dans le second (dépôt de données final), seules les données résumées très fréquemment consultées sont enregistrées en permanence. Ainsi, si les données sont plus souvent consultées, le niveau résumé est supérieur. En d'autres termes, un nombre moins important de données devrait être enregistré. L'accès aux données est ainsi plus rapide et plus efficace.

SAS/Data Warehouse est le logiciel utilisé pour nos applications. L'entrepôt de données inclut les éléments suivants: "sujets", "données opérationnelles", "tableaux détaillés", "dépôt de données" et "dépôt d'informations". Le "sujet" correspond à un ensemble de données relatives à une question spécifique. Dans SAS/Warehouse Administrator notamment, chaque sujet peut inclure plusieurs composantes (telles que l'ensemble de données SAS). Les données opérationnelles (ODD) sont les apports destinés à la mise en œuvre du chargement de l'entrepôt de données. Elles peuvent être extraites de fichiers plats et enregistrées dans l'ensemble de données SAS. Les "tableaux détaillés" incluent les données provenant des ODD au plus faible niveau de détail. Sur ces tableaux, les agrégations permettent de créer les "dépôts de données", sous-ensemble d'un entrepôt de données. Ils se rapportent à un ensemble d'informations spécifique: un dépôt de données est une section logique de l'entrepôt de données et il inclut les agrégations finales de l'utilisateur.


Chaque dépôt de données est censé être un entrepôt complet et peut être construit à l'aide des résultats d'enquêtes ou d'analyses sur les utilisateurs. Un "dépôt d'informations" est un catalogue comprenant (ou affichant) des informations sur les variables codées.

Deux approches principales sont requises pour développer un environnement d'entrepôt de données. La première repose sur la création d'un entrepôt central, en utilisant des données issues du système hérité et d'autres sources. Cet entrepôt central peut ensuite être utilisé pour charger l'entrepôt départemental ou les dépôts de données locaux. La seconde approche est basée sur la création de dépôts de données dont la zone de sujet est indépendante, chacun étant directement chargé à partir des systèmes hérités et d'autres sources de données.

L'approche de l'entrepôt de données central peut débuter par un simple entrepôt, développé dans le temps pour répondre aux demandes croissantes des utilisateurs, et devenir un environnement contenant des systèmes d'entrepôts connectés. Dans un environnement d'entrepôt simple, trois zones doivent être gérées: l'extraction et la transformation des données issues des systèmes opérationnels; la base de données des entrepôts; les outils d'exploitation des données.

Il convient de gérer le réseau fournissant l'accès aux utilisateurs. En règle générale, il existe au moins trois entrepôts de métadonnées et d'autres informations connexes: l'un pour couvrir les structures de données et les règles de transformation relatives à l'extraction des données depuis les systèmes hérités; le deuxième pour la base de données de l'entrepôt; et un ou plusieurs entrepôts pour les outils d'exploitation, en fonction du nombre d'outils utilisés. Ces entrepôts doivent être gérés, à la fois individuellement et globalement. Les données présentes dans l'environnement de base de données de l'entrepôt devraient également être contrôlées.

La complexité de cette tâche dépend de la base de données choisie, mais elle intègre des fonctions de sauvegarde, de récupération, de réorganisation, d'archivage, de suivi des performances et de réglage. Des sous-ensembles de données (dépôts de données) départementaux ou locaux sont créés pour accroître les résultats de requêtes des utilisateurs et réduire la dépendance vis-à-vis de l'entrepôt de données. Ce niveau de données supplémentaire augmente la complexité de la gestion de l'environnement: il ajoute un autre niveau de métadonnées et éventuellement un autre entrepôt. Il nécessite le contrôle et la gestion de la distribution des données vers les dépôts; et, à moins que l'administration du dépôt de données ne soit totalement déléguée au niveau local, il requiert également le contrôle des informations de la base de données du dépôt. Cette situation se complique encore davantage si l'environnement continue d'évoluer en raison de la création d'entrepôts multiples. Dans ces cas d'espèce, les difficultés de gestion sont écrasantes.

Dans l'approche relative au dépôt de données indépendant, l'acheminement du dépôt en question jusqu'à l'entreposage des données semble aujourd'hui le plus courant, et cela s'explique facilement. La création d'un dépôt de données unique orienté sur le sujet pour résoudre un problème particulier représente une solution simple. La gestion d'un tel environnement est relativement évidente et peut être aisément énoncée. Les trois zones à gérer sont les suivantes: l'extraction de données depuis les sources, et la transformation dans les structures correctes de

données pour la base du dépôt de données; la base du dépôt de données elle-même; les outils d'exploitation.

Étant donné que l'environnement ne contient généralement pas d'entrepôts de données si volumineux, ou les interrelations trouvées dans les entrepôts centraux, il est plus facile à gérer. Si cette solution de dépôt de données unique constituait la seule configuration d'entrepôts dans


l'organisation, la tâche du gestionnaire serait relativement aisée. Cependant, cette approche ne s'arrête habituellement pas à un dépôt de données et, une fois les autres dépôts ajoutés, la situation se complique beaucoup. La tâche consistant à apporter un certain nombre de dépôts de donnés indépendants dans un seul environnement d'entrepôts est extrêmement ambitieuse. On constate presque toujours que chaque dépôt de données a été élaboré indépendamment. Ces dépôts sont susceptibles de devenir des systèmes hérités de l'ère des entrepôts de données. À ce titre, ils comportent le problème lié à l'acceptation des données, et des incohérences dans la définition des données, que l'entrepôt devait résoudre. Cette situation peu engageante n'est évitée que lorsque le développement est contrôlé par une architecture unique d'administration des systèmes.

Les entrepôts de données sont susceptibles de contenir de très grands volumes de données, lesquels ne sont pas toujours utiles à tous les utilisateurs. Parcourir ces volumes de données indépendants peut s'avérer inefficace et constituer une perte de temps. Pour parer à cette situation, les données à l'échelle de l'institut issues de l'entrepôt peuvent être subdivisées en domaines d'intérêt spécifiques. Ces structures de données contenant des informations d'un intérêt particulier sont désignées comme des dépôts de données. Les "knowledge workers", tels que les analystes d'entreprise, exécutent généralement le processus de prise de décision en trois temps: découverte des principales zones à problème; analyse et confirmation, nécessitant la preuve de la découverte et une description plus détaillée; présentation, s'attachant à la transmission des conclusions de manière appropriée aux autres

décideurs.

Chacune des trois phases nécessite différents outils logiciels offrant des capacités et un centre d'intérêt distincts.

De plus, bon nombre d'outils d'exploitation des données créent leurs propres environnements, chacun possédant son propre entrepôt. Celui-ci détient les informations requises pour exploiter les données en vue de répondre aux requêtes générées par l'outil. Si l'entrepôt de données doit être géré de manière centralisée, ces environnements doivent être totalement intégrés dans la structure de gestion. Même lorsque la responsabilité de la gestion des outils d'exploitation des données est déléguée au niveau de l'utilisateur local, un lien entre le système d'administration central de l'entrepôt et les environnements d'outils décentralisés s'avère encore nécessaire. Celui-ci permet de veiller à ce que les environnements d'outils affectés par les modifications centrales puissent être identifiés, et à ce que les changements qui influent sur les outils puissent être mis en œuvre.

L'organisation de toutes les données client dans un environnement d'entrepôt intégré figure parmi les grands défis auxquels sont confrontés les experts en informatique. Cependant, une tâche tout aussi importante consiste à créer un environnement intégré pour indiquer la disponibilité des données et les possibilités d'exploitation. En l'absence de données sur les données (métadonnées), l'entreprise ne parviendra pas, dans le meilleur des cas, à obtenir un retour total sur l'investissement dans l'entrepôt de données. Au pire, si la quantité de données dans l'infrastructure d'entreposage augmente exponentiellement, les utilisateurs professionnels risquent de renoncer car le processus de récupération des informations représente une perte de temps excessivement importante. D'autres tendances penchent également pour un inventaire renforcé des ressources d'informations. À titre d'exemple:

l'évolution de l'environnement de l'entreprise crée des définitions commerciales en constante mutation;

les dépôts de données prolifèrent, souvent sans planification centrale; les unités et les équipes commerciales créent leurs propres termes pour désigner des éléments de

données similaires; les entreprises transnationales et multinationales sont sources de difficultés linguistiques;


la hausse de la rotation de personnel se traduit par une sortie permanente d'informations non documentées;

des informations précieuses mais non structurées (telles que celles présentées sur le web) viennent s'ajouter aux volumes de données.

Dans un environnement d'entrepôt de données, il ne convient pas seulement de gérer l'échange d'informations entre les entrepôts de métadonnées, mais de contrôler la métadonnée elle-même en tant qu'élément de l'entrepôt de données. Celui-ci contient généralement des données anciennes et des structures de données susceptibles d'avoir évolué. lorsqu'un utilisateur commence à accéder aux informations d'un entrepôt, certains questions se posent inévitablement: quelle information est disponible dans l'entrepôt? que signifie la définition (comment, par exemple, un client est-il exactement défini)? les données sont-elles actuelles et fiables?

Au niveau de l'INS (ou Direction), les métadonnées sont conçues pour répondre aux questions citées plus haut. Il convient de souligner que les métadonnées seront évaluées à ce niveau. Les réponses à ces questions peuvent généralement être trouvées dès l'origine d'un entrepôt de données. Cependant, le rôle des métadonnées devient plus complexe au fur et à mesure que les informations et les exigences des utilisateurs augmentent. En conséquence, les entreprises devraient structurer un environnement complet de gestion des métadonnées et aborder la question avec méthode, dès le premier jour, afin d'éviter les problèmes.

Par ailleurs, de nombreux outils d'exploitation des données créent leurs propres environnements, chacun possédant son propre entrepôt. Celui-ci dispose des informations requises pour exploiter les données en vue de répondre aux requêtes générées par l'outil. Si la gestion de l'entrepôt de données doit être centralisée, ces environnements doivent être totalement intégrés dans la structure de gestion. Même lorsque la responsabilité de la gestion des outils d'exploitation des données est déléguée au niveau de l'utilisateur local, un lien entre le système d'administration central de l'entrepôt et les environnements d'outils décentralisés s'avère encore nécessaire. Celui-ci permet de veiller à ce que les environnements d'outils affectés par des modifications centrales puissent être identifiés, et à ce que les changements qui influent sur les outils puissent être mis en œuvre. Le point important est que les outils d'exploitation des données ne soient pas oubliés dans le cadre de la gestion de l'entrepôt. Leurs besoins doivent être pris en compte dans le système global de gestion des entrepôts, ce qui nécessite la création d'un répertoire d'outils, si possible sur un entrepôt central comportant une définition de l'environnement d'entrepôts de données total.

Les définitions et règles de l'INS associées à l'entrepôt de données doivent être gérées. Ces règles et définitions doivent être fixées d'un commun accord par les instituts puis mises à jour en permanence en fonction des changements susceptibles d'intervenir. Ces définitions, ainsi que leurs relations avec les structures de données réelles de l'entrepôt, devraient également être accessibles par les utilisateurs.

Le point de départ devrait être ce que nous attendons de l'entrepôt de données; en d'autres termes, l'élaboration correcte de cet instrument ne peut être effectuée qu'après que son objectif ait été clairement défini. Les données sur les services industriels constituent ici le point de départ. Ces données peuvent être agrégées par division géographique, catégories commerciales ou nombre de personnes responsables: en outre, elles peuvent être combinées pour produire des tableaux destinés à mettre en évidence les caractères spécifiques. Un entrepôt de données est un "mécanisme" permettant d'accéder aux informations, la quantité exacte de données devrait être connue, ainsi que ses relations. La sélection des variables est effectuée par les utilisateurs. Un autre paramètre à prendre en considération est la possibilité de sélectionner des dépôts spécialisés par date chronologique, pour les requêtes rapides, bien que d'autres caractéristiques puissent être affectées


telles que la synchronisation appropriée des informations (les archives partagées peuvent ne pas être harmonisées).

5. Un entrepôt de données destiné au recensement économique intermédiaire

Ce paragraphe examine les caractéristiques de l'entrepôt de données d'ISTAT utilisé pour diffuser les informations issues du recensement intermédiaire des entreprises industrielles et de service, la date de référence étant le 31 décembre 1996. Le recensement intermédiaire de 1998 était basé sur ASIA (répertoire statistique des entreprises actives), élaboré à l'aide des données administratives émanant d'autres sources. L'enquête sur le terrain a été réalisée de janvier à septembre 1998, et les données d'environ 450 000 entreprises ont été vérifiées, bien que 3 500 000 entreprises aient été concernées par le recensement, tandis que les résultats de ce dernier (portant sur l'ensemble de la population) ont été diffusés en décembre 1998.

Ce premier entrepôt de données d'ISTAT a été mis en œuvre avec le soutien de l'Institut SAS. La diffusion des données a été principalement réalisée au moyen de l'entrepôt, dont l'accès est gratuit sur Internet. Les utilisateurs pouvaient naviguer entre les informations, en ne sélectionnant que les données répondant au mieux à leurs besoins. Ils pouvaient créer des tableaux, qu'ils pouvaient télécharger sur leur PC, et effectuer des analyses par secteur, zone géographique, taille et séries historiques, qui ne pouvaient être fournies que sur demande lors des recensements précédents. En 1999, quelque 2 500 utilisateurs ont extrait environ 300 000 tableaux statistiques, soit une moyenne de 130 extractions par utilisateur, et 800 par jour.

Il a fallu environ six mois pour élaborer et mettre ce dispositif en œuvre. Les produits suivants ont été utilisés: SAS/Warehouse Administrator, pour construire l'entrepôt de données, SAS/Desktop Application Builder, pour sélectionner les agrégations et pour les logiciels de navigation. L'entrepôt de données nécessite environ 25 Go d'espace disque, étant donné qu'il n'inclut pas seulement les résultats du recensement intermédiaire de 1996 mais également ceux des recensements généraux de 1971, 1981 et 1991 effectués auprès des entreprises. Plus de 100 programmes logiciels ont été créés, soit quelques 14 000 lignes.

Le SAS/Warehouse Administrator a été utilisé pour gérer la construction de l'entrepôt de données, en suivant les étapes suivantes: chargement des données du fichier ascii sur des plates-formes Unix; identification du domaine d'observation; sélection d'entreprises interrogées; chargement des tableaux; harmonisation des données; identification des données opérationnelles; création de sujets; création de dépôts de données.


Les données issues des recensements de 1971, 1981 et 1991 (uniquement pour les entreprises) ont été enregistrées dans trois fichiers différents, soit un fichier pour chaque année. Les données de 1996 ont été stockées dans deux fichiers: l'un pour les entreprises et l'autre pour les unités locales. Les tableaux suivants ont été chargés: tableaux de décodage des entrepôts de données, tableaux de décodage des données opérationnelles, tableaux relatifs aux dimensions.

Les classifications relatives à l'activité économique étaient reliées aux années de référence, grâce aux tableaux de décodage des dépôts de données: le tableau “ate81_71” a été utilisé pour rapprocher la nomenclature de 1981 de celle de 1971. Les tableaux de décodage des données opérationnelles permettaient d'établir un lien entre les informations et la date de référence des dernières nomenclatures disponibles d'ISTAT (en d'autres termes, la nomenclature de 1991 a été utilisé pour les activités économiques, et n'a pas été modifiée en 1996).

Les activités suivantes ont été accomplies pour harmoniser les données: la reclassification des activités économiques pour les rattacher aux nomenclatures actuellement

utilisées; la reclassification géographique:

o de municipalités où des changements ont eu lieu; o de municipalités spécifiques (capital de région/province, principales zones urbaines); o en raison de nouvelles agrégations géographiques non assimilées à une division

géographique administrative (système d'emploi local, district industriel); la reclassification du statut juridique précédemment adopté pour le rattacher à la nomenclature

actuelle; l'harmonisation du codage relatif à l'artisanat, cette définition évoluant d'un recensement au

recensement suivant; l'harmonisation du codage relatif au domaine de diffusion (unité locale d'une entreprise à site

unique, ou d'une entreprise disposant de plusieurs unités locales, ou d'un site secondaire); les règles établies ont été utilisées pour affecter les variables de 1996 suivantes: "répartition

géographique de l'entreprise" (municipalités, province, région, pays), "répartition des unités locales" (implantation géographique des unités locales par rapport au site principal) et "catégories d'employés".

Cinq ensembles de données opérationnelles ont été élaborés (pour les unités locales de 1971, 1981, 1991, 1996 et les entreprises de 1996). Deux autres groupes de données opérationnelles ont été représentés par des tableaux de dimensions, utilisés pour illustrer les modes de variables codées, et les tableaux de décodage. Le dispositif en étoile est le modèle logique utilisé pour enregistrer les données, chaque tableau étant associé à plusieurs autres tableaux contenant des données descriptives, telles que les dimensions.

Les sujets identifiés sont les entreprises et les unités locales. Chaque sujet inclut quatre tableaux détaillés associés aux années de recensement. Ces tableaux comprennent des variables de classification et d'analyse définies dans la phase de chargement et d'harmonisation.

Les tableaux détaillés relatifs aux deux sujets sont élaborés à l'aide du dépôt de données agrégées utilisé par les logiciels de navigation et d'impression. Ce dépôt correspond à des ensembles de variables de classification et d'analyse nécessaires à l'étude d'un événement. 5 dépôts de données ont été créés:1. comparaisons entre 1971, 1981, 1991 et 1996;2. comparaisons entre 1981, 1991 et 1996;3. comparaisons entre 1991 et 1996;4. données de 1996;5. indicateurs statistiques - économiques de 1996.


Les processus suivants ont été utilisés pour créer les dépôts de données: identification du domaine d'observation; fusion des données détaillées (pour chaque année) de chaque sujet (un ensemble de données

pour les entreprises et un pour les unités locales); agrégation des données; attribution de format et description des variables; création de dépôts de données de premier niveau; élaboration du post-traitement des dépôts de données finales utilisées par le module de

navigation.

En fonction du nombre et de la typologie des variables de classification, certains résultats des agrégations requises par le logiciel de navigation ont été enregistrés. Compte tenu du temps nécessaire au traitement de cet important volume de données, les agrégations ne pouvaient avoir lieu lorsqu'elles étaient demandées par les utilisateurs. Le dépôt de données de 1996 aurait, par exemple, déterminé plus d'un million d'agrégations, si 20 classifications avaient été reliées.

Il a donc été nécessaire de sélectionner quelles agrégations devraient être enregistrées, en déterminant les autres typologies au moyen de l'algorithme "le plus proche". Le module DAB (Desktop Application Builder) a été utilisé et développé par l'Institut SAS à l'aide du logiciel SAS EIS. Une "métabase" relative à chaque dépôt de données a été élaborée, comprenant les variables de classification et d'analyse observées, en partant de la matrice de données agrégées, où toutes les variables de classification étaient résumées. Les agrégations à enregistrer ont ensuite été sélectionnées (type), les types hiérarchiques ont été d'abord choisis (c-à-d. division géographique, région, province) suivis de certaines variables constantes (c-à-d. l'artisanat).

En 1999, la seconde phase du recensement intermédiaire a été mise en œuvre, le 31 décembre 1997 étant la date de référence. Quelque 300 000 entreprises ont été interrogées à l'aide d'un questionnaire afin d'obtenir des informations sur les divers aspects des activités et de la structure des sociétés (l'appartenance à des groupes d'entreprises, la part des marchés nationaux et étrangers, l'investissement dans les technologies innovantes, l'organisation du travail, etc.). Les données collectées sont actuellement corrigées et seront diffusées au début de l'an 2000, ainsi que les données mises à jour du répertoire ASIA, portant sur 1997.

La conception du nouvel entrepôt de ce type de données a commencé. Ce projet, baptisé DIONISIO (Data warehouse Internet Osservatorio Nazionale Industria e Servizi Informazioni Organizzate - centre national d'information sur les entreprises industrielles et de service) vise à diffuser les données de recensement intégrées, d'une autre manière que pour les statistiques structurelles précédentes sur les entreprises industrielles et de service. Ce projet comporte plusieurs problèmes: les variables à diffuser proviennent de différentes enquêtes, elles sont nombreuses et diverses agrégations sont utilisées, telles que la zone géographique, la taille, le secteur d'activité économique, etc. De plus, ces données sont confidentielles, à la différence des caractères d'identification des unités recensées en 1996-97. En d'autres termes, des mesures spécifiques devraient être prises pour préserver cette confidentialité.


Un logiciel d'application spécifique a été élaboré pour les PC à l'aide de modules SAS. Les données seraient ensuite chargées et maintenues sur une plate-forme Unix. L'ordinateur personnel a été choisi pour garantir une interaction plus efficace avec les programmeurs, tandis que l'adoption d'une plate-forme Unix est conforme aux normes de l'Institut.

Cette application devrait s'attacher aux thèmes suivants: les problèmes statistiques soulignés par les études préliminaires, la sécurité des données, la confidentialité des informations à diffuser, facilité d'accès des utilisateurs, la cohérence des tableaux basés sur le recensement avec les données issues d'autres enquêtes structurelles. La sécurité des informations, de meilleures performances et des suggestions concernant les applications futures constituent les attentes d'une phase d'essai, entreprise au terme des processus de conception et de suivi des utilisateurs.

La stratégie soulignée ci-dessous sera adoptée pour diffuser les données relatives aux enquêtes par recensement structurelles: les données contenues dans le chapitre A du questionnaire (concernant les caractéristiques de

base des entreprises à compter du 31 décembre 1997) seront diffusées au moyen de l'entrepôt de données décrit ci-dessus;

les données figurant au chapitre B du questionnaire (concernant les variables structurelles) seront diffusées en élaborant un entrepôt à deux versions: une "grande" version pour les utilisateurs internes d'ISTAT et une version "allégée" pour les autres utilisateurs. Deux objectifs pourraient ainsi être atteints: diffuser les informations en préservant la confidentialité et fournir des données complètes et exhaustives aux utilisateurs internes permettant d'agréger les données de base de façon appropriée.

6. Un entrepôt de données destiné aux statistiques du commerce extérieur

L'entrepôt de données d'ISTAT relatif au commerce extérieur a été d'abord mis en œuvre pour élaborer environ 1 000 tableaux dans "l'annuaire 1998 du commerce extérieur et des activités internationales des entreprises italiennes", publié par ISTAT et l'Institut national du commerce extérieur en juillet 1999. Le but initial était de concevoir et de créer des dépôts de données et d'informations nécessaires, et d'appliquer plusieurs typologies en ligne d'interrogation et de transmission sur le web.

Par la suite, ce projet a été développé pour intégrer l'entrepôt de données dans le processus de production de données mensuelles sur le commerce extérieur, et pour offrir un accès aisé et efficace aux données sur Internet. Ainsi, tout utilisateur autorisé d'Intranet peut: accéder aux données statistiques sur le serveur web, y compris aux tableaux de l'annuaire en

ligne; accéder aux dépôts de données SAS sur le serveur d'application pour demander les données

agrégées (dans des formats spécifiques); accéder aux tableaux et aux microdonnées individuels stockés dans le SGBD Oracle8 pour des

demandes plus spécifiques.

En réalité, l'entrepôt de données des statistiques du commerce extérieur a été enrichi et il contient des microdonnées mensuelles datant de 1991 à 1999, concernant 9 000 groupes de produits provenant de 250 pays, et 103 provinces d'origine (ou de destination) des marchandises. Une base de données moins importante a été tirée de cette base, à laquelle il serait possible d'accéder via Internet, tandis que la base complète sera utilisée pour élaborer de façon automatique tous les produits standard (CD-ROM, publications, etc.) et répondre aux besoins spécifiques des utilisateurs.

8 Il s'agit du serveur de la base de données entrant dans le cadre informatique adopté par ISTAT.


Les 300 millions d'enregistrements contenus dans l'espace disque de 80 Go placent cet entrepôt parmi les "VLDB" (très grandes bases de données).

En 1998, le service des statistiques du commerce extérieur, à la suite d'une précédente étude de faisabilité, a lancé un nouveau projet s'inscrivant dans son dernier système d'information. Son principal objectif était la migration, avant décembre 1999, du système d'information d'un ancien système centralisé (MVS, base de données Adabas, procédures Natural et Cobol) vers un nouvel environnement en voie de développement (SAS et Oracle en tant que SGDB) au sein d'un environnement Unix. Le besoin d'une "gestion totale de la qualité" est à l'origine de ce nouveau projet: il a trait aux différents points, tels que la formation et la motivation du personnel, le contrôle opportun des méthodes de traitement des informations. En conséquence, la qualité des données et la satisfaction des utilisateurs sont les principales cibles.

Cet entrepôt de données est totalement intégré dans SISSIEI au moyen des codes de contribuable relatifs aux opérateurs sur les marchés étrangers (notamment les entreprises commerciales ou industrielles). Les enquêtes (Intrastat et pays extra-UE) ayant une valeur fiscale (le ministère des Finances est responsable de la collecte des données), chaque nouvel opérateur impliqué dans les opérations d'importation/exportation est identifié et enregistré dans le répertoire des entreprises (ASIA); de plus, grâce au code de contribuable, les données sur le commerce extérieur peuvent être reliées à toutes les autres données économiques collectées au moyen d'enquêtes diverses, en vue de contrôler la qualité des données et d'effectuer l'analyse économique.

Dans l'entrepôt de données sur le commerce extérieur, les principaux "sujets" sont le poids statistique, le montant des factures, la quantité (en Kg ou autre). Les principales "dimensions" sont: le flux de transactions, le projet, le numéro de TVA, la nomenclature combinée à huit chiffres (NC8), le pays d'origine, le lieu d'origine, la province, la clientèle, le mode de transport, les conditions de livraison et le type de transactions. Il est possible, à partir de ces "dimensions" principales, d'identifier d'autres "supra-classifications": à partir de la nomenclature combinée, nous disposons de nomenclatures agrégées (Nace Rév. 1,

groupes de produits, CTCI, NST/R, NACE/CLIO, l'utilisation économique); à partir des provinces, nous avons des régions et des divisions géographiques; à partir des pays, nous avons des classifications pas grandes zones géographiques et

économiques; à partir de la clientèle, nous disposons de zones de chalandise.

En raison de la fréquence mensuelle des enquêtes, le mois, le trimestre et l'année sont les "dimensions temporelles" observées.

L'entrepôt de données sur le commerce extérieur repose sur une architecture à trois niveaux:- introduction ou niveau client;- niveau de l'application;- niveau de la base de données.

A –Niveau du client

Le niveau du client repose sur les technologies du web offrant plusieurs avantages: une interface gérée au moyen de la variante client léger requérant moins de configurations matérielles que les bureaux, améliorant la fiabilité et réduisant les coûts et frais généraux associés à l'entretien du matériel. De plus, une grande partie des technologies du web résident sur des serveurs locaux et ne sont chargées que sur demande; cette approche réduit considérablement le besoin d'installer et de gérer des logiciels clients spécifiques, tels que les outils DSS (système d'aide à la décision) et du logiciel de configuration de la base de données.


Les trois principaux avantages de cette architecture sont: l'indépendance de la plate-forme: le client n'a besoin que d'un logiciel de navigation. Il n'est pas

nécessaire d'aménager différentes plates-formes pour les clients, le logiciel de navigation assure l'interface avec l'autre logiciel d'application;

un environnement unique pour accéder aux applications, car il n'existe pas de logiciel client. En d'autres termes, apprendre à exploiter ce système est plus aisé pour les utilisateurs. Le logiciel d'application peut être accessible par le même environnement et la même interface: le logiciel de navigation;

aucune connexion: le volume d'interrogations permettant d'effectuer des actions et une transmission dans une architecture client-serveur commune pourrait être limité si de nombreux utilisateurs y accédaient au même moment. Dans ce système, elle est exécutée à l'aide d'un protocole HTTP, ne nécessitant pas une connexion client-serveur permanente et réduisant les problèmes classiques de ces applications.

B – Niveau de l'application

Le moteur du programme d'interrogation et de transmission de l'entrepôt de données est intégré au niveau de l'application. Les principales composantes sont: le serveur HTTP et le serveur d'application. Le serveur (ou web) HTTP constitue le principal élément des architectures à trois niveaux basées sur la technologie du web. APACHE est le serveur HTTP utilisé. Il est gratuit, mais solide, très performant, portable et efficace. Il garantit un niveau de sécurité acceptable, bien que sa phase de développement soit plutôt "complexe"9.

Sur le serveur, un programme d'interrogation et de transmission a été mis en œuvre à l'aide des deux produits suivants: SAS/IntrNet et la bibliothèque SAS/SCL "DWNET". SAS/IntrNet répond à différents besoins qui peuvent être mutuellement intégrés, tels que la création de pages statiques et de pages web dynamiques. Les utilisateurs peuvent accéder à des pages HTML statiques, créées par le gestionnaire de site, à l'aide du premier mode; le second permet aux utilisateurs d'interagir avec les sessions du système SAS sur Internet ou de naviguer à travers les données grâce au mode OLAP.

La bibliothèque "DWNET", mise en œuvre par une société de service italienne, est utilisée pour élaborer le site web du projet et permettre au programmeur du SAS/internet de modifier l'approche afin de créer des applications dynamiques.10 Cette bibliothèque peut gérer la connexion et exécuter toutes les applications client-serveur.

9 Il supporte les caractéristiques CGI et le dispositif Server Side Include (SSI) utilisé pour inclure un code côté serveur dans les pages HTML: le serveur web exécute une analyse du document avant d'envoyer la page HTML demandée au moyen d'un ordre de SAISIE conforme au protocole HTTP. Dans le cas où des instructions spécifiques apparaîtraient, on fait appel à un interprète compétent et les résultats d'un apport standard sont remplacés par un ensemble d'instructions et envoyés au logiciel de navigation.

1 0 Au lieu de créer une page HTML à l'intérieur d'une procédure SAS, une page est créée à l'aide d'un éditeur HTML commun (il est donc plus aisé de créer des pages) et, en utilisant le SSI (Server Side Include), le code SAS/base, MACRO SAS, SQL pour assurer l'interface avec Oracle, JavaScript est inclus dans la page. Le temps de programmation est considérablement réduit.


C –Niveau de la base de données

Deux approches pourraient être sélectionnées: l'une basée sur les bases de données multidimensionnelles (MDDB) et l'une sur la base relationnelle. La deuxième solution a été adoptée, à savoir une approche ROLAP (traitement analytique relationnel en ligne). En conséquence, les fonctions de base permettant de créer des hyper-cubes statistiques peuvent être mises en œuvre. En d'autres termes, les informations peuvent être organisées de telle sorte que le système de diffusion soit orienté sur un ou plusieurs "sujets" (événements) et un ensemble de "dimensions", structurés de façon hiérarchique par niveau, à travers lesquels les utilisateurs peuvent naviguer11.

Toutes les statistiques sur le commerce extérieur (depuis 1991) sont contenues dans le serveur de la base de données, soit les microdonnées validées, les agrégats principaux (tableau factuel) et secondaires (dépôt de données), et les métadonnées. Compte tenu des dimensions des données pour chaque année et les variables concernées, quatre tableaux contenant des microdonnées ont été créés sur une base annuelle, soit 35 millions d'enregistrements.

Dans le serveur d'application, les éléments suivants peuvent être trouvés: agrégats secondaires (dépôt de données) et dépôt d'informations issu du traitement SAS des agrégats, nécessaires à l'exécution des interrogations et des transmissions d'informations dans l'entrepôt de données. Une architecture ROLAP a été sélectionnée car les tests utilisant MOLAP n'ont pas été probants. De plus, dans l'entrepôt de données, les métadonnées sont disponibles grâce à la fonction "d'accès aux dictionnaires de données", et sont comprises dans les fonctions d'interrogation et de transmission.

7. Conclusions

ISTAT met en œuvre son système d'information statistique sur les entreprises et les institutions (SISSIEI). Il s'agit d'un système complexe couvrant toutes les phases des enquêtes statistiques, adoptant les suggestions et recommandations émises par les organisations internationales pour développer un mode de production statistique plus moderne et plus efficace.

En dépit des difficultés organisationnelles et techniques scientifiques, ce système est rapidement mis en œuvre, avec des effets positifs remarquables pour les fournisseurs statistiques et les utilisateurs. Au cours de l'an 2000, le système sera totalement opérationnel et cela impliquera d'importants changements dans la diffusion des données.

Dans ce scénario, la stratégie basée sur la construction d'un entrepôt de données est un élément important qui ne peut être écarté. Cette stratégie couvre les données disponibles en interne et celles accessibles via Internet. Les expériences de l'ISTAT révèlent qu'une approche flexible, prête à inclure des innovations en termes d'équipement et de logiciel, est la plus appropriée. Après le premier entrepôt de données de 1998 et l'entrepôt en cours de réalisation, plusieurs innovations ont été introduites et les expériences sur le terrain jouent un rôle déterminant. Les essais sur des

1 1 Les actions analytiques en ligne suivantes peuvent être réalisées:-sélection (ou filtrage) lorsque des critères sont imposés pour filtrer les données ou les niveaux d'une dimension

pour réduire le nombre de données rencontrées;-pivotement (ou rotation) lors de l'orientation de la dimension du cube, c'est-à-dire l'échange des lignes ou le

déplacement d'une des dimensions d'une ligne vers une colonne-roll down pour naviguer entre les niveaux de données du plus haut niveau d'agrégation au niveau le plus détaillé;-roll up (agrégation ou renforcement): il s'agit de l'harmonistion des données pour les plus hauts niveaux des

hiérarchies des dimensions;-mise en tranche, pour sélectionner les données remplissant une condition spécifique pour l'une des dimensions

établies.


prototypes constituent la meilleure solution, et de très grandes bases de données peuvent être mises en œuvre grâce aux logiciels polyvalents et solides actuellement disponibles.

Pour élaborer un système d'information tel que SISSIEI, un grand effort de formation est requis pour suivre l'approche "système". Un ensemble de règles claires et strictes concernant les communications entre les différentes composantes du système est nécessaire, et des modifications devraient être introduites dans l'organisation réelle des activités statistiques pour atteindre le but fixé.

Références

Egidi V. et Giovannini E. (1998) “Sistemi informativi integrati per l’analisi di fenomeni complessi e multidimensionali” in Istat Proceeding of IV National Statistical Conference, Roma, 1999

Nations Unies (1999) “Information systems architecture for national and international statistical offices: guidelines and recommendations” United Nations Statistical Commission and Economic Commission for Europe: Conference of European statisticians statistical standards and studies – No. 51


NOUVELLES TECHNOLOGIES EN STATISTIQUE ET EXIGENCES DES UTILISATEURS VIS-À-VIS DES INSTITUTIONS CENTRALES

Christos AndrovitsaneasBanque centrale européenneDirection générale StatistiquesKaiserstr. 29D-60311 Frankfurt/[email protected]

Malgré l'enthousiasme suscité dans le domaine de la statistique et les nombreuses initiatives correspondantes, les technologies Internet ne permettent pas nécessairement de résoudre facilement les problèmes existants ou de réaliser tous les objectifs des statisticiens. La qualité, l'actualité et l'efficience des données sont des objectifs essentiels au regard desquels tout système statistique doit être évalué. L'utilisation de nouvelles technologies ne constitue donc pas une condition suffisante pour atteindre ces objectifs, puisque la mesure dans laquelle ces systèmes facilitent la fourniture, la production et la diffusion de statistiques doit aussi être soigneusement évaluée en termes d'intégration et d'efficience. Par ailleurs, le progrès technologique et la nature changeante de la communauté des utilisateurs modifient le concept d' "utilisateur final" et transforment progressivement les utilisateurs de statistiques en "centres" statistiques potentiels, qui – aujourd'hui plus que jamais – tireraient parti d'une intégration des systèmes. Ces facteurs doivent être pris en compte lors de l'identification des besoins des utilisateurs ou de la planification d'un nouveau cadre de diffusion des données exploitant les nouvelles technologies.

Le présent document met en lumière ces aspects particuliers de l'utilisation des nouvelles technologies en statistique. Les questions connexes déjà suffisamment débattues dans le cadre d'autres réunions et conférences ne seront plus abordées ici et le lecteur est renvoyé aux contributions originales correspondantes.1

1. Automatisation de la fourniture et de la diffusion des statistiques

1.1 Nouvelles technologies et considérations de coûts

Convergence des technologies, explosion de la largeur de bande, matérialisation du "tout est possible": les gouvernements peinent à rester dans la course, et à plus forte raison à mener en tête, lorsqu'il s'agit d'acclimater les innovations. Même s'ils parvenaient à surmonter les problèmes structurels, réglementaires et culturels liés à l'adoption rapide des nouvelles technologies, la plupart d'entre eux se heurteraient à un obstacle encore plus important, à savoir le manque de ressources pour l'acquisition et la mise en œuvre de technologies complexes et solides.

Bien que cet extrait de Tapscott & Agnew (1999) ne se réfère pas uniquement à la fourniture et à la diffusion de statistiques, il décrit au mieux le dilemme auquel les organismes statistiques se trouvent confrontés de nos jours. Par bonheur, ceux-ci ne doivent pas nécessairement se mettre au niveau des technologies Internet dernier cri, ni s'efforcer en permanence de s'adapter à l'environnement technologique sans cesse changeant. Ils disposent, en effet, d'une certaine marge de manœuvre, due notamment au fait que l'élément moteur que constituent les exigences des utilisateurs des statistiques semble beaucoup plus stable que les technologies Internet. Les principales exigences des utilisateurs sont les suivantes: qualité des données; actualité; efficience des moyens d'échange de données.

Comme expliqué ci-dessous, une combinaison de méthodologies EDI classiques et de techniques de diffusion sur le Web (dans le contexte d'une approche fondée sur l'intégration des systèmes) pourrait représenter la solution optimale pour, à la fois, maintenir les coûts à un niveau relativement bas et répondre aux exigences du public tant traditionnel qu'élargi (utilisant le Web).

1 Voir notamment Sarreither & Novak (1999), Podehl (1999) et Statistics Norway (1998).


1.2 Rôle de l'EDI

Les principaux facteurs à prendre en considération dans la fourniture et la diffusion de statistiques sont l'actualité et la mise à disposition de solutions efficaces en termes de coûts. Un degré d'automatisation élevé chez tous les partenaires participant à un échange de données statistiques est un élément clé pour améliorer l'actualité et maximiser l'efficience.

La communauté des banques centrales possède une assez longue tradition en matière d'EDI (échange de données informatisées) statistiques. L'échange d'informations statistiques sur papier ou par télécopieur entre les partenaires n'est aujourd'hui plus considéré comme une option, pas même lorsqu'il s'agit de définir des mesures de secours. En cas de défaillance des systèmes, des solutions de repli prévoient le recours à des systèmes et procédures secondaires de remplacement. Des données et métadonnées statistiques ont été échangées entre les banques centrales en utilisant un format de message unique pour tous les domaines économiques et les systèmes de plusieurs partenaires ont été entièrement intégrés. Ces dernières années, en particulier, un environnement technologique de pointe a été développé autour de l'utilisation de GESMES/CB.2 Les banques centrales s'accordent à penser que, grâce aux avantages de la stratégie suivie en matière d'EDI et aux solutions retenues, les investissements réalisés ont généré des bénéfices nets dès les premiers mois qui ont suivi l'introduction complète de GESMES/CB dans les échanges de données statistiques. Un degré d'efficience élevé, qui constituait un souci majeur3, a été atteint tant du point de vue de la satisfaction des exigences que du point de vue des ressources nécessaires au développement et à la mise en œuvre. Au sein de la BCE, le principe de la réutilisabilité des composants a été largement appliqué, en se basant principalement sur la couche GESMES/CB (utilisation d'un seul "chargeur" de GESMES/CB vers les systèmes de base de données internes). Dans ce contexte, les banques centrales, lorsqu'elles interviennent en qualité d'institutions clientes d'autres centres statistiques importants, attachent une importance particulière aux possibilités d'automatisation et à l'utilisation de GESMES/CB. La possibilité de télécharger les données et métadonnées est une condition essentielle pour importer des données de sources externes dans des systèmes locaux. La simple "visualisation" des données ne présente aucun intérêt pratique, vu que, dès la réception des données par le partenaire destinataire, le "stockage" et le "traitement ultérieur" sont considérés comme les étapes suivantes logiques du processus de diffusion des informations.

1.3 Internet contre EDI?

L'utilisation d'Internet peut faciliter encore davantage la fourniture et la diffusion de statistiques. Internet permet, en effet, de rendre l'information accessible au grand public et c'est sur ce point, en particulier, que son avantage par rapport aux autres canaux devient le plus visible. Parmi les aspects spécifiques qui sont d'un intérêt primordial pour les statisticiens, il convient de citer, par exemple, la communication simultanée à toutes les parties intéressées et la "rapidité de la diffusion" (FMI 1997), auxquelles un recours au Web peut contribuer idéalement. En outre, l'introduction d'un

2 GESMES/CB est un profil GESMES relativement simple, basé sur un modèle de série chronologique extrêmement puissant. Il permet l'échange de données multidimensionnelles, d'attributs et de métadonnés structurelles. L'une des préoccupations fondamentales au cours de la phase de conception avait été de permettre une communication entre les différents systèmes de bases de données, sans que celle-ci suppose nécessairement une représentation tabulaire visuelle des informations échangées (Androvitsaneas 1997). GESMES/CB a été développé conjointement par la Banque centrale européenne (BCE) et la Banque des règlements internationaux (BRI) en vue de l'échange de statistiques concernant tous les domaines économiques (voir BRI, BCE 1999). Ce système est utilisé pour l'ensemble de la production statistique des 15 banques centrales de l'UE depuis le début de 1998 et sert déjà très efficacement à la fourniture et diffusion de données au sein du Système européen de banques centrales (SEBC) (Androvitsaneas 1999); d'ici la mi-2000, les institutions recourant à GESMES/CB pour l'ensemble de leur production seront représentées sur pratiquement tous les continents.

3 Pour une réflexion sur l'efficience dans le contexte des systèmes d'information statistique, voir notamment Sundgren (1999a), ONU (1999) et Linde & Vanags (1999).


tel mode de diffusion requiert une approche de type "entrepôt de données"1 et favorise l'émergence d'une culture statistique commune interne. Toutefois, un échange de données via le Web ne conduit pas nécessairement à des solutions permettant une intégration sans problèmes, en particulier pour ce qui concerne le partenaire accédant aux données. L'intégration est également devenue un sujet de préoccupation majeur ces dernières années et des interfaces EDI normalisées ont été jugées indispensables pour atteindre les objectifs correspondants (voir p. ex. Malmborg & Sundgren 1994, Keller & Bethlehem 1998). À cet égard, la mise en place de solutions Internet ne devrait entraîner aucun conflit potentiel avec d'autres approches susceptibles de garantir un degré d'automatisation plus élevé encore. Il est à noter que les solutions Internet devraient soit intégrer des passerelles vers des procédures d'automatisation avancée (p. ex. possibilités de téléchargement dans un format normalisé au moyen d'un nombre minimum d'opérations manuelles), soit, dans le cas contraire, éviter d'exclure le soutien d'approches EDI plus traditionnelles.

2. Statistiques et communauté des utilisateurs

2.1 Existe-t-il des institutions non centrales?

Prenons un cas dans lequel un certain nombre d'institutions (dites déclarantes) envoient des données statistiques à une autre institution (dite centrale), qui organise la collecte, effectue des opérations de traitement et, éventuellement, établit des données macro-économiques ou des agrégats. Comme institutions déclarantes, pourraient entrer en ligne de compte les instituts nationaux de statistiques (INS) faisant rapport à EUROSTAT ou les banques centrales nationales (BCN) faisant rapport à la Banque centrale européenne (BCE). Ces INS (ou BCN) joueraient cependant le rôle d'une "institution centrale" si l'on prenait en considération les entreprises (ou les banques) leur faisant rapport. Par ailleurs, dans une certaine mesure, le secteur des systèmes d'information statistique des INS ou des BCN doit, en tout état de cause, assumer le rôle d'une institution "centrale" lorsqu'il reçoit des données et métadonnées d'une autre institution. Dans tous les cas de transfert régulier de données, les partenaires ont intérêt à se considérer comme jouant un rôle central et à rechercher un degré d'automatisation aussi avancée que possible. S'il n'en va pas encore ainsi dans certains circuits de transmission de données, l'échange d'informations statistiques dans les deux sens doit être considéré comme l'une des caractéristiques tout à fait essentielles de l'utilisation des statistiques au cours des prochaines années.

2.2 Existe-t-il encore des utilisateurs finaux?

De nos jours, le nombre d' "utilisateurs finaux" n'est, en effet, plus tellement important. Même pour l'opération la plus élémentaire portant sur un tableau statistique d'une page Web, personne ne se contenterait de simplement visualiser un chiffre. Même un "utilisateur final" au sens le plus étroit du terme souhaiterait "copier" au moins une ou plusieurs valeurs numériques pour les "insérer" ensuite dans un tableur électronique, un document ou un programme économétrique, qui serait sans doute ouvert simultanément (et qui, si possible, dans certains cas, contiendrait un lien dynamique vers sa copie locale de la base de données originale).

1 Pour les problèmes et questions liés à une telle transition, voir, par exemple, Björkqvist (2000).


2.3 Chaque utilisateur représente un centre de traitement potentiel

Comme évoqué précédemment, les utilisateurs tant individuels qu'institutionnels doivent, en général, après avoir recherché les données nécessaires, procéder à un traitement ultérieur à l'aide d'outils disponibles dans leur environnement local. Supposons qu'une institution ait – au prix d'efforts considérables – mis à disposition sur sa page Web, non seulement les données, mais également des outils de traitement. Il n'en serait pas moins assez simpliste de penser que la majorité des utilisateurs préféreraient utiliser cette série d'outils prédéfinis, trouvés en ligne (et probablement d'utilisation difficile, à première vue), plutôt que de télécharger les données dans leur infrastructure locale et d'effectuer le traitement en se servant des systèmes de base de données et des outils qui leur sont déjà familiers. Les outils du fournisseur ne sont susceptibles de se voir accorder la préférence que s'ils s'avèrent supérieurs aux moyens de traitement locaux. Mais, même dans ce cas, ils constitueraient une source de problèmes pour les utilisateurs, si ces derniers devaient être confrontés à divers types d'outils mis à disposition par des fournisseurs de données différents. En pareil cas, même une intégration élémentaire des systèmes serait relativement difficile pour l'utilisateur, à moins que tous les centres de diffusion ne fournissent et ne soutiennent les mêmes outils.

Les centres peuvent bien sûr résoudre ce problème en donnant leur appui au téléchargement des données. Les utilisateurs pourraient ainsi charger les données et métadonnées dans leur environnement local et, à l'aide des systèmes de base de données et des outils disponibles localement, effectuer les opérations de traitement de manière cohérente, sans tenir compte de l'identité du fournisseur de données.

3. Nouvelles technologies en statistique et modèle de données sous-jacent

3.1 Un modèle de données pour chaque utilisateur?

Chaque groupe d'utilisateurs potentiels de statistiques accessibles via le Web1 peut avoir des exigences différentes. Pour répondre à des attentes aussi variées, l'une des solutions envisageables pourrait consister à élargir l'éventail des métadonnées fournies ou, en d'autres termes, à proposer des formes ou des présentations adaptées aux exigences des divers groupes d'utilisateurs. Toutefois, il est clair que cela risquerait de se traduire par une très forte augmentation des coûts de maintenance des organismes statistiques.

Même dans le cas de certains systèmes sophistiqués, permettant une grande flexibilité (Sundgren 1997), un processus de téléchargement (p. ex. dans GESMES) est jugé essentiel lorsqu'il est prévu un traitement dépassant le cadre de calculs élémentaires et d'une simple visualisation. En outre, pour des raisons d'efficience, la flexibilité et les adaptations ont leurs limites. Il est difficile, pour un centre diffusant ses données sur le Web, de répondre à des attentes diverses en matière de modèle de données sous-jacent. Idéalement, il serait souhaitable de rechercher des accords aussi larges que possible sur le type de modèles de données soutenu en vue de la diffusion sur le Web. D'un autre côté, si cela n'était que difficilement faisable, il serait encore préférable, pour les institutions, de soutenir un modèle de données concret et relativement simple, ainsi que de fournir, en ligne, les explications et la documentation y afférentes, plutôt que d'essayer de s'adapter aux nombreuses attentes prévues et imprévues des utilisateurs. De nombreux organismes statistiques proposent déjà un accès en ligne à des informations et à une documentation très complètes.2

Cependant, plus l'information fournie est exhaustive, plus elle sera difficile à télécharger, à moins que des mécanismes spéciaux ne soient prévus à cet effet. Ici encore, les outils EDI – GESMES sont

1 Pour une réflexion sur les groupes d'utilisateurs potentiels et leurs exigences, voir Statistics Norway (1998).2 Statistique Canada, par exemple, publie sur le web plusieurs listes de codes sous-jacents aux séries chronologiques

accessibles en ligne (http://www.statcan.ca/english/Subjects/Standard/standard_classifications.htm).


indispensables pour interpréter et charger les données et métadonnées, ainsi que pour en automatiser le stockage local.

Dans le cas idéal, une normalisation du modèle de données soutenu et de la sémantique employée conduirait naturellement à une solution optimale tant pour les fournisseurs que pour les utilisateurs de données.

3.2 Vers un modèle de données pour la diffusion de statistiques sur le Web?

Des efforts ont été déployés afin de formuler des recommandations concernant des normes et un ensemble minimal de métadonnées pour la diffusion sur le Web (voir Statistics Norway 1998 et ONU/CEE 1999). Après avoir mis l'accent sur l'analyse des différents groupes d'utilisateurs, il a été conclu que, du fait de la diversité observée parmi ces derniers, l'on se trouvait confronté à une large palette d'exigences. Toutefois, la modélisation des métadonnées ne reflète, en fait, qu'un aspect partiel de la modélisation des données en général. Par ailleurs, afin de maintenir un degré d'efficience et d'intégration satisfaisant (tant pour le fournisseur que pour l'utilisateur), il convient bien évidemment, comme évoqué plus haut:

(1) de mettre à disposition des possibilités de téléchargement en soutien;

(2) de veiller à un certain degré d' "harmonisation" au niveau du modèle de données (et des métadonnées), dans le but d'éviter une trop grande complexité pour les utilisateurs.

En fait, ces problèmes n'ont rien de nouveau pour le monde de l'EDI statistique, vu qu'ils ont été largement débattus dans le passé. Le premier se rapporte au développement de mécanismes de filtrage, tandis que le deuxième a trait à la nécessité d'une convergence sur le plan sémantique3. Dans ces conditions, une partie importante des travaux réalisés jusqu'à présent dans ces domaines – au niveau conceptuel du moins – peut être réutilisée, ce dont il faudrait tenir le plus grand compte. La communauté des banques centrales, par exemple, utilise un modèle de données unique, relativement flexible et pas moins robuste, en combinaison avec une harmonisation poussée des informations qualitatives (attributs) et des procédures convenues pour l'administration des métadonnées structurelles.

La BCE prévoit d'apporter prochainement de nouvelles améliorations à ses systèmes de chargement et de diffusion de données. Pour ce faire, elle s'appuie sur les nouvelles technologies, sans pour autant s'écarter de ses objectifs en matière d'intégration, d'automatisation complète et d'augmentation de l'efficience. À l'heure actuelle, des travaux faisant appel à des techniques modulaires orientées objet sont ainsi menés dans le secteur des "statistiques sur le Web", afin de développer des filtres intégrés pour GESMES/CB et de revoir la conception du logiciel de base utilisé pour la conversion entre les divers types de formats (GESMES/CB-EDIFACT, GESMES/CB-XML, FAME et ODBC).

3 Plusiers actions sont en cours afin d'harmoniser le contenu et la présentation des métadonnées ( Statistics Norway 1998 et ONU/CEE 1999; pour cette dernière, voir notamment les questions examinées dans l'annexe). Dans le cadre des activités de l'ONU/CEE, une séance de travail sur la normalisation des métadonnées en vue de la diffusion est prévue pour novembre 2000.


4. Conclusion

Le recours aux nouvelles technologies pour diffuser des statistiques ne constitue pas la panacée. En mettant en œuvre des solutions basées sur ces technologies, on court le risque de se focaliser sur l'application des techniques les plus récentes et de négliger certains aspects essentiels liés à l'automatisation. L'intégration et l'automatisation sont des moyens clés pour maximiser l'efficience de la diffusion et du traitement d'informations statistiques destinées à des utilisateurs tant individuels qu'institutionnels. De nos jours, la communauté des "véritables utilisateurs finaux" s'est rétrécie et les institutions ainsi que les personnes physiques qui accèdent aux informations statistiques souhaitent, en général, "charger" des données (et des métadonnées) dans leur environnement local en vue d'un traitement ultérieur. La création de passerelles permettant une automatisation complète est indispensable pour l'institution qui soutient et maintient en état le processus de diffusion, de même que pour la communauté d'utilisateurs élargie. Dans le cas idéal, la diffusion d'informations statistiques sur le Web devrait rendre accessibles non seulement les données numériques, mais également les informations qualitatives ainsi que les structures et listes de codes sous-jacents. Les institutions utilisatrices ne pourraient toutefois gérer facilement ces informations que si des possibilités de téléchargement appropriées et conformes à certaines normes de modélisation des données étaient mises à disposition. Dans ce contexte, l'incorporation de filtres permettant le téléchargement dans des formats statistiques normalisés (c'est-à-dire GESMES ou GESMES/CB) est un élément important pour la diffusion sur le Web, dès lors que l'on entend garantir que les utilisateurs seront en mesure d'exploiter les informations et méta-informations statistiques de la manière la plus optimale et la plus efficiente possible. La mise à disposition de possibilités de "téléchargement" vers GESMES/CB via un CD-ROM ou le Web présenterait, par exemple, les avantages suivants:

seul un développement peu onéreux pour le module correspondant serait nécessaire;

toute maintenance technique serait superflue (les normes ne varient pas!) et seul un soutien pour les métadonnées structurelles changeantes (nécessaire de toute façon) serait requis;

les statistiques deviendraient (automatiquement) réellement utilisables par une large communauté, capable de "lire" les données et métadonnées dans ce format normalisé (p. ex. banques centrales du monde entier, EUROSTAT, FMI, certains INS, etc.);

la nécessité de consacrer des ressources à la mise en place de présentations et d'outils ultramodernes sur le Web se justifierait moins, aussi longtemps qu'un soutien pour l'extraction dans un format EDI serait fourni;

les investissements dans les nouvelles technologies se justifieraient globalement encore davantage, au regard des objectifs à atteindre en matière d'automatisation.


Bibliographie

Androvitsaneas, C. (1997): Statistical data exchange in Stage Three of Economic and Monetary Union: towards a time series model in an EDI environment, Actes de la quatrième conférence internationale des utilisateurs de FAME, Wiesbaden, juin 1997.

Androvitsaneas, C. (1999): GESMES/CB supporting Monetary Union, "Statistics, telematic networks and EDI bulletin", EUROSTAT, Thème 9 - Recherche et développement, 1999/2.

Banque des règlements internationaux (BRI) & Banque centrale européenne (BCE): GESMES/CB User Guide, version 1.4, mars 1999.

Björkqvist, S. (2000): Expériences en matière de diffusion de données via le WWW – le service en ligne StatFin, 9e séminaire CEIES, Helsinki, janvier 2000.

FMI (1997): Data Dissemination Standard (http://dsbb.imf.org/), décembre 1997.

Keller, W. (1997): EDI, the future, Statistics Netherlands, Vol. 12 – numéro spécial, automne 1997.

Linde, J. & Vanags, I. (1999): Some technological and economic problems in the implementation of modern information technology, Réunion sur la gestion de la technologie de l'information en statistique, ONU/CEE, 15-17 février 1999.

Malmborg, E. & Sundgren, B. (1994): Integration of Statistical Information Systems - Theory and Practice, 7e conférence internationale sur la gestion des bases de données scientifiques et techniques, Charlottesville, Virginie, 1994.

Podehl, M. (1999): Data base publishing on the Internet, Réunion sur la gestion de la technologie de l'information en statistique, ONU/CEE, 15-17 février 1999.

Sarreither & Novak (1999): The impact of Internet on statistical organisations, Réunion sur la gestion de la technologie de l'information en statistique, ONU/CEE, 4 février 1999.

Statistics Norway (1998): Guidelines for statistical metadata on the Internet, ONU/CEE, Conférence des statisticiens européens, 46e réunion plénière, CSE/1998/32, 18-20 mai 1998.

Sundgren, B. (1997): Sweden’s Statistical Databases: an infrastructure for flexible dissemination of statistics, ONU/CEE, Conférence des statisticiens européens, juin 1997.

Sundgren, B. (1999a): An information systems architecture for national and international statistical organisations, Réunion sur la gestion de la technologie de l'information en statistique, ONU/CEE, juin 1999.

Tapscott, D. & Agnew, D. (1999): La gouvernance dans l'économie numérique, Fonds monétaire international, Finances & Développement, vol. 36, n° 4, décembre 1999.

ONU (1999): An information systems architecture for national and international statistical organisations, Conférence des statisticiens européens, Statistical Standards and Studies - n° 51, Genève, 1999.

ONU/CEE (1999): Rapport de la réunion de travail sur les métadonnées statistiques tenue en septembre 1999, Note du Secrétariat pour la 48e réunion plénière de la Conférence des statisticiens européens (prévue du 13 au 15 juin 2000), novembre 1999.


http://dsbb.imf.org/)

2e journée :THÈME 2 :

SITUATION ACTUELLE


ÉTAT DE LA QUESTIONPROBLÈMES/SOLUTIONS/TECHNOLOGIES

Dieter BurgetStatistics AustriaHintere Zollamtsstrae 2bPostfach 9000A-1033 [email protected]


COLLECTE DES DONNÉES, CHARGE DES RÉPONDANTS, RÉPERTOIRES D'ENTREPRISES

Jean-Pierre GrandjeanInstitut national de la statistique et des études économiques – INSEE 1

18 blvd Adolphe PinardF- 75014 [email protected]

1. Introduction

Il est généralement admis que la demande européenne et nationale de statistiques augmente, notamment dans le domaine des statistiques d'entreprises, c'est-à-dire celles établies à partir de données fournies par les entreprises.

Dans le même temps, la charge administrative qui pèse sur les entreprises s’est accrue au cours des 20 dernières années, en raison, essentiellement, de législations de plus en plus complexes, mises en œuvre pour faire face à une organisation sociale, économique et technique à la complexité croissante. Les entreprises ont commencé à se plaindre de cette situation il y a quelques années, et, dans de nombreux pays, il apparaît que le pouvoir politique ait réagi à ces doléances en lançant des programmes de "simplification". Ce type de politique a également vu le jour au niveau européen (cf. L'initiative SLIM).

Les enquêtes réalisées par les Instituts nationaux de statistique (INS) font manifestement partie de cette charge. Ainsi, certains pays ont demandé à leurs statisticiens de réduire leurs programmes d'enquêtes.

Nous observons une certaine contradiction entre la demande croissante de chiffres statistiques et le souci de maintenir cette charge dans des limites acceptables, voire de la réduire.

Je décrirai la situation en France2, la stratégie mise en œuvre par les statisticiens français et analyserai les rôles passé et futur des nouvelles technologies dans ce domaine. Je retiens, de nombreuses années de participation aux forums européens, principalement à Luxembourg, que les situations nationales sont extrêmement variées, d'un point de vue institutionnel, organisationnel, politique, sociologique et historique. Il est clair que l'intérêt de ce que je décris est très relatif. Cependant, certaines tendances peuvent être significatives. De plus, il est possible que certaines propositions soient pertinentes dans une perspective européenne.

2. Le paysage institutionnel et politique

La question de la charge statistique a été soulevée en France au début des années 90. Un certain nombre de rapports ont été rédigés à ce sujet par des statisticiens, des experts, ou des représentants des entreprises. Cette activité a été, d’une manière générale, patronnée par le Conseil national de l'information statistique (CNIS)3, organisation relativement importante dans laquelle sont 1 Chef du département «Système des statistiques d'entreprise» de l’INSEE. Les opinions exprimées dans ce

document n'engagent que l'auteur et ne reflètent pas nécessairement la position de l'INSEE.2 Voir Grandjean (1996) pour obtenir une description générale du système français de statistiques

d'entreprises. Ce système se caractérise principalement par la coexistence d'un organe de coordination central puissant, l'INSEE, relevant du ministère de l'Économie, et de services statistiques implantés dans un certain nombre de ministères : Industrie, Agriculture, Emploi, etc.

3 Un site web est consacré aux activités du CNIS: www.cnis.fr.


représentés les entreprises, les syndicats, les universités, les experts, les administrations et les statisticiens officiels appartenant à l'INSEE et aux différents services statistiques des ministères. Ce comité comprend un certain nombre de sous-comités spécialisés par domaine, dont l'une des tâches est d'émettre un avis sur les programmes de travail à moyen terme et annuels qui leur sont soumis par les statisticiens. Ces programmes de travail incluent les enquêtes qui doivent être réalisées. Un certain nombre de propositions de simplification ont été émises dans les rapports susmentionnés, dont certaines ont été mises en application.

Le gouvernement actuel a présenté deux programmes de simplification en 1997 et 1998 et devrait en soumettre un autre au cours des tout prochains mois. Ceux-ci s'adressent essentiellement aux Petites et moyennes entreprises (PME)4. Ils comprennent un certain nombre de mesures, portant sur une variété de sujets relevant de tous les domaines (fiscal, social, juridique). L'une d’elles visait à réduire la quantité de questionnaires statistiques destinés aux PME.

Nous estimons qu'il n’y a aucune raison sérieuse pour que la "simplification" disparaisse rapidement des priorités politiques.

3. Comment gérer le problème de la charge ?

Un certain nombre de moyens ont été étudiés.

3.1 Le suivi du programme d'enquêtes

En France, le programme d'enquêtes annuel fait l’objet d’un arrêté ministériel et est publié au Journal officiel au début de chaque année. Cet arrêté est signé par le directeur général de l'INSEE, par délégation du ministre de l'Économie.

Comme il est dit plus haut, le CNIS peut émettre un avis sur la pertinence de toute nouvelle enquête ou de la rénovation de toute enquête existante. Cependant, nous avons estimé qu’il convenait d’améliorer la qualité technique des enquêtes. Un nouveau sous-comité du CNIS a été créé et baptisé "comité du label". Il est constitué de représentants des entreprises, des chambres de commerce, d'une commission responsable de la simplification administrative et de statisticiens. Il est présidé par un statisticien. Tous les projets de nouvelles enquêtes et tous les projets de rénovation d'une enquête existante sont présentés à ce "comité du label". Le dossier venant à l'appui de l'exposé doit suivre un plan imposé. Le comité évalue la qualité statistique du projet en fonction d'un certain nombre de critères relatifs à l'élaboration du questionnaire5, à la taille de l'échantillon, au plan de sondage, au programme de diffusion des résultats, etc.

L'obligation de réponse a également fait l'objet de réflexions. Il y a quelques années, chaque enquête publiée dans l'arrêté ministériel était obligatoire. Il existe désormais une nouvelle catégorie d'enquêtes, facultatives, mais déclarées "d'intérêt général". Cette distinction est opérée par le "comité du label" qui a décidé que, dans un certain nombre de cas, une nouvelle enquête devait être envisagée comme étant seulement d'intérêt général, et non obligatoire, même si cela s'opposait au souhait du service qui l'avait conçue.

4 La définition française des PME couvre les entreprises de plus de 500 salariés. Cependant, la définition européenne, qui limite ce nombre à 250, est de plus en plus souvent prise en considération.

5 La participation des "utilisateurs" à la conception du questionnaire et la qualité des tests effectués pour en évaluer la pertinence et l’efficacité font l'objet d'une grande attention.


Il a également été convenu que toutes les enquêtes existantes devraient être examinées par le comité dans un délai de trois ans, afin de s'assurer de leur utilité, de la nécessité de chaque question, de la taille des échantillons, etc. Cette procédure est aujourd'hui appliquée.

3.2 L’optimisation de la taille des échantillons

L'un des moyens efficaces pour limiter la charge consiste à optimiser les plans de sondage, à réduire la taille des échantillons et à élever le seuil de taille au-dessus duquel les entreprises sont systématiquement enquêtées. Cela a été fait pour un certain nombre de grandes enquêtes, bien que nous ayons été prudents concernant les seuils d'exhaustivité pour ne pas trop perturber la continuité des séries chronologiques.

S'agissant de la mesure susmentionnée prise par le gouvernement pour réduire le nombre de questionnaires adressés aux PME, nous sommes en mesure de présenter l’effet de ces optimisations.

Ces dernières peuvent bien entendu avoir des conséquences défavorables pour ce qui a trait, par exemple, à la qualité des résultats au niveau régional.

3.3 L’utilisation des données administratives à des fins statistiques

Nous appelons données administratives les micro-données collectées auprès des entreprises par les administrations pour les besoins de la mise en œuvre des réglementations dont elles sont responsables. Ces données ne sont pas collectées au moyen d'enquêtes statistiques. La loi statistique française habilite l'INSEE et les services statistiques des ministères à recevoir les données administratives collectées par d'autres administrations pour produire des statistiques à partir de ces données. Il convient de souligner qu'une administration n'est pas tenue de transmettre ses données administratives à l'INSEE. Une négociation a toujours lieu. Elle peut être longue, l'un des points clés de la discussion étant la présence ou non d'identifiants dans les données qui seront communiquées à l'INSEE.

L'INSEE utilise des données administratives depuis plusieurs décennies. On peut citer, parmi les exemples, l'utilisation des données relatives à la taxe sur la valeur ajoutée (TVA) permettant de calculer un indice mensuel de chiffre d'affaires, celle des données de la sécurité sociale sur l'emploi et les salaires pour le calcul d’indices trimestriels. Les chiffres structurels annuels relatifs aux salaires sont calculés à partir des données collectées par la caisse nationale d’assurance vieillesse. Les statistiques structurelles sur les entreprises, exception faite du secteur des banques et des assurances, sont produites par un système dans lequel des données d'enquêtes et des données relatives à l'impôt sur les revenus professionnels collectées par l’administration fiscale sont combinées. Les statistiques structurelles sur le secteur des banques et des assurances sont directement élaborées par les organismes de tutelle. Les statistiques sur la balance des paiements sont produites par la Banque de France à partir de données administratives. L'élaboration des statistiques Intrastat mensuelles repose sur des données administratives collectées par l'administration douanière et ce, à des fins fiscale et statistique.

Je ne détaillerai pas les avantages et les inconvénients de l'utilisation des données administratives à des fins statistiques. Ils ont été suffisamment décrits à d'autres occasions6.

En France, nous savons que, dans certains cas, il y a des duplications dans la collecte des données. Des données très proches sont collectées auprès des entreprises au moyen d'un questionnaire

6 Voir, par exemple, le compte rendu du séminaire sur l'utilisation des sources administratives à des fins statistiques - Luxembourg - 15-16 janvier 1997, publié par Eurostat en 1997.


statistique et d'un formulaire administratif. Toutes ces données sont ensuite rassemblées et utilisées par l'INSEE pour produire des statistiques. Notre stratégie générale consiste à supprimer, à terme, ces doubles collectes. Les données administratives constitueront généralement les données centrales. Les enquêtes statistiques permettront de collecter des données complémentaires qui n’auront pas été recueillies par d'autres administrations.

La question du calendrier est l'argument principal avancé pour ne pas précipiter la suppression des doubles collectes de données. Les données administratives nous parviennent très tard, après la diffusion des résultats de nos enquêtes statistiques. Cette situation pourrait cependant sérieusement évoluer au cours des prochaines années, en raison notamment des nouvelles technologies. De plus, nous avons constaté que l'utilisation combinée de données administratives et de données d'enquêtes n'est pas très simple. Nous préférons prendre le temps d'améliorer nos méthodes.

3.4 Utilisation d'un identifiant unique pour les entreprises

Le fait que l'INSEE gère le répertoire français des entreprises est l'un des éléments clés permettant d'envisager la stratégie énoncée ci-dessus7. Nous attribuons à chaque entreprise un identifiant commun à toutes les administrations1. Conformément à la loi, cet identifiant devrait être utilisé lors de tout contact entre les entreprises et les administrations. À cet égard, la situation s'améliore régulièrement. La décision, récemment prise par l'administration fiscale d'utiliser notre identifiant d'entreprise dans ses propres répertoires, a représenté une évolution majeure.

En fonction de cette expérience concrète et sachant que nos entreprises deviendront de plus en plus européennes, nous estimons que la Commission devrait s'intéresser à la question suivante : devrions-nous disposer d'un identifiant européen unique pour toutes les entreprises communautaires?2. Nous nous demandons si l'existence d'un tel identifiant ne permettrait pas, à long terme, de réduire la charge administrative au niveau européen.

3.5 Rendre la charge plus acceptable

Un certain nombre d'actions ont été engagées pour que les entreprises adoptent une attitude plus positive vis-à-vis des enquêtes statistiques. Je décris rapidement certaines d'entre elles.

Les questionnaires sont progressivement modernisés pour paraître plus attrayants et être plus facilement compréhensibles par les entreprises. Les courriers d’envoi sont réécrits pour insister sur l'utilité des enquêtes.

Des résultats statistiques sont systématiquement retransmis aux entreprises qui ont répondu aux enquêtes. La nature de ces résultats peut varier d'une enquête à l'autre. Dans le système le plus élaboré, l'entreprise reçoit des données qui lui permettent de procéder à une comparaison de ses performances avec celles d'entreprises similaires.

7 Nul n'ignore qu'un certain nombre de pays du monde entier ont adopté un identifiant administratif unique d'entreprise . D'autres travaillent sur ce projet. L'INSEE est l'un des rares instituts statistiques chargés de la gestion de cet identifiant.

1 Pour une présentation générale du répertoire des entreprises françaises : voir Picard (1995) et Bernard (1995).

2 Le numéro de TVA utilisé pour identifier les échanges de biens intra-communautaires constitue une base possible de ce projet d'identification. Le numéro de TVA français repose bien entendu sur notre identifiant unique d'entreprise.


Les employés chargés du traitement des enquêtes sont formés pour mieux maîtriser les contacts téléphoniques avec les entreprises.

Un petit réseau d'enquêteurs (40), spécialisés dans le domaine des enquêtes auprès des entreprises, est en train d’être créé, pour tester les nouveaux questionnaires, pour réaliser sur le terrain des enquêtes particulièrement difficiles ou importantes, et pour obtenir les réponses directes de non-répondants lorsque l'on estime que ces non-réponses affectent particulièrement la qualité des résultats d'une enquête.

La procédure juridique, qui peut aboutir à l’imposition d’une amende aux non-répondants, est utilisée de manière à profiter de cette situation de "crise" pour convaincre les non-répondants de l'utilité de leur réponse à l'enquête. Cette démarche est également beaucoup plus respectueuse des droits de la défense qu'elle ne l'était auparavant.

Sur un plan plus technique, nous avons déjà consacré beaucoup d’efforts et prévoyons d'en consacrer encore à la question de la coordination et de la rotation des échantillons3. Nous nous sommes également efforcés de développer les procédures de correction automatique pour réduire le nombre d'appels téléphoniques adressés aux entreprises à la seule fin de vérifier la vraisemblance d'une réponse.

3.6 L’utilisation des nouvelles technologies

On peut dire qu'en France, l'impact réel des nouvelles technologies sur la charge statistique a été jusqu’à présent assez limité. Il a probablement été moins important que ce que l'on avait pu espérer en 1990.

Bien que les statisticiens français aient suivi avec attention la montée en charge des échanges de données informatisés4 depuis la fin des années 80, ils se sont montrés très prudents au cours des années 90 à propos de l'expérimentation de nouvelles technologies pour la collecte de données d'enquêtes. Un certain nombre de raisons peuvent expliquer cette attitude.

Les statisticiens se préoccupaient surtout des avantages qui pourraient être tirés de ces projets, avantages rapportés à leurs coûts, pour les entreprises elles-mêmes, aussi bien que pour l'administration statistique. Le principal problème était de savoir si les entreprises accepteraient d'utiliser des moyens électroniques pour répondre à nos enquêtes, alors même qu'il était clairement admis qu'elles ne considèrent pas cette activité comme devant bénéficier de la même priorité que la réalisation d'autres tâches administratives telles que, par exemple, les déclarations à l'administration fiscale ou aux organismes de sécurité sociale. Les technologies susceptibles d'être utilisées impliquaient toujours un certain investissement de la part des entreprises, en matière de formation par exemple, qui, à notre avis, serait difficile à justifier.

L'impact de ces technologies sur la charge de réponse n'était pas si évident. On peut faire valoir que la première difficulté rencontrée et que les principales dépenses encourues par une entreprise qui répond à une enquête statistique quantitative sont manifestement liées au calcul et au rassemblement des réponses aux questions. Cela est d'autant plus vrai lorsque l'entreprise est importante, car il apparaît que le remplissage de nos questionnaires implique très souvent la participation de plusieurs services au sein de l'entreprise. Dans ce contexte, l'automatisation

3 Voir, par exemple, Cotton et Hesse (1992), Rivière (1999).4 Nous ne décrivons par l'utilisation d'autres technologies nouvelles telles que la lecture optique (OCR), car

celles-ci n'ont pas d'impact réel sur les entreprises répondantes, et ne réduisent pas considérablement la charge. Certaines réussites françaises pourraient cependant être décrites en la matière.


complète du calcul de la réponse à l'enquête est coûteuse. La diffusion d'un questionnaire sur support papier peut effectivement être une solution plus simple et moins onéreuse.

Pour les petites entreprises, pour lesquelles la charge liée aux enquêtes statistiques est proportionnellement plus lourde que pour les grandes sociétés, on se heurtait aux difficultés résultant du faible niveau d'équipement en micro-ordinateurs, modems, etc. La situation s'est aujourd'hui améliorée, mais il n'est pas certain que la personne chargée de répondre à une enquête donnée dispose du matériel, du logiciel et des moyens de télécommunication nécessaires. De plus, il est difficile de décrire précisément les gains à attendre de la réponse à un questionnaire sur écran plutôt que sur papier5.

Par ailleurs, l'INSEE lui-même réalise peu d'enquêtes mensuelles ou trimestrielles, qui semblent mieux convenir pour des expériences fructueuses. Cela est en partie dû au fait que nous recourons souvent aux données administratives collectées par d'autres administrations, comme nous l'avons précédemment souligné. Par ailleurs, nombre de ces enquêtes mensuelles ou trimestrielles sont réalisées par les services statistiques ministériels, voire par certaines associations professionnelles pour le compte de l'administration statistique6. Ces services et ces associations sont souvent plus souples et plus réactifs que l'INSEE, mais leur capacité à investir est souvent moins importante.

En réalité, on ne peut signaler qu'une seule réalisation significative. En 1994, la FIEE, Fédération des industries électriques et électroniques, a mis au point un questionnaire électronique (CSAQ) pour son enquête mensuelle sur la production industrielle7. Il était assez perfectionné, permettait la transmission en ligne des données d'enquêtes par l'entreprise à la fédération et le renvoi en ligne des résultats statistiques mensuels et du questionnaire mis à jour au début de chaque année. C'est la fédération qui fournissait gratuitement le modem aux entreprises. Elle a pu convaincre quelque 200 entreprises sur les 350 appartenant à l'échantillon d'utiliser ce support pour répondre régulièrement à l'enquête. Ce système a récemment été remplacé par une collecte des données via l’internet. De plus amples informations à ce sujet seront données plus loin. Au vu de cette expérience, et d’autres, principalement rapportées par les instituts statistiques américains8, nous pensons que les systèmes de collecte de données informatisés doivent être conçus avec énormément de soin, si nous voulons que les entreprises qui les utilisent soient convaincues qu'elles réduisent véritablement leurs tâches administratives, de sorte que le coût d'investissement incombant à l’INS peut être très élevé pour les enquêtes complexes.

Il est clair que l'explosion de l’internet a profondément modifié le paysage du fait, notamment, que l'utilisation des technologies de l’internet facilite le déploiement à grande échelle d'instruments très élaborés de collecte des données avec un budget beaucoup plus faible que celui qui était nécessaire auparavant. Cela semble se vérifier, tant pour l'administration statistique que pour les entreprises enquêtées. De plus, l’internet apparaît comme le mode idéal de diffusion des données statistiques et de ciblage de nouveaux utilisateurs pour nos produits statistiques, les premiers étant les entreprises de taille moyenne9. Ainsi, nous devrions être mieux à même de les convaincre de l'utilité réelle de nos enquêtes. À certains égards, nous pouvons affirmer qu'il vaut mieux investir d’abord dans la diffusion des résultats sur l’internet que dans la collecte des données.5 On peut faire valoir l'existence d'un gain "tangible" lorsque les données sont vérifiées dès leur saisie, de sorte qu'elles peuvent être corrigées par l'entreprise avant leur transmission à l'institut statistique. L'entreprise ne devrait pas être recontactée par la unique suite. 6 Voir Grandjean (1996) pour avoir des détails sur cette situation.7 Cette enquête collecte certaines des données utilisées pour le calcul de l'indice de la production industrielle.8 Voir, par exemple, Kanarek et Sedivi (1999). 9 En règle générale, les petites et très petites entreprises n'utilisent pas directement les statistiques que nous

produisons.


Le fait que les technologies de l'internet ne soient pas stabilisées représente cependant un problème majeur, et il est hautement probable qu'elles ne se stabiliseront pas dans un futur proche. L'obsolescence rapide de ces technologies est un handicap. Les entreprises ne renouvellent pas leur équipement informatique aussi souvent que les fabricants de matériel et de logiciels le souhaiteraient. Cet état de fait pose toujours des problèmes de transition lorsque nous tentons de faire évoluer nos instruments de collecte des données. Par ailleurs, les outils logiciels qui permettraient le développement efficace d'instruments de collecte via l’internet, ne sont pas encore disponibles. Il faut espérer que des outils semblables à Blaise le soient rapidement, de façon à réduire les coûts de mise en œuvre et de maintenance.

4. L'ère de l’internet

4.1 Le contexte politique et juridique

Le gouvernement actuel est le premier à accorder une grande importance aux nouvelles technologies. Au début de l'année 1998, il a publié un programme ambitieux visant à favoriser l'entrée du pays dans la société de l'information. Certaines conséquences en sont déjà visibles, notamment au sein des administrations qui n'étaient pas, reconnaissons-le, très en avance dans ce domaine.

D'un point de vue juridique, la possibilité de répondre à tout questionnaire ou tout formulaire par des moyens électroniques a été prévue dans une loi adoptée en 1994. En 1998, l'utilisation du chiffrement a été très nettement libéralisée, alors que précédemment, elle était très contrainte. Et en 1999, le ministère de la Justice a accepté de proposer une loi reconnaissant la valeur probante des signatures numériques. Cette loi devrait être promulguée en l'an 200010.

À la fin de l'année 1999, un article de loi a été adopté qui stipule que les entreprises dont le chiffre d'affaires est supérieur à 100 millions de francs français (15 millions d'euros) devraient déclarer chaque mois par voie électronique le montant de leur TVA, à compter du mois de mai 2001, et leur impôt sur le revenu, à partir de l'exercice 2000. Elles devraient également payer leur TVA par voie électronique à partir de mai 2001. 13 000 entreprises sont concernées. L'administration fiscale est d'avis que le seuil de 100 millions de francs devrait être rapidement revu à la baisse dans les prochaines années.

4.2 Les problèmes de sécurité

On en a beaucoup dit et écrit au sujet des problèmes de sécurité associés à l’internet. Les systèmes français opérationnels de collecte de données via l’internet dont j'ai eu connaissance, qu'ils soient administratifs ou statistiques, n'utilisent généralement pas de techniques d'authentification élaborées11. Les répondants reçoivent un code d'identification et un mot de passe. Lorsque le chiffrement est utilisé, il se fonde généralement sur le protocole SSL, supporté par Netscape Navigator et Internet Explorer, avec des clés courtes. Les entreprises qui acceptent d'utiliser ces instruments de collecte des données sont dûment informées de ces conditions de sécurité et prennent leurs responsabilités.

10 Cette loi transposera en France la récente directive européenne n° 1999/93/CE sur un cadre communautaire pour les signatures électroniques.

11 Une exception est citée au paragraphe 6.


En 1998 et 1999, le ministère de l'Économie a étudié activement les conditions dans lesquelles les échanges électroniques avec les entreprises et les citoyens pourraient être protégés de façon raisonnable et efficace. Ce projet repose sur le concept d'infrastructure à clé publique (ICP) et sur l'utilisation de certificats de signature numérique, basés sur la norme ISO X509. Le ministère publiera le format des certificats qu'il acceptera. La compatibilité avec ce format des certificats produits par des opérateurs de certification privés, tels que Verisign et d'autres, sera validée et enregistrée, et les entreprises pourront acheter le produit enregistré de leur choix. L'INSEE relevant du ministère de l'Économie, il est probable qu'il s'associe à ce projet afin de sécuriser ses collectes de données via l’internet ainsi que ses activités de commerce électronique.

4.3 Les projets français de collecte des données via l’internet

Deux systèmes sont actuellement opérationnels. Ils concernent tous deux l'enquête sur la production industrielle mensuelle dans l'industrie manufacturière. Rappelons que cette enquête génère des données qui servent pour calculer l'indice de la production industrielle.

Le premier est géré par une association professionnelle dans le secteur des "tuiles et briques". Environ 25 entreprises sur les 100 enquêtées l'utilisent.

Le second est administré par la FIEEC12 citée au paragraphe 3.6. Il est intéressant de noter le fait suivant : lorsqu'en juin 1999, la FIEEC a remplacé son ancien système basé sur questionnaire électronique par une collecte des données via l’internet, le nombre de répondants "électroniques" a chuté, passant de 200 à 80. Il est aujourd'hui voisin de 100. Deux raisons expliquent cela. En premier lieu, un grand nombre de petites entreprises n'ont pas encore accès à l’internet. En second lieu, dans les grandes entreprises, les problèmes de sécurité associés à l’internet ne sont pas encore totalement maîtrisés. Il n’est donc pas si simple de déployer des applications basées sur l’internet dans ces entreprises.

En réalité, le système de la FIEEC ne sera bientôt plus opérationnel. L'enquête mensuelle de la fédération doit être gérée par le service statistique du ministère de l'Industrie (SESSI) à compter de janvier 2000. En février 2000, ce service exploitera un nouveau système de collecte des données via l’internet pour son enquête mensuelle sur la production industrielle. Le nombre total d'entreprises enquêtées s'élève à 3500. Les entreprises répondantes seront identifiées grâce à leur numéro d'identification au répertoire des entreprises. Pour commencer, la transmission sera sécurisée au moyen du protocole SSL.

Le dernier projet à signaler concerne les statistiques sur le transport routier de marchandises. Le service statistique du ministère des Transports a discuté d'un format d'échange avec trois des plus grandes entreprises de ce secteur. À l'heure actuelle, ce format est un format CSV (valeurs séparées par des virgules). Les échanges devraient débuter sur une base expérimentale dans un futur proche. Les fichiers seront simplement échangés en tant que pièces jointes dans des courriers électroniques. Ces entreprises souhaitent réduire la charge qui pèse sur elles, grâce à une automatisation complète de leur réponse. Si l'expérience est probante, les solutions techniques devraient être fiabilisées et sécurisées. La population cible des répondants qui pourraient utiliser cette solution EDI comprendrait environ 30 entreprises.

5. Les nouvelles technologies et le répertoire des entreprises

Comme nous l'avons précédemment souligné, l'INSEE gère le répertoire français interadministratif des entreprises. Lorsqu'une entreprise est en phase de création ou de cessation, ou lorsque son

12 Depuis 1995, la FIEE est devenue la FIEEC, le C correspondant à Communication.


activité ou son statut juridique change, un seul formulaire doit être rempli et traité dans un "centre de formalités des entreprises" (CFE). Il existe environ 1500 CFE dans toute la France. Ils sont spécialisés par domaine d'activité des entreprises. Les chambres de commerce sont les CFE des entreprises commerciales, certains organismes de sécurité sociale sont les CFE des professions libérales, etc. Les formulaires sont transmis à l'INSEE qui enregistre les nouvelles entreprises ou actualise le répertoire en cas de modification des données ou de cessation d'une entreprise. L'INSEE renvoie les informations mises à jour sous la forme d'avis à un certain nombre d'administrations. Le répertoire est mis à jour en continu.

De façon assez étrange, la loi de 1994 susmentionnée qui permet la déclaration électronique de quelque formulaire administratif que ce soit, fait cependant une exception pour les formulaires d’inscription au répertoire des entreprises, lesquels ne peuvent donc pas être transmis électroniquement par les entreprises. Nous ne pouvons donc faire état d'une quelconque expérience dans ce domaine.

Cependant, l'INSEE s'est depuis longtemps intéressé à l'automatisation des échanges d'informations avec les CFE (chaque année, l'INSEE reçoit environ deux millions de formulaires et émet 8 millions d'avis). Deux messages EDIFACT ont été conçus à cette fin. Les premières expériences ont eu lieu en 1995. Les progrès ont été lents. Au début de l'année 1998, seuls 0,5 % des formulaires envoyés à l'INSEE ont été transmis sous forme de messages EDIFACT. Les années 1998 et 1999 ont connu une accélération considérable. Le pourcentage de formulaires "édifactés" est désormais de 17 %. Le protocole de transmission est X400.

6. La collecte des données administratives

Comme nous l’avons déjà dit, l'INSEE utilise des données administratives pour produire des statistiques. Nous nous intéressons donc aux progrès réalisés par les administrations quant à l'utilisation des nouvelles technologies. Cela devrait aboutir à l'obtention plus rapide de données de meilleure qualité. Certaines réussites méritent d'être soulignées et seront brièvement décrites.

L'administration douanière promeut la collecte électronique de données depuis de nombreuses années. Concernant Intrastat, elle collecte un grand nombre de formulaires. Une unité de volume pratique pour cette formalité est la "ligne" de formulaire. L'administration douanière reçoit environ 44 millions de lignes par an, dont 70,3 % par diverses voies électroniques : 38,2 % sont transmis sur bande ou disquette, 30,3 % par télétransmission (divers supports sont autorisés : X400, SMTP, XMODEM, le système de transfert de fichiers CFT), 1,5 % au moyen d'un système de saisie de données basé sur le Vidéotex, 0,3 % grâce à un système ancien de saisie de données en ligne. 4200 entreprises utilisent le questionnaire électronique IDEP développé par Eurostat, et l'administration douanière prévoit une augmentation rapide de ce chiffre dans un futur proche. La moitié des lignes reçues sur papier sont traitées à l'aide d'un dispositif de lecture optique (OCR). Un système de collecte des données via l’internet devrait être opérationnel l'été prochain.

L'administration fiscale investit depuis plusieurs années dans un système baptisé "Transfert des données fiscales et comptables13 » (TDFC) pour collecter des données annuelles relatives à l'impôt sur les revenus professionnels. Ce système est essentiellement destiné aux PME qui ne remplissent pas elles-mêmes leur formulaire d'impôt sur le revenu, mais confient plutôt cette tâche à un expert-comptable agréé qu'elles rémunèrent. L'administration fiscale a donc signé des accords avec un certain nombre, environ 450 aujourd'hui, de "centres-relais", qui peuvent être des éditeurs de logiciels, des experts-comptables agréés, des centres de gestion agréés ou des SSII. À partir des

13 Voir Grandjean (1997) pour une description générale de l'utilisation à des fins statistiques des données annuelles relatives à l'impôt sur les revenus professionnels, et des problèmes connexes.


données fournies par les experts-comptables agréés qui acceptent de participer à ce système, ces centres-relais doivent produire des fichiers respectant un format bien défini. Jusqu'à présent, on utilisait le format propriétaire TDFC. Un nouveau format (EDI-TDFC) est en cours de définition qui utilise le message EDIFACT INFENT. Ces fichiers peuvent être envoyés à l'administration fiscale sur bande magnétique, par messagerie X400 ou à l'aide du système de transfert de fichiers CFT. Les centres-relais peuvent signer de façon numérique les formulaires qu'ils communiquent au nom des entreprises grâce à un dispositif matériel de signature numérique incorporant une carte à puce. L'administration fiscale a reçu au total environ 500 000 formulaires par le biais de ce système au cours du dernier exercice fiscal et ce chiffre augmente régulièrement. Un certain nombre de progiciels de comptabilité sont capables de produire des fichiers au format TDFC et, parmi les principales sociétés de services produisant des logiciels de comptabilité, quelques-unes investissent déjà dans le nouveau format EDI-TDFC14. La récente loi citée au paragraphe 4.1 annonce de nouveaux développements qui seront pour la plupart basés sur les technologies de l’internet.

S'agissant des données annuelles sur les salaires, la principale source administrative parvient à l'INSEE au moyen d'un système de guichet unique15 géré depuis 1981 par la caisse nationale d’assurance vieillesse. Elle collecte des données auprès de toutes les entreprises privées et les rediffuse vers un certain nombre d'autres administrations : l'administration fiscale, d'autres organismes de sécurité sociale, le ministère chargé de l'emploi, l'INSEE. Lorsqu'elles sont collectées par voie électronique, les données doivent être transmises par les entreprises selon un format propriétaire, le format TDS16. Ce dernier est produit par la plupart des progiciels de gestion de paie. Les entreprises doivent déclarer une ligne de formulaire par personne salariée au cours de l'année. Environ 50 % des entreprises transmettent leur déclaration par voie électronique (900 000 sur 1 800 000), pour approximativement 75 % du nombre total de lignes déclarées (30 millions sur 40 millions). Elles peuvent transmettre leurs données sur bande, disquette, ou par télécommunications (X400, CFT, XMODEM). Un système de déclaration via l’internet, sécurisé par le protocole SSL, est disponible depuis l'été dernier.

14 L'INSEE a examiné, avec l'association française des experts-comptables agréés et une grande société française éditrice de logiciels comptables, dans le cadre du projet européen TELER, la façon d'automatiser la production des chiffres requis par l'enquête annuelle d’entreprise. Les discussions ont révélé que le problème n'était pas simple et n’ont pas abouti à des résultats concrets.15 Voir Faure (1997) pour recueillir les points de vue sur ce système.16 Une version EDIFACT, baptisée TDS-EDI, et basée sur le message EDIFACT SOCADE, est disponible. Son utilisation est très limitée.


7. Conclusion

L’internet a ouvert de nouvelles perspectives pour la collecte de données d'enquêtes auprès des entreprises. Cependant, compte tenu des expériences passées, nous ne devons pas attendre de miracles. Il faudra du temps pour convaincre les entreprises enquêtées, notamment les PME, d'utiliser les nouveaux instruments de collecte de données basés sur l’internet. Nous ne devons bien entendu jamais oublier de tenir le plus grand compte de leur point de vue lors de la conception de ces instruments automatisés. Ils devraient être élaborés avec un soin tout particulier et les entreprises visées devraient être aussi étroitement que possible associées à ces conceptions.

Nous ne devons pas non plus oublier qu'une grande part de la charge liée aux enquêtes découle du calcul des réponses aux questions que nous posons. L'existence de plans comptables standard et de définitions types dans d'autres domaines (emploi, salaires, environnement, etc.) est, à notre avis, un élément de nature à simplifier la tâche des entreprises répondantes17. Cela est d'autant plus important au sein de la Communauté européenne, où les législations nationales sont très différentes. Nous devrions nous engager très délibérément dans l'élaboration de ces futures normes.

Enfin, nous pensons que le principal défi qui nous est adressé est de convaincre les entreprises de l'importance de leur participation à nos enquêtes, pour elles-mêmes ainsi que pour la communauté nationale et européenne. Les nouvelles technologies joueront leur rôle dans cette tâche sans fin. Nous estimons qu'il ne faut pas perdre de vue les autres facteurs en jeu.

Bibliographie

Bernard C. (1995), Le répertoire SIRENE, Courrier des statistiques – n° 75-76Cotton F. et Hesse C. (1992). Sélection coordonnée d'échantillons stratifiés. Compte rendu du

séminaire organisé par Statistique Canada, novembre 92.Faure J.L. (1997), Une expérience française de combinaison d'une enquête et d'un fichier

administratif: l'enquête complémentaire aux déclarations annuelles de salaires, Compte rendu du séminaire sur l'utilisation des sources administratives à des fins statistiques – Luxembourg - 1997

Grandjean J.P. (1996), Le système statistique d’entreprises, Courrier des statistiques – n° 78, 1996Grandjean J.P. (1997), Utilisation statistique de sources fiscales : une étude de cas française,

Compte rendu du séminaire sur l'utilisation des sources administratives à des fins statistiques - Luxembourg - 1997

Kanarek W. et Sedivi B. (1999) Internet Data Collection at the U.S. Census Bureau - FCSM 1999 Research Conference

Picard H. (1995), Le système inter-administratif et SIRENE, Courrier des statistiques - n 75-76Rivière P. (1999), Coordination of Samples: the Microstrata Methodology, présenté lors de la

13ème table ronde internationale sur les bases d’enquêtes auprès des entreprises - Paris - septembre 1999

17 À titre d'exemple, nous avons lu avec intérêt un "Projet de recommandation de la Commission concernant la prise en considération des aspects environnementaux dans les comptes et rapports annuels des sociétés", dont la mise en œuvre dans les progiciels comptables, lorsqu’elle sera terminée, pourrait faciliter la tâche des entreprises qui doivent déclarer leurs dépenses courantes et investissements dans le domaine de la protection de l'environnement.


EXPÉRIENCE EN MATIÈRE DE DIFFUSION DE DONNÉES SUR LE WEB- LE SERVICE EN LIGNE STATFIN

Sven I. Björkqvist Services des technologies de l'informationMéthodes de traitement électronique des données Työpajakatu 13FIN-00022 [email protected]

Résumé: Le présent document décrit l'expérience de l'institut national de statistique finlandais (Statistics Finland) concernant la mise au point d'une base de données de diffusion en ligne sur le Web. Statistics Finland dispose de bases de données de diffusion en ligne depuis plusieurs années, mais ces systèmes ne répondent plus aux besoins des utilisateurs et ne sont plus considérés comme des bases de données de diffusion pour l'ensemble de l'institut. Le passage d'un mode de diffusion en ligne coordonné au niveau central à un service en ligne réparti - mais toujours géré au niveau central - sur le Web n'a pas été facile, d'autant plus que ce changement devait se faire en l'espace d'un an. Quoi qu'il en soit, ce projet semble avoir été mené à bien puisque les réactions des utilisateurs sont très positives et que le service contient déjà plus de 30 millions de données réparties dans plus de 100 tableaux.

Rappel général

Statistics Finland fournit des services de diffusion de données en ligne depuis longtemps déjà. Nous avons utilisé des bases de données en ligne sur unité centrale depuis les années 801 et les avons rendues accessibles sur Internet bien avant la percée de l'environnement du Web dans le monde d'Internet. Ces bases de données étaient relativement perfectionnées et leur degré élevé de fonctionnalité permettait aux utilisateurs, souvent équipés de terminaux légers, de traiter les données à l'aide des services de ces bases de données.

L'institut avait également, et a encore, des systèmes de métadonnées (base de données "Classifications" et système de fichiers unifiés) décrivant les données utilisées en interne. L'architecture des données de Statistics Finland décrit la façon dont les flux de données devraient circuler, des bases de données de production aux bases de données de diffusion (Saijets 1999). Tout semblait parfait en théorie, mais dans la pratique il existait de nombreux systèmes de production distincts qui utilisaient leurs propres sources de données et leurs propres canaux de diffusion. Il s'agissait du modèle dit "en tuyau de poêle" (Keller 1998).

Depuis cette époque, les choses ont beaucoup changé à la fois en ce qui concerne les systèmes informatiques des utilisateurs et l'utilisation du "réseau des réseaux": Internet. Au début des années 90, le phénomène Internet était connu de presque tous, et les utilisateurs traditionnels, les universités et les scientifiques ont dû faire face à de nouveaux défis lorsque la technologie du Web a ouvert les services du réseau à des millions de nouveaux utilisateurs. Par ailleurs, cette évolution a mis Statistics Finland sous pression: en effet, ses bases de données en ligne sur unité centrale et avec accès direct ont soudainement été considérées comme des systèmes “préhistoriques”, difficiles à utiliser.

Définition de la politique

En 1998, Statistics Finland a commencé à chercher une nouvelle solution d'entrepôt de données pour stocker des données agrégées, sous forme de tableaux, destinées à un usage interne et pour les diffuser, en partie ou en totalité, sur le Web et sur CD-ROM. La sélection a été longue et difficile.

1 Il s'agit de la base de données régionale (ALTIKA) et de la base de données des séries chronologiques (ASTIKA).


Il a fallu choisir entre de nombreuses options, mais aucune d'entre elles ne semblait couvrir tous les besoins de l'institut. Les principales possibilités consistaient:

1. à maintenir la situation actuelle ("tuyau de poêle"), développer l'aspect "diffusion" et améliorer la coordination en instaurant des règles strictes.

2. à adopter l'un de nos systèmes de données et les outils connexes comme norme à l'échelon de l'institut (l'une des possibilités était la distribution par le biais de PC-Axis).

3. à examiner d'autres solutions pour remplacer le modèle de production et les outils alors utilisés.

4. à rechercher un outil assez puissant pour résoudre les problèmes (de diffusion) les plus tangibles, l'intégrer à nos systèmes de métadonnées et de production et accroître ainsi le degré d'intégration.

Du fait de la diversité des options, un projet a été lancé pour évaluer les possibilités et proposer un modèle de production. Ce projet était intitulé "projet de définition de l'initiative StatFin 2000". Il a permis d'évaluer les différents systèmes et options et a proposé un modèle de production dans lequel les données agrégées étaient stockées sous forme de tableaux dans un entrepôt de données central. Il est également ressorti de ce projet que le système de diffusion StatLine, élaboré par l'institut national de statistique néerlandais, était l'outil à utiliser pour mettre en œuvre ce modèle de production.

La décision n'a pas été facile à prendre et n'a pas été acceptée par l'ensemble de l'institut. La mise en œuvre réussie du modèle de production et des outils choisis était donc capitale.

Objectifs du projet de mise en œuvre StatFin2000

Le système StatLine a été élaboré aux Pays-Bas. Il a donc fallu l'appliquer à l'environnement de production de Statistics Finland. Des travaux considérables étaient nécessaires et le calendrier était serré (un an). Les principaux objectifs du projet de mise en œuvre étaient les suivants:

1. localisation du progiciel (StatLine Suite) pour permettre son utilisation par Statistics Finland (définition des concepts, traduction des programmes et des manuels);

2. achat des logiciels et du matériel nécessaires à l'utilisation du système;

3. adaptation des autres outils de production utilisés par Statistics Finland pour une intégration harmonieuse dans le système StatLine;

4. mise au point des meilleures pratiques (au moyen de systèmes pilotes) pour utiliser l'entrepôt de données et le service d'information (système StatLine) dans différentes situations et établissement des instructions et des manuels nécessaires;

5. élaboration de la structure de l'entrepôt de données interne et du service Web et aide aux départements de statistique dans la fourniture de contenu pour le système;

6. mise en place de l'aide technique, des cours et de la formation nécessaires;

7. orientation et contrôle de l'instauration et de la mise en œuvre du système dans tout l'institut;

8. planification de l'organisation; recherche et choix des ressources pour gérer le système à l'issue du projet.


Ressources

Compte tenu de l'importance de la réussite du projet et du calendrier serré, le budget était très satisfaisant; il se chiffrait à 1,5 million de marks finlandais (254 000 euros environ) pour un an. Ces moyens financiers ont permis d'engager un personnel suffisant, possédant le savoir-faire requis par la complexité des travaux. Un budget de 300 000 marks finlandais (50 500 euros environ) avait également été débloqué pour le projet précédent (projet de définition de l'initiative StatFin 2000) en vue de l'acquisition des serveurs nécessaires à la mise en œuvre.

Outre les ressources financières, le projet a également bénéficié du soutien total des cadres dirigeants de l'institut, ce qui s'est avéré encore plus important que l'aspect financier.

L'utilisation des ressources a été relativement équilibrée. Les quatre premiers mois, le groupe de travail comptait cinq personnes (dont certaines ne travaillaient qu'à temps partiel sur le projet) plus le directeur de projet. Ensuite, une personne a été recrutée à temps plein, ce qui a accru d'autant les dépenses. Au début du mois d'octobre, une personne supplémentaire a rejoint le groupe de travail.

Comme le projet entraînait des changements dans l'ensemble de l'institut, cela a engendré des coûts élevés pour les autres unités organisationnelles, dont le montant exact n'est pas encore connu (décembre 1999). En conclusion, on peut dire que les ressources utilisées par le groupe de travail du projet ne constituent qu'une fraction des dépenses totales pour l'ensemble de l'institut.

Organisation du projet

L'organisation du projet était différente de celle des projets habituels de Statistics Finland. Dans une organisation normale, on trouve un groupe de coordination, un directeur de projet et un groupe de travail. Cette structure semblait inadéquate pour le projet de mise en œuvre; le modèle d'organisation traditionnel a donc été adapté.

Graphique 1. Organisation du projet de mise en œuvre de StatFin2000

Légende:Steering group: groupe de coordinationQuality assurance group - technical quality: groupe "assurance qualité" - qualité techniqueQuality assurance group - quality of the service: groupe "assurance qualité" - qualité du serviceProject manager: directeur de projetProject member: participant au projetStatFin special interest group - 40 persons: groupe spécial StatFin - 40 personnes


Le groupe de coordination du projet comprenait principalement des directeurs et des experts de haut niveau. Le directeur de projet a été choisi au sein de l'unité "services des technologies de l'information/méthodes de traitement électronique des données". Des groupes d'assurance qualité ont été créés en vue d'informer le groupe de coordination et le directeur de projet des questions liées à la qualité. Les membres du groupe de travail étaient des experts en métadonnées et TI, provenant des services TI et du service de gestion des données. Le groupe spécial StatFin était composé de 40 personnes choisies parmi le personnel des services statistiques. Ce groupe a joué un rôle clé dans l'échange d'informations, la diffusion des connaissances et la promotion du système au sein de l'institut. Sans sa contribution, il est fort probable que le projet aurait échoué dès le début.

Calendrier

Le projet a été lancé officiellement le 1er janvier 1999. Toutefois, des travaux préparatoires avaient été réalisés auparavant, ce qui a permis au projet de débuter rapidement et sans problème. La date de fin du projet était fixée au 31 décembre 1999.

Le projet se constituait d'un ensemble de grandes étapes servant de base aux modules le composant. Ces grandes étapes étaient les suivantes:1. Le service interne doit être prêt à fonctionner avec des données utilisables en janvier 1999.2. Un service gratuit accessible au public doit être prêt à fonctionner avec une quantité

importante de données le 15 mai 1999.3. Un service payant accessible au public doit être prêt à fonctionner au début de l'an 2000.

Modules

Comme le projet avait pour objectif de modifier l'infrastructure de l'institut dans son ensemble, trois domaines de travail principaux ont été déterminés:

1. Mise en place de l'infrastructure technique;2. Service et élaboration des concepts y relatifs;3. Communication.

Ces domaines étaient constitués de modules; la plupart des travaux se sont déroulés simultanément et, dans certains cas, se sont même chevauchés. Les domaines de travail se composaient des modules suivants:

Mise en place de l'infrastructure technique1. Achat et installation de serveurs (2);2. Localisation (définition des concepts et traduction) des logiciels (StatLine Suite) et des

manuels;3. Mise au point de programmes de conversion (importations et exportations de données) pour

intégrer StatLine sans problème à l'infrastructure et aux outils existants; 4. Élaboration d'un site Web avec l'interface graphique intuitive de Statistics Finland;5. Recherche d'une méthode de tarification de l'utilisation des données;6. Conception et automatisation du processus d'actualisation des données;7. Mise au point d'outils pour la préparation de comptes rendus sur l'utilisation et l'analyse du

journal.Service et élaboration des concepts y relatifs1. Élaboration de la structure du service;2. Intégration du service aux pages Web de Statistics Finland;3. Mise au point d'utilitaires pour le retour d'informations; 4. Suivi de l'utilisation du service et préparation des rapports à ce sujet;


5. Définition des meilleures pratiques pour la gestion du service et gestion du service;6. Manuel qualité sur le service et les processus qui y sont directement liés.

Communication1. Communication interne, présentations;2. Formation, conseils;3. Mise en place d'un forum de discussion et utilisation active;4. Relations avec les clients, réponses aux réactions;5. Commercialisation du service, participation à des séminaires, manifestations promotionnelles,

présentations;6. Coopération avec le CBS, participation aux travaux du consortium SOS;7. Diffusion des meilleures pratiques et présentation des processus.

Résultats

La plupart des objectifs du projet ont été atteints. Statistics Finland possède maintenant un entrepôt de données de référence interne et un service statistique accessible au public sur le Web (service statistique StatFin). En outre, l'institut est doté de l'infrastructure technique nécessaire à la mise en place de services payants au moyen de la technologie StatLine. Nous disposons aussi de plus de 100 personnes qui savent utiliser le système pour produire des données et des métadonnées destinées aux bases de données.

Les bases de données ont une grande capacité et se développent rapidement. Le service accessible au public contient quelque 100 tableaux et 30 millions de cellules (15.11.1999). Les réactions des clients sont permanentes, positives et leur nombre augmente. Toutes les réactions sont stockées sur support électronique en vue d'un traitement et d'une analyse.

D'autres producteurs officiels de statistiques finlandais ont manifesté un grand intérêt pour le système et des négociations sont en cours en vue de les associer à la saisie de données provenant de tous les domaines de la société. Tout ceci est très positif car l'un des rôles de Statistics Finland consiste à coordonner la production de statistiques en Finlande. L'existence d'un outil de diffusion attrayant, commun à un grand nombre de producteurs de statistiques, rend cette coordination et cette intégration évidentes et utiles pour nos clients.

Expériences fondamentales

Le soutien (financier et principal) des cadres dirigeants est essentiel pour un projet qui concerne l'institut dans son ensemble. Sans un tel engagement, un changement à ce niveau ne pourrait pas avoir lieu en l'espace d'un an.

La communication interne est capitale pour surmonter la résistance au changement. Le personnel devrait toujours avoir connaissance de l'impact des changements sur sa charge de travail. Il est également important que toute personne concernée ait le sentiment que les changements sont très positifs, aussi bien pour elle-même que pour l'ensemble de l'institut.

Le groupe d'experts StatFin a joué un rôle important dans la communication entre le projet et les services statistiques. Une communication bilatérale a ainsi pu être instaurée au sein de l'institut, ce qui a permis de répondre rapidement aux réactions et propositions.

La formation d'une masse critique d'utilisateurs internes (les fournisseurs de contenu de la base de données) facilite l'alimentation de l'entrepôt en données. La formation seule ne suffit toutefois pas:


une assistance personnelle doit être disponible en permanence pour que le processus d'alimentation d'une base de données soit aussi rationalisé et sûr que possible.

La coordination répartie n'est pas toujours une bonne chose; il serait nécessaire de créer au moins une sorte de comité de rédaction qui serait chargé de coordonner le contenu et les structures du service. Quoi qu'il en soit, une coordination totalement centralisée n'est pas non plus la réponse adéquate car cela réduit le degré d'engagement et fait apparaître les travaux d'alimentation et d'actualisation de la base de données comme étant une mission de cet organe central de coordination.

Lorsqu'un nouveau système de diffusion est mis en place, il est essentiel de l'intégrer aux outils existant dans l'institut. Cela réduit la charge de travail liée à la saisie de données dans le système et le système est plus facilement accepté comme outil commun.

Des règles et des dispositions doivent être établies pour abaisser le seuil d'acceptation du système, mais à long terme, le système doit aussi s'avérer attrayant, sinon il sera rejeté.

Le recrutement de personnel pour une année engendre un sentiment d'insécurité, ce qui affecte l'efficacité et la motivation des personnes concernées à mesure que leur contrat approche de son échéance.

Les clients considèrent que les systèmes basés sur le Web sont plus faciles à utiliser que ceux qui dépendent de l'unité centrale. Cependant, l'interface utilisateur basée sur le Web doit suivre les règles de conception générales appliquées aux systèmes semblables.

La diffusion gratuite d'un vaste ensemble de données ne constitue pas une menace pour un institut de statistique; il s'agit au contraire d'un moyen capital de se forger une image positive: celle d'un fournisseur de contenu dans la société d'information.

La diffusion en ligne visant un groupe cible comme la population finlandaise nécessite des explications et des descriptions très détaillées des données afin d'éviter tout malentendu et de rendre les données utilisables dans un cadre professionnel. Ces explications et descriptions devraient provenir des systèmes centralisés de métadonnées; sinon, la description des données constituera un lourd fardeau pour les services statistiques.

Perspectives d'avenir

Le service StatFin, comme les autres entrepôts de données de Statistics Finland basés sur StatLine, continuera d'évoluer à l'issue du projet d'introduction et de mise en œuvre.

Le système est utilisé quotidiennement, dans des conditions réelles de production. Il est toutefois nécessaire de continuer à le développer, d'améliorer et d'uniformiser les interfaces et les flux de données et de métadonnées, afin que le système StatLine puisse être intégré sans problème aux processus de production. Cet objectif ainsi que la réaction au retour d'information permanent des utilisateurs constitueront un défi important au cours des prochaines années.


Références bibliographiques

M. Saijets, P. Toivonen, S.I. Björkqvist, M. Mäkinen, R.Syvänperä, K.Palteisto, J. Kuosmanen (1999): Data architecture at Statistics Finland, Information Technology Services, Statistics Finland. Document disponible en anglais uniquement.

W. J. Keller, J.G.Bethlehem (1998): Between Input and Output, compte rendu du séminaire TTNS 1998, Sorrente, Italie, 1998.


ACCES AUX DONNEES CONTRE PROTECTION DE LA VIE PRIVEE : PERSPECTIVE DEL'UTILISATEUR ANALYTIQUE

Ugo TrivellatoDipartimento di Scienze StatisticheUniversità di PadovaVia San Francesco, 33IT– 35121 [email protected]

Multae utilitates impedirentur si omnia peccata districte prohibirentur[Si tous les péchés étaient strictement interdits, de nombreuses choses utiles ne verraient

jamais le jour]Thomas d'Aquin (S. Th. II-II, q. 78, a. 1 ad 3)

1. Introduction

Le problème de conjuguer l'accès aux données à la protection de la vie privée présente de multiples facettes. A vrai dire, il se situe à la croisée de deux grands ensembles de considérations : d'une part, la préoccupation traditionnelle des instituts officiels de statistique à l'égard de la confidentialité, tant pour des raisons éthiques que par souci de préserver la collaboration des répondants ; d'autre part, la préoccupation plus générale et plus récente exprimée quant à la protection juridique des individus, en ce qui concerne le traitement et l'utilisation des données à caractère personnel, de quelque nature qu'elles soient. Par ailleurs, la façon de percevoir et de faire face à ces préoccupations varie considérablement d'un pays à l'autre, car elles ont pris racine dans le contexte culturel et institutionnel spécifique à chaque pays1.

Le débat sur le sujet est très animé et très controversé2, notamment suite aux recommandations ou réglementations internationales émises récemment sur la protection des données : Recommandation N° (97) 18 du Conseil de l'Europe “concernant la protection des données à caractère personnel collectées et traitées à des fins statistiques” (appelée ci-après Recommandation CE)3, et la Directive 95/46/CE “relative à la protection des personnes physiques à l'égard du traitement des données à

1 Voir Als (1996) pour un exposé informatif et en profondeur. Je donne juste deux exemples, concernant la France et les Pays-Bas. En France, les données sur les individus et les familles bénéficient d'une importante protection, contrairement aux “ renseignements individuels de nature économique et financière [sur les entreprises, qui] ne peuvent être utilisés pour le contrôle des recettes ou à des fins de répression économique ”, mais qui peuvent être utilisés à d'autres fins (Décret N° 84/628, article 6: voir Buzzigoli, Martelli et Torelli, 1999, pp. 22-27). La plupart des autres pays de l'UE n'ont pas choisi la même option que la France : ils ne font pas cette distinction, ou au contraire, assurent une plus grande protection aux données sur les entreprises. S'agissant des Pays-Bas, l'esquisse très vivante dressée par Als (1996, p.11), (qui commente leur souci de la confidentialité des néerlandais, et leurs réponses relativement médiocres aux sondages), renseigne néanmoins sur l'importance des facteurs culturels : “Promenez-vous, un soir, dans les rues de n'importe quelle petite ville néerlandaise. En l'absence de tout rideau ou toute fenêtre, vous pourrez tranquillement observer la vie de famille des habitants ; et pourtant, les mêmes personnes qui s'exhibent littéralement n'acceptent pas que leur sexe et leur date de naissance figurent dans un identificateur individuel! Et ils sont hostiles aux recensements de la population .”

2 A titre d'exemple, un numéro de The Economist, 1-7 mai 1999, a consacré la couverture, l'article principal et la section spéciale à “La fin de la vie privée”.

3 Voir Conseil de l'Europe (1997). Il s'agit d'une simple recommandation à l'intention des Etats membres, mais elle est très intéressante car elle traite spécifiquement de la protection des données utilisées à des fins statistiques et pour la recherche.


caractère personnel et à la libre circulation des données”4. Les Etats membres de l'UE doivent se conformer à la Directive, en veillant à la mise en application des lois nationales et du droit dérivé. Dans de nombreux pays, le processus est encore en cours, de façon générale ou plus spécifiquement en ce qui concerne le traitement des micro-données5 à des fins statistiques et scientifiques.

J'aborderai le problème dans une perspective particulière, caractérisée par les deux aspects suivants : premièrement je traiterai le point de vue d'un utilisateur analytique, c'est-à-dire d'une personne qui veut recueillir et essentiellement traiter des micro-données à des fins statistiques/de recherche scientifique ; et deuxièmement, je mettrai l'accent sur certaines caractéristiques du problème et sur leurs implications politiques, plutôt que sur les aspects techniques et les nuances méthodologiques.

Les grandes lignes de la présente communication sont les suivantes : Le rôle sociétal de la statistique et de la recherche et leurs besoins intrinsèques sont abordés. Ils

sont essentiels pour stimuler un "crédit de confidentialité" lorsque des données à caractère personnel sont (collectées et) traitées à des fins statistiques et pour la recherche.

Quelques principes de base et lignes directrices pour réglementer ce crédit de confidentialité, tels qu'ils sont énoncés dans la Recommandation CE et dans la législation de l'UE, sont résumés.

Une brève présentation est faite des dispositifs statistiques, technologiques et juridiques, et des pratiques correspondantes, visant à protéger la confidentialité des micro-données tout en autorisant leur traitement à des fins statistiques/scientifiques.

La situation au niveau de l'UE est décrite, notamment en ce qui concerne les règles et pratiques adoptées par Eurostat et les projets de loi.

La conclusion souligne la nécessité de consentir des efforts supplémentaires pour que les bases de micro-données deviennent largement accessibles aux chercheurs.

2. Statistique et recherche : leur rôle sociétal et leurs besoins intrinsèques

Dans le contexte de la législation sur la protection des données, il convient de trouver un équilibre entre le respect de la vie privée et le droit fondamental à la liberté d'expression. Ce droit comprend explicitement la liberté de recevoir et de communiquer des informations (article 10 de la Convention pour la Protection des Droits de l'Homme et des Libertés Fondamentales, 1950), qui elle-même implique la liberté de rechercher des informations.

L'équilibre est perturbé lorsque la statistique et la recherche entrent en jeu, en raison de leur fonction sociétale. Cette fonction est évoquée de la façon suivante dans la Recommandation CE : “Les besoins, aussi bien dans le secteur public que dans le secteur privé, de statistiques fiables pour l'analyse et la compréhension de la structure et de l'évolution de la société contemporaine, et pour la définition des politiques et des stratégies pour les mesures à prendre dans pratiquement tous les domaines de la vie quotidienne”6. C'est précisément à cause de cette fonction que des règlements spécifiques sont prévus concernant la protection des données à caractère personnel collectées et traitées à des fins statistiques et pour les besoins de la recherche.

4 Voir le Parlement Européen et le Conseil de l'UE (1995).5 Quelques précisions terminologiques seraient peut-être utiles (d'autres suivront ultérieurement). Les "micro-

données" sont des données d'enregistrements unitaires, c'est-à-dire des données relatives aux personnes (individus, entreprises, etc.). Les données "à caractère personnel" ou "confidentielles" se réfèrent à des données d'enregistrements unitaires relatives à une personne identifiée ou identifiable. Les données "anonymes’ désignent des micro-données relatives à une personne non identifiable.

6 Voir aussi Jowell (1981) et Reynolds (1993), entre autres auteurs.


Trois points méritent une attention particulière. Premièrement, à propos de l'objet des statistiques, il convient de noter qu'il se distingue par l'utilisation collective des micro-données. Cela signifie que les personnes physiques sont les supports nécessaires pour l'information sur le contexte, mais ne sont pas considérées comme significatives en soi. A partir du matériel de base, à savoir des informations individuelles sur de nombreuses personnes différentes, le statisticien élabore des résultats qui sont censés “caractériser un phénomène collectif” (Recommandation CE, article 1). En d'autres termes, le résultat statistique sépare l'information de la personne : les données à caractère personnel sont collectées et traitées dans le but de produire des informations consolidées et anonymes. Dans cette perspective, il est également clair que la protection de la vie privée est dans l'intérêt des statisticiens, s'ils souhaitent conserver la confiance des répondants et du public et éviter de compromettre la fourniture de données à l'avenir.

Deuxièmement, du point de vue de la protection des données, la recherche scientifique est (en grande partie) similaire à la statistique, et indissociable7. Cette affirmation est applicable tant à la recherche fondamentale qu'aux politiques de soutien de la recherche. Ce point est clairement énoncé dans la Recommandation CE (exposé des motifs, paragraphe 14) en ce qui concerne les objectifs purement scientifiques : “La recherche scientifique utilise la statistique comme un moyen, parmi tant d'autres, de promouvoir l'évolution du savoir. Le savoir scientifique consiste à établir des principes permanents, des lois de comportement ou des modes de causalité qui transcendent toutes les personnes physiques auxquelles ils s'appliquent. Elle vise donc à caractériser des phénomènes collectifs, ce qui est la définition même des résultats statistiques. On pourrait dire, par conséquent, que la recherche devient statistique à un certain stade de son développement.” Des arguments semblables sont applicables aux politiques de soutien de la recherche : leur conception, leur contrôle et leur évaluation. A cet égard, aussi, les informations pertinentes se rapportent toujours à des phénomènes collectifs et ne peuvent donc, en aucun cas, entraîner de conséquences directes ou individualisées pour les personnes physiques.

Il est important de préciser que la recherche scientifique fait de plus en plus appel aux micro-données. Différents facteurs sont à l'origine de cette tendance8. Pour être bref, je mentionnerai simplement l'attention croissante portée aux différents agents (personnes, ménages, entreprises), à leur hétérogénéité, à la micro-dynamique et aux interdépendances ; je noterai également l'accent mis sur les caractéristiques de diffusion et sur les programmes ciblant des groupes d'agents9

spécifiques, dans le but de faciliter l'élaboration de politiques et la prise de décisions.

Le troisième point, très important, concerne l'accès aux bases de micro-données. Un accès "libre", c'est-à-dire raisonnablement ouvert et équitable, aux micro-données, est essentiel pour la science, ainsi que pour le bon fonctionnement d'une société démocratique. La science est un processus progressif qui repose sur la liberté de confronter des idées et sur la concurrence entre différentes hypothèses. Cela est valable tant pour la recherche fondamentale que pour les politiques de soutien

7 Je ne prend pas en considération, ici, ce domaine de la science (couvrant notamment les sciences médicales et psychologiques) qui exige un retour d'information personnalisé. Dans ce domaine, où l'intervention personnalisée est essentielle pour la recherche (même si l'analyse statistique joue un rôle à un stade ultérieur), des règles éthiques et juridiques spécifiques sont nécessaires.

8 Alimentées par les données des sondages et des sources administratives, les bases de micro-données (sur les ménages/personnes physiques et sur les entreprises/établissements et plus récemment sur les données employeur-employé associées) ont connu un développement impressionnant suite à une "offre" accrue grâce aux progrès considérables de la collecte, du stockage et du traitement de données, rendus possibles par la révolution informatique. Je n'envisagerai que l'aspect de la "demande" dans la présente communication.

9 Je développe davantage ces points dans Trivellato (1999). De nombreuses contributions consacrées à ce sujet ont été présentées à la Conférence Eurostat-Istat sur les “Défis économiques et sociaux au 21 e siècle : implications statistiques”, Bologne, 5-7 février 1996. Voir en particulier Atkinson (1996) et Malinvaud (1997).


à la recherche10. Ainsi, les études qui peuvent être répétées, sont très importantes pour la science. Dans ce contexte, il est essentiel que les chercheurs qualifiés qui souhaitent analyser les micro-données, puissent accéder librement aux bases de micro-données.

Les arguments sur le rôle des statistiques officielles dans une société démocratique vont dans le même sens. Le principe d'impartialité, un des “principes fondamentaux des statistiques officielles” adoptés par la Commission de la statistique de l'Organisation des Nations Unies, et de ceux pour la statistique communautaire énoncés dans le règlement 322/97 du Conseil (appelé “Loi statistique” de l'UE)11, implique que l'information statistique soit accessible à tous sur une base équitable. Au sens strict, ce principe - à l'instar de tous les autres - s'applique aux statistiques globales produites par un institut officiel de statistique, et non aux micro-données. Mais il est tout à fait raisonnable de l'étendre aux micro-données à des fins de recherche scientifique12, tout en adoptant des mesures appropriées pour protéger la confidentialité des répondants.

L'une des implications de ce point de vue, est que l'information statistique collectée par les instituts officiels de statistique doit être traitée, dans une large mesure, comme un bien public. Les statistiques officielles ont quelques caractéristiques communes avec les biens publics, et de plus, la fixation collective des coûts joue un rôle déterminant dans leur production (Malinvaud, 1987, pp. 197-198). Toutefois, elles ne constituent pas un bien public en soi : il est tout à fait possible d'établir une distinction entre les utilisateurs, à la fois par l'établissement de tarifs et par un accès sélectif, discriminatoire13. Caractériser l'information statistique essentiellement comme un bien public reviendrait à avoir une attitude normative le résultat d'un choix dans une société démocratique. La principale implication dans notre cas est que l'accès aux micro-données pour tous les chercheurs bona fide (qui pourraient être soumis à l'obligation de se faire enregistrer, ou de faire acte d'engagement, si cela est nécessaire pour des raisons de confidentialité) devrait être gratuit ou possible à un coût dérisoire.

3. Où arrêter le balancier ? Quelques règles fondamentales et leur interprétation.

Je me suis étendu sur ces questions, car une bonne perception des principes directeurs est importante. A mon avis, ils permettent d'expliquer clairement pourquoi un utilisateur analytique bona fide devrait bénéficier d'une sorte de "crédit de confidentialité" pour l'accès aux micro-données.

De toute évidence, ce crédit devrait être raisonnable, c'est-à-dire limité et réglementé à la lumière des aspects techniques impliqués, et assorti des garanties adéquates. Tant que les données sont

1 0 Heckman et Smith (1995, p. 93) démontrent avec beaucoup de conviction, que “les évaluations se construisent sur l'accumulation des connaissances”. Voir aussi Rettore et Trivellato (1999).

1 1 Voir la Commission de la statistique de l'Organisation des Nations Unies (1994) et le Conseil de l'UE (1997).1 2 Pour un débat plus vaste sur le sujet (traitant différents aspects tels que : les informations statistiques

considérées comme des biens quasi-publics, la distinction entre un financement centralisé et une production centralisée, et la théorie de la bureaucratie et de l'émulation de la concurrence), voir Behringer, Seufert et Wagner (1998).

1 3 La doctrine dite de "Rayner", qui s'est heureusement soldée par un échec, fournit un exemple remarquable d'une telle perspective. Il y a environ vingt ans, Sir Derek Rayner s'était vu confier la mission de préparer un rapport, à l'intention du premier ministre du R.U., qui devait passer en revue les différents Services Statistiques Gouvernementaux, et proposer des façons de les restructurer et de réduire les dépenses associées à ces services. L'une des remarques les plus importantes du rapport était la suivante : “ l'information [statistique] ne devrait pas être collectée dans le principal but d'être publiée ; elle devrait être collectée essentiellement parce que le gouvernement en a besoin pour ces propres affaires” (Rayner, 1980). Pour la présentation du Rapport Rayner et les sévères critiques dont il a fait l'objet au sein de la Royal Statistical Society, voir Hoinville et Smith (1982). Le gouvernement britannique a progressivement abandonné la doctrine Rayner, jusqu'au changement radical introduit par le “Livre Vert” de 1998 (HM Government, 1998).


utilisées pour produire des résultats statistiques et que les résultats eux-mêmes sont impersonnels, il n'existe aucun risque de violation de la confidentialité. La diffusion d'informations statistiques et le traitement des micro-données peuvent néanmoins entraîner des risques de divulgation. Ainsi, des données pourraient être utilisées à des fins non statistiques, notamment pour prendre des décisions ou des mesures relatives à une personne physique donnée. C'est par rapport à ce risque que des mesures de précaution techniques sont stipulées et que des garanties juridiques (y compris des sanctions) sont prévues.

Le tableau est plutôt complexe parce que les éléments constitutifs de différentes dispositions s'entrecoupent et se chevauchent : il y a des règlements internationaux et nationaux ; il y a certains aspects qui relèvent de la protection des données en général et plus spécifiquement du traitement des données à caractère personnel à des fins statistiques et de recherche scientifique (ou simplement du traitement de ces données par des instituts officiels de statistique) ; il y a de simples recommandations, des lois et le droit dérivé. Pour simplifier, je mettrai l'accent sur quelques règles fondamentales relatives à notre sujet particulier, essentiellement celles qui ressortent des règles de conduite élaborées au niveau international : d'une part, la Recommandation CE et la Directive 95/46/CE, complétées par le Règlement 322/97 du Conseil d'autre part14.

Premièrement, il convient de clarifier la notion de "données à caractère personnel (ou confidentielles)" et la notion complémentaire de "données anonymes". Selon la Recommandation CE, “l'expression "données à caractère personnel" signifie toute information concernant une personne physique identifiée ou identifiable (personne concernée). Une personne physique n'est pas considérée comme "identifiable" si cette identification nécessite des délais et des activités déraisonnables. Lorsqu'une personne physique n'est pas identifiable, les données sont dites anonymes..” Ce point est clair et relativement important. En substance, cela signifie que (i) l’on accepte un risque raisonnablement faible d'identification dans les ensembles de données anonymes, et (ii) les dispositions pour la protection des données ne sont pas applicables aux données anonymes. Toutefois, la notion d'identifiabilité est exprimée différemment à travers les différentes législations15; et, ce qui est peut-être plus important, les modalités de mise en pratique de ces concepts sont, dans une large mesure, encore floues. Dans ces conditions, la mise en œuvre est cruciale.

Quant aux dispositions régissant le traitement des données à caractère personnel à des fins statistiques, une distinction grossière mais utile peut être établie entre les principes positifs spécifiquement relatifs au domaine, et les dérogations aux normes générales sur la protection des données. Dans la première catégorie, il est intéressant de mentionner :

Le principe de l'utilisation licite des données à caractère personnel, à des fins statistiques uniquement : “ Les données à caractère personnel collectées et traitées à des fins statistiques doivent servir uniquement à ces fins. Elles ne doivent pas être utilisées pour prendre une

1 4 Je laisse de côté les considérations plus générales sur l'impact global de la directive sur la protection des données de l'UE. Je souhaite juste préciser qu'elle confère aux individus un droit de propriété sur les renseignements qui les concernent, et donc un contrôle sans précédent sur ces données. Son contenu a d'ailleurs suscité quelques inquiétudes : la directive a une “effrayante … orientation bureaucratique, une orientation qui consiste à régir tout dans le moindre détail” (Als, 1996, p. 20); il est peut probable que la directive soit applicable en pratique, si trop de personnes tentent de l'utiliser ; “S'il était trop largement invoqué, ce droit de propriété deviendrait l'antithèse d'une société ouverte” (The Economist, 1-7 mai 1999, p. 13).

1 5 Par exemple, la formulation du Règlement 322/97 du Conseil fait allusion à une notion quelque peu plus large de l'identifiabilité (“Pour déterminer si un unité statistique est identifiable, il est tenu compte de tous les moyens qui pourraient être raisonnablement utilisés par un tiers pour identifier ladite unité statistique” : article 13; soulignement ajouté). Au contraire, la formulation de la Loi britannique sur la protection des données (1998) est résolument plus libérale, car elle fait référence à l'identification “à partir des données et autres informations qui sont détenues, ou sont susceptibles d'être détenues, par le gestionnaire des données” (Section 1 (1); soulignement ajouté).


décision ou mesure relative à la personne concernée ou pour compléter ou corriger des fichiers dont les données à caractère personnel sont traitées pour des finalités non statistiques. ” (Recommandation CE, principe 4.1).

Ce que l'on pourrait appeler le "principe de parcimonie" : les données à caractère personnel devraient être rendues anonymes et les données d'identification (c'est-à-dire les données à caractère personnel qui permettent une identification directe de la personne physique) devraient être séparées de celles utilisées pour produire les résultats statistiques, dès que cela est raisonnable.

Un ensemble d'indications sur les mesures à prendre pour assurer la sécurité des données à caractère personnel.

Une déclaration claire et nette sur la publication: “Les résultats statistiques ne doivent être publiés ou rendus accessibles à des tiers que si des mesures sont prises pour s'assurer que les personnes concernées ne sont plus identifiables sur la base de ces résultats, à moins que la diffusion ou la publication ne présente manifestement pas de risque d'atteinte à la vie privée de ces personnes” (Recommandation CE, principe 14.1).

Les dérogations aux dispositions générales pour la protection des données, lorsque les données à caractère personnel sont traitées à des fins statistiques, comprennent :

La possibilité de traiter, à des fins statistiques, des données qui ont été initialement collectées à des fins non statistiques (principalement, pour les besoins administratifs), avec des dérogations partielles à l'obligation d'aviser les personnes concernées.

La conservation des données à caractère personnel, qui peut être étendue “à une période plus longue [que celle initialement nécessaire pour l'usage auquel les données étaient destinées, ou … ont subi un autre traitement ]” (Directive 95/46/EC, Article 6)16.

Des restrictions au droit d'accès et de rectification, par une quelconque personne, aux données à caractère personnel la concernant.

Quelles sont les implications opérationnelles de ces principes pour un utilisateur analytique ? Premièrement, il convient de noter qu'elles sont décrites dans des termes plutôt généraux. En outre, la Directive 95/46/CE, la seule loi à caractère obligatoire pour les Etats membres17, se limite, pour le traitement des données à des “fins historiques, statistiques ou scientifiques”, aux dérogations des dispositions générales sur la protection des données, qui doivent être établies par la législation nationale sous réserve des garanties appropriées. Enfin, la Recommandation CE et la Directive 95/46/CE sont toutes les deux restées judicieusement silencieuses sur les mesures techniques et organisationnelles visant à assurer l'anonymat, la confidentialité et la sécurité du traitement, autorisant ainsi l'adaptation aux évolutions à venir en matière informatique et statistique.

La conséquence globale est qu'une place considérable est laissée à différentes attitudes à travers les différents pays. L'harmonisation se poursuit, mais à un rythme modéré. Les dispositions des Etats membres restent très diversifiées. La législation nationale et, qui plus est, les pratiques nationales

1 6 Une spécification intéressante des raisons invoquées pour la conservation des données d'identification figure dans la Recommandation CE, principe 11.1: “a) aux opérations de collecte, de contrôle et d'appariement des données ; ou b) pour assurer la représentativité de l'enquête ; ou c) pour répéter une enquête avec les mêmes personnes”. La Loi britannique sur la protection des données de 1998, Section 33 (3), est particulièrement libérale à cet égard : “Les données à caractère personnel qui sont traitées exclusivement à des fins de recherche scientifique …peuvent être conservées pour une durée indéfinie ”.

1 7 Il a été demandé aux Etats membres d'adopter les mesures législatives et administratives nécessaires pour assurer la conformité avec la Directive dans un délai de trois ans à compter de son adoption (article 32). Mais, dans certains pays, le processus est encore en cours.


ont de l'importance18. Un examen des pratiques s'avère utile.

4. La sécurité des données et des environnements et le Web: dispositifs et pratiques pour préserver la confidentialité tout en autorisant l'accès aux micro-données

Les stratégies mises en place pour éviter la divulgation des données tout en assurant le libre accès à ces mêmes données, sont souvent désignées par les termes génériques de "sécurité des données" et "sécurité des environnements". Cela constituera mon point de départ, mais je démontrerai qu'il convient d'accorder la plus grande attention à la technologie de pointe, y compris le WWW (Word Wide Web), et au système global adopté pour traiter les questions de diffusion des données19.

4.1. Sécurité des données

La production d'ensembles de micro-données "sûres", c'est-à-dire des données dont l'anonymat des faits est garanti, implique que différentes mesures de contrôle de divulgation soient appliquées aux unités statistiques (échantillonnage et sous-échantilonnage, micro-regroupement, masquage, etc.) et/ou aux variables (suppression de variables, agrégation de modalités et codage vers le haut/bas, stratégies d'injection d'erreurs, etc.).

Plusieurs pays ont acquis une expérience considérable dans la production et la publication d'ensembles de données rendues anonymes pour un large éventail de domaines sociaux. Les exemples les plus frappants dans l'UE sont peut-être les ensembles de données de sondages, à visée générale, sur des groupes de ménages : le GSOEP (German Socio-Economic Panel), the BHPS (British Household Panel Survey), et l'ECHP (European Community Household Panel)20.

Quelques remarques s'imposent au sujet de la diffusion d'ensembles de données "sûres". Il n'est pas étonnant de constater qu'elle varie en fonction du risque d'identification des répondants (et de sa contre-partie évidente : la réduction du contenu d'information de l'ensemble de données). Dans certains cas, lorsque le risque est censé être quasiment nul, les données sont diffusées en tant que "fichiers de micro-données à usage public", et accessibles à tout le monde. Dans d'autres cas, lorsque le risque est jugé minime (les données étant en fait considérées comme anonymes) mais non

1 8 Cette affirmation, et une partie des considérations du Chapitre 4 ci-après, sont basées sur une étude rapide de la législation et des pratiques nationales dans des pays choisis. Pour un tour d'horizon, voir Als (1996) sur les pays de l'UE ; Motohashi (1998) sur des pays choisis de l'OCDE, particulièrement en ce qui concerne des bases de micro-données longitudinales sur les entreprises/établissements ; Buzzigoli, Martelli et Torelli (1999), qui font des enquêtes en Australie, au Canada, en France, en Allemagne, aux Pays-Bas, aux Etats-Unis ; Biggeri (1999), qui traite du cas italien ; Bodin (1999b), qui se penche sur la Suède, les Pays-Bas, le Royaume-Uni et les Etats-Unis. Pour les Etats-Unis, voir aussi Duncan, Jabine et deWolf (1993) et Stevens (1998). J'ai directement consulté la législation nationale actuelle ou les projets de loi en Belgique (Projet de loi sur les statistiques officielles, janvier 2000), en Finlande (Loi sur les statistiques 62/1994, avec des amendements ultérieurs allant jusqu'à 1998), en France (voir CNIS, 1999), en Italie (Loi N° 675/96 sur la protection des données ; Décret n° 281/1999 sur les dispositions pour les données à caractère personnel traitées à des fins historiques, statistiques et scientifiques), en Espagne (Loi organique n° 15/99 sur la protection des données à caractère personnel) et au Royaume-Uni (Loi sur la protection des données de 1998 ; voir aussi Lloyd, 1998).

1 9 La littérature sur ce sujet est considérable. Quelques références générales : Eurostat (1996), Willenborg et de Waal (1996), Fienberg et Willenborg (1999). Des communications utiles, mises à jour, ont été présentées lors de plusieurs séminaires ad hoc organisés par Eurostat : le 3e Séminaire international sur la confidentialité des statistiques, Bled (Slovénie), du 2-4 octobre 1996 (Office des Statistiques de la Répubique de Slovénie et Eurostat, 1996) ; la Conférence sur la protection des données statistiques, Lisbonne, 25-27 mars 1998 (Eurostat, 1999) ; la Session de travail conjointe UN ECE (Commission Economique pour l'Europe des Nations-Unies /Eurostat sur la confidentialité des données statistiques, Thessaloniki, 8-10 mai 1999. Les communications présentées à cette dernière réunion peuvent être consultées à l'adresse suivante : http://www.unece.org/stats/documents/1999.03.confidentiality.htm.

2 0 De nombreuses informations sur les deux premières bases de données figurent respectivement à l'adresse: http://www.diw-berlin.de/soep/e.faltblat.html et http://www.iser.essex.ac.uk/bhps. Pour l'ECHP, voir la Section 5.


négligeable, les données sont diffusées avec quelques restrictions concernant essentiellement leur rôle et des questions de licences. Ces restrictions sont plus ou moins importantes : à une extrémité, on trouve un “accès universel …pour tous les utilisateurs non commerciaux bona fide, (sous réserve qu'ils se fassent enregistrer et qu'ils s'engagent à un usage standard non abusif), à titre gratuit [ou à un coût dérisoire]” (Jenkins, 1999, p 81), comme c'est le cas pour le BHPS et GSOEP ; à l'autre extrémité, figurent des procédures de diffusion très restreintes, fondées sur l'examen et l'approbation d'un projet de recherche par un comité ad hoc, qui doivent faire l'objet d'accords détaillés et s'avèrent onéreuses.

Dans l'ensemble, je pense que la variabilité de ces politiques de diffusion n'est que modérément liée au risque de divulgation des ensembles de données concernés. Le facteur déterminant est plutôt la différence d'attitude : en bref, certains pays et instituts de statistique ont une politique libérale et d'autres une politique restrictive.

4.2. Sécurité des environnements

L'approche polaire consiste à permettre aux chercheurs externes d'accéder aux micro-données conservées dans un "environnement sécurisé" constitué par des moyens de stockage des données et une zone de travail sûrs sous le contrôle de l'institut officiel de statistique (et habituellement dans ses locaux).

Elle est intéressante parce qu'elle associe un haut niveau de protection, basé sur des restrictions physiques et logiques à l'accès des données, à la possibilité pour le chercheur de travailler sur des données confidentielles. Mais d'autre part, il est tout à fait clair que la sécurité de l'environnement implique une entrée sélective (règles d'accès limité, limites de capacité, important contrôle administratif, coûts directs et indirects substantiels pour l'utilisateur), et pourrait imposer des contraintes au principe de libre accès à des fins de recherche scientifique.

Parmi les exemples bien connus d'environnement sécurisé pour des bases de micro-données sur des entreprises/établissements, on peut citer le CES (Center for Economic Studies) de l'US Census Bureau (Bureau de recensement américain) et le CeReM à l'institut national de statistique néerlandais (Statistics Netherlands)21.

Notons qu'il serait impropre d'identifier les environnements sécurisés comme des endroits où seules des restrictions d'ordre physique et logique permettent d'éviter la divulgation des données. Des garanties éthiques et juridiques sont en effet déjà utilisées également. A titre d'exemple, un utilisateur potentiel externe au CES doit (i) obtenir un statut spécial en s'engageant contractuellement à ne pas divulguer des données confidentielles, et (ii) traiter les données sur le site sécurisé désigné.

4.3. Le Web

Le paysage est toutefois en train de changer considérablement. Les nouvelles évolutions technologiques en matière de communications, d'informatique et de statistique ouvrent des opportunités qui sont entièrement nouvelles. Il convient de souligner un point en particulier : les progrès dans le domaine des technologies de l'information ne représentent pas simplement une menace pour la confidentialité. La cryptographie, la protection des bases de données, les systèmes d'audit pour les bases de données statistiques, les méthodes et logiciels garantissant la confidentialité des données statistiques22 évoluent de façon impressionnante. En associant plusieurs

2 1 Voir McGuckin et Pascoe (1998) et Balk (1998) respectivement. Noter que le CES a déjà mis en place plusieurs Centres de Données pour la Recherche (nom donné à ses environnements sûrs), dispersés dans le pays.

2 2 De nombreuses communications présentées lors de la Conférence sur la protection des données statistiques, à


de ces moyens, il est possible de concevoir un système capable de (i) permettre à un utilisateur analytique d'accéder à des bases de micro-données statistiques éloignées, sur Internet, et de traiter ces données à des fins de recherche scientifique, tout (ii) en assurant une bonne maîtrise de la confidentialité des statistiques.

Il existe déjà des exemples intéressants d'accès aux micro-données et de diffusion des micro-données par voie électronique. Voir notamment l'initiative DLI (Data Liberation Initiative) mise au point par l'institut national de statistique canadien, le projet DADS (Data Access and Dissemination System) du Bureau de recensement américain23, et la base de données Nomis au Royaume-Uni24. Mais il convient d'explorer davantage les possibilités de cette approche, qui compte tenu de ses capacités et de sa flexibilité, est susceptible de devenir la plus courante à l'avenir.

Dans ce contexte, la "sécurité de l'environnement" (ou, nous devrions plutôt parler de "sécurité du réseau") désignera simplement un ensemble de règles permettant le traitement de données (potentiellement) confidentielles dans un environnement sûr, sans référence à un lieu physique. Les règles seront des moyens technologiques, des procédures logiques et statistiques, ainsi que des garanties éthiques et juridiques.

4.4. Le système d'organisation pour l'accès aux micro-données à des fins de recherche scientifique

Un autre point, très important, mérite notre attention. En ce qui concerne la diffusion des données pour les besoins de la recherche, le problème ne se limite pas à l'accès aux micro-données brutes et à leur diffusion. D'autres caractéristiques sont essentielles, ou utiles :

une large documentation sur les données, avec un questionnaire, des manuels de codes, et d'autres métadonnées renseignant sur la source des données, la qualité des données, etc.;

les informations et la formation, particulièrement lorsque de nouvelles technologies et de nouveaux logiciels sont introduits ou que de nouveaux ensembles de micro-données sont mis à disposition ;

l'engagement important des utilisateurs analytiques, leur retour d'information à l'intention des producteurs et gestionnaires de données (via, par exemple, des groupes utilisateurs, des comités de conseil scientifiques ou des institutions ad hoc). Ce dialogue a deux effets positifs, cumulés : (i) il fournit “une importante valeur ajoutée aux données de base (de nouvelles variables dérivées et structures de données, compatibles et comparables),… avec ces variables dérivées déposées et [… à nouveau] diffusées” en plus des données de base (Jenkins, 1999, p. 78), ainsi que de nouvelles possibilités d'échanger des opinions sur la façon d'utiliser au mieux les données ; (ii) il fournit à l'agence qui produit les données des renseignements utiles sur les améliorations à apporter dans le domaine de la collection, production et diffusion des données.

Ce système d'organisation plus large exige un effort conjoint de la part des agences produisant les données et des institutions ou associations de la communauté scientifique, utilisant souvent une agence ad hoc intermédiaire. Je ne veux pas m'étendre davantage sur ce point qui a été déjà illustré

Lisbonne, 25-27 mars 1998, traitaient de ces sujets : voir Eurostat (1999). Voir aussi McClean (1998).2 3 Voir Buzzigoli, Martelli et Torelli (1999), pp. 18-20 et 65-66, ainsi que le bureau de recensement américain

(1997). Pour autant que je sache, les ensembles de micro-données diffusés dans le cadre des deux initiatives se composent uniquement de fichiers de micro-données à caractère public.

2 4 Nomis est une base de données officielle en ligne sur le marché du travail, dépendant de l'institut national de statistique (Office of National Statistics), qui diffuse des informations géo-statistiques à destination de 800 clients. A proprement parler, il s'agit d'une base de données de type SIG (système d'information géographique), et non d'une base de micro-données. Néanmoins, elle est appropriée pour nos objectifs, car la résolution géographique va jusqu'aux circonscriptions électorales (quelque 10000 unités), avec une distribution plutôt biaisée de la population résidente, de l'emploi et du chômage et de la divulgation potentielle. Voir Blackmore (1998).


d'une manière convaincante par Jenkins (1999), qui s'est référé à l'expérience du Royaume-Uni avec Data Archive : une agence indépendante regroupant différents producteurs de données et qui gère efficacement les questions de diffusion de données, tout en assurant un libre accès aux utilisateurs analytiques bona fide, avec un travail important en matière de documentation, de formation, d'établissement de réseaux, etc.1.

Si un aspect – celui de la diffusion aux utilisateurs travaillant dans le cadre d'une agence spécialisée est dans une certaine mesure spécifique au Royaume-Uni, les principales caractéristiques de l'organisation décrite au préalable, sont représentatives de plusieurs grandes expériences dans différents pays. Parmi ces expériences, figurent l'initiative canadienne DLI2, déjà citée, et le programme néerlandais basé sur un accord entre le Bureau central de statistique et WSA/NWO (agence spécialisée fondée par l'organisme néerlandais pour la recherche scientifique, dans le but précis “de mettre les fichiers de micro-données du Bureau central de statistique à la disposition de la recherche scientifique à un coût réduit”, avec des modalités d'engagement à l'égard de la confidentialité des données, normalisées et simplifiées3).

Pour résumer, certaines des meilleures pratiques de libre accès aux micro-données à des fins statistiques résultent de l’association de différents ingrédients: (i) une législation flexible, raisonnablement libérale, davantage axée sur la responsabilité des utilisateurs et sur les codes de bonne conduite que sur le déploiement d’un vaste contrôle administratif ; (ii) un cadre d’organisation adéquat pour traiter les questions de diffusion des données ; (iii) un système élaboré d'accès sécurisé aux données, basé sur le Web.

Parmi tous les pays de l’UE, le Royaume-Uni4 offre, à mon avis, le meilleur exemple de mélange "réussi" de tous ces ingrédients. Le cas des Pays-Bas mérite également d’être mentionné. Il montre qu’en consentant des efforts considérables sur les points (ii) et (iii), on peut, dans une certaine mesure, compenser la rigueur de la législation en matière de confidentialité (et répondre aux fortes préoccupations du public dans ce domaine). Les pays s’appuyant largement sur des dispositions législatives détaillées et sur un contrôle administratif ont tendance à être en retard dans ce domaine. Il est vrai que dans certains, comme la France et l’Italie, le processus législatif est encore en cours et que la question de l’accès aux micro-données à des fins statistiques et de recherche scientifique est actuellement examinée comme il se doit.

1 On peut consulter une vaste documentation sur les archives des données du Royaume-Uni à l'adresse suivante : http://daww.essex.ac.uk.

2 Dans le cadre de l'initiative DLI, les partenaires de l'institut national de statistique canadien (Statistics Canada) sont essentiellement des associations scientifiques et des associations de bibliothèques universitaires ; le soutien technique et administratif est directement fourni par Statistics Canada ; la diffusion des données, via Internet, se fait principalement à l'intention des établissements universitaires, qui mettent ensuite les données à la disposition des professeurs et des étudiants pour une utilisation à des fins non commerciales.

3 WSA/NWO joue un rôle d'intermédiaire, la diffusion des microdonnées étant gérée directement par CBS, au moyen d'un “contrat-type pour les instituts de recherche externes concernant les usages multiples des ensembles de micro-données” (citations du contrat). L'institut de recherche demande ensuite à chaque chercheur de s'engager, par écrit, à respecter la confidentialité des données. Consulter http://129.125.158.28/wsahomuk.html.

4 Voir Jenkins (1999) pour l'illustration des résultats positifs obtenus, avec une référence aux ensembles de micro-données provenant d'enquêtes sur les ménages effectuées à une grande échelle. Il est aussi intéressant de mentionner comment la question de la confidentialité est traitée dans la base de données en ligne de type SIG, Nomis (Voir note de bas de page 24). En gros, on distingue les principales étapes suivantes : “ 1. Accord officiel de licence aux utilisateurs pour les séries de données sensibles. 2. Déclaration du caractère confidentiel des données par les propriétaires. 3. Systématisation des règles de confidentialité de façon à ce que les éléments confidentiels soient clairement identifiés. Cela permet aux chercheurs de travailler sur ces données, mais non de les publier ou de les transmettre. 4. Actualisation d'un historique de toutes les extractions de données.…5. Développement d'un partenariat entre les propriétaires des données et les utilisateurs de données, bénéfique pour les deux parties ” (Blackmore, 1998, p. 2).


5. L’état de l’art au sein de l’UE

J’en viens à présent à la situation concernant l’Union Européenne et Eurostat. Le Règlement 322/97 du Conseil comprend deux clauses concernant l’accès aux micro-données et la confidentialité.

(a) L’article 17 prévoit que l’accès aux données confidentielles transmises à Eurostat peut être accordé par celui-ci, si elles sont utilisées à des fins scientifiques et si l’Etat membre qui a fourni les données demandées a donné son consentement exprès à cette utilisation.

(b) L’article 20, prévoit que la Commission, assistée obligatoirement par le comité du secret statistique5, devra adopter des mesures “destinées à assurer que toutes les autorités nationales et [… Eurostat] appliquent les mêmes principes et les mêmes normes minimales pour éviter la divulgation de données confidentielles ”.

D’une part, on demande à la Commission et à Eurostat de jouer un rôle actif dans l’harmonisation des règles de confidentialité et des “normes minimales”. D’autre part, pour la diffusion d'ensembles de micro-données anonymes harmonisés au niveau de l’UE, Eurostat doit obtenir l’approbation de chaque Etat membre, pour leurs ensembles de données nationaux respectifs. On peut craindre qu'Eurostat, incité par le critère d’harmonisation, risque d'adopter les normes établies par l’Etat le plus strict, ou en d’autres termes, d'adopter les "normes maximales". Je vois là une ambiguïté, une sorte de cercle vicieux, susceptible d’entraver l’action positive dont Eurostat est chargé, à savoir la promotion et la mise en œuvre de règles harmonisées et ouvertes sur la confidentialité des données. Pour prévenir tout risque de ce type, il est nécessaire de s'engager clairement et fermement à pratiquer une politique visant à libéraliser l'accès de la communauté scientifique. Cette voie n'a pas été choisie, tout au moins jusqu'à une date récente.

Quant à la politique d'accès aux données pratiquée actuellement par Eurostat, il s'avère qu'elle est encore assez restrictive. Pour autant que je sache :

En général, l'accès aux micro-données n'est autorisé que dans l'environnement sûr du système sécurisé d'Eurostat, essentiellement pour les activités de recherche menées, dans l'intérêt de la Commission, par le personnel d'Eurostat ou par des consultants agissant en sous-traitance pour Eurostat.

La diffusion de bases de micro-données rendues anonymes est limitée à une seule enquête, l'ECHP (Panel des ménages de la Communauté européenne, considéré comme étant à l'origine de l'une des principales avancées dans le système statistique européen).

Les règles de diffusion des données sont basées sur des contrats de recherche, énonçant des conditions strictes d'accès aux données et d'utilisation des données, et ce à des prix relativement élevés (Marlier, 1999a).

Jenkins (1999) a vivement critiqué cette stratégie de diffusion qu'il considère à l'antipode des pratiques plus ouvertes et efficaces du système adopté au Royaume-Uni. Je partage pleinement son opinion. J'ajouterai simplement deux remarques. Premièrement, les règles de diffusion des données ne peuvent guère être justifiées que par des motifs de confidentialité (il conviendrait de se souvenir que nous traitons d'ensembles de données rendues anonymes, auxquelles la législation sur la protection des données n'est pas applicable). Deuxièmement, le système de tarification a des aspects déplaisants : les données sont assez onéreuses ; les divers prix déclinés pour les différents types d'utilisateurs font davantage penser à un système de tarification protectionniste qu'à un moyen de récupérer les coûts marginaux. Une certaine propension à restreindre l'accès aux données et à

5 Le comité a été institué par l’article 7 du règlement (Euratom, CEE) n° 1588/90 relatif à la transmission , à l’Office statistique des Communautés européennes, d’informations statistiques couvertes par le secret.


exercer un large contrôle administratif semble s'installer, avec toutes les conséquences néfastes qui risquent d'en découler pour la science et pour la politique dans ce domaine6.

Il est heureux que récemment Eurostat ait pris des mesures importantes afin de revoir les pratiques et la législation. J'ai entendu dire que ce sujet a été à l'ordre du jour du comité du programme statistique en mars 1999, pour répondre au besoin d'accès aux micro-données éventuellement confidentielles, des équipes de chercheurs sélectionnées au sein du TSER (Targeted Socio-Economic Research Program)7. Une équipe de travail sur l'accès aux données confidentielles à des fins de recherche scientifique a été mise en place et une approche ouverte et judicieuse a été adoptée, bien illustrée par la définition suivante de l'un des principes clés qui ont servi de fondement à ce travail : “La principale fonction des instituts et autorités de statistique est de diffuser le maximum d'information sans porter atteinte à la confidentialité des répondants. Les données ont été collectées aux frais des contribuables et ont souvent donné lieu à un volume massif de réponses. Il incombe aux statisticiens officiels de veiller à ce que ces données soient utilisées au mieux (et de la façon la plus sûre)”8.

Des évolutions notables ont déjà eu lieu, à deux niveaux : des innovations dans les pratiques de diffusion et la préparation d'un nouveau règlement.

S'agissant des pratiques de diffusion, la politique tarifaire pour les ensembles de micro-données ECHP est en train d'être révisée, et d'importantes réductions sont prévues. On apprécierait que le système de tarification soit simplifié, moins fractionné en fonction des types d'utilisateurs9. Un débat a également été entrepris sur la possibilité de diffuser une base de micro-données rendues anonymes à partir de l'Enquête sur les forces de travail (Labour Force Survey - Franco, 1999)10.

L'évolution la plus importante est toutefois le projet de règlement de la Commission sur “l'accès aux données confidentielles à des fins scientifiques”11. En s'appuyant sur certains principes clés, y compris celui susmentionné, le projet de règlement énonce quelques règles importantes :

6 C'est manifestement une hypothèse, mais également une préoccupation légitime. Les preuves tangibles des effets de la législation sur la protection des données sont rares. (il est vrai que la législation est récente et que ses effets dépendent largement de la façon dont elle est mise en œuvre et respectée). Je ne connais qu'une seule étude dans le domaine médical, effectuée aux Etats-Unis, visant à déterminer les effets d'une loi nationale prévoyant que l'utilisation par des chercheurs externes de dossiers médicaux soit soumis au consentement préalable du patient dûment informé. Les conclusions de cette étude sont les suivantes : “ La législation qui exige le consentement éclairé du patient pour autoriser l'accès aux dossiers médicaux dans le cadre d'une étude spécifique, a été associée à un faible taux de participation et à l'augmentation du délai de réalisation de l'étude d'observation. Il risque d'y avoir un conflit entre d'une part les efforts en faveur du respect de la vie privée du patient et d'autre part ceux visant à produire des données scientifiques valides et opportunes pour l'amélioration de la santé publique” (McCarthy et al., 1999, p. 417).

7 Il est paradoxal, comme cela a été observé, que les équipes de recherche sélectionnées par les autorités communautaires pour mener à bien le programme TSER dans l'intérêt de l'UE, aient eu beaucoup de difficultés à obtenir l'autorisation d'accéder aux ensembles de données pertinents.

8 Groupe de travail sur l'accès aux données confidentielles à des fins scientifiques (1999, notes explicatives), p. 1.

9 Peu après la rédaction de cet article, l'édition 3/99 de l'EC Household Panel Newsletter est parue, annonçant une nouvelle politique de prix (Marlier, 1999b). La bonne nouvelle est que le prix de (consultation) de la base de données des utilisateurs ECHP a baissé considérablement, de 50% à peu près, à compter du 1 janvier 2000. Mais malheureusement, la segmentation des prix pour les différents types d'utilisateurs analytiques n'a pas été modifiée.

10 La base de données comprend des micro-données pour les Enquêtes sur les Forces de Travail menées dans tous les Etats membres de l'UE et de l'AELE, ainsi que dans un certain nombre de pays candidats à l'adhésion.

11 Voir le groupe de travail sur l'accès aux données confidentielles à des fins scientifiques (1999).


(a) l'accès sera accordé selon deux approches : (a1) diffusion des micro-données rendues anonymes, "sûres", et (a2) l'accès sur site aux données confidentielles conservées dans un "environnement sécurisé" dans les locaux d'Eurostat12;

(b) un ensemble important d'études ou de sources de données statistiques est énuméré, auxquelles on peut accéder selon l'une ou l'autre approche13;

(c) des procédures de licence restreintes sont conservées pour les deux approches ;

(d) une indication est donnée sur les coûts : elle renvoie vaguement au critère des coûts marginaux14, mais stipule aussi qu'“ils ne devraient pas donner lieu à une concurrence déloyale avec les autorités nationales”.

Premièrement, il faut reconnaître à Eurostat un certain mérite pour le travail accompli et pour son attitude plus ouverte sur la question. Mais, la phase de préparation d'un texte offre aussi l'occasion de tenir un débat informé et, espérons-le, d'apporter des améliorations. Je pense que cette occasion devrait être saisie et devrait impliquer la communauté scientifique au sens large. Le CEIES est un théâtre approprié pour ouvrir le débat.

Je me propose de faire quelques remarques pour lancer ce débat, en me basant sur deux grandes considérations. Il serait pratique d'adopter une perspective à moyen terme, assez flexible et laissant assez de place aux évolutions de procédures qui pourraient être mises en œuvre. De surcroît, les stratégies de préservation de la confidentialité devraient largement s'appuyer sur la responsabilité des personnes concernées et sur des codes de bonne conduite15. Comparée à ces points de vue, la voie empruntée par le projet de résolution risque d'être trop étroite et trop axée sur le court terme. En d'autres termes, les solutions conçues risquent d'être rigides et pourraient bien devenir rapidement obsolètes, ce qui appelle d'autres remarques et suggestions spécifiques.

Il conviendrait d'envisager des procédures de licence plus libérales. Au fond, on devrait accorder le libre accès aux ensembles de données rendues anonymes (sous réserve de l'enregistrement de l'utilisateur, de son engagement et du respect d'un code de bonne conduite). La législation sur la protection des données n'est pas un obstacle à cet égard. Et je ne vois aucune raison bien fondée d'exclure cette possibilité a priori.

12 Des "environnements sécurisés" peuvent aussi être établis sur les lieux des instituts nationaux de la statistique des Etats membres, dans des conditions appropriées.

13 Il convient de noter que dans le cas de l'accès sur site aux données confidentielles, les données sur des entreprises/établissements sont soumises à des conditions plus sévères que celles relatives aux ménages et aux personnes physiques.

14 “Les coûts liés à l’utilisation des services de la Commission et à l’accès aux données seront à la charge du chercheur” (article 9). À mon sens, la notion de “coûts liés à l’accès aux données” est pour l’essentiel indéterminée.

15 La Directive 95/94/EC traite explicitement des codes de conduite (Article 27). Le Règlement 322/97 du Conseil et le projet de réglement, d'autre part, les ignorent. Les documents énumérés ci-après offrent de bons exemples de codes éthiques généraux pour les statisticiens: La Déclaration sur l'Ethique de la Profession, adoptée par l'Institut international de statistique en 1985 (Institut national statistique, 1986); le Code de déontologie statistique, adopté en 1984 par l'association des Administrateurs de l’INSEE, en France; Le Code de Bonnes Pratiques pour la Statistique Officielle, approuvé au Royaume Uni en 1996 (Bodin, 1999a); les Ethical Guidelines for Statistical Practice, approuvées récemment par le Conseil d'Administration de l'Association américaine de statistique (American Statistical Association, 1999). Différentes règles de bonne conduite établies dans le système officiel de statistique britannique (émises en 1991) mettent plus l'accent sur les questions de confidentialité : il s'agit principalement du GSS Code of Practice on the Handling of Data Obtained from Statistical Inquiries (code éthique sur le traitement des données issues des enquêtes statistiques), émis en 1991, et de la déclaration du Bureau national de statistique sur la préservation de la confidentialité des données, faite le 1er avril 1996 (voir Le Bureau national de statistique, 1996, et Bodin, 1999b, pp. 5-10).


Le projet de résolution définit exactement les approches qui peuvent être utilisées pour accorder l'accès aux données : des données sécurisées avec un droit de licence restreint et des environnements sûrs. Pourquoi ne pas aller droit au but ? Je vois deux inconvénients potentiels. Les règles sur la diffusion des micro-données rendues anonymes tendraient à être trop uniformes (entre autres, elles excluent la diffusion des fichiers de micro-données à usage public). En outre, la définition détaillée de deux approches empêche des évolutions dans la direction la plus prometteuse : l'accès aux données sécurisé sur le Web.

Toujours dans le registre des doléances, je regrette que figure une liste nominative des bases de données, pour lesquelles la sécurité de la diffusion ou de l'accès sur site est assurée. De toute évidence, il vaudrait mieux préciser uniquement les types d'enquêtes et les catégories de sources de données, dont les jeux de micro-données peuvent être tirés.

Le document ne traite à aucun endroit du cadre organisationnel préconisé pour traiter les questions de diffusion des données. Il serait sage d'introduire quelques recommandations sur la façon de développer un partenariat bénéfique entre Eurostat et la communauté scientifique au sens large.


Il conviendrait de clarifier une politique tarifaire, définitivement adaptée au critère des coûts marginaux et pratiquant des prix uniformes pour les utilisateurs analytiques16.

6. Conclusion

Les statisticiens officiels et la communauté scientifique élargie doivent s'efforcer de coopérer davantage. Ces efforts doivent être axés sur le travail de préparation et de rédaction de lois et de règlements libéraux, ainsi que sur la conception et mise en œuvre de systèmes d'organisation rationnels d'accès aux micro-données à des fins de recherche scientifique.

Mais cette démarche doit aussi avoir des objectifs plus généraux en ce qui concerne la perception de ces questions par l'opinion publique. Nous devons élargir et approfondir sa compréhension du rôle sociétal des statistiques et de la recherche : dans l'intérêt du bien-être de la société et de sa vie démocratique. Nous devons aussi aider l'opinion publique à prendre davantage conscience de nos capacités techniques et de la responsabilité qui nous incombe, au plan éthique, de garantir la confidentialité des données.

16 Concernant les coûts et les prix, je trouve que la mention prévue pour éviter toute “ concurrence déloyale avec les autorités nationales ”, figurant dans le projet de résolution, n'est pas tout à fait appropriée. En effet, un institut national statistique a une sorte de contrôle exclusif sur l'information qu'il produit, et dispose d'une certaine liberté quant à l'établissement des tarifs. Les risques à éviter sont probablement de nature différente, ou plus diversifiés, qu'un simple risque d'atteinte à la concurrence.


Références

Als G. (1996), “Statistical confidentiality in the 15 Member States of the European Union: a critical comparison”, in Statistical Office of the Republic of Slovenia and Eurostat, Third International Seminar on statistical confidentiality, Bled - Slovenia, 2-4 October 1996. Collection of papers, Ljubljana, Statistical Office of the Republic of Slovenia, pp. 9-29 (mimeo).

American Statistical Association (1999), “ASA issues: Ethical guidelines”, prepared by the Committee on Professional Ethics and approved by the Board of Directors, Amstat News, No. 269, November 1999, pp. 9-15.

Atkinson A.B. (1996), “Social and economic change: implications for statistics in the 21 st century”, invited paper at the Eurostat-Istat Conference on ‘Economic and social challenges in the 21st

century: statistical implications’, Bologna, 5-7 February 1996 (mimeo.).Balk B.M. (1998), “Establishing a Center for research of economic micro-données at Statistics

Netherlands”, in Proceedings of the International Symposium on linked employer-employee data, 21-22 May 1988, Arlington (VA), U.S. Bureau of the Census (CD-ROM).

Biggeri L. (1999), “Diritto alla privacy e diritto all’informazione statistica”, in Sistan-Istat, Atti della Quarta Conferenza Nazionale di Statistica, Roma, 11-13 novembre 1998, Roma, Istat, Tomo 1, pp. 259-279.

Bodin J.-L. (1999a), Etat des réflexions sur les principes fondamentaux de la statistique publique, Série Etudes n° 2, Paris, AFRISTAT.

Bodin J.-L. (1999b), “Réglementation en vigueur et pratiques en usage: aux Pays Bas, au Royame Uni, en Suède, aux Etats-Unis”, Groupe de travail entre statisticiens publics et statisticiens privés pour réflechir à la transposition en droit français de la directive 95/46 du Parlement européen et du Conseil, Paris (mimeo).

Behringer F., W. Seufert and G.G. Wagner (1998), “Problems and examples of dissemination of ‘scientific use of micro-données files’ in Germany and elsewhere”, in Proceedings of the International Symposium on linked employer-employee data, 21-22 May 1988, Arlington (VA), U.S. Bureau of the Census (CD-ROM).

Blakemore M. (1998), “Customer-driven solutions in disseminating confidential employer and labour market data”, in Proceedings of the International Symposium on linked employer-employee data, 21-22 May 1988, Arlington (VA), US Bureau of the Census (CD-ROM).

Buzzigoli L., C. Martelli and N. Torelli (1999), “Accesso ai dati statistici individuali: l’esperienza di altri Paesi”, Rapporto di ricerca n. 1999.12, Commissione per la Garanzia dell’Informazione Statistica, Roma (mimeo).

CNIS (Conseil national de l’information statistique) – Groupe de concertation sur la transposition en droit français de la directive européenne 95/46/CE (1999), “Rapport au Ministre de l’économie, des finances et de l’industrie”, Paris, Septembre 1999 (mimeo).

Council of Europe (1997), Recommendation No. R (97) 18 concerning the protection of personal data collected and processed for statistical purposes, adopted by the Committee of Ministers on 30 September 1997 at the 602nd meeting of the Ministers’ Deputies, Strasbourg [with Explanatory memorandum].

Council of the EU (1997), “Council regulation (EC) No. 322/97 of 17 February 1997 on Community Statistics”, Official Journal of the European Communities, 22.02.1997, No. L 52/1-7.

Duncan G.T., T.H. Jabine and W.A. deWolfs (Eds.) (1993), Private lives and public policies: confidentiality and accessibility of Government statistics, National Academy of Sciences, Washington, D.C., National Academy Press.

European Parliament and Council of the EU (1995), “Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of individuals with regard to the processing of personal data and on the free movement of such data”, Official Journal of the European Communities, 23.11.1995, No. L 281/31-50.


Eurostat (1996), Manual on disclosure control methods, Luxembourg, Office for Official Publications of the European Communities.

Eurostat (1999), Statistical data protection. Proceedings of the conference, Lisbon, 25 to 27 March 1998, Luxembourg, Office for Official Publications of the European Communities.

Fienberg S.E. and L.C.R.J. Willenborg (Eds.) (1999), Disclosure limitation methods for promoting the confidentiality of statistical data, special issue of Journal of Official Statistics, 14 (4).

Franco A. (1999), “Individual data in the Labour Force Survey: dissemination policy”, Working Party on the Dissemination of statistical information, Doc. No. DWP/04/99-III-7-EN (mimeo)

Heckman J.J. and J.A. Smith (1995), “Assessing the case for social experiments”, Journal of Economic Perspectives, 9 (2), pp. 85-110.

HM Government (1998), Statistics: A matter of trust, Presented to Parliament by the Economic Secretary to the Treasure, London, HMSO [known as the “Green Paper”].

Hoinville G. and T.M.F. Smith (1982), “The Rayner review of Government Statistical Services”, Journal of the Royal Statistical Society, A, 145, Part 2, pp. 195-207.

International Statistical Institute (1986), “International Statistical Institute Declaration of Professional Ethics”, International Statistical Review, 54 (2), pp. 227-242.

Jenkins S.P. (1999), “Measurement of the income distribution: an academic user’s view”, in CEIES, Proceedings of the seventh seminar: Income distribution and different sources of income, Cologne-Germany, 10th-11th May 1999, Eurostat, Theme 0 - Miscellaneous, Luxembourg, Office for Official Publications of the European Communities, pp. 75-84.

Jowell R., (1981), “A professional code for statisticians? Some ethical and technical conflicts”, in Bulletin of the International Statistical Institute. Proceedings of the 43rd Session, Buenos Aires, Volume XLIX, Book 1, pp. 165-209 (with discussion).

Lloyd I. (1998), A guide to the Data Protection Act 1998, London, Butterworths.Malinvaud E. (1987), “Production statistique et progrès de la connaissance”, in Atti del Convegno

sull’informazione statistica e i processi decisionali, Roma, 11-12 Dicembre 1986, Annali di Statistica, Serie IX, Vol, 7, Roma, Istat, pp. 193-216.

Malinvaud E. (1997), “Effet des evolutions techniques et des changements de la spécialisation internationale sur les marchés du travail et les systèmes productifs: comment les statisticiens pourraient-ils relever les défis?”, International Statistical Review, 65 (1), pp. 97-109.

Marlier E. (1999a), “The EC Household Panel Newsletter. Editorial”, Statistics in Focus, Theme 3 - 2/1999.

Marlier E. (1999b), “The EC Household Panel Newsletter (3/99). New pricing policy”, Statistics in Focus, Theme 3 - 16/1999.

McCarthy D.B. et al.(1999), “Medical records and privacy: empirical effects of legislation”, Health Services Research, 34 (1), pp. 417-425.

McClean S. (1998), “Statistical microdata, macrodata and metadata on the Web: perspectives”, Proceedings of the 21st SCORUS Conference, Belfast, 8-11 June 1998, Conference Compendium, University of Ulster, pp. 4.5.1-4.5.8.

McGuckin R.H. and G. Pascoe (1998), “The Longitudinal Research Database (LRD): status and usefulness”, Survey of Current Business, November 1998, pp. 30-37.

Motohashi K. (1998), “Institutional arrangements for access to confidential micro-level data in OECD countries”, in Proceedings of the International Symposium on linked employer-employee data, 21-22 May 1988, Arlington (VA), U.S. Bureau of the Census (CD-ROM).

Office for National Statistics (1996), Maintaining the confidentiality of data, London, HMSO.Rayner D. (1980), Review of government statistical services: Report to the Prime Minister, London,

HMSO. Rettore E. and U. Trivellato (1999), “Come disegnare e valutare politiche attive del lavoro”, Il

Mulino, 48 (385), 1999, pp. 891-904.Reynolds P.D. (1993), “Privacy and advances in social and political science: balancing present

costs and future gains”, Journal of Official Statistics, 9 (2), pp. 275-312.


Statistical Office of the Republic of Slovenia and Eurostat (1996), Third International Seminar on statistical confidentiality, Bled - Slovenia, 2-4 October 1996. Collection of papers, Ljubljana, Statistical Office of the Republic of Slovenia, pp. 9-29 (mimeo).

Stevens D.W. (1998), “Confidentiality revisited: motives and consequences”, in Proceedings of the International Symposium on linked employer-employee data, 21-22 May 1988, Arlington (VA), U.S. Bureau of the Census (CD-ROM).

Task Force on Access to Confidential Data for Research Purposes (1999), “Draft Commission Regulation on Access to Confidential Data for Research Purposes. (i) Draft Commission Regulations. (ii) Explanatory notes”, Working Party on Statistical Confidentiality, Documents Eurostat/A4/SS/21 and Eurostat/A4/SS/22 (mimeo).

------ (1999), “The end of privacy. The surveillance society”, The Economist, May 1st-7th 1999, pp. 13-14 and 19-23.

Trivellato U. (1999), “Progettare un’informazione statistica pertinente”, in Atti della Quarta Conferenza Nazionale di Statistica, Roma 11-12-13 novembre 1998, Roma, Sistan-Istat, 1999, Tomo 1, pp. 49-72.

UN Statistical Commission (1994), Fundamental principles of official statistics, adopted at the Statistical Commission’s 473rd meeting on 14 April 1994, UN Statistical Commission Paper E/CN.3/1993/26, New York, United Nations.

US Bureau of the Census (1997), IT operation plan. Part I. Data Access and Dissemination System, CB-DR-97-02-N, Washington, US Department of Commerce.

Willenborg L. and T. de Wall (1996), Statistical disclosure control in practice, New York, Springer.


OBLIGATION DE FOURNIR DES INFORMATIONS ET UTILISATION DES STATISTIQUES DANS LES ENTREPRISES

Risto SuominenDirectorFederation of Finnish EnterprisesP.O.Box 999FIN-00101 [email protected]

Les pays scandinaves utilisent très couramment les données administratives et différents répertoires administratifs pour élaborer leurs statistiques. L'exploitation des répertoires administratifs vise à réduire l'effort de recherche documentaire directe auprès des personnes tenues de fournir des informations. En matière de production d'informations statistiques, l’objectif est d’employer cette procédure indirecte de collecte, définie dans la loi statistique comme la principale méthode de réunion de données. Sur la base du nombre des unités observées, 93 % de la collecte est réalisée grâce à l'exploitation de répertoires statistiques. (Riitta Poukka – Terhi Tuominen: The Burden of Providing Information in Enterprises. Tietoaika 5/-1999).

La collecte directe s’adresse aux particuliers et aux ménages, aux municipalités et aux entreprises. La présente étude porte principalement sur l'obligation de fournir des informations et sur l'utilisation des statistiques dans les entreprises.

Obligation de fournir des informations dans les entreprises

Des données sont collectées auprès des entreprises non seulement par l'INS finlandais, mais aussi par d'autres instances, par exemple par les organisations inter-professionnelles. L'institut statistique finlandais est cependant de loin le principal collecteur de données. Il a élaboré ses propres enquêtes auprès des entreprises au cours des années 1988 à 1994, le dernier exercice remontant à 1997.

TABLEAU 1

Enquêtes s’adressant aux entreprises et nombre d'entreprises enquêtées

1997 1994

Enquêtes auprès des entreprises 73 52

Nombre d'entreprises enquêtées 111 500 178 000

En l'espace de trois ans, le nombre d'enquêtes statistiques s’adressant aux entreprises a considérablement augmenté, alors que, dans le même temps, le nombre d'entreprises enquêtées a sensiblement diminué. L'adhésion à l'Union européenne et la demande croissante de statistiques au sein des entreprises ont contribué à la multiplication des enquêtes. D'après la dernière étude réalisée, ces dernières sont à présent nettement plus concises et mieux ciblées sur les entreprises qu'auparavant. Beaucoup d'entre elles se rapportent au secteur économique et sont axées sur une partie très précise des activités des entreprises. Le principe de base est que les grandes entreprises de chaque branche répondent d'office à ces enquêtes, alors qu’un échantillon aléatoire simple est sélectionné pour les PME. C’est pour les grandes entreprises commerciales que la charge de réponse est la plus lourde.


En 1997, la Finlande comptait 213 000 entreprises en activité. Les grosses sociétés ont participé à des enquêtes statistiques nombreuses et variées, tandis que les petites entreprises n'avaient, quant à elles, qu'une très faible chance d’être enquêtées dans le cadre de l’exercice annuel de collecte de données de l'INS finlandais. Toute entreprise nouvellement créée transmet à l'INS des informations de base destinées à son répertoire des entreprises. En conséquence, chaque entreprise aura répondu, au moins une fois dans sa vie, à l'enquête de Statistics Finland.

TABLEAU 2

Collectes d’informations visant au moins 5 000 entreprises

Répertoire des entreprises 39 000

dont:

Informations de base fournies par les nouvelles entreprises 20 000

Mise à jour des données des entrepreneurs individuels 7 500

Données fiscales et sur le revenu fournies directement par les exploitations agricoles 9 000

Transport routier de marchandises, territoire national 8 400

Statistiques industrielles, produits de base, carburants et énergie x) 5 200

Statistiques structurelles, branches de services 5 000

Statistiques structurelles, industrie et construction xx) 7 000

x) enquêtes s'adressant directement aux postes de travail, et non aux entreprises

xx) enquêtes s'adressant à environ 4 000 entreprises et à leurs 3 000 postes de travail

Référence: Riitta Poukka – Terhi Tuominen: The Burden of Providing Information in Enterprises. Tietoaika 5/-l999

L' enquête réalisée afin de réunir des informations de base sur les entreprises (répertoire des entreprises) constitue de loin la plus grande collecte de données axée sur le domaine des entreprises. Outre les 20 000 demandes d'informations adressées aux nouvelles entreprises, une enquête séparée a été effectuée auprès de 19 000 entreprises en 1997. Deux des vastes collectes de statistiques individuelles portaient sur l'industrie, et les autres sur les services, la construction, l'agriculture et la sylviculture.

Le poids des enquêtes

La fiscalité et les procédures administratives liées à l'emploi de main-d'œuvre et aux coûts qui en découlent constituent l'essentiel de la charge administrative qui pèse sur les entreprises. Les enquêtes à des fins statistiques n'entraînent pas de coûts administratifs substantiels pour l'entreprise. Il semble cependant que répondre à ces enquêtes statistiques est ressenti comme une tâche à la fois rébarbative et déplaisante et ce, malgré l'effort relativement limité que cela demande, notamment en ce qui concerne les PME.

Le temps et le travail nécessaires pour répondre aux enquêtes statistiques varient d'un questionnaire à l'autre, et en fonction de la taille de l'entreprise. Les questions considérées comme les plus ardues sont celles portant sur les statistiques financières, les statistiques structurelles, les eaux usées


industrielles, les revenus et les coûts du transport maritime étranger. L'évaluation du temps dépensé sur les questionnaires est très variable d'une enquête à l'autre. Il a été estimé que les grandes entreprises y consacraient plus de temps que les petites. Compte tenu des moyens dont disposent les entreprises, l'effort à fournir constitue naturellement un fardeau plus lourd pour les secondes que pour les premières.

Le sentiment de frustration ressenti plus particulièrement par les petites entreprises pourrait être lié au fait que ces dernières n'utilisent que très rarement des statistiques dans le cadre de leurs propres activités. Leur marché est parfois très limité et leurs produits extrêmement spécifiques, de sorte qu'il leur est difficile de voir dans les statistiques un outil d'aide à l'entreprise. En conséquence, la collecte de statistiques n'est considérée que comme une charge pour l'entreprise, sans que celle-ci puisse les utiliser pour soutenir son développement.

TABLEAU 3

Charge de travail moyenne occasionnée par les enquêtes et tailles des échantillons statistiques

Enquête Taille de Charge Charge Charge l'échantillon annuelle annuelle

globaleStatistiques structurelles del'industrie et de la construction(statistiques annuelles) 3748 (5 h 32 min) 5 h 32 min 9 ans 7 mois

Structure des services(statistiques annuelles) 3794 (2 h 25 min) 2 h 25 min 4 ans 9 mois

Indice de volume de la productionindustrielle (statistiques 1157 43 min 8 h 31 min 5 ans 1 moismensuelles)

Transport routier de marchandises(statistiques trimestrielles) 1857 58 min 3 h 52 min 3 ans 9 mois

Statistiques de l'hébergement(statistiques mensuelles) 1444 2 h 6 min 25 h 13 min 19 ans

Référence: Riitta Poukka – Terhi Tuominen: The Burden of Providing Information in Enterprises. Tietoaika 5/-1999

Utilisation des informations statistiques

Il est difficile de trouver des instruments objectifs permettant d'évaluer l'importance et la nature des statistiques exploitées par les entreprises pour développer leurs activités. Les statistiques de l'INS finlandais concernant les utilisateurs fournissent quelques indications sur le niveau d'utilisation de la production statistique. Ces chiffres ne permettent naturellement pas de se faire une idée claire et homogène de l'exploitation des informations statistiques.

TABLEAU 4


Utilisateurs de la bibliothèque statistique 1997 – 1998

1997 1998

Utilisateurs 38 102 38 400

dont

visiteurs 15 625 13 560

contacts téléphoniques 18 698 18 620

contacts par lettre, télécopie et courrier électronique 3 780 6 220

Le nombre des utilisateurs de la bibliothèque statistique de l'INS finlandais n'a quasiment pas évolué au cours des deux dernières années statistiques, mais leur structure s'est clairement modifiée. La part des visiteurs a nettement diminué tandis que celle des contacts par lettre, télécopie et courrier électronique a beaucoup augmenté. De toute évidence, les contacts par courrier électronique ont rapidement progressé. Le nombre de contacts téléphoniques est resté stable au cours de la période observée, et il est permis de supposer qu'il n'y a pas eu de progression des contacts par lettre et télécopie. La différence réside dans le recours aux nouvelles techniques de l'information, telles que le courrier électronique.

En 1998, les entreprises constituaient près d'un tiers des clients en ce qui concerne les services payants. L'État, avec ses différents ministères et départements, arrivait en tête des utilisateurs, tandis que les municipalités occupaient la troisième position.


SCHÉMA 1

Revenus provenant des services payants fournis par l'INS finlandais,par groupes de clients, 1998

Les utilisateurs les plus satisfaits des services payants fournis par Statistics Finland ont été les écoles et les établissements d'éducation. Les bureaux et autres organes municipaux l'ont été un peu moins. La plupart des utilisateurs de ces services payants se sont montrés intéressés par le recours à Internet en tant que fournisseur d'informations.

TABLEAU 5

Service Internet 1997 – 1998

1997 1998

Recherches Internet de fichiers texte sur les pages deStatistics Finland (par jour) 8 000 18 000

Visiteurs des pages Internet (par semaine) 4 500 7 500

Statistics Finland a inauguré ses pages Internet en février 1995 et l'exploitation de cet outil de communication s'est rapidement accru. En 1998, l'INS finlandais possédait déjà quelque 10 000 pages opérationnelles. Le nombre des utilisateurs a doublé entre 1997 et 1998. L'an dernier, ces pages Internet ont enregistré 7 500 visiteurs par semaine. Le personnel des organismes publics a constitué le principal groupe d'utilisateurs. Les salariés des grandes entreprises, les étudiants, les chercheurs et les journalistes ont également beaucoup utilisé les services offerts sur Internet. À l'avenir, Internet deviendra vraisemblablement l'outil le plus important pour l'utilisation des informations statistiques. Les petites et moyennes entreprises n'ont pas encore découvert les possibilités qu'offre Internet en matière d’utilisation des informations statistiques, son exploitation restant très limitée.


CONCLUSIONS

Charge supportée en tant que fournisseur d'informations- En Finlande, toutes les entreprises doivent répondre au moins une fois aux enquêtes

statistiques de l'INS finlandais.- Un grand nombre d'enquêtes statistiques sont effectuées chaque année auprès des

entreprises.- Une petite entreprise a très peu de chances d’être sélectionnée dans l’échantillon des

enquêtes statistiques de l'INS finlandais.- Le désagrément ressenti par l'enquêté varie considérablement d'une enquête à l'autre.- Les entreprises considèrent que répondre aux enquêtes statistiques est une tâche frustrante.- L'INS finlandais a essayé d'encourager les entreprises à répondre en leur fournissant un

retour d'information sur la façon dont elles se situent par rapport aux autres.- Le recours aux moyens d’information électroniques est assez peu développé.- Les entreprises souhaiteraient recevoir des questionnaires moins complexes et obtenir

davantage d'instructions sur la façon de les remplir.

Utilisation des informations statistiques- Les petites entreprises utilisent rarement les informations statistiques pour développer leurs

propres activités.- L'utilisation des informations statistiques via Internet s'étend rapidement.- Le personnel des secteurs publics, les étudiants, les journalistes et les salariés des grandes

entreprises sont les principaux utilisateurs d’Internet en matière d’information statistique. - Il est avantageux d'accroître l'utilisation des informations statistiques via Internet en

accroissant la disponibilité des données et la souplesse d’utilisation. Il convient d’accorder une grande attention à la tarification, en gardant également à l'esprit que le recours à Internet vient très probablement compléter d'autres formes d'information statistique.

Sources:

Riitta Poukka - Terhi Tuominen: The Burden of Providing Information in Enterprises, Tietoaika 5/1999 Statistics Finland: rapport annuel 1998


STATISTIQUES: XML-EDI POUR LA COLLECTE,L'ÉCHANGE ET LA DIFFUSION DE DONNÉES

Wolfgang KnüppelEurostatUnité A-2: Technologies de l'information et de la communication pour le système statistique communautaireBâtiment Jean MonnetRue Alcide de GasperiL-2920 [email protected]


THÈME 3 :LOGICIELS DISPONIBLES


POLITIQUE EN MATIÈRE DE TI POUR LE SSERÉPONSE D'EUROSTAT

Daniel DefaysEurostatUnité A-1: Gestion informatique de systèmes d'informationsBâtiment Jean MonnetRue Alcide de GasperiL-2920 [email protected]

Opportunité du calendrier

Le séminaire, organisé par le sous-comité "Innovation dans la fourniture et la production de statistiques" du CEIES, est particulièrement bien accueilli par Eurostat. De toute évidence, les nouvelles technologies sont de plus en plus importantes pour les instituts de statistique et requièrent une approche plus coordonnée au niveau européen. Par ailleurs, la date du séminaire ne pouvait pas être mieux choisie. Un colloque s'est tenu à Luxembourg en septembre dernier sur un thème similaire et ses conclusions seront examinées lors de la prochaine réunion du CPS. Les contributions à ce 9me séminaire du CEIES permettront à Eurostat de se faire une idée plus précise de la situation et de compléter les informations obtenues grâce aux contacts avec les INS. Les points de vue exprimés par les producteurs et les utilisateurs de données ainsi que les experts au cours des deux journées seront inclus dans les réflexions, afin d'avoir une vue d'ensemble des attentes de toutes les parties prenantes à l'édification du SSE.

Nécessité d'une politique en matière de TI

Pourquoi une politique en matière de TI est-elle nécessaire? Auparavant, les INS considéraient qu'il s'agissait là d'un domaine essentiellement privé - une application évidente du principe de subsidiarité. La situation a-t-elle changé pour justifier un renforcement de la coopération dans ce domaine? Le séminaire a montré clairement l'apparition de différents facteurs pouvant justifier un rôle plus actif de la part d'Eurostat en la matière: demandes des utilisateurs, préoccupations similaires des fournisseurs de données, nécessité d'organiser le SSE en réseau, pression commune d'un environnement technologique dynamique et, bien sûr, processus d'intégration européenne et marché. Il semble souhaitable d'élaborer une politique en matière de TI pour le SSE en raison de ces pressions communes, de l'insuffisance des ressources et de la complexité des problèmes.

Demandes communes des utilisateurs

Comme l'ont souligné M. Androvitsaneas et d'autres intervenants, les utilisateurs souhaitent une amélioration de la qualité (actualité, précision, pertinence, etc.). Les données doivent être disponibles pour tous à des dates précises. Le Web est en passe de devenir le mode d'accès le plus normal aux informations. Par ailleurs, les besoins en informations s'accroissent; les données macro-économiques ne suffisent plus; les chercheurs veulent des données désagrégées. La plupart des INS sont confrontés à de telles exigences, qui évolueront probablement dans l'avenir. Des solutions communes pourraient être envisagées, comme le montre l'intérêt suscité par les expériences réalisées dans certains États membres (par exemple, création de sites Web et mise en place d'entrepôts de données).


Préoccupations similaires des fournisseurs de données

Dans le même temps, les fournisseurs de données manifestent une réticence croissante à fournir des informations aux administrations et se montrent de plus en plus préoccupés par la protection de la vie privée.

Orientation commune pour les INS

Les INS s'efforcent d'unifier leurs systèmes d'information, qui étaient surtout orientés sur la production dans le passé (comme l'a indiqué Giovannini, par exemple), d'utiliser plus fréquemment les sources administratives (Finlande, France) et d'encourager l'application de normes dans les échanges de données. Ils partagent leur expérience et des logiciels (PC Axis, Blaise, StatLine, etc.).

Processus d'intégration européenne

La construction de l'Europe et la mise en œuvre d'un programme de travail dans le domaine statistique demandent également une approche plus collégiale. Le SSE a besoin d'un point d'appui technologique.Un cadre législatif commun (selon Giovannini) crée des conditions idéales pour un développement concerté. Les attentes du marché sont considérables: un sentiment de citoyenneté européenne apparaît, la mondialisation efface les limites nationales et le processus d'élargissement - avec l'arrivée de plusieurs nouveaux pays d'Europe centrale et orientale - donne lieu à de nouvelles demandes en matière de coopération.

Impulsion technologique

On ne peut pas faire abstraction du rôle essentiel de la technologie dans le processus de convergence. La société électronique impose ses normes à tous et ce n'est pas une coïncidence si de nombreux instituts de statistique examinent en même temps les avantages potentiels de nouveaux outils ou concepts comme les entrepôts de données, les techniques orientées objet ou les interfaces Web.

Points forts du SSE

Le SSE est-il en mesure de relever ces nouveaux défis? Sommes-nous suffisamment bien équipés pour répondre aux nouvelles demandes au moyen des technologies récentes? Le personnel très expérimenté des instituts de statistique, l'impulsion donnée par l'intégration européenne et la similarité de nos objectifs de production et de diffusion constituent nos principaux points forts.

Où en sommes - nous?

D'importants progrès ont déjà été réalisés: initiatives communes en matière de R&D cofinancées sur fonds communautaires, engagement considérable du SSE dans les activités de normalisation (GESMES, RDRMES, CLASET), élaboration d'une architecture commune permettant de distribuer des services statistiques (DSIS), outils communs pour les échanges d'informations (Stadium, Statel, etc.), actions conjointes dans des secteurs où l'intégration européenne est bien avancée (Edicom) et lancement d'un programme d'échange de technologie (séminaire ETK organisé l'année dernière à Prague). Dans le même temps, les États membres ont entrepris des actions concertées dans un cadre bilatéral ou régional et certains d'entre eux ont mis des logiciels à la disposition des autres. Les ingrédients requis pour une politique de TI plus ambitieuse dans l'optique du SSE sont réunis.


Difficultés

L'enthousiasme ne doit pas masquer les difficultés. Dans le passé, la coopération dans le domaine des TI n'a pas pu être approfondie pour plusieurs raisons. L'absence d'une politique clairement définie en la matière n'est pas la seule explication. Les INS sont des organismes indépendants, chacun avec une tradition, une culture et une taille différentes. En outre, ils font partie de systèmes administratifs ayant un héritage. Cette situation engendre une inertie et crée des conditions particulières; c'est pourquoi des solutions générales ne sont pas toujours indiquées.

Politique du SSE en matière de TI

Le SSE doit tenir compte de cette diversité dans sa politique; il convient de combiner des actions normatives, des recommandations et des activités favorisant la coopération.L'établissement d'un cadre organisationnel dans lequel les questions stratégiques pourront être abordées, les priorités fixées et les ressources attribuées vient en premier lieu. C'est pourquoi Eurostat a proposé de créer un Comité directeur TI chargé de coordonner les autres activités sectorielles dans les domaines traditionnels de R&D, des métadonnées et des environnements de référence, d'échange de données et de transfert de technologie.La priorité accordée dans le passé aux activités de R&D, fondée sur une approche compétitive dans le cadre de laquelle les INS sont invités à répondre aux appels de propositions d'Eurostat, sera maintenue. Les résultats de l'appel lancé en 1999 sont très encourageants et la participation des INS s'est considérablement accrue.Dans le domaine de la normalisation et des échanges de données, une approche plus normative semble nécessaire. Pour être efficaces, les normes doivent être appliquées par tous. Les États membres ont demandé à Eurostat d'encourager l'utilisation généralisée du format GESMES pour ses échanges de données avec les INS. L'harmonisation des métadonnées sera encore améliorée car il s'agit d'une condition préalable à une meilleure unification de nos systèmes d'information.

Enfin, le transfert de technologie et de savoir-faire entre les différents partenaires du SSE sera organisé de façon plus systématique. Par exemple, des centres d'excellence seront créés, des séminaires organisés et des bonnes pratiques établies. Le commerce électronique, l'entreposage de données et les métadonnées suscitent un vif intérêt et devraient être prioritaires.Voilà les premiers résultats que permettrait d'obtenir une politique du SSE plus élaborée en TI. Il est évident que cela ne suffit pas pour répondre à toutes les attentes exprimées lors du séminaire.

Perspectives

À moyen terme, nous devrons définir ensemble un cadre qui facilitera l'échange de logiciels, mettre en place une gestion "produit" commune pour donner à certains de nos sites Web une image européenne commune et éventuellement créer une sorte de portail SSE.Manifestement, dans le domaine de la technologie même, il ne semble pas judicieux d'imposer l'unification. Les particularités des instituts nationaux requièrent des approches spécifiques. L'organisation interne des services de TI dépend du caractère centralisé ou décentralisé des instituts de statistique. Cela ne nous empêche pas d'échanger nos expériences et de nous organiser de sorte à pouvoir comparer l'efficacité de nos différentes organisations.

Autres questions abordées lors du séminaire

Les questions suivantes ont également été abordées lors du séminaire: politique des prix d'Eurostat pour la diffusion des données, accès limité aux données micro-économiques, nécessité de poursuivre l'harmonisation des répertoires d'entreprises et d'envisager des éléments d'identification


uniques. Ces questions dépassent largement le cadre de la politique en matière de TI et ne sont pas traitées dans la présente réponse.

Un succès

Le séminaire a été un succès. Il a ouvert la voie à de futurs progrès de l'intégration européenne et à l'amélioration des partenariats dans le secteur des TI.Eurostat remercie toutes les personnes concernées de leur contribution active à cette manifestation intéressante.


RÉCAPITULATION PAR LE PRÉSIDENT DU SOUS-COMITÉ

Patrick GearyEconomics DepartmentNational University of Ireland,MaynoothMaynoothCo. Kildare, [email protected]

L'importance des nouvelles technologies dans la fourniture et la production de statistiques a été soulignée dans bon nombre des contributions au séminaire.

De l'avis général, d'importants avantages peuvent être escomptés tant par les producteurs que par les utilisateurs de données dans le domaine de la diffusion et de la production. En ce qui concerne la production, les avantages en termes de qualité et d'actualité des données ont été mis en exergue. Par ailleurs, les effets bénéfiques de l'introduction des nouvelles technologies sur l'organisation interne des instituts nationaux de statistique (INS), mais également les défis lancés à ces derniers, ont été décrits.

Parmi les autres questions abordées, il convient de citer les points suivants:

Il reste difficile pour les INS de trouver des méthodes ou des incitations permettant de vaincre les réticences de certains fournisseurs de données à utiliser les nouvelles technologies dans le but de supprimer les coûts liés à l'exploitation d'une multiplicité de systèmes.

La confidentialité des données et l'accès aux données micro-économiques ont donné lieu à un débat animé. Il a été indiqué que l'accès aux données micro-économiques rendues anonymes était trop limité et qu'une nouvelle réglementation devrait être élaborée afin d'élargir l'accès et de répondre aux besoins des chercheurs, qui, de leur côté, apporteraient un plus grand soutien public à des initiatives telles que le PCM.

Toutefois, en ce qui concerne les données micro-économiques des entreprises, il a été considéré que les exigences en matière de confidentialité des données empêchaient, en fait, l'accès.


LISTE DESPARTICIPANTS


LISTE DES PARTICIPANTS

Eurostat Daniel DefaysWolfgang KnüppelNicole LauwerijsTapio LeppoJoseé Nollen

Statistics Finland Sven I. BjörkqvistHeli Jeskanen-SundströmMarika LaihoEero PaananenTimo Relander

Allemagne Christos Androvitsaneas, European Central Bank (ECB)Günter Kopsch, Federal Statistical OfficeSteven Smith, European Central Bank (ECB)Doris Stärk-Rötters, Federal Statistical Office

Autriche Dieter Burget, ÖstatErich Hille, Austrian National BankGerhard Kaltenbeck, Austrian National BankJoachim Lamel, Austrian Federal Economic ChamberJosef Richter, Austrian Federal Economic ChamberGünther Zettl, Östat

Belgique Claude Cheruy, Institut National de StatistiqueClaude Delannoy, Institut National de StatistiqueFrans Desmedt, Institut National de Statistique

Danemark Hermann Pfeifer, European Environment Agency

Espagne Pedro Tena, State Secretariat for Transport and Infrastructures

Estonie Eda Fros, Statistical Office of Estonia

Finlande Auli Jaakkola, Confederation of Finnish Industry and EmployersLasse Lakanen, National Board of CustomsAnu Muuri, National Research and Development Centre for Welfare and Health (STAKES)Risto Suominen, Federation of Finnish EnterprisesPekka Tanhua, National Board of CustomsJussi Varjus, SAS

France J.P. Grandjean, INSEE


Hongrie Tamás Koltai, Hungarian Central Statistical OfficeImre Pap, Hungarian Central Statistical Office

Irlande Patrick T. Geary, NUI MaynoothMargaret Mcloughlin, Central Statistical Office

Italie Enrico Giovannini, ISTATUgo Trivellato, University of PaduaGiovanni D’Alessio, Bank of ItalyAugusto De Paolis, Bank of ItalyGiulio Barcaroli, ISTATViviana Egidi, ISTATGerardo Giacummo, ISTATSilvio Serbassi, ISTATAlberto Sorce, ISTAT

Lettonie Lilita Laganovska, Central Statistical BureauArvids Avotins, Central Statistical Bureau

Lituanie Rimvydas Ignatavičius, Statistics Lithuania

Luxembourg Robert Weides, STATEC

Norvège Tore Eig, Statistics Norway

Pays-Bas Marton Vucsan, Statistics Netherlands

Pologne Stanislaw Sieluzycki, Central Statistical Office

Portugal Daniel Bessa, AURNAna Lucas, Instituto Nacional de Estatistica

République tchèque Ebbo Petrikovits, Czech Statistical Office

Roumanie Alexandru Brodeala, National Commission for StatisticsVictor Dinculescu, National Commission for StatisticsGheorge Emanoil Vaida-Muntean, National Commission for Statistics

Royaume-Uni Derek Miles Andow, Office for National StatisticsEd Bin, Primark CorporationRichard Brent, Primark DatastreamJames L.T. Denman, Office for National StatisticsNick Dyson, Dept of Social SecurityClive Jerome, Office for National Statistics

Slovénie Julija Kutin, Statistical Office of the Republic of SloveniaErna Miklič, Statistical Office of the Republic of Slovenia


Suède Kaisa Ben Daher, Statistics SwedenPekka Koski, Statistics SwedenGunnar Olsson, Statistics SwedenAnders Törnqvist, Comfact AbBjörn Walters, Statistics Sweden

Suisse Oliver Lorenz, Swiss National Bank, Switzerland