couplage d'informations dans un système de gestion de bases de...

34
Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés. Revue, In/m'matique et Statistique dans les Sciences humaines XXIII, 1-4, 1987, pp. 181-214 Couplage d'Informations dans un Système de Gestion de Bases de Données Généalogiques V.H. ''VESLEY', S.M. DINTELMAN', A.T. MANESS', Y. CHIARAMELLA 3 , G.P. MINEAU\ L.L. BEAN", M. SKOLNICK' RésUIUé. Cet article reprend l'essentiel de la communication présentée en Juin 1985 au nom du groupe mentionné ci-dessus, lors d'rnlC session spéciale ((Systèmes d'informations pour l'analyse démographique différentielle" organisée dans le cadre du xx c Congrès UIESP à Florence. Nous y présentons successivement un court état de l'art en matière de jumelage d'informations, en insistant sur les différentes solutions proposées par différents groupes, et en les comparant aux éléments méthodologiques que nous proposons dans le cadre du système GENISYS. Un accent particulier est luis sur la présentation d'un transducteur phonétique développé pour affiner le processus de comparaison des données nominatives, puis sur celle de la méthode de classification (clustering) mise en oeuvre, et qui est destinée au repérage des liens de jumelage potentiels (opération de couplage). De même, nous insistons sur l'importance d'une méthode d'évaluation du degré de vraisemblance de ces liens, qui soit fondée sur une théorie bien définie. Enfin, nous montrons comment ces mesures seront utilisées dans le processus de jumelage final, en 1 Department of Medical Informatics, University of Utah, Salt Lake City, Utah 84132, USA 2 DMS Systems, 1111 Brickyard Road, Salt Lake City, Utah 84106, USA 3 Laboratoire IMAO uGénie informatique", BP 68, 38402 St. lvlartin d'Hères, France 4 Department of Sociology, University of Utah, Salt Lake City, Utah 84132, USA L'ensemble de ces recherches sont supportées par le contrat NIH CA-28854.

Upload: ngonhi

Post on 16-Sep-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

Revue, In/m'matique et Statistique dans les Sciences humainesXXIII, 1-4, 1987, pp. 181-214

Couplage d'Informationsdans un Système de Gestion

de Bases de Données Généalogiques

V.H. ''VESLEY', S.M. DINTELMAN', A.T. MANESS',

Y. CHIARAMELLA 3, G.P. MINEAU\ L.L. BEAN", M. SKOLNICK'

RésUIUé.

Cet article reprend l'essentiel de la communication présentée en Juin 1985au nom du groupe mentionné ci-dessus, lors d'rnlC session spéciale ((Systèmesd'informations pour l'analyse démographique différentielle" organisée dans lecadre du xxc Congrès UIESP à Florence.

Nous y présentons successivement un court état de l'art en matière dejumelage d'informations, en insistant sur les différentes solutions proposéespar différents groupes, et en les comparant aux éléments méthodologiques quenous proposons dans le cadre du système GENISYS. Un accent particulier estluis sur la présentation d'un transducteur phonétique développé pour affiner leprocessus de comparaison des données nominatives, puis sur celle de la méthodede classification (clustering) mise en oeuvre, et qui est destinée au repérage desliens de jumelage potentiels (opération de couplage). De même, nous insistonssur l'importance d'une méthode d'évaluation du degré de vraisemblance deces liens, qui soit fondée sur une théorie bien définie. Enfin, nous montronscomment ces mesures seront utilisées dans le processus de jumelage final, en

1 Department of Medical Informatics, University of Utah, Salt Lake City, Utah 84132, USA

2 DMS Systems, 1111 Brickyard Road, Salt Lake City, Utah 84106, USA

3 Laboratoire IMAO uGénie informatique", BP 68, 38402 St. lvlartin d'Hères, France

4 Department of Sociology, University of Utah, Salt Lake City, Utah 84132, USA

L'ensemble de ces recherches sont supportées par le contrat NIH CA-28854.

Page 2: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

182 BASES DE DONNéES GÉNÉALOGIQUES

remarquant que ce problème est résolu de manière plus fiable en considérantune pondération de solutions de jumelage (et non pas seulement en considérantles poids associés aux liens considérés isolément). Nous présentons ensuiteles grandes lignes et les principaux résultats de deux des applications quiont été conduites à partir des méthodes proposées. La première, qui consisteà jumeler entre eux des actes de décès, est représentative des applicationsclassiques j la seconde, qtù est relative au couplage du recensement de 1880de l'Utah à la généalogie des Nlormons de l'Utah, met en oeuvre des méthodesbeaucoup plus sophistiquées, dont P"algorithme étoile" qui inclut dans la phasede couplage des vérifications sur les liens généalogiques. Enfin, nous concluonssur les développements futurs du système, qui consistent principalement en uneintégration des ces outils de couplage dans le système GENISYS, au travers decommandes de haut niveau, accessibles à l'utilisateur final.

1.- Présentation générale.

La teclmologie des ordinateurs a introduit de nombreuses voies nouvellesdans le domaine du couplage des informations, en même temps qu'elle provo­quait une demande importante de la part des chercheurs impliqués dans desapplications de cette nature. Des projets qui pouvaient être considérés commetrop importants par leur taille et leur complexité au regard des méthodesmanuelles traditionnelles, peuvent à présent être considérés COlnnle abordablespar le biais des moyens automatisés. La transition du couplage manuel versde telles méthodes automatisées n'est certainement pas aisée, essentiellementpar le fait que les programmeurs doivent tenter de substituer aux processushumains de décision un ensemble d'algorithmes fondés sur une formalisationdu problème. Il ne nous semble pas du tout évident que l'approche informa­tique puisse se réduire à la seule automatisation des opérations effectuées parun spécialiste du couplagej en fait, un bon système de couplage doit procéderde manière plus cohérente et plus fiable que le meilleur de ces spécialistes nepourrait le faire sur des applications importantes.

Par ailleurs, aborder de tels problèmes suppose des contraintes assezstrictes quant à l'efficacité des méthodes choisies du point de vue des per­formances. Cet aspect du problème tend aussi à faire abandonner toute idée desimple mimétisme des méthodes manuelles.

Un travail interdisciplinaire est également nécessaire; des informaticiensdoivent travailler en équipe avec des démographes, des historiens, des généti~

dens} ou tous autres spécialistes concernés par ces problèmes de couplaged'informations, et ce à tous les niveaux d'élaboration des projets.

Nous voyons enfin le système idéal de couplage d'informations comme unsystème vraiment général} c'est-à-dire pouvant traiter pratiquement toutes les

Page 3: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.H. \VESLEY, S.~'I. DINTELMAN ... 183

applications particulières sans nécessiter de reprogrammation pour l'adapter àleurs contraintes propres.

Il doit également être accessible, en ce sens que les différentes étapesimpliquées dans le traitement doivent être aetivables au travers de commandesde haut niveau, et les résultats doivent être consultables immédiatement. Cettepropriété, très importante à nos yeux, ouvre l'usage direct des systèmes decouplage aux utilisateurs finaux des données, et aux experts du couplaged'informations.

Notre but est de décrire ici un système dont le développement a étéentrepris depuis plusieurs années par notre groupe. Il a été conçu pour lecouplage de toute collection comportant des identificateurs nominaux. Lesaspects les plus communs à la grande majorité des applications de ce typeont été implémentés, et l'ensemble des commandes de haut niveau nécessairespour en garantir un usage général ont été identifiées et définies.

Les fonctions de couplage sont intégrées dans un système de gestion debases de données, GENISYS, dont la conception s'est avérée très adaptée àce type de traitement. Yves Chiararnel1a, dans son travail autour du projetMERCURE (Chiaramella 81 et Chiaramella et al., 82), avait mis en évidence lanécessité d'une intégration des processus de couplage avec un système de basede données, et l'implantation actuelle présentée ici doit beaucoup à ce travailinitial, même si depuis de très importants développements y ont été apportés.

Du fait que GENISYS permet l'utilisation telle quelle de tout fichier nomina­tif existant, tout ensemble de fichier peut-être traité en se limitant simplementà fournir la description des enregistrements à GENISYS; aucun travail préalablede conversion de structure n'est nécessaire, le système se charge d'adapter lesdonnées à son format standard.

Au cours des dernières années, GENISYS a été testé et utilisé sur une grandevariété d'applications par notre groupe. Citons parmi celles-ci :

le couplage de familles en vue de la constitution de la Généalogie de l'Utah,à partir d'informations relatives aux familles nucléaires (Skolnick, 1980).

le couplage d'informations médicales, telles que les registres de décès et lesfichiers du cancer, avec la base de données généalogiques.

le couplage du recensement de 1880 avec la généalogie.

l'enrichissement de la base généalogique à partir de nouvelles soUfcesdémographiques (adjonction de personnes initialement non mentionnées,en relation de parenté avec la généalogie existante).

le couplage d'individus les uns aux autres (par exemple l'extraction defratries à partir de registres de décès).

Page 4: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

184 BASES DE DONNt:ES GÉNÉALOGIQUES

Actuellement, le projet le plus complexe a été le couplage du recensementde 1880 avec la généalogie. Un tel traitement implique la manipulation et lacomparaison de structures d'information allant des plus simples (la descriptiondes individus) aux plus élaborées (la description des foyers et des familles).La définition des algorithmes de comparaison et d'évaluation correspondantsconstitue certainement notre meilleur achèvement actuel dans le domaine ducouplage d1infonnations.

Nous présentons dans la section 9 de cet article un court exposé dedeux des applications mentionnées ci-dessus et qui sont, à notre avis, lesplus représentatives des potentialités offertes par les outils que nous avonsdéveloppés.

Avant de décrire avec plus de détails le système de couplage automatiqueet ses fondements théoriques, il nous paraît utile de développer quelques-unsdes problèmes essentiels relatifs à ce domaine, ainsi que les approches quiont été proposées par différents groupes pour les résoudre. Nous considéreronssuccessivement le problème des variations nominalesl le processus de couplage(comment les enregistrements potentiellement jumelables sont regroupés)l leprocessus de pondération (comment ces liens sont pondérés)l et enfin la logiquede décision de jumelagel qui détermine quels sont, parmi les liens potentiels,ceux qui sont acceptés et ceux qui sont rejetés.

2.~ Les variations nominales.

Les variations de ce type constituent un problème particulièrementdélicat dans le jumelage dlinformationsl et l'importance des identificateurs no­minaux dans ce processus est telle qu'un effort tout particulierl au travers dudéveloppement de méthodes sophistiquées, doit être consenti pour tenter de lerésoudre. Plusieurs sources de variations nominales ont été identifiéesl depuis lesUmutationsll de noms (changement brutaux et permanentsl partiels ou globauxde leur orthographe) jusqu'aux erreurs de transcription lors de la collecte desinformations. H.B. Newcombe et ses collaborateurs (Newcombe, 1967) de laCanadian Atonùc Commission ont fait usage du Russel Soundex Code pourrassembler des noms similaires (au sens du code). Un autre système de codagea été développé par Louis Henry, spécifiquement pour les noms français l à l'oc­casion du projet de jumelage entrepris à Montréal (voir le PRDH l Beauchampet al' l 1972). Howe et LindsaYl les successeurs de Newcombel ont utilisé uneapproche plus variée, laissant la possibilité de regrouper les noms soit aprèstransformation selon le code NYSIIS l soit après troncature à quatre ou septlettres (Howe et Lindsay, 1981).

Page 5: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.H. WESLEY, S.M. DINTELMAN... 185

Une approche différente fut développée par G. Guth qui détermina desrègles d'équivalence de noms fondées sur des correspondances de formes (pat~

tern matching). G. Bouchard et son groupe ont également accordé une trèsgrande attention à ce problème, et ont développé une approche assez complexecombinant des règles phonétiques et des correspondances de formes (Bouchardet al., 1980). Enfin, Weiss et son groupe à Laredo ont construit des tablesd'équivalences de noms pour évaluer leur similarité (Buchanan et al., 1983).

L'approche que nous avons choisie fut tout d'abord introduite par Y.Chiaramella, qui développa un transducteur phonétique hiérachisé dans le cadredu projet MERCURE (Clùaramella, 1976).

Ce transducteur pouvait produire plusieurs niveaux de codification phoné­tique pour un même nom, en tenant compte de possibilités de plus en pluslarges de variations (depuis une interprétation courante de l'orthographe,jusqu'à tIlle codification proche du Code Henry). Il était ainsi possible deconsidérer plusieurs niveaux de regroupement des noms, et donc d'associer àces regroupements diverses mesures de plausibilité.

Le but dans cette approche était de limiter la perte de pouvoir discriminantnécessairement liée à des transformations aussi profondes que le Russel SoundexCode ou le Code Henry (dégénération de grandes classes de noms, et diminutioncorrespondante de leur nombre total par un facteur de souvent 10 et plus, voirfigure 1). Un transducteur analogue a été réalisé par notre groupe (voir section 7ci-après) qui s'est avéré très performant dans les différentes applications ott il aété utilisé. Des transducteurs non phonétiques sont en cours de développementpour traiter les variations non liées à la seule phonétique.

3.- Le couplage des fichiers.

Les canadiens ont décrit le jumelage comme un processus en deuxgrandes étapes: la recherche et l'évaluation de plausibilité (Newcombe, 1965).Dans l'étape de recherche, les enregistrements potentiellement jumelables sontregroupés en prévision de l'étape d'évaluation. Cette première étape estessentiellement une opération de tri, et il semble que les implications de cetteméthode (très simple) n'aient pas été toujours suffisamment bien analysées.IvI. Skolnick, dans sa thèse relative à la reconstitution des généalogies de laVallée de Parme (Skolnick, 1974), exigeait, quant à lui, que tous les liens poten­tiels possibles, entre tous les fichiers impliqués, soient identifiés avant qu'aucunedécision de jumelage soit prise en ce qui concerne l'acceptation ou le rejet deces liens. Cette approche est en opposition directe avec la logique séquentiellemise en oeuvre par des groupes tels que le PRDU (Légaré et al., 1972») même

Page 6: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

186 BASES DE DONNéES GÉNÉALOGIQUES

lorsqu'elle est fondée sur plusieurs tris indépendants, en raisons des accepta­tions de jumelage effectuées à l'issue de chaque tri (avant que l'ensemble dessolutions ne soit connu).

Pour atteindre son objectif méthodologique, Skolnick définit un algorithmede construction de classes d'enregistrements (cIusters) dans lesquelles chaqueenregistrement est rattaché par un lien de jumelage potentiel à au moinsun autre élément de la même classe, et à aucun élément n'appartenant pasà cette classe. Ceci est le concept de ferlneture rigoureusement défini parChiaramella (Chiaramella, 1981). La détermination de classes fermées constitueun mécanisme de partition complète de l'espace de décision, préalable à touteprise de décision. Il augmente aussi considérablement la fiabilité du jumelage,du fait que la décision est prise parmi l'ensemble des possibilités envisageables,et ses performances quantitatives du fait que chaque classe constitue en elle­même un 301ts-problème distinct (solvable indépendamment) des autres.

4.- Méthodes de pondération.

Le groupe de Newcombe a introduit le concept de poids aSSOCIe a unlien potentiel de jumelage, exprimant la plausibilité de l'appariement corres­pondant, utilisable pour résoudre les ambiguïtés causées par les liens concur­rents (Newcombe, 1959). Cette pondération était conçue comme une fonctionde la fréquence d'occurrence d'une confirmation (ou d'une infirmation) parmiles paires d'enregistrements couplées par le système, et de celles rejetées parcelui-ci alors qu'elles devraient être acceptées. Le rapport a/h était utilisé, oùa était la fréquence observée parmi les liens trouvés, b celle parmi les pairesrejetées; cette quantité pouvait être calculée en considérant indépendanunentplusieurs critères (correspondance des noms, prénoms,,,.). Afin que les compo­sants d'un poids puissent être ajoutés entre eux pour constituer un poid total,l'expression - log2 (a/b) fut finalement retenue comme mesure (les unitéscorrespondantes étaient appelées IIbinits"). Bien qu'ils n'expriment pas une me­sure de vraisemblance au sens strict du terme, les poids proposés en constituentune approximation opérationnelle efficace, et nous y ferons désormais référencesous ce vocable.

La recollllaissance très précoce d'un besoin quant à un processus d'éva­luation sophistiqué fondé sur la notion de vraisemblance, est à la source d'unegrande partie des travaux effectués depuis lors.

M. Skolnick a étendu l'usage des mesures de vraisemblance en faisantintervenir des distributions d'erreurs, de façon à pondérer des infOlmations re­groupées à tort dans des enregistrements potentiellement jumelables (Skolnick,1974).

Page 7: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.H. WESLEY, S.~L DINTELMAN ... 187

Le processus comprend la génération d'un certain nombre de liens non am­bigus (à partir de critères très sévères impliquant des informations parfaitementcohérentes) et en construisant à partir de ces liens les distributions d'erreurspour les critères délibérément exclus du processus de comparaison. Ceci donneune mesure de la vraisemblance avec laquelle certaines informations (telles parexemple une date de naissance enregistrée et tul âge calculé) différeront d'unecertaine quantité, sachant que les enregistrements dont elles sont extraites sontjumelables. Cette technique a fait la preuve de son utilité dans la résolution desambiguïtés.

La majorité des chercheurs qui utilisent des programmes de jumelageont accepté l'utilisation de poids fondés sur cette notion de vraisemblance.Howe et Lindsay, dans leur système GIRLS (Generalized Interactive RecordLinking System), faisaient la distinction entre les composants "fréquence" etlltransmission" des poids. Le premier réfère à la distribution des valeurs nonerronées dans les fichiers, et le second à des schémas de déviation depuis cesvaleurs, dus à des erreurs de transcription ou d'autres sources de variations(Howe et Lindsay 1981).

Tous les systèmes automatisés de jumelage n'incorporent pas, cependant,un processus d'évaluation fondé sur la mesure de vraisemblance j le groupeChicoutimi, par exemple- (Bouchard 1985), et le projet de Laredo (Buchananet al., 1983) préfèrent d'autres approches. Ce choix est apparemment basé surl'inquiétude que l'approche par la vraisemblance conduit à l'acceptation desliens marginaux, bien que cela ne soit nullement impliqué dans cette méthode.De notre point de vue, l'assignation de- tels scores demeure actuellement lemoyen le plus objectif et le plus cohérent pour l'évaluation des liens.

5.- La logique de décision.

On peut actuellement distinguer deux approches concernant le processusde prise de décision dans la théorie du jumelage. La première utilise à la foisl'évaluation des liens basés sur la vraisemblance et un ensemble de seuils. Laseconde est plus empirique, étant essentiellement fondée sur des critères decohérence non pondérés, ou pondérés selon des tables de valeurs prédéfiniessans fondement théorique réel. Ce type d'approche, bien qu'utilisé couram­ment dans les premières étapes du développement de beaucoup de projetsrelativement anciens, est largement abandonné à présent. Cette stratégie trèspragmatique traduit en fait tUle transposition brute de méthodes purementmanuelles dans lesquelles il est naturellement difficile, voire impossible, d'ac­quérir dans tul temps raisonnable l'ensemble des informations à caractèrestatistique indispensables à la IJÙse en oeuvre d'un modèle d'évaluation de lavraisemblance.

Page 8: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

188 BASES DE DONNéES GtNtALOGIQUES

De plus, ces méthode sont couramment liées à des systèmes pour lesquels lesouci de généralité n'a pas été clairement pris en compte lors de la conception:on tente souvent d'utiliser les mêmes modèles de couplages sur des fichiers trèsdifférents, alors que des changements de stratégie sont souvent nécessaires pourtenir compte de la spécificité des données.

Dans la première approche, la logique de décision peut être fondée surl'évaluation de scores de vraisemblance, eux-mêmes reposant sur un modèlethéorique bien défini et donc généralisable. La généralisation pratique consisteensuite à disposer des outils d'analyse statistique des données et des procéduresd'évaluation pouvant tenir compte de différentes stratégies selon la nature desdonnées considérées (calcrn des plausibilités d'écarts d'âge, des pondérationsliées à la similarité des informations nominales, des probabilités de substitutionde noms ou de prénoms etc.).

Une méthode d'évaluation a deux dimensions, l'une relative à la taille dela population et une autre relative aux scores enregistrés en moyennes pour lesliaisons ambiguës. Le premier aspect autorise une définition plus ratiOImelle desseuils d'acceptation ou de rejet pour les liens ambigus. Le second aspect nouspermet d'évaluer plus précisément le degré d'ambiguïté lié à tout cas particulierde lietls concurrents (comment se situe le cas traité par rapport à la moyenne descas observés). En conséquence, une logique de décision foudée sur des critèresrigoureux et homogènes est bien moins sujette que d'àutres à l'établissementde liens erronés, du fait précisément que les seuils sont mieux définis : si unensemble de liens concurréntsont tous des scores bas, aucun ne sera acceptérelativement à ce critère.

Dans la résolution d'une classe complexe (cluster), il est ainsi possibled'envisager le rejet du lien ayant le meilleur score de façon à permettrel'acceptation d'une solution (un choix global au niveau de l'acceptation d'unensemble de liens, constituant la résolution complète d'un cluster) dont laplausibilité globale est beaucoup plus forte: dans ce cas de figure, l'acceptationdu lien de score maximal pourrait conduire, par transitivité, au rejet debeaucoup, d'autres liens dont les scores sont par ailleurs très bons, et diminuerd'autant le taux de jumelage final. L'idée sous-jacente à cette approche estque la solution d'uu problème d'ambiguïté doit être envisagée globalement,au niveau de l'ensemble des solutions possibles dans une classe d'ambiguïtés.Ce choix de solution ne concerne plus l'acceptation de liens) mais celui, parexemple, d'une biographie individuelle parmi tout \lU ensemble d'autres. Onsait qu'un mauvais choix au niveau d'une biographie peut entraîner la nonreconstitution d'une famille, et avoir de proche en proche des conséquencesnéfastes sur d'autres données qui sont, du fait de ce mauvais choix, privéesde toutes espérance de couplage correct. La notion de solution situe donc le

Page 9: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.H. WESLEY, S.M. DINTELMAN ... 189

problème de la décision à son véritable niveau, qui n'est pas celui des liens,mais celui des structures que l'on cherche à reconstituer.

Cette suggestion, originellement proposée par M. Skolniek (Skolnick 1974),d'un seuil maximal de vraisemblance au niveau d'une solution (et non plusd'un lien isolé), a été la source de beaucoup de controverse, et sa mauvaiseinterprétation a été à l'origine de l'idée fausse que cette méthode pouvaitfavoriser l'acceptation de liens erronés. En fait, si persorme n'a encore résoluce problème de manière totalement satisfaisante (voir à ce propos l'approcheproposée par Y. Chiaramel1a dans Chiaramella 1981) nous sommes persuadésque cette approche diminue fortement les chances d'accepter des liens erronés,du fait qu'un lien n'est accepté que s'il participe à un ensemble dont la cohérenceest estimée satisfaisante par rapport aux objectifs poursuivis: cette contrainteest en fait plus forte qu'une notion de seuil d'acceptation assigné à un lien.

6.- Le système GENISYS.

Après une présentation de l'environnement d'exécution du système, et desoutils qu'il met en oeuvre, nous donnons ci~dessous les principales lignes d'unalgorithme général de couplage. Les éléments présentés ici sont essentiellementrelatifs à la version actuelle de GENISYS (Genealogical Information System), età une description du transducteur phonétique que nous avons réalisé et expéri­menté sur plusieurs projets importants (Utah Phonetic Transducer).

6.1. Les caraetéri3tique3 générale3 du 3Y3tème

GENISYS fut à l'origine développé en tant qu'un système de gestion de basesde données (SGDD) capable de répondre aux besoins d'un groupe de chercheursdans les domaines de la génétique épidémiologique et de la démographiehistorique (Dintelman et al., 1980). Un tel outil était nécessaire pour permettreun large usage de la Généalogie de l'Utah par cette communauté de chercheurs.

Les systèmes commerciaux disponibles à l'époque étaient jugés troporientés vers les traitements interactifs (gestion de transactions simples), peuflexibles (adaptables aux besoins particuliers), et surtout inaptes au traitementde très grands fichiers tels que ceux mis en oeuvre pour la gestion de la généalo­gie. GENISYS, tout en servant de gestionnaire de base de données, fut conçu toutspécialement pour prendre en compte de manière efficace les relations généa­logiques, et le couplage d'enregistrement y fut prévu depuis le tout début desétudes.

D'autres considérations majeures furent prises en compte, telles que lespossibilités de mise en oeuvre du système (par les usagers) sans connaissances

Page 10: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

190 BASES DE DONNÉES GÉNÉALOGIQUES

approfondies de la programmation, et la gestion efficace de processus complexessur de grands fichiers en vue de limiter les temps d'exécution. Une desprincipales caractéristiques de GENISYS réside dans les moyens automatiquesfournis aux chercheurs pour leur procurer un accès aisé à leurs données.Pour améliorer encore son utilisation en tant qu'outil de recherche, nous yincorporons actuellement, en tant qu'extension, un mécanisme de couplageautomatique généralisé.

Plusieurs caractéristiques de GENISYS sont intéressantes dans le contexteactuel j des descriptions plus complètes du système peuvent être trouvées dansdes publications antérieures (Skolnick et al., 1980 et Maness et al., 1979).

6.2. Les outils annexe3

a) Le langage de requêtes :

Le langage de requêtes de GENISYS (GQL) est un langage fonctionnel dehaut niveau qui peut être utilisé soit indipendamment pour interroger la basede données, soit en liaison avec des programmes d'application. La syntaxe dulangage, proche de celle de SQL, a été enrichie par Fin,troduction de la notion delien entre données, qui est particulièrement utile pour le traitement de donnéesgénéalogiques. Typiquement, toute requête est composée d'une clause SELECT

définissant l'ensemble des résultats attendus (les informations extraites ct/oucalculées à partir de la base) et d'une clause WHERE spécifiant les conditionsd'extraction.

Donnons un exemple simple exprimant pourtant un traitement qui néces­siterait, s'il fallait le programmer, plusieurs jours de travail :

SELECT AVERAGE (AGEATDEATIl) WilERE M DIRTIlYEAR > 1900 AND F MAGEATDEATil > 50Oll AGEATDEATlI est défini comme la différence de DEATHYEAR et BIRTlIYEAR.

Cette requête calcule la moyenne de l'âge au décès de toutes les personnesdont la mère (utilisation du lien Mother) est née après 1900, et la grand-mèrepaternelle (combinaison des liens Father et Mother définissant cette notiongénéalogique) est morte à plus de 50 ans.

Toute requête de ce type, et d'autres bien plus complexes encore incluantdes ventilations statistiques, des extractions de clOlmées concernant plusieursfichiers sinluitanément, peut être soumise au système en mode conversationnel,la réponse étant fournie immédiatement à l'usager (qui peut d'ailleurs Pem'e~

gistrer dans un fichier pour un usage ultérieur).

Page 11: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

v.n. WESLEY, S.M. DINTELMAN ... 191

La combinaison d'un format très peu contraignant des requêtes et d'unesyntaxe très IInaturelle" (proche du langage courant) permet l'extraction dedonnées complexes par des usagers non informaticiens. Ceci inclut l'extractionde données réparties sur plusieurs fichiers distincts, sans nécessiter la créationde fichiers intermédiaires (approche relationnelle du système, pour ceux quiconnaissent mieux les systèmes de bases de données).

b) le pré-processeur:

Le pré-processeur de GENIS YS permet de convertir des requêtes définiesselon le langage GQL dans un code intermédiaire compatible avec des langagesde programmation classiques (FORTRAN 77 dans notre cas).

Il est dés lors possible de définir des programmes classiques comportantdes requêtes GQL (elles traitent beaucoup plus simplement tous les aspectsrelatifs à l'accès aux données), et qui opèrent des traitements particuliers surdes données extraites de la base. Ce programme, après traitement par' le pré­processeur, peut être normalement compilé et exécuté comme n'importe quelprogramme classique. L'effort de développement d'applications particlùières estainsi considérablement diminué.

L'utilisateur peut, de plus, créer ses propres extensions du langage enutilisant ce que nous appelons les fragmenM de programmes. Il s'agit dellsquelettes" d'algorithmes qui sont automatiquement expansés par le systèmepour y inclure des structures de contrôle (boucles, tests de conditions...).

L'usager non informaticien dispose donc d'un ensemble complet d'outils luipermettant d'accéder très efficacement à la base de données, sans se préoccu­per des détails liés aux modes d'accès physiques, la gestion des entrées-sorties,l'organisation physique des données, et créant ainsi un environnement qui estcaractérisé par le très court temps nécessaire à la mise en oeuvre de traitementsordinairement jugés comme complexes.

c) le dictionnaire de données:

Le Dictionnaire de Données de GENISYS, comme dans tout système de basede données évolué, garantit la notion très importante d'indépendance données­programmes. Cette propriété autorise tout changement dans l'organisationphysique des données de manière totalement transparente à l'usager (c'est­à-dire sans qu'il ait à modifier une ligne de ses programmes ou de ses requêtesGQL). Ceci permet d'optimiser le stockage des très grands fichiers constituantla base (compactage), de redéfinir leur mode d'accès physique, pour améliorerles performances du système sans perturber les utilisateurs et les programmes

Page 12: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

192

en cours de développement ou d'exploitation.

BASES DE DONNÉES GÉNÉALOGIQUES

d) L'interface de communication avec GENISYS :

Une interface conviviale, appelée UFI (User F\'iendly Interface) rassembleles commandes permettant à l'usager de créer, modifier et exécuter ses requêteset afficher les résultats. Un dispositif d'auto-documentation est disponible pourrenseigner l'usager sur toute modalité d'utilisation du système qu'il auraitoubliée ou avec laquelle il ne serait pas familier par manque d'expérience.

Des fichiers personnels, distincts de la base de données centrale, peuventêtre constitués dans cet environnement, et réutilisés par la suite via GQL pourdes traitements particuliers. Cette possibilité est particulièrement utile dans lamesure où l'extraction d'un échantillon de données impliquant, par exemple,des recherches très complexes dans la généalogie peut nécessiter des traitementscoûteux; on peut donc n'effectuer cette opération d'extraction qu'une seule fois,en sauvegarder le réswtat dans un fichier privé et procéder ensuite à toutes lesinvestigations désirées sur celui-ci.

Un ensemble de programmes utilitaires sont disponibles pour manipuler lesdonnées généalogiques via UFI, comprenant notamment une fonction de naviga­tion manuelle dans la généalogie (accès à tout individu par son nom, prénom,ou son numéro, accès à ses ascendants directs ou ses descendants directs, etc.),et la génération automatique de généalogies ascendantes et descendantes.

6.9 Conséquences sur le processus de couplage

L'approche suivie dans GENISYS pour le couplage d'informations utiliseà plein les caractéristiques évoquées plus haut du système. Tout d'abord, lapossibilité d'interroger facilement la base de données est très utile dans lesétapes initiales d'un projet, quand on cherche à se faire une idée précise quantà la qualité et à Putilisabilité des diverses informations disponibles en tant quecritères de pondération. L'évaluation préliminaire de la qualité des informationsest donc d'une importance capitale, et devrait être posée comme préalableincontournable à toute application de couplage.

Par ailleurs, l'utilisation des ressources de l'ordinateur, telles que le tempsde calcul et l'espace de stockage sur disque) est optimale grâce à une gestionefficace des entrées-sorties et l'utilisation de techniques d'accès performantes j

ceci est très important du fait que nos projets de couplage concernent de trèsgrands fichiers.

Page 13: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.I1. WESLEY, S.M. DINTELMAN... 193

7.- Le transducteur phonétiqne UTP (Utah Phonetic Transducer).

Parmi les fichiers gérés par GENISYS figurent les fichiers de transductionphonétique correspondant aux noms et prénoms. Ces fichiers, qui sont codéspour en assurer le compactage, contiennent tous les noms et surnoms apparais­sant dans la généalogie, de même que leurs codes correspondants selon quatreniveaux de transduction phonétique, et selon le code Soundex. Quand les nomssont comparés durant la phase de couplage, ils sont, sous leur forme originale,recherchés dans ce fichier, et des tests sont effectués pour déterminer à quelniveau de codification phonétique ils se correspondent. L'accès à ce dictionnaireunique des transductions permet d'éviter de répéter le processus de transduc­tion chaque fois qu'un nom doit être traité.

Le transducteur phonétique lui-même est composé d'un ensemble de quatreprogrammes écrits dans le langage RATFOR, et générés grâce au pré-processeurde GENISYS. Ces programmes contiennent un total de 75 règles de transductionqui ont été empiriquement dérivées d'un ensemble représentatif de variationsnominales.

Cette liste a été établie à partir du couplage du recensement de 1880 del'Utah avec la généalogie. La disponibilité de l'information quant aux structuresdes familles a rendu possible l'identification certaine de ces variations enprocédant à un couplage partiel: n'ont été retenus dans l'ensemble test que lesnoms d'individus pour lesquels une variation a été identifiée comme certaine,c'est-à-dire ceux des individus pour lesquels tout le reste de la famille a puêtre couplé de façon certaine, et pour lesquels on a observé (à défaut d'uneconcordance sur le nom) une concordance sur l'âge et le sexe.

Des variations de toutes sortes ont été observées, depuis la simplesubstitution de lettre jusqu'au changement complet de nom. Celles intervenantplus d'une fois ont été sélectionnées en vue d'une analyse plus approfondie et,parmi celles-ci, celles qui pouvaient être résolues d'un point de vue phonétiqueont été extraites. Une analyse de ces noms et des statistiques sur les différentstypes de variations au niveau phonétique ont permis la définition des règlesde transduction, et de déterminer l'ordre de leur application. Les règles ontété ensuite groupées dans les quatre programmes effectuant la transduction,avec le souci d'obtenir une variation régulière dans le nombre de transductionsdifférentes produites à chaque niveau, et donc une variation aussi régulière quepossible du pouvoir discriminant correspondant (voir fig. 1)

L'ordre d'application de ces règles n'est cependant pas arbitraire: lescodifications qui ont résolu le plus grand nombre de variations dans l'ensemblede test, tout en ayant engendré le minimum de distorsions dans la structuredes noms, sont appliquées les premières. De plus, certaines règles suivent uneprogression logique qui dicte l'ordre dans lequel elles doivent être appliquées.

Page 14: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

194 BASES DE DONNÉES OÉNÉALOGIQUES

La figure 1 montre une statistique des effets de ces transductions sur lesnoms (fig. LA) et des prénoms (fig. LB) extraits de la Généalogie de l'Utah,en incluant le Soundex à des fins de comparaison.

Niveau detransduction

o(nom)1234Soundex

Nombre de valeursdistinctes

64714469813392525980176644445

Entropie (II)

11.9111.6411.2210.8610.389.81

PouvoirDiscriminant

9.519.018.878.738.528.23

fig. I.BPRÉNOMS

Niveau detransduction

o (prénom)12345

Nombre de valeursdistinctes

4833024110l<\8231059267363476

Entropie (H)

10.229.579.038.698.298.42

PouvoirDiscriminant

7.957.717.467.227.017.16

- FIGURE 1-

Statistiques relatives aux résultats de la transduction phonétiquesur les noms et prénoms de la Généalogie de FUtah

L'entropie H est WlC mesure de la quantité moyenne d'information ap­portée par la caractéristique considérée (nom ou prénom); cette mesure, due à

Page 15: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.H. \VESLEY, S.M. DINTELMAN ... 195

C.E. Shannon (Shannon, 1948), a été proposée comme base de l'évaluation dupouvoir discriminant par Y. Chiaramella (Chiaramella, 1977 et 1981), et estévaluée de la façon suivante:

n

H = - LPi log2(Pi)i=l

où les Pi représentent les probabilités d'occurrence des différentes valelU's(déduites ici des fréquences relatives observées pour les noms ou prénoms),et n le nonlbre total de noms ou de prénoms.

La figure 1 montre que l'entropie des prénoms est sensiblement égale à celledes noms à leur quatrième niveau de transduction, c'est-à-dire compte tenudes plus fortes variations d'ordre phonétique. Les noms const.ituent donc unesource d'information beaucoup plus riches que les prénoms; dans cet ensemblede données, les noms partitionnent l'ensemble des personnes en classes plusnombreuses et plus équilibrées en taille que les prénoms. Ceci est confirmé parla variation plus régulière et limitée de l'entropie des noms aux divers niveauxde transduction: les regroupements sont sélectifs et modifient de manière assezhomogène la taille des classes de noms.

L'effet des transductions est tout à fait différent sur les prénoms où lepremier niveau de transduction s'accompagne d'une brutale chute du nombrede formes (50 %) et d'une variation importante de l'entropie: en plus d'unevariation importante du nombre de formes, il est probable que la répartitiondes tailles de classes de personnes a été fortement modifiée. Dés le niveau 1 detransduction, on a sans doute effectué beaucoup de regroupements relatifs àdes prénoms très usuels, sujets à de nombreuses variantes.

Le pouvoir discriminant D est évalué comme suit:

n

D = !og2[1/(LPDJi=l

La figure 1 montre que les prénoms, pris sous leur forme originelle quiest la plus· variée en nombre, ont un pouvoir discriminant inférieur aux codesSoundex des noms. Dans le processus de couplage, l'information apportée parune concordance sur les noms sera bien plus précieuse, pour les pondération,qu'un accord sur les prénoms. On remarque également tlll facteur de réductiond'environ 4 du nombre de formes entre les noms originaux et le quatrièmeniveau de transduction phonétique; ce facteur est d'environ 16 si on considèrele Soundex. Ceci traduit bien la remarque faite plus haut sur l'importance desregroupements effectués par ce code. Le facteur de réduction est d'environ 14pour les prénoms entre les formes originales et le Soundex, et de 7 au quatrième

Page 16: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

196 BASES DE nONNtEs GÉNÉALOGIQUES

niveau. Il Y a donc en proportion plus de variations à caractère phonétique surles prénoms que sur les noms, ce qui est bien reflété par la très grande variétéde formes irùtiales observées pour les prénoms (plus de 48000 i).

Dans la figure 2, nons montrons comment le premier niveau de transductionpermet de regrouper beaucoup de variations très communes, tout en évitant lesregroupements excessifs en maintenant dans sa plus grande part l'intégrité syl~

labique des formes traitées, par exemple:

ANN et ANNA

sont regroupées. Notons que ces deux formes peuvent, sur l'ensemble des quatreniveaux, être mises en concordance avec six fois plus de formes qu'avec leSoundex.

1. Oter tout caractère espace du nom2. Changer un c précédant un caractère y, e) i en s3. Changer e, y et i en a4. Supprimer tout h en tête de mot5. Supprimer un h en fin de mot, s'il est précédé d'une voyelle6. Supprimer la voyelle d'une chaîne terminale s*n, où * est une voyelle7. Supprimer le a d'un Mac placé en tête de mot8. Réduire les occurrences multiples et consécutives de caractères à une seule

occurrence de la même lettre.

- FIGURE 2-

Définition des règles du premier niveau de transduction

On remarque également quc la transduction des voyelles précède letraitement des doubles lettres (réduction à une occurrence). Ceci réduit effi~

caccment des combinaisons de a, e, i, et y à des lettres simples, autorisant desconcordances entre :

Annie et Anna

Mary et Maria

Stacey et Stacy

Page 17: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

V.H. WESLEY, 8.1'.1. DINTELMAN... 197

Pour une présentation plus complète du transducteur et de la définition deses règles, voir (Wesley, 1985).

8.- Un algorithme général de conplage.

Après avoir décrit l'environnement dans lequel les projets de couplage sontmenés, nous allons présenter une description de notre approche générale de ceproblème, suivie d'une discussion relative à l'implantation actuelle de la théoriesous-jacente.

Comme dans la majorité des cas similaires de réalisation, notre système estfondé sur une simplification de la théorie visant à tenir compte des problèmespratiques. A titre d'exemple, il est parfois nécessaire d'interrompre un processusdont la durée pourrait être prohibitive (bien que théoriquement limitée); unexemple de tel processus est la construction des classes évoqué plus haut.Les simplifications ainsi apportées sont donc considérées comme des limitationpratiques données à la mise en oeuvre des méthodes théoriques, et non desremises en cause de celles-ci; en fait, l'objectif essentiel des études informatiquesest bien de définir les moyens méthodologiques et pratiques de mise en oeuvreconcrète, par étapes, de l'ensemble de cette théorie. Dans ce domaine commedans d'autres, les progrès technologiques propres à l'informatique sont de natureà contribuer fortement à l'achèvement de cet objectif.

La procédure générale proposée ici comprend une succession d'un petitnombre d'étapes fondamentales. La première d'entre elles est la classification(clustering). Cette étape a pour objet la construction d'un ensemble de classesqui doivent être de taille raisonnable, d'enregistrement potentiellement jume­lables. Elle est essentielle dans le processus; c'est seulement en garantissantque tous les liens _potentiellement acceptables sont regroupés correctement quel'idéal de fermeture évoqué plus haut peut-être approché (en préalable à toutedécision d'acceptation ou de rejet), sans recourir à des traitements aussi coûteuxque la comparaison et l'évaluation de tous les enregistrements considérés deuxà deux.

Les critères utilisés dans la phase de classification ne _peuvent raisonna­blement être réutilisés d'une application à l'autre; généralement, un examencritique des informations disponibles et de leurs propriétés sera nécessaire pourdéterminer les meilleurs critères de comparaison. Comme indiqué plus haut,toute généralisation, à ce niveau} à partir d'une application particulière esthasardeuse.

Page 18: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

198 V.H. "'ESLEY, S.r..L DINTELMAN ...

Même avec la détermination d'un bon ensemble de critères, l'étape declassification doit être menée selon un processus itératif pOUf garantir desperformances optimales : des enregistrements doivent pouvoir être ajoutés àdes classes déjà définies lors de passes ultérieures, en considérant de nouveauxcritères de couplage. La classification risque en effet d'omettre des liens accep­tables si les critères sont trop strict, et introduira un trop grand nombre deliens s'ils ne le sont pas assez. Le meilleur moyen de trouver un juste équilibreest de débuter la classification sur des critères assez strict, et d'incorporer auxclasses ainsi obtenues des enregistrements lors de passes successives relatives àdes critères plus souples.

Cette itération peut continuer jusqu'à ce qu'un but prédéfini soit atteint(par exemple l'obtention désirée d'un taux de couplage, ou d'une valeurmoyenne de la mesure de vraisemblance des liens dans chaque classe, etc.),ou que la taille des classes obtenues augmente exagérément.

Il peut être possible de définir un pourcentage d'enregistrements quidoivent être regroupés dans les classes; quand ce pourcentage est atteint, ilest inutile de continuer à affaiblir les critères de sélection, car dès lors lesliens non pertinents commenceront à surclasser en nombre les liens pertinents.Ceci constitue une très bonne approximation du concept de fermeture : ildoit être admis qu'il est toujours possible que quelques liens potentiellementacceptables puissent échapper au processus de classification: c'est la concessionfait aux limites technologiques des machines disponibles. Retrouver ces quelquesliens supplémentaires peut augmenter le temps global de traitement dans desproportions désastreuses.

Il doit donc exister un contrôle de la taille des classes au cours del'exécution du processus itératif, du fait que les classes d'individus possédant desnoms très communs, par exemple, peuvent augmenter très fortement, surtoutsi l'on utilise des critères de regroupement aussi peu sélectifs que le Soundex. Ilest par conséquent judicieux d'examiner périodiquement les plus grandes classesobtenues, d'évaluer les liens potentiels, et de les fragmenter éventuellement enclasses plus petites en éliminant les liens les plus faibles.

La deuxième étape est l'évaluation ou l'assignation de poids estimant lavraisemblance de chaque lien construit dans l'étape précédente. L'évaluationest conforme aux paradigmes décrits plus haut, énoncés par le groupe AEC

et par M. Skolnick. Les comptages de fréquences peuvent être effectués pourles valeurs spécifiques d'informations particulières (noms, prénoms" ..) dans lesfichiers. Ceci peut être opéré séparément sur chaque fichier si l'on suspectequ'ils possèdent des distributions différentes de ces valeurs. Cette procédure estfondée sur l'hypothèse de l'indépendance de ces infonnations; pour de grandsfichiers, cette hypothèse est certainement raisonnable. Les distributions de

Page 19: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONNtES GtNtALOGIQUES 199

vraisemblance nous donnent une mesure de l'information liée à une concordancede deux enregistrements j nous avons davantage confiance dans le fait qu'un lienrelatif à des noms très rares est fiable que dans un lien correspondant à desnoms très répandus. Cette confiance sera reflétée par l'affectation d'un poidssupérieur dans le preIIÙer cas.

Les distributions d'erreurs nous donnent la capacité partictÙière d'évaluerles non concordances, ce qui leur permet de participer à l'évaluation d'un lienpotentiel. Dans ce cas, le numérateur est la probabilité observée d'apparitionde cette non concordance, sachant que le lien correspondant est correct,et le dénominateur est la probabilité de la même observation dans deuxenregistrements pris au hasard dans les fichiers. Comme précédemment, lelogarithme du rapport est calculé, et ajouté comme composant du score dulien considéré.

Bien que chacune des étapes évoquées plus haut soit importantes et doiveêtre exécutée avec le plus grand soin, l'étape essentielle est celle de la décisiond'accepter ou de rejeter un lien potentiel. Ceci peut, mais pas nécessairement,impliquer la résolution d'ambiguïtés engendrées par des liens concurrents. Notrelogique de décision est entièrement fondée sur les scores associés aux liens (cequi n'exclut pas les décisions au niveau de solutions, telles qu'elles ont étéévoquées plus haut).

Il est important d'insister une fois encore sur la nature de ce processus,car il paraît y avoir quelque confusion dans la littérature du domaine à proposde son fonctionnement et de ses résultats (par exemple Buchanan et al., 1983,et Bouchard, 1985). Clairement, quand on utilise des scores pour choisir entredes liens concurrents, un score élevé sera préféré à un score plus bas (et laconfiguration de jumelage qui obtient le meilleur score dans l'ensemble de laclasse, est celle qui possède la vraisemblance la plus forte). Ceci ne signifiepas, cependant, que le lien de poids le plus élevé doive être accepté commeétant correct sans se poser de question. En fait, comme nous disposons d'unemesure de qualité pour chaque lien, nous somme dans une bien meilleure posturepour décider correctement s'il faut accepter ou rejeter l'un quelconque d'entreeux, que si nous étions dans un contexte de jwnelage piloté par un algorithmesimulant un processus manuel: nous n'acceptons pas un lien parce que nous leconsidérons comme intrinsèquement !tbon", mais plutôt parce que nous sommesen situation de le juger plus scientifiquement en relation avec les caractéristiquesde la population dont il est tiré. Ceci est effectué au moyen des seuils calculésà partir de la taille de la population.

De plus, comme nous disposons d'une mesure précise de la qualité de cesliens, nous pouvons ajuster les seuils de façon à exiger une plus grande rigueurdans la prise de décision pour telle application, ou une moins grande rigueur

Page 20: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

200 V.H. WESLEY, S.M. DINTELMAN ..•

pour telle autre, selon que notre objectif est de renforcer la sélection des liensles plus snrs ou de réduire celle des liens les moins fiables. Les deux approchessont toujours envisageables, indépendamment des stratégies utilisées.

Les scores peuvent toujours être associés aux liens potentiels et analysésautant de fois qu'estimé utile avant de se lancer dans le processus de décision.

Enfin, si Fon constate que des liens de mauvaise qualité sont acceptés, ilfaut surtout se poser la question de savoir si le processus d'évaluation a étécorrectement défini.

Le seuil peut être établi selon plusieurs méthodes. Quand la taille de lapopulation est utilisée, le chercheur peut choisir un niveau de certitude qu'ilestime approprié, soit par exemple 1.000/1. Dès lors, si le loglO des ratios estcalculé dans une population de 1.000.000 = 106 , le seuil d'acceptation devraitêtre de 9, si on considère que 106 correspond pour l'inverse de ce ratio au seuilau-delà duquel un jumelage est certain, el que 103 représente la contributiondes 1.000/1 chances en faveur d'un jumelage correct.

Une approche alternative possible est de générer une distribution desvaleurs des scores en fonction des nombres de scores pour chaque valeur.Dans un jumelage typique entre deux fichiers, cette distribution présenteraune bimodalité évidente, avec un petit groupe de faibles scores, un plus grandgroupe de scores élevés, et une ((valléell entre les deux. Le seuil peut être établibien au-dessus du sommet du groupes des forts scores de façon à assurer lasélection des meilleurs liens seulement j comme dans le cas précédent, le seuil estajustable, et bien entendu les deux approches dans la définition du seuil peuventutilement être combinées. La méthode fondée sur l'examen de la distributiondes scores est aussi utile lors des étapes préliminaires du processus itératif pourtester la qualité des critères d'évaluation. Un bon critère élargira la distanceentre les deux pics de la courbe.

9.- Le système exIstant.

En l'état actuel, le programme de couplage de GENISYS, bien que généra­lisé en ce sens qu'il peut être virtuellement utilisé pour toute application, n'estpas encore entièrement automatique. Un effort de programmation est encorenécessaire pour l'adapter aux cas spécifiques. Nous avons pensé que le dévelop­pement d'outils généraux devrait précéder toute tentative d'intégration dansGENISYS, de façon à pouvoir les expérimenter rapidement. Dans une secondeétape, ils seront incorporés au système, et leur accès sera permis au traversde commandes de haut niveau (voir "développements futurs"). L'ensemble desfonctions qui ont été réalisées et expérimentées comprend:

Page 21: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE nONNtEs GÉNtALOGIQUES 201

un processus de classification multi-fichiers (clustering) j

un processus de fragmentation de classes jugées trop volumineuses.

un processus d'adjonction d'enregistrement à une classe, utilisable durantle processus itératif de classification.

une procédure de fusion de plusieurs classes indépendantes, lorsque desenregistrements qui se rattachent à celles-ci ont été trouvés lors d'unephase du processus itératif.

une procédure de génération de tables de fréquences et de distributionsd'erreurs utilisable lors de la phase d'évaluation.

une procédure d'évaluation de Pensemble des liens d'une classe.

une procédure d'établissement de liens de jumelage entre enregistrements.

10.- Deux exelnples d'application du processus de jUlnelage.

Cet ensemble de procédure de jumelage a fait ses preuves sur toute unesuite d'applications variées. Pour donner une idée des possibilités des méthodesprésentées plus haut, nous avons choisi de présenter ici deux projets situés auxdeux extrêmes de Péchelle de la complexité: tout d'abord le projet concernantle jumelage des actes de décès entre eux, puis le jumelage du recensement de1880 de l'Utah avec la généalogie.

10.1. Le jumelage df8 acte. de déeè.

Depuis environ dix ans, le groupe a entrepris Pétude des propriétés hérédi­taires du cancer j c'est la raison primordiale pour laquelle, sous la directionde M. Skolnick, la base généalogique des Mormons (1.200.000 personnes pourlesquelles les généalogies ascendantes et descendantes sont disponibles) a étéconstituée à Salt Lake City.

Roger Williams et ses collègues ont obtenu du State Department of Vitaland Health Statistics de PUtah un fichier informatisé d'actes de décès couvrantla période 1956-75, qu'ils envisagent d'utiliser afin d'étudier les propriétésd'agrégation familiale des maladies coronaires et de l'infarctus.

Dans un premier temps, ces actes ont été manuellement complétés parles noms et prénoms des parents, et le Heu de naissance de chaque décédé,les informations originelles étant le nom, prénom, sexe et cause de décès. En1979, ces actes ont été couplés avec la généalogie selon des critères très stricts(correspondance exacte de toutes les informations nominales, de Pannée et dumois de naissance).

Page 22: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

202 V.H. \VESLEY, 8.1\1. DINTELMAN ...

Nous présentons ici le projet de jumelage des actes entre eux, destiné àreconstituer les fratries en utilisant les informations liées aux parents. Cetteapplication, typique des jumelages d'informations individuelles, est tout àfait représentative (en simplicité) de la majorité des projets de jumelageactuellement menés un peu partout.

On retrouve dans la réalisation de ce projet les principales phases de tra~

vail évoquées plus haut :

a) classification:

Les classes sont constituées au travers d'un processus itératif décomposéen étapes faisant intervenir des critères de couplages qui leur sont propres. Cinqphases de couplage ont été réalisées) dont la majorité incluent l'utilisation dutransducteur phonétique présenté plus haut (UPT) pour résoudre le prohlèmedes variations nominales. Le recours à cet outil était ici particulièrementprécieux du fait que les seules informations impliquées dans le processus étaientdes informations nominales.

Les cinq phases dlitération de couplage réalisées correspondent aux critèressuivants:

correspondance phonétique des quatre informations nominales des parents.

correspondance Soundex du nom et du prénom du père, du nom de lamère.

correspondance Soundex du nom du pèrel du nom et du prénom de lamère.

correspondance phonétique du nom et du prénom du pèrel du nom de lamère.

correspondance phonétique du nom et du prénom de la mère, du prénomdu père.

La première phase a produit 13.431 classes représentant 34.507 actes. Lesautres passes n'ont concerné que les actes nlayant pas déjà été classés, et ontproduit au total 3.829 classes regroupant 11.580 actes. Au total, ce sont 17.260classes qui ont été produitesl regroupant 46.087 actes.

La répartition de la taille des classes est donnée par le tableau ci-dessous:

Page 23: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONNf:ES Of:N~ALOOIQVES

taille des classes(en nombre d'actes)

23456789

>9

nombre de classes

10.4343.5311.336

495195

6939

118142

203

L'ensemble des classes de taille 9 ou moins représente 94 % des classesobtenues. Les classes de grande taille correspondent aux noms très peu discri­minants (Ex. Mary Smith, épouse de John Johnson), et aux actes comportantbeaucoup d'information manquante.

b) l'évaluation

Les scores ont été calculés selon la méthode de Newcombe, et attribués àchaque lien entre enregistrements figurant dans les classes. Une attention touteparticulière a été naturellement donnée au degré de correspondance des infor­mations nominales:

correspondance exacte des formes originales.

correspondance Soundex.

correspondance phonétique (selon l'un des quatre niveaux).

correspondance des quatre premiers caractères.

correspondance de la première lettre (prénoms seulement).

Chacun de ces critères étant évalué pour deux noms en cours decomparaison, la mesure maximale des tests positifs est retenue pour cette cor­respondance. Le score attribué à un lien est la somme des scores individuelsobtenus par les différentes informations comparées.

Remarquons que les informations absentes ont un score nul. Par ailleurs,les interversions entre les premiers et seconds prénoms étant très fréquentes, ila fallu tenir compte de ce phénomène et leur assigner un score particulier (on

Page 24: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

204 V.H. WESLEY, S.~L DINTELMAN ...

compare également les prénons de manière croisée, en gardant la règle du maxi­mum des scores obtenus entre comparaison directe et comparaison croisée).

c) sélection:

Le seuil d'acceptation des liens a été fixé selon un critère de taille depopulation (cf plus haut). Ce seuil a été fixé à la valeur 27 conformément à ceprincipe: Wl seuil de 16,8 signifie que la probabilité que deux actes parmi lesquelques 115.000 du fichiers soient relatifs à un même individu est voisine de1 (log, de 115.000 "" 16,8). Une addition de 10 à cette valeur, qui lui donnele total d'environ 27 indiqué, assure un rapport de probabilités de 1.000 contreun que ce lien est correct (log, 1.000 "" 10).

Les résultats définitifs obtenus par cette méthode de couplage ont étéenregistrés sous forme tabulée, et comparés avec les résultats obtenus lorsdu couplage avec la généalogie. Les cas de désaccord ont été peu nombreux(individus identifiés comme appartenant à la même fratrie dans la généalogie,et non identifiés en tant que tels dans le couplage des actes de décès, etréciproquement) : 3 % environ. Ces désaccords sont principalement liés auxvariations nominales non décelées automatiquement, aux unions polygames nondécelables au niveau des actes de décès (un même individu peut épouser deuxsoeurs et obtenir une descendance de chacune d'elles, ces cas de fausse fratriedans la descendance sont indiscernables compte tenu des informations utiliséesen couplant les actes de décès). Le taux de confirmation par la généalogie aété d'environ 60 %j le reste, soit 37 % environ, est relatif à des informationsincomplètes de la généalogie (la population représentée par les registre de décèsn'est pas strictement incluse dans la généalogie).

10.2 Le jumelage du recensement de 1880

Le recensement de 1880 de l'Utah est relatif aux foyers (households);il donne une image instantanée de la composition de ceux-ci. On y trouvegénéralement deux types de résidents: une famille ou un groupe de personnessans liens de parenté entre elle (invité, employés...), ou les deux à la fois. Lerecensement de 1880 comprend 142.768 mentions d'individus.

L'information contenue dans les fiches de recensement était, pour chaquepersonne mentionnée, le nom, le prénom, l'âge déclaré, le sexe, le lieu denaissance, et le lien de parenté éventuel avec le chef du foyer. Dans la généalogiedes Mormons de l'Utah, les informations correspondantes disponibles sont lenom, le prénom, le sexe, la date de naissance, le lieu de naissance et les liensgénéalogiques avec les ascendants et les descendants.

Page 25: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONNÉES GÉNÉALOGIQUES 205

Le couplage entre ces deux sources d'informations s'est opéré en plusieursétape dont la première a consisté à traiter manuellement deux cmutés, de façonà affiner la stratégie de couplage qui allait être utilisée automatiquement parla suite sur l'ensemble des données, et sc donner des moyens de vérificationultérieurs.

Ce projet, le plus complexe que nous avons entrepris à ce jour, nous aamenés à développer de nouveaux éléments méthodologiques en ce qui concernela phase de classification: il ne s'agit, en effet, plus ici de comparer des individus,mais des ensembles d'individus liés éventuellement par des relations généalogi­ques (les familles de la généalogie et celles qui ont été recensées).

a) classification

L'algorithme de classification mis en oeuvre fait appel à une notion nouvelleintroduite par Y. Chiaramella, et qui est celle dH1étoile". Pour comparerdes structures généalogiques entre elles, un moyen commode est en effet deconsidérer un individu recensé (par exemple le chef de foyer) comme le centred'une étoile dont les llrayons" figurent les liens généalogiques le liant aureste des membres du foyer. On peut associer une longueur à ces rayons,proportionnelle à la profondeur du lien généalogique : les liaisons avec laparenté directe (conjoint, parents, enfants) auront une longueur de 1, alorsque les références plus lointaines (grands-parents, petits-fils, oncles...) aurontdes longueurs de 2, et ainsi de suite.

Un foyer peut donc, dans le cas général où il contient une famille et unensemble de personnes non liées par des liens familiaux, être considéré commeune étoile accompagnée d'un ensemble de points isolés figurant ces dernières.

Comparer un foyer à la généalogie est donc un problème comportant deuxdimensions: des comparaisons de personnes et des comparaisons de structures.Il nous est vite apparu, compte tenu de la qualité des informations, que ces deuxaspects étaient complémentaires. Considérons, par exemple, un llJohn Smith"apparaissant dans le recensement. Ces informations, même en considérantl'âge, sont insuffisantes pour identifier correctement ce HJohn Smith" dansla généalogie. Par contre, si l'on tient compte, dans le recensement, que cetindividu est marié à Mary, qu'il a une fille prénommée Margaret, et que l'ontrouve dans la généalogie une mention d'un uJohn Smith", marié à MaryHenderson, et que ce couple a (entre autres) une fille prénommée Margaret,alors l'ensemble de ces informations est de nature à nous convaincre qu'il s'agitdu même individu.

C'est ce type de comparaison que résoud la structure d'étoile dans ceque nous avons appelé par voie de conséquence (et sans idée de forfanterie!),

Page 26: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

206 V.H. WESLEY, S.M. DINTELMAN ..•

l'algorithme étoile (Star algorithm). Cet algorithme combine les techniquesclassiques évoquées plus haut de couplage d'informations individuelles et, cequi est nouveau, d'informations structurelles correspondant à la vérificationdes liens généalogiques représentés par les rayons.

La stratégie de vérification d'une telle structure consiste à identifier lesindividus potentiellement jumelables avec le coeur de l'étoile, et de poursui~

vre cette vérification, pour chacllll d'eux, de manière expansive en considérantdes rayons de plus en plus longs : il s'agit alors de retrouver dans lagénéalogie, à partir de l'individu couplé au coeur de l'étoilc,les mêmes conjoints,ascendances et descendances que celles indiquées par les rayons de l'étoile.La généalogie donnant une image intemporelle et en principe complète de lapopulation, l'étoile doit être totalement incluse dans le graphe généalogique. Enfait, l'inclusion sera généralement partielle du fait des erreurs et que la généa­logie ne recouvre pas toute la population de l'Etat (l'analyse de ces différenceest bien sûr l'un des objectifs de l'étude). Le processus de vérification lié auxrayons est concentrique, à partir du centre de l'étoile : les liens les plus courtssont les plus aisés à vérifier. Lorsque leur longueur augmente, les temps d'accèscorrespondants augmentent très vite car plusieurs chemins sont alors possibles(par exemple si A a pour oncle B, il faudra rechercher B parmi les frères dupère de A et de la mère de A).

a) classification

Pour des raisons d'efficacité, la classification s'est opérée en deux phases.Tout d'abord un couplage classique des individus mentionnés dans le re­censement avec ceux de la généalogie. Cette phase est fondée sur l'exactecorrespondance des informations nominales avec une tolérance d'écart de ±1an entre l'âge déclaré (recensement) et l'âge calculé (différence entre la date derecensement et la date de naissance issue de la généalogie).

Il est à remarquer que cette première étape, impliquant les critères lesplus stricts, n'a permis de coupler que 50 %des individus du recensement avecla généalogie. Ceci indiquait clairement qu'il fallait moins fonder la stratégiedu couplage sur les informations individuelles et plus sur les informationsstructurelles présentes dans le recensement.

La seconde phase de classification a donc consisté à appliquer, dansune certaine mesure, la stratégie de l'algorithme étoile : au fur et à mesurequ'on relâchait les critères relatifs aux informations individuelles (d'abordcorrespondance Soundex des noms et une tolérance d'écart d'âge de ±5 ans,jusqu'à la correspondance de la première lettre du nom, la correspondanceSoundex des prénoms et des écarts d'âge de ±1O ans), on renforçait les contrôles

Page 27: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONNÉES GÉN~ALOOIQUES 207

au niveau des liens généalogiques: on exigeait la reconnaissance d'un puis deuxau moins des rayons de l'étoile dans la généalogie. Cet assouplissement descritères individuels de couplage permettait de trouver plus de liens potentiels,mais risquait également d'aboutir à des classes très grosses: l'intervention descritères généalogiques (l'information structurelle) permet alors de limiter cetteexpansion potentielle.

Au terme des deux phases du couplage, 70 % des fiches du recensementont été couplées avec la généalogie.

b) évaluation

La méthode d'évaluation utilisée ici est à nouveau celle des mesure devraisemblance. L'évaluation a été cependant menée à deux niveaux dans ce casparticulier: évaluation d'un score pour les liens individuels, selon le principedéjà évoqué plus haut, et évaluation de la cohérence observée au niveau del'information structurelle (correspondance de liens généalogiques), qui constituede fait une information supplémentaire (identifier une correspondance entre aet a', b et b' est différent d'identifier a comme père de b et a' comme pèrede b '). Toutes ces mesures ont été utilisées pour définir un score au niveau desfamilles,' l'unité finale d'évaluation a donc été les liens entre familles, et nonplus les liens entre individus.

L'évaluation du score assigné à un lien entre famille (de la généalogieet du recensement) est calculé pour l'instant, en sommant les scores obtenuspar tous les liens individuels qui ont été trouvés entre ces familles: ce moded'évaluation, bien que donnant des résultats acceptables, n'est pas entièrementsatisfaisant d'un point de vue théorique. Il conviendrait d'y prendre en compteplus formellement l'information structurelle : si p(a,b) exprime la relation deparenté p entre les individus A et B dans un fichier, et si on a trouvé une relationP(A / , B') dans un autre fichier (avec A et A', D et n' respectivement couplés)le score assigné au lien 1 entre ces deux structures généalogiques s[l]=S(P(A,U),P(A ' ,B')] doit être une fonction du type:

l'(P, 8(a, a'), 8(b, b'll

oit 8(a,a') et 8(b,b') sont les scores des liens entre individus.

c) décision

L'existence de liens entre familles et de scores asSOCIes implique deconsidérer, pour l'étape de décision, des classes de familles, exactement comme

Page 28: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

208 V.H. WESLEY! S.M. DINTELMAN ...

on considérait des classes cl 'individus dans les applications courantes. Lastratégie de décision, clans ce cas, a été fondée sur la sélection des liensayant un score supérieur à un seuil dépendant du nombre d'individus couplésclans la famille. Par exemple, deux familles couplées à travers seulement deuxindividus doivent obtenir un score supérieur à 26; ce seuil tombe à 15 pourdes familles ayant trois individus couplés, et à 10 pour celles possédant cinqindividus couplés et plus. Cette modification des seuils en fonction du nombred'individus couplés constitue une manière empirique de tenir compte des infor­mations structurelles (en Pabsence, pour l'instant, de fondement plus rigoureuxpour évaluer cette information).

Le processus de jumelage automatique a été complété par une phasede résolution manuelle de certains cas spécifique. Cette opération est renduenécessaire par le fait que l'algorithme actuel de couplage n'intègre pas encoreles pleines possibilités de l'algorithme étoile (le contrôle des liens généalogiqueest actuellement trop limité).

Les résultats complets de ce projet sont encore en cours de synthèse; bienque les données relatives à deux comtés ne puissent ternI' lieu de démonstrationdéfinitive quant à la méthode utilisée, ils constituent cependant une indicationintéressante.

Pour le comté de Davis, (population de 4.924 individus), 78,6 % desindividus ont été couplés avec la généalogie. Ce pourcentage a été porté à88 % à la suite de la phase de jumelage manuel. Une vérification manuelle apermis d'établir que, pour ce comté, le pourcentage des liens erronés établisautomatiquement est inférieur à 1 %.

Le comté de Washington, avec une population de 4.140 personnes, a étécouplé à raison de 57,2 %seulementj ce pourcentage a été porté à 66,7 % à lasuite d'une opération de couplage manuel. Une première question se pose doncquant aux différences des taux de jumelage observés.

La raison essentielle tient aux différences de nature de population entre cesdeux comtés: le comté de Davis est essentiellement composé d'une populationd'agriculteurs, fortement organisée autour de structures familliales et doncbeaucoup plus stable et liée au terroir. La population du comté de vVashingtonest composée à la fois d'agriculteurs et de mineurs j c'est principalement cettedernière communauté qui est responsable des différences observées dans lesrésulats globaux. Elle est essentiellement composée d'hommes célibataires,vivant seuls ou en baraquements, et est très mobile. Il n'est donc pas surprenantqu'on en trouve peu de trace dans la généalogie de l'état.

D'autres biais sont également liés à la nature même de la population :on retrouve ici les problèmes liés à la polygamie évoqués dans la précédenteapplication. Une femme mariée peut vivre dans un foyer différent de son époux:

Page 29: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONNtES OtNtALOOIQUES 209

la mention de celui-ci n'est donc pas portée dans le recensement du foyer oùvit cette femme, ce qui limite les possibilités de la coupler avec la généalogie,surtout si elle est seule (pas d'information structurelle utilisable). On observede fait une différence sensible du taux de jumelage entre les hommes mariés(81,2 %) et les femmes mariées (64,2 %).

11.- Développements futurs du système.

Nous avons deux objectifs principaux en ce qui concerne le développe­ment futur du système de couplage généralisé: le premier est, comme déjàindiqué plus haut, de rendre entièrement automatique certaines fonctionsqui nécessitent encore un effort de programmation pour traiter un problèmeparticulier. Notre stratégie de spécification des paramètres de généralisation, etde développement des outils correspondants au travers de nombreuses applica­tions très variées nous permet un certain optimisme à cet égard, dans la mesureoù les résultats observés sont de très bonne qualité. La seconde étape consiste àintégrer complètement ces fonctions dans GENISYS, de façon à les rendre acces­sibles via UFI (User FHendly Interface), exactement comme les autres fonctionsstandard actuelles de GENISYS. Cet aspect est extrêmement important en cequi concerne la généralisation d'usage du système : notre objectif est qu'ilsoit utilisable même dans des contextes où certains éléments méthodologiquesdiffèrent des nôtres (par exemple les méthodes d'évaluation des liens).

Comme nous l'avons déjà exposé plus haut, il est en effet clair quela stratégie de couplage et de jumelage des informations doit pouvoir êtreadaptée à chaque problème particulier (même si les outils de base demeurentidentiques). Les éléments d'une stratégie particulière concernent essentiellementles paramètres de couplage et de classification (quelles sont les informationsdisponibles utilisables), les données relatives au processus d'évaluation (tablesde fréquence des valeurs, table de répartition des erreurs, méthodes d'évaluationde la vraisemblance associée), et les paramètres de décision (définition des seuilsd'acceptation et de rejet). De plus, il faut permettre une mise en oeuvre adaptéede ces différentes phases (voir, par exemple, le processus itératif de couplagedont les différentes phases sont définies en fonction de l'application particulière).

Ces considérations opérationnelles conduisent à la définition d'un ensemblede commandes permettant de mettre en oeuvre ces différents aspects dutraitement d'un projet de manière très souple, de façon à ce que l'usagersoit maître de la stratégie globale de résolution. L'usager étant par ailleursnon informaticien, il faut que ces commandes soient très simples à mettre enoeuvre (de haut niveau d'expression), dans un contexte interactif convivial. Lagénéralité d'usage du système n'est alors limitée que par la définition même

Page 30: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

210 V.H. WESLEY, S.M. DINTELMAN ...

des différentes étapes fondamentales du processus de jumelage (classification,évaluation, décision).

Les fonctions énumérées ci-dessous, ainsi que les commandes GENISYS cor­respondantes, sont celles que nous projetons d'offrir dans une prochaine versiondu système.

11.1. Les commandes relatives à la définition des paramètres

Le paramètres essentiel de l'opération de classification (couplage) estl'ensemble des relations mises en oeuvre pour établir les liens potentiels entreenregistrements, et qui expriment une condition nécessaire et suffisante pourque deux enregistrements soient réunis dans une même classe. Une relationde couplage est assimilable à une expression logique composée de condit.ionsportant sur des informations élémentaires, telles que l'égalité des noms. Ladéfinition d'une relation de couplage sera effectuée via la commande:

CREATE/CREL exacL matchnoml=nom2 ET prénoml=prénom2 ET année_ naissancel=année_ naissance2

Cette commande à pour effet la création d'un fichier de nom llexacLmatch)} qui décrit, pour l'application en cours, une relation de couplage portantce nom, définie ici comme l'exacte correspondance du nom, prénom et de l'annéede naissance.

Le paramèt.re essentiel de l'opération d'évaluation consiste en la définitiondes méthodes d'évaluation associées à chaque information, et à la méthode decalcul globale du score assigné à un lien potentiel. La commande correspon­dante est:

CREATE/SREL scorel OF exacL matchscorenom(r1)+scoreprénom(r2)+scoreannée(r3)

Cette conunande crée la définition d'une méthode d'évaluation (Scoring­RELation) de nom score l, associée à la relation de couplage llexact_ match".Les fonctions "scorenom", etc. font partie d'tul catalogue de fonctions standarddu système, ou peuvent être des fonctions spécifiquement développées (si lesfonctions standard ne sont pas jugées satisfaisantes dans le cas particulier). Lesnotations ri font référence aux relations élémentair~sde la relation de couplage j

rI correspond à "nom1=nom2" de HexacL match", et ainsi de suite.

Plusieurs relations de couplage peuvent être définies pour un même pro­jet (cf le processus itératif de classification avec des relations de plus en plus

Page 31: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONNtES otNtALOGIQUES 211

tolérantes), de même qu'il est ainsi possible de définir plusieurs relations d'éva­luation associées à une même relation de couplage (à des fins de comparaisonexpérimentale des résrntats obtenus avec différentes méthodes d'évaluation pourune même relation de couplage).

11.2. Mise en oeuvre des processus de classification et dJévaluation

Ces opérations peuvent être lancées indépendamment (à des fins d'expéri­mentation) ou conjointement (une fois le modèle de couplage jugé satisfaisant)sur tout ou partie des données.

La commande:

CLUSTER exacL match IFROM sccd_ file] GIVING c!usteL file

où les [ ] indiquent une clause optionnelle, permet de lancer le processus deconstruction des classes seul, sur la base de relation de couplage "exacL match",et d'en obtenir les résultats (les classes) dans un fichier de nom Hcluster_ file".Cette opération peut être effectuée sur toutes les données disponibles (si lapartie entre l ] de la commande n'est pas spécifiée), où à partir d'un sous­ensemble des données spécifié dans le fichier "seed_ file". Dans ce dernier cas,semes les classes relatives à ces enregistrements seront construites.

Cette possibilité d'exécution partielle du processus de classification permetla mise au point des relations de couplage sur autant de cas expérimentaux quevoulu.

La commande:

SCORE cluster- file WITH score!

permet de tester le processus d'évaluation défini par "scorel" sur l'ensembledes classes enregistrées dans "duster_ file" .

La commande:

CSCORE exacL match[FROM seed_ file) GIVING c!usteL file WITH score 1

permet de combiner les deux types d'opérations précédents en lUle seulecommande : les classes correspondantes à la relation de couplage {(exacLmatch') sont construites (sur toutes les données ou sur un sous-ensemble définipar "seed_ file") dans Clcluster_ file", et évaluées selon le processus défini par"scorel" .

Page 32: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

212 V.H. WESLEY, S.M. DINTELMAN ...

La commande:

DISPLAY/[BOUND=21j[WITHIN clnb_ file] FROM clnster- file

permet de visualiser le contenu des fichiers de classes obtenus par les com~

mandes précédentes. L'option WITHIN rangc_ file permet de ne visualiser quele sous-ensemble des classes dont le numéro d'ordre est spécifié dans le fichierHclnb_ file" l l'option DOUND=21 permet de ne visualiser, à l'intérieur de chaqueclasse, que les liens dont le score est supérieur ou égal à Wle limite donnée (ici21).

11.3 Commandes relatives au processus de décision

La commande:

DECIDE décisionl FROM clnsler- file GIVING solntion_ file

permet d'appliquer la procédure de sélection de nom IIdécisionl" sur l'ensembledes classes spécifié par "cIuster- file 'l , le réswtat étant enregistré dans usolution~

file". La procédure de décision invoquée (ici ((décision}") peut soit être uneprocédure standard du système, soit une procédure (un programme) écrit parl'utilisateur si les procédures offertes ne le satisfont pas.

Les solutions étant enregistrées selon un même format que les classes (ellesen sont des sous-ensembles), il est possible de visualiser à partir de la commandeDISPLAY présentée plus haut.

Nous pensons que le système qui a été présenté peut, de par ses perfor­mances déjà observées sur une grande variété d'applications (dont certaines trèscomplexes), et de par les modalités de mise en oeuvre que nous nous efforçonsde mettre en place, pourra rendre des services considérables au niveau de laqualité et de la facilité de réalisation de travaux de recherches dans tous lesdomaines où le jumelage d'informations est d'une importance fondamentale.

Bibliographie.

BEAN LL., MINEAU GP. (1984), Linking the 1880 manu.>eript eensu.> to familygenealogies : methodologieal techniques and problems, Paper presented althe Social Science History Association Meeting, Toronto, Canada, Odober26,1984.

Page 33: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

BASES DE DONN~ES otNtALOGIQUES 213

BEAUCHAMP P., CHARBONNEAU H., LAVOIE Y. (1972), Automatic record lin­kage of nominal data: the experience of the seventeenth century Canadiancensuses. Paper presented at : 1972 Annual Meeting of Population Asso­ciation of America, Toronto, Canada, 12-15/4 : 1972.

llOUCHARD G. (1985), The proc...ing of ambiguou. link. in computerizedfamily reconstruction. Unpublished manuscript.

llOUCHARD G., POUYEZ C. (1980), Name variation. and computerized recoTdlinkage, dans Hi.torical Method., 13(1) : 119-125

BUCHANAN AV., WEISS KM., SCHWARTZ RJ., MACNAUGHTON NL., MAc­CARTAN Ma, BATES SS. (1984), Recon.titution of genealogi.. from vitalrecoTd. : the Laredo Epidemiology Prajeet, dans ComputeT and BiomedicalR..earch, 17 : 326-35l.

CHIARAMELLA Y., DINTELMAN S., MA NESS AT., SKOLNICK M. (1982), VeT.un .y.tème complet de ba.. de donni.. ginialogiqu.. : GENISYS. Pre­sented at the Workshop on historical Demography and Genealogy, Paris,November, 1982.

CHIARAMELLA Y. (1981), Traitement de donni.. ambiguë. dan. un .y.tèmede base de données. Application aux bases de donnécs démographiques.Thèse de doctorat spécialité «~IathématiqueslJ, Université Scientifique ctMédicale de Grenoble, Institut National Polytechnique de Grenoble, Juin1981.

CIllARAMELLA Y. (1977), Evaluation du pouvoir di.cr;'ninant d'un en.cmbled'informations. Application aux bases de donnécs. Congrès AFCET Infor­matique, Nancy, Novembre 1980.

CHIARAMELLA Y. (1976), Ditection automatique de. variation. orthographique.sur des noms propres. Définition d'un transductcur morpho-phonétiqueinteractif, Third International Conference on Computational Linguistics,Ottawa, Canada, 1976.

DINTELMAN S., MANESS AT., SKOLNICK MH., BEAN LL. (1980), GENISYS : Agenealogical information system, dans Genealogical Demography, B. Dyke(ed.) New-York, Academie Press.

GUTH GJA. (1976), Surname .pelling and computerized recoTd linkage, dansHi.toTical Method. New3letter, 10(1) : 10-16.

HOWE GR., LINDSAY J. (1981), A general iterative record linkage computeTsystem for use in medical follow-up studies, dans Computer and BiomedicalR..earch, 14 : 327-340.

LEGARE J., LAVOrE Y., CHARBONNEAU H. (1972), The early Canadian popula­tion : problems in automatic record linkage, dans The Canadian HistoricalReuiew, LIII (4) : 427-442.

Page 34: Couplage d'Informations dans un Système de Gestion de Bases de …promethee.philo.ulg.ac.be/RISSHpdf/annee1987/Articles/VHWesleyetc.… · de couplage des vérifications sur les

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIII, 1 à 4, 1987. C.I.P.L. - Université de Liège - Tous droits réservés.

214 V.H. WESLEY, S.M. DINTELMAN ...

MANESS AT., DINTELMAN SM., SKOLNICK MH. (1979), Antomatic programgeneration for proce33ing a high level relational-like query language. Proc.1979 Annual Conférence, Association for Computing Machinery, Detroit,October 29-31, 1979.

NEWCOMBE HB. (1965), Record linkage : concept.! and potentialities, dansMathematic3 and Computer Science in Biology and Medecine, LondonMedical Research Conncil-HM Stationery Office, pp. 43-49.

NEWCOMBE HB. (1967), Record linking : the design of efficient systems forlinking records into individual and family histories, dans American journalof Hnman Genetics, 19(3), Part l : 335-359.

NEWCOMBE HB., KENNEDY JM., AXFORD SJ., JAMES AP. (1959), Antomaticlinkage of vital and health records, dans Science 130 : 954-959.

SHANNON CE. (1948), A mathematical Theory of Commnnication, dans BellSystem Technical Jonrnal, 27 : 379-423.

SKOLNICK MH. (1973), The resolntion of ambignities in record linking, dansIdentifying People in the Post, E.A. Wrigley (ed.) London, Edward ArnoldPress, pp. 102-127.

SKOLNICK MH. (1974), The constitntion and analysis of genealogiC3 from parishregisters with a case study of Parama Valley, !taly. Ph. D. Dissertation,Stanford, CA : Stanford University.

SKOLNICK MH., BEAN LL., DINTELMAN SM., MINEAU G. (1979), it A com­pnterized family history data base system, dans Sociology and Social Re­search, 63:(3):506-523.

vVESLEY W. (1985), Phonetic transduction as a tool for record linking. Master'sthesis, University of Utah.