probabilistic record linkage (prl). base samu base hôpital base unique enrichissement des bases...

14
Probabilistic Record Linkage (PRL)

Upload: germaine-martinez

Post on 03-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

Probabilistic Record Linkage (PRL)

Page 2: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

Base SAMUBase hôpital

Base uniqueEnrichissement des bases locales

Combiner plusieurs ensembles de données en un seul

RL : objectif

Page 3: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

Marie Dupond F 05/05/44 18/11/08 fracture fémur, ...

Données SAMU

Marie Dupond F 05/05/45 18/11/08 cim10 ccam

Données hôpital

Utiliser des propriétés statistiques des variables communes (nom, prénom...) pour calculer la probabilité que 2 enregistrements concernent le même patient.

PRL : méthode

Page 4: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : méthode

• Pour une variable

• Deux propriétés statistiques

Fiabilité

Pouvoir discriminant

• Pour calculer la cote d'un appariement

Page 5: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : fiabilité

• probabilité d'agrément sur un appariement. (# sensibilité)

• F = 1 – taux d'erreur

• taux d'erreur : déterminé à partir d'une analyse manuelle des

données ou de recherches précédentes (erreurs de saisie)

• Ex:

variable = nom de familletaux erreur = 5%nom SAMU = nom hosp fiabilité F = 0.95nom SAMU ≠ nom hosp fiabilité 1- F = 0.05

Page 6: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : pouvoir discriminant

probabilité d'un agrément sur un non appariement.

P = 1 / nombre valeurs possibles

• Ex :

Variable = mois de naissance (en chiffres)

12 valeurs possibles

mois SAMU = mois hosp P = 1 / 12 = 0.083

mois SAMU ≠ mois hosp P = 0.917

Page 7: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : fiabilité x pouvoir discriminant

Mois de naissance 12 valeurs possiblesTaux d'erreur = 5%

2 possibilités :agrément

mois SAMU = mois hosp 0.95 0.083 11:1

mois SAMU ≠ mois hosp 0.05 0.917 1:18

Page 8: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : en pratique

SAMUSAMU HôpitalHôpital

Si 1 enregistrement de la base hôpital s'apparie à 1(et 1 seul) enregistrement de la base SAMU qui contient 100 000 enregistrements :

Cote d'appariement de 2 enregistrements = 1 contre 99 999

Page 9: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : agrément sur le prénom

F = 0.90

P = 0.01

prénoms identiques : agrément sur le prénom = 90:1

Cote d'appariement = 1 / 99 999 x 90/1 = 1 contre 1 111

Marie Dupond F 05/05/44 18/11/08 fracture fémur, ...

Données SAMU

Marie Dupond F 05/05/45 18/11/08 cim10 ccam

Données hôpital

Page 10: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : agrément sur le nom

F = 0.90

P = 0.004

noms identiques : agrément sur le nom = 22:1

Cote d'appariement = 1 / 1 111 x 22 / 1 = 1 contre 51

Marie Dupond F 05/05/44 18/11/08 fracture fémur, ...

Données SAMU

Marie Dupond F 05/05/45 18/11/08 cim10 ccam

Données hôpital

Page 11: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : agrément sur le sexe

F = 0.99

P = 0.5

sexes identiques ratio : agrément sur le sex = 2 : 1

Cote d'appariement = 1 / 51 x 2 / 1 = 1 contre 25

Page 12: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : agrément sur la date de naissance

Jour : F = 0.99 P = 0.03 (1/30)

jours identiques : agrément sur le jour = 30 : 1

Mois : F = 0.99 P = 0.08 (1/12)

mois identiques : agrément sur le mois = 12 : 1

Année : F = 0.99 P = 0.01

années différentes

agrément sur l’année = 0.01 / 0.99 = 1 : 99

Cote d'appariement = 1 / 25 x 4 = 1 contre 6

Page 13: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : validation

Sensibilité

Spécificité

Courbes ROC

Valeurs seuils

Page 14: Probabilistic Record Linkage (PRL). Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un

PRL : agrément sur 2 enregistrements

Cote = 1 contre 6

3 classes en fonction de valeurs seuils

Cote > S1 appariement oui

Cote < S2 appariement non

- S2 < cote < S1 appariement ?