probabilistic record linkage (prl). base samu base hôpital base unique enrichissement des bases...
TRANSCRIPT
Probabilistic Record Linkage (PRL)
Base SAMUBase hôpital
Base uniqueEnrichissement des bases locales
Combiner plusieurs ensembles de données en un seul
RL : objectif
Marie Dupond F 05/05/44 18/11/08 fracture fémur, ...
Données SAMU
Marie Dupond F 05/05/45 18/11/08 cim10 ccam
Données hôpital
Utiliser des propriétés statistiques des variables communes (nom, prénom...) pour calculer la probabilité que 2 enregistrements concernent le même patient.
PRL : méthode
PRL : méthode
• Pour une variable
• Deux propriétés statistiques
Fiabilité
Pouvoir discriminant
• Pour calculer la cote d'un appariement
PRL : fiabilité
• probabilité d'agrément sur un appariement. (# sensibilité)
• F = 1 – taux d'erreur
• taux d'erreur : déterminé à partir d'une analyse manuelle des
données ou de recherches précédentes (erreurs de saisie)
• Ex:
variable = nom de familletaux erreur = 5%nom SAMU = nom hosp fiabilité F = 0.95nom SAMU ≠ nom hosp fiabilité 1- F = 0.05
PRL : pouvoir discriminant
probabilité d'un agrément sur un non appariement.
P = 1 / nombre valeurs possibles
• Ex :
Variable = mois de naissance (en chiffres)
12 valeurs possibles
mois SAMU = mois hosp P = 1 / 12 = 0.083
mois SAMU ≠ mois hosp P = 0.917
PRL : fiabilité x pouvoir discriminant
Mois de naissance 12 valeurs possiblesTaux d'erreur = 5%
2 possibilités :agrément
mois SAMU = mois hosp 0.95 0.083 11:1
mois SAMU ≠ mois hosp 0.05 0.917 1:18
PRL : en pratique
SAMUSAMU HôpitalHôpital
Si 1 enregistrement de la base hôpital s'apparie à 1(et 1 seul) enregistrement de la base SAMU qui contient 100 000 enregistrements :
Cote d'appariement de 2 enregistrements = 1 contre 99 999
PRL : agrément sur le prénom
F = 0.90
P = 0.01
prénoms identiques : agrément sur le prénom = 90:1
Cote d'appariement = 1 / 99 999 x 90/1 = 1 contre 1 111
Marie Dupond F 05/05/44 18/11/08 fracture fémur, ...
Données SAMU
Marie Dupond F 05/05/45 18/11/08 cim10 ccam
Données hôpital
PRL : agrément sur le nom
F = 0.90
P = 0.004
noms identiques : agrément sur le nom = 22:1
Cote d'appariement = 1 / 1 111 x 22 / 1 = 1 contre 51
Marie Dupond F 05/05/44 18/11/08 fracture fémur, ...
Données SAMU
Marie Dupond F 05/05/45 18/11/08 cim10 ccam
Données hôpital
PRL : agrément sur le sexe
F = 0.99
P = 0.5
sexes identiques ratio : agrément sur le sex = 2 : 1
Cote d'appariement = 1 / 51 x 2 / 1 = 1 contre 25
PRL : agrément sur la date de naissance
Jour : F = 0.99 P = 0.03 (1/30)
jours identiques : agrément sur le jour = 30 : 1
Mois : F = 0.99 P = 0.08 (1/12)
mois identiques : agrément sur le mois = 12 : 1
Année : F = 0.99 P = 0.01
années différentes
agrément sur l’année = 0.01 / 0.99 = 1 : 99
Cote d'appariement = 1 / 25 x 4 = 1 contre 6
PRL : validation
Sensibilité
Spécificité
Courbes ROC
Valeurs seuils
PRL : agrément sur 2 enregistrements
Cote = 1 contre 6
3 classes en fonction de valeurs seuils
Cote > S1 appariement oui
Cote < S2 appariement non
- S2 < cote < S1 appariement ?