soutenance de thèse 2/12/2008 indexation multi-terminologique de concepts en santé suzanne pereira...

61
Soutenance de thèse 2/12/2008 Indexation multi- terminologique de concepts en santé Suzanne Pereira Encadrée par : Élisabeth Serrot, Michel Joubert et Stefan J. Darmoni LITIS, Université de Rouen - Équipe CISMeF, CHU de Rouen LERTIM, Faculté de médecine, Marseille Vidal, Issy les Moulineaux 1

Upload: reine-ferreira

Post on 04-Apr-2015

102 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Indexation multi-terminologique de concepts en santé

Suzanne Pereira

Encadrée par : Élisabeth Serrot, Michel Joubert et Stefan J. Darmoni

LITIS, Université de Rouen - Équipe CISMeF, CHU de RouenLERTIM, Faculté de médecine, Marseille

Vidal, Issy les Moulineaux

1

Page 2: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Plan Introduction

Indexation de documents en santéTrois contextesVers une indexation automatiqueObjectifs

État de l’art

F-MTI, un extracteur multi-terminologique pour l’aide à l’indexation

ConceptionÉvaluation Applications

Discussion

Conclusion et perspectives

2

Page 3: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Introduction

3

Page 4: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Principe« consiste à repérer des mots ou des expressions particulièrement significatifs (appelés termes) dans un contexte donné, et à créer un lien entre ces termes et le texte original. »

4

Documentdiabète de type 2

enfantsanté publique

épidémieobésite

Etats-UnisRoyaume-Uni

épidemiologiquescours

diagnostiqueFrance

malprévention

Recherche d’information

Aide à la décision

Statistique, budget, suivi médical du patient

Indexationcontrôlée

Indexation de documents en santé

Terminologies adaptées

De qualité

Page 5: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Trois contextes CISMeF (le Catalogue et Index des Sites Médicaux Francophones)

• Projet initié en 1995 (http://www, cismef.org)• ~60 000 ressources Web professionnels de santé,

étudiants, patients• Indexation manuelle à l’aide du MeSH

5

Diffusion d’information sur les médicaments et aide à la prescription (société Vidal)

• Débuts en 1911• + 5 000 médicaments (RCP)• Indexation manuelle à l’aide de 4 terminologies et bientôt du

TUV

Dossier Médicaux (travaux LERTIM)• Réflexion depuis 1990• ~ 4 millions de comptes rendus hospitaliers (CRH) pour CHU de Rouen• Indexation manuelle à l’aide de la CIM10, de la CCAM et bientôt de la SNOMED 3.5

Page 6: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Cinq terminologies

6

MeSH (Medical Subject Heading)TUV (Thésaurus Unifié Vidal)CIM10 (Classification statistique Internationale des Maladies et des problèmes de santé connexes 10ème révision)CCAM (Classification Commune des Actes Médicaux)SNOMED 3.5 (Nomenclature Systématique de MÉdecine humaine et vétérinaire version 3.5)UMLS (Unified Medical Language System)

SNOMED 3.5 CIM10

TUV

CCAM

MeSHUMLS

Page 7: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Vers une indexation automatique

Indexation humaine, automatique ou semi-automatique :

Semi-automatique : le compromis

Critères Humaine Automatique

Variabilité inter-indexeurs élevée non

Synthèse oui bas

Problème d’ambiguïté bas élevé

Connaissances élevées basses

Temps d’indexation élevé bas

7

Page 8: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Objectifs Continuité de projets communs (CISMeF – Vidal –

LERTIM)UMLF : Lexique médical unifié français (Ministère de la Recherche ACI 2002) VUMeF : Terminologies françaises et aide à l’indexation (Ministère de la Recherche RNTS 2003)

Faciliter l’indexation des documentsConcevoir des méthodes d’indexation automatiqueÉvaluer ces méthodesProposer des applications pour CISMeF, Vidal et LERTIM

8

Page 9: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

État de l’art

9

Page 10: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008 10

A. Baneyx (SPIM)

D. Nakache (CEDRIC)

A. Névéol (CISMeF)

A. Aronson (NLM)

MTIMAIF

Medckare

CIREA

?

Medsight ®SNOCODE

?MeSH

TUV

Indexation de comptes rendus

SNOMED 3.5

CIM10

CCAM

Indexation de sites

Web Indexation de RCP

Outils existants

Page 11: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

État de l’art

Indexation mono-terminologie directeCIREA (CIM10), MAIF (MeSH), Snocode (SNOMED 3.5)

Indexation mono-terminologie indirecte (à partir d’un transcodage)

MedCKARe (ontologie pneumologie->CIM10),

Indexation multi-terminologiqueIndexation directe et indirecte pour plusieurs terminologies (une seule terminologie considérée)

• MTI (UMLS) : indexation en MeSH et CIM9-CM

11

Terminologie 1 à indexer

Terminologie 2Lien de transcodage

Terminologie 1 à indexer

Terminologie 1 à indexer

Lien de transcodage

Terminologie X

Page 12: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI, un extracteur multi-terminologique

pour l’aide à l’indexation

12

Page 13: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

13

Indexation multi-terminologique (inspiré de MTI)Indexation directe : CIM10, SNOMED, CCAM, MeSH, TUVProjection vers les terminologies désirées grâce aux transcodages (recherche de termes équivalents)

Indexation multi-document : dépendante du type de document

Traitement particulier des CRH, des sites médicaux et des RCPIndexation basique pour les autres documents (convertibles au format texte)

Indexation multi-tâche : dépendante de la tâche à effectuer (règles d’indexation)

Paramétrable (terminologies à utiliser, terminologies en sortie)

Page 14: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

14

Termes MeSH, CCAM, SNOMED, TUV et CIM10

NOOJ + dico de

constituants

Restriction à (une ou plusieurs terminologies)

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Algo SDM

Agrégation

Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)

NOOJ + dico de termes

Identification des rubriques, paragraphes et phrases

+ localisations

Phrases Ensemble de phrases (corpus)

Base de données

multi-terminologique

Post-traitement

Page 15: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Base de données multi-terminologique

Principe / MotivationInterrogation rapide des cinq terminologiesStructure de données simple et générique contenant des terminologies de structure différente

MéthodeModélisation de la structure de chaque terminologieÉlaboration du modèle général à partir des modélisations unitaires (inspiré du metathesaurus de l’UMLS)

Base de données

multi-terminologique

15

Page 16: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

16

Termes MeSH, CCAM, SNOMED, TUV et CIM10

NOOJ + dico de

constituants

Restriction à (une ou plusieurs terminologies)

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Algo SDM

Agrégation

Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)

NOOJ + dico de termes

Identification des rubriques, paragraphes et phrases

+ localisations

Phrases Ensemble de phrases (corpus)

Base de données

multi-terminologique

Post-traitement

Page 17: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Découpage en rubriques, paragraphes et phrases

17

Principe / MotivationIdentifier les unités d’indexation : les phrases Prise en compte du contexte (rubriques et paragraphes)Indexation du document = agrégation de l’ensemble des indexations pour toutes les phrases du document

Méthode

Découpage en phrase

Découpage

Découpage en rubriques

Découpage en paragraphes

Liste de nomsde rubriques

Balises, retour chariot etc…

TransducteurNooJ

Logiciel NOOJ(M, Silberztein)

Page 18: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Découpage en rubriques, paragraphes et phrases

18

Exemple

Antécédents 1 1 Ulcère gastrique opéré il y a 20 ans.Antécédents 1 2 Tabagisme à 40 paquets/an.Antécédents 1 3 Maladie d'Osler.Antécédents 1 4 Arythmie complète par fibrillation auriculaire en 90, 94 et en 2002.EXAMEN CLINIQUE 1 1 12-7.EXAMEN CLINIQUE 1 2 Pouls à 70.EXAMEN CLINIQUE 1 3 52 kg.EXAMEN CLINIQUE 1 4 Asymptomatique.EXAMEN CLINIQUE 1 5 Bruits du cœur réguliers avec un souffle d'insuffisance mitrale résiduel 1 à 2/6ème maximal au foyer mitral.

Antécédents

Ulcère gastrique opéré il y a 20 ans. Tabagisme à 40 paquets/an. Maladie d'Osler. Arythmie complète par fibrillation auriculaire en 90, 94 et en 2002.

EXAMEN CLINIQUE : 12-7. Pouls à 70. 52 kg. Asymptomatique. Bruits du cœur réguliers avec un souffle d'insuffisance mitrale résiduel 1 à 2/6ème maximal au foyer mitral.

Page 19: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Création de libellés d’indexation

Principe / Motivation3 méthodes de TAL basées sur les libellés des termesLibellés de chaque terme non élaborés à l’origine pour faciliter leur indexation

Exemple : « angine, sans autre précision »

MéthodeCréation de libellés d’indexationApplication à la CIM10

• Élimination des expressions « sans précision » « sans autre indication »

• Élimination des exclusions• Création de 2 libellés d’indexation pour les alternatives

en « ou »• Traitement des précisions entre parenthèses

19

Page 20: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

20

Termes MeSH, CCAM, SNOMED, TUV et CIM10

NOOJ + dico de

constituants

Restriction à (une ou plusieurs terminologies)

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Algo SDM

Agrégation

Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)

NOOJ + dico de termes

Identification des rubriques, paragraphes et phrases

+ localisations

Phrases Ensemble de phrases (corpus)

Base de données

multi-terminologique

Post-traitement

Page 21: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

L’algorithme du sac de mots

21

Principe / Motivation

Utilisé à l’origine dans CISMeF pour retranscrire les requêtes des utilisateurs en termes MeSH

Phrase considérée comme un sac de mots (les plus signifiants) rendus à leur forme la plus simple (lemme ou stème)

Termes des différentes terminologies (TUV, SNOMED, MeSH, CIM10, CCAM) considérés comme des sacs de mots

Algorithme revu pour l’indexation de documents

Page 22: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

L’algorithme du sac de mots

22

Désuffixation ou lemmatisation

Rangement (ordre alphabétique)

Méthode de l’algorithme du sac de mots

Normalisation (ponctuation, minuscules…)

Découpage en mots

Mise en correspondanceavec les termes des

différentes terminologies

Élimination des mots vides et mots non pertinents

Sémiographe(Memodata ®)

Frenchstemmer(Lucene)

Base de données

multi-terminologique

Page 23: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

L’algorithme du sac de mots

23

Ulcère gastrique opéré il y a 20 ans.

ulcère gastrique opéré il y a 20 ans

ulcère gastrique opéré 20 ans

20;an;gastrique;opérer; ulcère ou 20;an;gastric;opér; ulcèr+ ajouts selon la rubrique rattachée (antécédent ou anteced)

Toutes les combinaisons sont générées : 20;an;gastrique;opéré; ulcère an;gastrique;opéré; ulcère gastrique;opéré; ulcère an;gastrique;opéré etc…

Et comparées aux termes des différentes terminologies traités de la même façon

ulcère gastrique PE1192 TUV ;gastrique;ulcère; ;gastric;ulcer;

ulcère gastrique D013276 MSH ;gastrique;ulcère; ;gastric;ulcer;

ulcère gastrique D5-32100 SNMI ;gastrique;ulcère; ;gastric;ulcer;

Résultats :

Exemple :

Lemmatisation Désuffixation

Page 24: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

L’algorithme du sac de mots

24

Avantages / InconvénientsMéthode simple nécessitant peu de ressourcesOrdre des mots non important (erreurs possibles)Méthode pour le moment limitéeGestion des termes complexes et des négations difficile

Page 25: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

25

Termes MeSH, CCAM, SNOMED, TUV et CIM10

NOOJ + dico de

constituants

Restriction à (une ou plusieurs terminologies)

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Algo SDM

Agrégation

Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)

NOOJ + dico de termes

Identification des rubriques, paragraphes et phrases

+ localisations

Phrases Ensemble de phrases (corpus)

Base de données

multi-terminologique

Post-traitement

Page 26: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

7

Le dictionnaire de termes

MotivationInspiré de l’approche TAL de MAIF (A.Névéol)

Variantes validées en amont• Contient les différentes formes textuelles des termes : leurs

dérivations (ex : asthme - asthmatique), flexions (ex : bactérie - bactéries) et synonymes

Méthode très rapidePossibilité de gérer les termes complexes et la négation

PrincipeFormat DELA (Dictionnaires Electroniques du LADL*)

FormeTextuellePossibleDuTerme,LibelléDuTerme,InformationsDivers

Application NOOJ

26

*Laboratoire d'Analyse et de Description Linguistique

Page 27: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

7

Le dictionnaire de termes

Exemple

27

Ulcère gastrique opéré il y a 20 ans. Dictionnaire de termes

ulcère gastrique,Ulcère gastrique,TUVulcères gastriques,Ulcère gastrique,TUVulcère de l’estomac,Ulcère gastrique,TUVulcère gastrique,Ulcère gastrique,MSHulcères gastriques,Ulcère gastrique,MSHulcère de l’estomac,Ulcère gastrique,MSHulcère gastrique,Ulcère gastrique,SNMIulcères gastriques,Ulcère gastrique,SNMIulcère de l’estomac,Ulcère gastrique,SNMI

ulcère gastrique,Ulcère gastrique,EII2048+TUVulcère gastrique,Ulcère gastrique,D013276+MSHulcère gastrique,Ulcère gastrique,D5-32100 +SNMI

Page 28: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

7

Le dictionnaire de termes

28

Constitution manuelle d’un dictionnaire = fastidieux

Méthode de construction automatique de dictionnaires

Reprise de l’existant• Variantes des différentes terminologies• Variantes provenant de précédents travaux (UMLF,

dictionnaire MeSH de MAIF, lexiques du projet VUMeF)

Page 29: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

7

Construction automatique de dictionnaires

Recueil automatique de nouvelles variantes• Extraction de variantes à partir de corpus• Utilisation de patrons d’extraction et d’un

dictionnaire de mots

Création de nouvelles variantes (pluriels et singuliers)

29

Exemple : « diminution des facteurs de coagulation »

Application au TUV Création de 33 719 transducteurs liés à un dictionnaire 38 219

variantes de mots

Corpus de 50 000 documents : 7 800 recueillies dont 1 007 pour le TUV (validation à 55%)

Création de 4 279 pluriels/singuliers (validation à 92,3%)

Page 30: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Prise en compte du contexte

30

Négations

Négation verbale

Négation postérieure

Négation antérieure

Page 31: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

31

Termes MeSH, CCAM, SNOMED, TUV et CIM10

NOOJ + dico de

constituants

Restriction à (une ou plusieurs terminologies)

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Algo SDM

Agrégation

Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)

NOOJ + dico de termes

Identification des rubriques, paragraphes et phrases

+ localisations

Phrases Ensemble de phrases (corpus)

Base de données

multi-terminologique

Post-traitement

Page 32: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Le dictionnaire de constituants

32

Principe / MotivationPrendre en compte les éléments constitutifs du terme et non les mots seuls ou le terme dans sa globalité

Un constituant est défini comme toute variante incluse dans un terme,

Ex : le terme « angine de poitrine sévère » comprend plus de 6 constituants : « angine », « angines », « poitrine », « sévère », « aigu », « angor » etc…

Un terme est indexé si la phrase couvre l’ensemble des constituants requis (calcul d’un score)Application NOOJ

Page 33: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Le dictionnaire de constituants

33

Exemple« Le patient est atteint d’un syndrome sévère, le syndrome de Down accompagné d’asthme. »

syndrome, syndrome de Down, 1+TUVsyndrome, syndrome de X, 1+TUVsyndrome, syndrome de Down,1+TUVsyndrome, syndrome de X, 1+TUVdown, syndrome de Down, 1+TUVasthme, asthme,1+TUV

Après élimination des doublons et ajout des scores pour chaque termes : – 2 pour « syndrome de Down » – 1 pour « syndrome de X » – 1 pour « asthme »

syndrome de Down 2syndrome de X 2Asthme 1

Dictionnaire de constituants Base de données multi-terminologique

Seuls les termes « syndrome de Down » et « asthme » sont indexés

Page 34: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

F-MTI

34

Termes MeSH, CCAM, SNOMED, TUV et CIM10

NOOJ + dico de

constituants

Restriction à (une ou plusieurs terminologies)

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Algo SDM

Agrégation

Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt)

NOOJ + dico de termes

Identification des rubriques, paragraphes et phrases

+ localisations

Phrases Ensemble de phrases (corpus)

Base de données

multi-terminologique

Post-traitement

Page 35: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008 35

Projection et restriction vers une ou plusieurs terminologies

PrincipeRestriction aux termes équivalents appartenant aux terminologies désirées

Méthode Les différents transcodages utilisés :

• MeSH, CIM10, SNOMED : UMLS et SFINM*• CCAM->MeSH créé par CISMeF (P. Massari et B.

Thirion)• CIM10->CCAM de TOTHEM (enlevé)• TUV->MeSH créé par CISMeF et validé par Vidal

(enlevé)• TUV->CIM10 créé par Vidal (enlevé)

*Secrétariat Francophone International de Nomenclature Médicale

Page 36: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Projection et restriction vers une ou plusieurs terminologies

Exemple : « Ulcère gastrique opéré il y a 20 ans. »

ulcère gastrique PE1192 TUV

ulcère gastrique D013276 MSH

ulcère gastrique D5-32100 SNMI

RésultatsIndexationdirecte :

ulcère de l'estomac | non précisé comme étant aigu K25.9 CIM10ou chronique, sans hémorragie ni perforation

ulcère gastrique sans hémorragie ni perforation D5-32422 SNMIou obstruction

estomac D013270 MSH

tumeur maligne estomac, sans précision C16.9 CIM10

RésultatsIndexationindirecte :

36

Page 37: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008 37

Post-traitements

Élimination des doublons (mêmes termes ou un terme et son synonyme de la même terminologie)

Application des règles d’indexation

Règles générales• Indexation au plus précis : père/fils, termes dont le

sac de mots est inclus dans un autre

Règles spécifiques à chaque terminologie• MeSH : élimination des termes peu pertinents,

appariement terme/qualificatif, élimination des qualificatifs non appariés

• Aucune pour CCAM/TUV/SNOMED 3.5/CIM10

Proposition d’indexation à l’aide d’une ou plusieurs terminologies

Post-traitement

Page 38: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients

38

MéthodeComparaison de l’indexation automatique (F-MTI - algorithme du sac de mots) et l’indexation medico-économique ou descriptive manuelle

MatérielsCorpus de 794 CRH du CHU de Rouen

• 490 de Cardiologie• 304 de Pneumologie • Indexation manuelle médico-économique CCAM et CIM10

Corpus de 100 CRH• 50 de Cardiologie• 50 de Pneumologie• Indexation descriptive par un expert (en aveugle)

MesuresPrécision (inverse du bruit), rappel (inverse du silence), F-mesure

Page 39: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients

Résultats

Cardiologie

Pneumologie

794CRH

100CRH

+ diagnostics

ou symptômes

Pneumologie+ diagnostics

ou symptômes

39

Restriction des termes Cardiologie

51,3 75,4Précision

%Rappel

%

3,4 29,7

15,4 76,4

4,0 19,9

3,0 35,7

41,0 96,1

39,3 97,5

Indexation médico-économique

Indexation descriptive

Précision %

Rappel%

F-mesure%

Précision %

Rappel%

F-mesure %

2,6 38,0 4,9 3,7 32,9 5,8

Page 40: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients

Discussion

Précision faible • Problème des contextes (négations, proche concerné)• Problème des transcodages• Problème du nombre de termes proposés –> difficultés à déterminer ce

qui est important

Rappel faible • Problème de la rédaction des CRH (manque précision, abréviations

etc.)• Dispersion des informations

Méthode d’évaluation discutable• 18% de consensus inter indexeur• Peu de formation à l’indexation

Restriction spécialité/diagnostic/symptôme : différentes vues pour l’indexation semi-automatique

CCAM résultats ~0% (F-MTI inadapté)

40

Page 41: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes SNOMED pour les dossiers patients

PrincipeComparaison de deux indexations automatiques SNOMED : F-MTI et SnocodeDifficulté d’obtenir une référence manuelle (indexation manuelle fastidieuse)Choix d’un transcodage vers une terminologie moins complexe : CIM10

Matériel100 CRH indexés manuellement à l’aide de la CIM10

41

Page 42: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes SNOMED pour les dossiers patients

Résultats

42

SNOMED

CIM10

transcodage

F-MTI extrait 2 fois plus de codes que Snocode

Pourcentage de codes F-MTI couvrant les codes Snocode

29,9

Pourcentage de codes Snocode couvrant les codes F-MTI

51,5

Mesure de Hooper % 31,3

Précision%

Rappel%

F-mesure%

F-MTI 4,4 30,7 8,7

Snocode 6,1 24,7 9,8

Page 43: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes MeSH pour les sites Web

Principe Comparaison entre l’indexation automatique

(F-MTI) pour les titres et l’indexation manuelle (indexeurs CISMeF) de la ressource

Matériel Corpus CISMeF (18 814 ressources) indexé

manuellement par quatre indexeurs CISMeF

43

Page 44: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluations

F-MTI Désuffixation F-MTI Lemmatisation

(%) Précision – Rappel (%) Précision – Rappel

Termes d’indexation Tous 25,9 - 13,5 Tous 26,7 - 13,1

44

F-MTI Mono-termino F-MTI Multi-termino

Termes d’indexationMC/Q

Tous 29,4 - 13,0 Tous 25,9 - 13,5

DescripteursMC

Tous 37,7 - 21,3Enseign 43,7 - 17,9Recos 51,6 - 24,7Patient 42,4 - 27,5

Tous 35,5 - 23,1Enseign 39,9 - 18,7Recos 44,4 - 25,7Patient 38,3 - 27,8

Lemmatisation/Désuffixation

sous-analyse des variantes

sur-analyse des termes

Évaluation secondaire (1 000 ressources) : Peu pertinent : 15,9%, pertinent : 4,5%, impact négatif : 79,6%

Mono/Multi-terminologie

Page 45: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes TUV pour les RCP

PrincipeÉvaluation du dictionnaire de terme (approche mono-teminologique)Comparaison de l’indexation automatique de F-MTI avec l’indexation manuelle de l’équipe du Vidal

MatérielsCorpus de 5 191 RCP indexés manuellement à l’aide des quatre thésauri VidalRéalisation de la table de transcodage anciens thésauri – TUVTranscodage en TUV

45

Page 46: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Évaluation de l’indexation de termes TUV pour les RCP

Résultats

46

Rubriques concernées Précision % Rappel %

Indications 48,1 21,7

Contre-indications 46,1 23,5

Effets secondaires 77,0 59,4

Précautions d’emploi 28,4 49,3

Total des 4 rubriques 52,9 46,2

Total (non prise compte des rubriques)

57,6 43,4

Terminologie en adéquation avec les documents indexés Insuffisance des variantes répertoriées dans le dictionnaire Conversion des documents pdf en txt (titres, tableaux)

Page 47: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

ApplicationsIndexation automatique de ressources Web

Indexation automatique des ressources• 2006 : F-MTI mono-terminologique (34 000 ressources)

Indexation semi-automatique des ressourcesInterprétation des requêtesVers une recherche d’information multi-terminologique

• Application concrète dans le PIM de CISMeF (Classification ATC, codes CAS, CIS, CIP en place)

• 2009 : F-MTI multi-terminologique (Autres terminologies)

Indexation automatique de dossiers patientsRecherche d’informationAide au codage médico-économiqueStructuration des dossiersProduction de résumésAide à la rédaction

47

Page 48: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Applications

Indexation semi-automatique de RCP : BIBLIS (IMAG)

48

RCP

Indexation Automatique

F-MTI

Indexationmanuelle

Documentsproches

Page 49: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

ApplicationsOutil d’aide à l’indexation généraliste

49

Serveur multi-terminologique

Indexation multi-terminologique

manuelle

Indexationmulti-terminologique

automatique

Type dedocument

Document

Quelques fonctionnalités

supplémentaires

Page 50: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Discussion

50

Page 51: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Discussion

Résultats d’évaluation différents selon : la tâche d’indexation la terminologie le corpus le type de document au sein du corpus les rubriques au sein du document

Aide au transcodage

51

Page 52: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Discussion

Aide au transcodage

52

Comment tendre vers une indexation de qualité? :

Amélioration des terminologies et développement de règles d’indexation (terminologues)Formation à l’indexation, apprentissage des terminologies utilisées, et développement de règles d’indexation pour les tâches visées (indexeurs)Rédaction adaptée (auteurs de documents devant être indexés)Développement d’outils d’aide à l’indexation et à la rédaction automatiques plus performants (informaticiens)

Page 53: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Discussion

Publications et valorisation

Pereira S., Névéol A., Kerdelhué G., Serrot E., Joubert M., Darmoni S.J. Using multi-terminology indexing for the assignment of MeSH descriptors to health resources in a french online catalogue. AMIA Annu Symp Proc. 2008; 586-590.

Pereira S., Névéol A., Massari P., Joubert M., Darmoni S.J. Construction of a semi-automated ICD-10 coding help system to optimize medical and economic coding, Proceedings of MIE2006. Stud Health Technol Inform, 2006 ;124 :845-50.

Pereira S., Massari P., Joubert M., Darmoni S. Utilisation de métatermes pour la recherche d’information dans les dossiers médicaux. In Actes des journées Francophones d’Informatique Médicale. 2007.

Pereira S., Massari P., Buemi A., Dahamna B., Serrot E., Darmoni S., Joubert M. F-MTI : un outil d’indexation automatique : application à l’indexation autmoatique de la SNOMED Internationale. Soumis à JFIM2009.

53

Page 54: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

DiscussionPublications et valorisation

Massari P., Pereira S., Thirion B., Derville A., Darmoni S.J. Use of super–concepts to customize electronic medical records data display. Stud Health Technol Inform. 2008 ; 136 :845–850.

Merabti T., Pereira S., Lecroq T., Joubert M., Darmoni S.J. Inheritance of SNOMED CT relations between concepts to two health terminologies (SNOMED International and ICD10). Proceedings of the 3rd international conference on Knowledge Representation in Medicine (KR-MED). 2008 ;118.

Merabti T., Pereira S., Letord C., Lecroq T., Dahamna B., Joubert M., Darmoni J. Searching Related Resources in a Quality Controlled Health Gateway : a Feasibility Study. Proceedings of MIE2008, Stud Health Technol Inform, Volume 136, Pages 235–240, 2008

Névéol A., Pereira S., Kerdelhué G., Dahamna B., Joubert M., Darmoni S.J. Evaluation of a simple method for the automatic assignment of MeSH descriptors to health resources in a french online catalogue. Proceedings of Medinfo2007, Stud Health Technol Inform. 2007 ; 129 :407-11.

Névéol A., Pereira S., Soualmia F.F., Thirion B., Darmoni S.J. A method of cross-lingual consumer health information retrieval. Proceedings of MIE2006, Stud Health Technol Inform. 2006 ; 124 :601–608.

Pereira S., Névéol A., Massari P., Darmoni S., Joubert M. Evaluation de plusieurs terminologies médicales pour optimiser l’aide au codage médico-économique par analyse automatique de dossiers électroniques de patients. In Acte EMOI2006. 2006.

Valorisation à l’université - Infobutton

53

Page 55: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Conclusion et

Perspectives

54

Page 56: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

ConclusionNotre contribution :

Base de données multi-terminologique Création de libellés d’indexation Trois méthodes d’indexation complémentaires Méthode de création automatique de dictionnaires Prise en compte des contextes Outil d’indexation automatique multi-terminologique (F-MTI)

55

Page 57: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Perspectives

Amélioration de l’outil Coopération des 3 méthodes Amélioration des transcodages Prise en compte d’autres contextes Implémentation de règles médicales Implémentation des méthodes de Metamap

(MTI)

56

Page 58: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Perspectives

Aide au transcodage

57

CISMeFPassage d’une stratégie mono-terminologique à une stratégie multi-terminologiqueNouvelles voies de recherche :

• Interopérabilité sémantique inter et intra-terminologies (T. Merabti 2A)• Recherche d’information multi-terminologique dans un portail de santé

(S. Sakji 2A)• Recherche d’information multi-terminologique dans un dossier patient

électronique (A.D. Diriehdibad 1A)

VidalAide à l’indexation TUV avec BIBLISExploitation d’autres terminologies pour des alertes toujours plus performantes

LERTIMNouveau pas vers l’élaboration d’un SIH performantPoursuite des travaux avec T. Merabti, S. Sakji, A.D. Diriehdibad

Page 59: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Perspectives

Aide au transcodage

58

Vers d’autres projets communsInterSTIS : Interopérabilité sémantique des terminologies dans les systèmes d’information de santé français (ANR TecSan 2007)

• SMTS : Serveur Multi-Terminologique en Santé

PSIP : optimisation de la prescription informatisée (7ème PCRD)

ALADIN-DTH : Assistant de Lutte Automatisé et de Détection des Infections Nosocomiales à partir de Documents Textuels Hospitaliers (ANR TecSan 2008)

Page 60: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Remerciements

L’équipe scientifique Vidal : Elisabeth, Mathilde, Josiane, Sophie, Francine, Olivier, Michelle, Blandine, Nicolas, Ghislaine, Gismonde, Jean-François

L’équipe CISMeF & TIBS : Josette, Gaëtan, Catherine, Benoît, Saoussen, Tayeb, Yvan, Badisse, Philippe, Élise, Thierry, Aurélie et Stefan

L’équipe du LERTIM : Michel Joubert, Mario Fieschi, Paul Avillach

Les intervenants extérieurs : Antoine Buemi, Max Silberztein, Gaëlle Lortal et Lina Soualmia

59

Page 61: Soutenance de thèse 2/12/2008 Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : É lisabeth Serrot, Michel Joubert et

Soutenance de thèse 2/12/2008

Remerciements

ET VOUS !

60

THE ENDTo be continued …