fre 2645 formalisation de règles d'indexation mesh pour un usage automatique aurélie névéol...

Post on 04-Apr-2015

105 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

FRE 2645

Formalisation Formalisation de règles d'indexation MeSHde règles d'indexation MeSH pour un usage automatique pour un usage automatique

Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2

Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen

Equipe CISMeF & L@STICS, CHU de Rouen.

Diapo 2

PlanPlan

Contexte: recherche d’information en santé (CISMeF)

Objectif : Indexation et codage des documents médicaux

Algorithme d’indexation

Construction de ressources terminologiques

Dictionnaire électronique médical

Bibliothèque de transducteurs (Implémentation de règles)

Perspectives

Conclusion: impact sur l’indexation

Diapo 3

Indexation et codage Indexation et codage de documents médicauxde documents médicaux

Depuis une dizaine d’années:

Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. )

Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…)

Automatisation nécessaire

Diapo 4

Exemple d’indexation: notice Exemple d’indexation: notice CISMeFCISMeF

Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés

hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …)

265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)

Diapo 5

Affiliation de Qualificatifs et de Affiliation de Qualificatifs et de Types de RessourceTypes de Ressource

Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic

pied/radiographie

Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information eg. tumeurs du sein/diagnostic\image

pied\radiographie

Diapo 6

Indexation Automatique dans CISMeFIndexation Automatique dans CISMeF

Objectifs définis par l’équipe après test de logiciels d’indexation existants:

Augmenter la couverture du catalogueAujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente

Maintenir une indexation respectant les standards de l’indexation manuelleNotamment, associations Mot Clés/Qualificatifs, et Mot

clé/Qualificatifs\Type de Ressource

Diapo 7

Algorithme d’indexationAlgorithme d’indexation

1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR)3. Utilisation des propriétés de la terminologie

- Hiérarchie

- Associations Mot Clé / Qualificatif

4. Sélection (quasi) systématique des check tags5. Calcul de score (normalisation tf*idf)6. Constitution de l’index à l’aide d’une fonction de

rupture7. Pondération Majeur/Mineur

INTEX

Diapo 8

Construction des dictionnaires : Construction des dictionnaires : PrincipePrincipe

Format ~ DELA:FormeMeSH,MotCléMeSH.InfoFlexionnelleeg: grippe,grippe.N:fs (DELA)

acariose,acarioses.N:fs (*DELA)

Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, …

eg: grippe,grippe.N+MeSH+MALADIE:fsdiagnostic,diagnostic.N+QMeSH:ms

Diapo 9

Construction des dictionnaires : Construction des dictionnaires : réalisationréalisation

Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal)

Production d’entrées complémentaires: Entrées semi-automatiques (maladies, syndromes,

carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des

entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits

(EN/FR) Entrées manuelles

Bilan: ~40.000 entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.

Diapo 10

Apport lexicographiqueApport lexicographique

Concept Code Arbo MeSH

Nb termes

Mot clé MeSH MeSH - 19032

Qualificatif MeSH QMeSH - 84

Type de Ressource CISMeF TR - 8

Maladie MALADIE C, F03 4065

Organe ORGANE A 1311

Composé chimique SUBSTANCE D sauf D05, D12, D13, D25, D27.505

3995

Technique Thérapeutique TECHNIQUE E 1661

Vaccin VACCIN D24.310.894 71

Personne Hum M 231

Lieu Géographique Top Z 353

Diapo 11

Extrait du dictionnaire de mots Extrait du dictionnaire de mots simplessimples

Entrée « triviale »:accidents,accidents.N+MeSH:mp

Dérivation:accidentel,accidents.A+MeSH:ms

Flexions:accident,accidents.N+MeSH:msaccidentelle,accidents.A+MeSH:fsaccidentelles,accidents.A+MeSH:fpaccidentels,accidents.A+MeSH:mp

Diapo 12

Extrait du dictionnaire de mots Extrait du dictionnaire de mots composéscomposés

Entrée « triviale »:diabete insulinodependant,diabete de type I.N+MeSH:ms

Variante orthographique:diabete insulino-dependant,diabete de type I.N+MeSH:ms

Synonymes:diabete juvenile,diabete de type I.N+MeSH:msdiabete insulinodependant,diabete de type I.N+MeSH:ms

Flexion:diabetes de type I,diabete de type I.N+MeSH:mpdiabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme)

Dérivation:diabetique de type I,diabete de type I.N+MeSH:ms (synonyme)diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)

Diapo 13

Construction des transducteurs Construction des transducteurs

Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource

(Indexation texte-image)

Priorité aux Qualifs et TR les plus fréquents

Bilan: ~15 transducteurs

Diapo 14

MéthodeMéthode

Entretien avec un expert MeSH: travail sur corpus indexé

Identification de comportements d’indexation récurrents: élaboration des règles

Validation par l’expert

Implémentation

Diapo 15

Associations MC/QAssociations MC/Q

Règle: indication de la technique T -> technique T / UT!! indication de la substance S -> substance S / TU

Diapo 16

Associations MC\TRAssociations MC\TR

Règle: Image I de l’Organe O -> Organe O\Image I

(« Fig. 1: radiographie du pied » ->pied\radiographie)

Image I confirmer Maladie M -> Maladie M\Image I

(« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)

Diapo 17

Règles non prises en chargeRègles non prises en charge

Si le mot clé <biopsie> est sélectionné, ainsi qu’une MALADIE de l’arborescence C04

→ la paire <MALADIE/anatomie pathologique> doit être utilisée pour l’indexation.

"ArthroScanner de l'épaule " → <épaule\tomodensitométrie> + <épaule\

arthrographie>+ <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …

Diapo 18

Impact sur l’indexationImpact sur l’indexation

Indexation de 82 ressources extraites aléatoirement de CISMeF:

Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60%

On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.

Diapo 19

Résultats: rang Résultats: rang vs.vs. F-measure F-measure

0

5

10

15

20

25

30

35

40

1 2 3 4 5 6 7 8 9 10 20 35 50

MeSH 60%

MeSH 33%

Diapo 20

RemarquesRemarques

Extraction des mots clés: Limite des dictionnaires: aucun bruit, mais silence du:

Ponctuation, typographie Variantes non répertoriées

Mot clés « implicites » (eg. étude comparée)

Combinaison avec une méthode d’indexation statistique (kNN)

Diapo 21

PerspectivesPerspectives

Amélioration du système: Enrichissement des ressources linguistiques Distinction Majeur/Mineur

Mise en production: Automne 2005 Indexation entièrement automatique des ressources

portant sur des thèmes déjà largement couverts Indexation semi-automatique

(automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)

Diapo 22

Merci de votre attention!Merci de votre attention!

Contact: aneveol@insa-rouen.fr

Références: [1]   Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J.

CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5

[2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse.

[3]   Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6.

[4]   Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36

top related