olivier cantin, tassadit amghar, bernard levrat leria - université d’angers

17
Importation de Importation de dictionnaires biologiques dictionnaires biologiques au format INTEX et au format INTEX et utilisation pour le utilisation pour le filtrage de motifs filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LEVRAT LERIA - Université d’Angers LERIA - Université d’Angers

Upload: lei

Post on 08-Jan-2016

38 views

Category:

Documents


0 download

DESCRIPTION

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs. Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers. PLAN. La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion. Problématique. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Importation de dictionnaires Importation de dictionnaires biologiques au format INTEX et biologiques au format INTEX et

utilisation pour le filtrage de motifsutilisation pour le filtrage de motifs

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRATOlivier CANTIN, Tassadit AMGHAR, Bernard LEVRATLERIA - Université d’AngersLERIA - Université d’Angers

Page 2: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

PLANPLAN

La problématique La problématique

Les ressources biologiques utiliséesLes ressources biologiques utilisées

Filtrage des motifsFiltrage des motifs

ConclusionConclusion

Page 3: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

ProblématiqueProblématique

Exploitation des documents dans un Exploitation des documents dans un domaine de la biologie domaine de la biologie

Recherche de relations sémantiques entre Recherche de relations sémantiques entre termes biologiquestermes biologiques

Extraction de motifs biologiquesExtraction de motifs biologiques

Utilisation de INTEXUtilisation de INTEX

Page 4: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Constitution du corpus d’apprentissageConstitution du corpus d’apprentissage

Corpus « nettoyé » et « sélectionné »

Etape 1 :Requête

Gene/myocardiumCorpus original

Etape 2 :Nettoyage du corpus

Corpus « nettoyé »

PubMed

Etape 3 :Sélection des résumés

Etiquetage du corpus

Page 5: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

La terminologie biologique

Évolution constante de la terminologie

Pas de notation constante des noms de gènes ou de protéines.

Polysémie des mots dans certains cas.

Page 6: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Ressources biologiques (1)Ressources biologiques (1)

UMLS (UMLS (Unified Medical Language SystemUnified Medical Language System))

Grande source de connaissance biomédicale Grande source de connaissance biomédicale découpée en 3 parties :découpée en 3 parties :

• le Métathesaurusle Métathesaurus• le réseau sémantiquele réseau sémantique• un lexique médical Specialist Lexiconun lexique médical Specialist Lexicon

Page 7: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Ressources biologiques (2)Ressources biologiques (2)

LocusLink ou GeneLocusLink ou Gene

Base de données du NCBI intégrant les Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des gènes disponibles dans l’ensemble des bases de donnéesbases de données

Environ 40000 entréesEnviron 40000 entrées

Page 8: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Ressources biologiques (3)Ressources biologiques (3)

Gene OntologyGene Ontology

permet de produire un vocabulaire permet de produire un vocabulaire contrôlé s’appliquant à tous les contrôlé s’appliquant à tous les organismesorganismes

utilisée pour l’annotation des Bases de utilisée pour l’annotation des Bases de Données GénomiquesDonnées Génomiques

Page 9: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

GO se compose de 3 réseaux structurés GO se compose de 3 réseaux structurés de termes précis portant sur la description de termes précis portant sur la description des produits des gènesdes produits des gènes

Fonctions moléculairesFonctions moléculaires

Processus biologiquesProcessus biologiques

Composants cellulairesComposants cellulaires

14000 termes

Page 10: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Intégration des données Intégration des données dans INTEXdans INTEX

1- LocusLink1- LocusLink>>37195LOCUSID: 37195LOCUS_CONFIRMED: yesLOCUS_TYPE: gene with protein product, function unknown…ACCNUM: AE003797|21626951|na|na|naTYPE: gPROT: AAF57604|7302521PROT: AAF57605|28380717PROT: AAF57606|28380718ACCNUM: AY113373|21064296|y; cn bw sp|na|naTYPE: mPROT: AAM29378|21064297OFFICIAL_SYMBOL: CG15109OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984ALIAS_SYMBOL: CT42557ALIAS_SYMBOL: CT42559

LEMME

VARIANTS

Page 11: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Création de DELAF et DELACF :Création de DELAF et DELACF :CG15109, CG15109.LOC

CT34984, CG15109.LOC

CT42557, CG15109.LOC

Besoin de modifier l’alphabet anglais de Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du INTEX –> insertion des chiffres et du caractère « - »caractère « - »

Page 12: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

2- UMLS (Lexicon)2- UMLS (Lexicon)

VARIANT

LEMME

CATEGORIE

{base=APUD cell{base=APUD cellentry=E0000108entry=E0000108

cat=nouncat=nounvariants=metaregvariants=metaregacronym_of=amine precursor uptake decarboxylase cell|E0008543acronym_of=amine precursor uptake decarboxylase cell|E0008543

}}

Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés

APUD cell, APUD cell.ONAmine precursor uptake decarboxylase cell, APUD cell.UN

Page 13: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

3- GO3- GO

Extraction des termes et création du Extraction des termes et création du DELAF et du DELACFDELAF et du DELACF

• Pour chaque réseau de termes, attribution Pour chaque réseau de termes, attribution d’une catégorie :d’une catégorie :

deoxyribonuclease,deoxyribonuclease.MOLEdeoxyribonuclease,deoxyribonuclease.MOLE

depurination,depurination.BIOdepurination,depurination.BIO

centromere,centromere.COMPcentromere,centromere.COMP

Page 14: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Filtrage des motifsFiltrage des motifs

Résultats avec INTEX dans sa version Résultats avec INTEX dans sa version originale :originale :– Seulement 45 % de termes reconnusSeulement 45 % de termes reconnus

~70 % de termes reconnus avec les ~70 % de termes reconnus avec les lexiques spécialisés.lexiques spécialisés.

Besoin de grammaires localesBesoin de grammaires locales

Page 15: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Application de 12 règles lexicalesApplication de 12 règles lexicales

Ex :Ex : <MOT>#-#<MOT><MOT>#-#<MOT>

acid-treatedacid-treatedADP-riboseADP-ribose

Terme technique

Molécule

Besoin d’un vérification manuelle des résultats obtenus 90% de termes reconnus

Page 16: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Conclusion et perspectivesConclusion et perspectives

Amélioration de 45 à 90% de Amélioration de 45 à 90% de reconnaissance de termes par notre reconnaissance de termes par notre systèmesystème

Application de ce système à un autre Application de ce système à un autre corpus du domaine biologiquecorpus du domaine biologique« single nucleotide polymorphism » ou « SNP »« single nucleotide polymorphism » ou « SNP »

corpus de 6729 résumés (10Mo)corpus de 6729 résumés (10Mo)

Page 17: Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Mettre à jour les lexiques spécialisésMettre à jour les lexiques spécialisés– UMLS et GeneUMLS et Gene

Améliorer l’étape de vérification manuelle Améliorer l’étape de vérification manuelle

Extraction de connaissanceExtraction de connaissance