olivier cantin, tassadit amghar, bernard levrat leria - université d’angers

Post on 08-Jan-2016

38 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs. Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers. PLAN. La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion. Problématique. - PowerPoint PPT Presentation

TRANSCRIPT

Importation de dictionnaires Importation de dictionnaires biologiques au format INTEX et biologiques au format INTEX et

utilisation pour le filtrage de motifsutilisation pour le filtrage de motifs

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRATOlivier CANTIN, Tassadit AMGHAR, Bernard LEVRATLERIA - Université d’AngersLERIA - Université d’Angers

PLANPLAN

La problématique La problématique

Les ressources biologiques utiliséesLes ressources biologiques utilisées

Filtrage des motifsFiltrage des motifs

ConclusionConclusion

ProblématiqueProblématique

Exploitation des documents dans un Exploitation des documents dans un domaine de la biologie domaine de la biologie

Recherche de relations sémantiques entre Recherche de relations sémantiques entre termes biologiquestermes biologiques

Extraction de motifs biologiquesExtraction de motifs biologiques

Utilisation de INTEXUtilisation de INTEX

Constitution du corpus d’apprentissageConstitution du corpus d’apprentissage

Corpus « nettoyé » et « sélectionné »

Etape 1 :Requête

Gene/myocardiumCorpus original

Etape 2 :Nettoyage du corpus

Corpus « nettoyé »

PubMed

Etape 3 :Sélection des résumés

Etiquetage du corpus

La terminologie biologique

Évolution constante de la terminologie

Pas de notation constante des noms de gènes ou de protéines.

Polysémie des mots dans certains cas.

Ressources biologiques (1)Ressources biologiques (1)

UMLS (UMLS (Unified Medical Language SystemUnified Medical Language System))

Grande source de connaissance biomédicale Grande source de connaissance biomédicale découpée en 3 parties :découpée en 3 parties :

• le Métathesaurusle Métathesaurus• le réseau sémantiquele réseau sémantique• un lexique médical Specialist Lexiconun lexique médical Specialist Lexicon

Ressources biologiques (2)Ressources biologiques (2)

LocusLink ou GeneLocusLink ou Gene

Base de données du NCBI intégrant les Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des gènes disponibles dans l’ensemble des bases de donnéesbases de données

Environ 40000 entréesEnviron 40000 entrées

Ressources biologiques (3)Ressources biologiques (3)

Gene OntologyGene Ontology

permet de produire un vocabulaire permet de produire un vocabulaire contrôlé s’appliquant à tous les contrôlé s’appliquant à tous les organismesorganismes

utilisée pour l’annotation des Bases de utilisée pour l’annotation des Bases de Données GénomiquesDonnées Génomiques

GO se compose de 3 réseaux structurés GO se compose de 3 réseaux structurés de termes précis portant sur la description de termes précis portant sur la description des produits des gènesdes produits des gènes

Fonctions moléculairesFonctions moléculaires

Processus biologiquesProcessus biologiques

Composants cellulairesComposants cellulaires

14000 termes

Intégration des données Intégration des données dans INTEXdans INTEX

1- LocusLink1- LocusLink>>37195LOCUSID: 37195LOCUS_CONFIRMED: yesLOCUS_TYPE: gene with protein product, function unknown…ACCNUM: AE003797|21626951|na|na|naTYPE: gPROT: AAF57604|7302521PROT: AAF57605|28380717PROT: AAF57606|28380718ACCNUM: AY113373|21064296|y; cn bw sp|na|naTYPE: mPROT: AAM29378|21064297OFFICIAL_SYMBOL: CG15109OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984ALIAS_SYMBOL: CT42557ALIAS_SYMBOL: CT42559

LEMME

VARIANTS

Création de DELAF et DELACF :Création de DELAF et DELACF :CG15109, CG15109.LOC

CT34984, CG15109.LOC

CT42557, CG15109.LOC

Besoin de modifier l’alphabet anglais de Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du INTEX –> insertion des chiffres et du caractère « - »caractère « - »

2- UMLS (Lexicon)2- UMLS (Lexicon)

VARIANT

LEMME

CATEGORIE

{base=APUD cell{base=APUD cellentry=E0000108entry=E0000108

cat=nouncat=nounvariants=metaregvariants=metaregacronym_of=amine precursor uptake decarboxylase cell|E0008543acronym_of=amine precursor uptake decarboxylase cell|E0008543

}}

Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés

APUD cell, APUD cell.ONAmine precursor uptake decarboxylase cell, APUD cell.UN

3- GO3- GO

Extraction des termes et création du Extraction des termes et création du DELAF et du DELACFDELAF et du DELACF

• Pour chaque réseau de termes, attribution Pour chaque réseau de termes, attribution d’une catégorie :d’une catégorie :

deoxyribonuclease,deoxyribonuclease.MOLEdeoxyribonuclease,deoxyribonuclease.MOLE

depurination,depurination.BIOdepurination,depurination.BIO

centromere,centromere.COMPcentromere,centromere.COMP

Filtrage des motifsFiltrage des motifs

Résultats avec INTEX dans sa version Résultats avec INTEX dans sa version originale :originale :– Seulement 45 % de termes reconnusSeulement 45 % de termes reconnus

~70 % de termes reconnus avec les ~70 % de termes reconnus avec les lexiques spécialisés.lexiques spécialisés.

Besoin de grammaires localesBesoin de grammaires locales

Application de 12 règles lexicalesApplication de 12 règles lexicales

Ex :Ex : <MOT>#-#<MOT><MOT>#-#<MOT>

acid-treatedacid-treatedADP-riboseADP-ribose

Terme technique

Molécule

Besoin d’un vérification manuelle des résultats obtenus 90% de termes reconnus

Conclusion et perspectivesConclusion et perspectives

Amélioration de 45 à 90% de Amélioration de 45 à 90% de reconnaissance de termes par notre reconnaissance de termes par notre systèmesystème

Application de ce système à un autre Application de ce système à un autre corpus du domaine biologiquecorpus du domaine biologique« single nucleotide polymorphism » ou « SNP »« single nucleotide polymorphism » ou « SNP »

corpus de 6729 résumés (10Mo)corpus de 6729 résumés (10Mo)

Mettre à jour les lexiques spécialisésMettre à jour les lexiques spécialisés– UMLS et GeneUMLS et Gene

Améliorer l’étape de vérification manuelle Améliorer l’étape de vérification manuelle

Extraction de connaissanceExtraction de connaissance

top related