olivier cantin, tassadit amghar, bernard levrat leria - université d’angers
DESCRIPTION
Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs. Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers. PLAN. La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion. Problématique. - PowerPoint PPT PresentationTRANSCRIPT
Importation de dictionnaires Importation de dictionnaires biologiques au format INTEX et biologiques au format INTEX et
utilisation pour le filtrage de motifsutilisation pour le filtrage de motifs
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRATOlivier CANTIN, Tassadit AMGHAR, Bernard LEVRATLERIA - Université d’AngersLERIA - Université d’Angers
PLANPLAN
La problématique La problématique
Les ressources biologiques utiliséesLes ressources biologiques utilisées
Filtrage des motifsFiltrage des motifs
ConclusionConclusion
ProblématiqueProblématique
Exploitation des documents dans un Exploitation des documents dans un domaine de la biologie domaine de la biologie
Recherche de relations sémantiques entre Recherche de relations sémantiques entre termes biologiquestermes biologiques
Extraction de motifs biologiquesExtraction de motifs biologiques
Utilisation de INTEXUtilisation de INTEX
Constitution du corpus d’apprentissageConstitution du corpus d’apprentissage
Corpus « nettoyé » et « sélectionné »
Etape 1 :Requête
Gene/myocardiumCorpus original
Etape 2 :Nettoyage du corpus
Corpus « nettoyé »
PubMed
Etape 3 :Sélection des résumés
Etiquetage du corpus
La terminologie biologique
Évolution constante de la terminologie
Pas de notation constante des noms de gènes ou de protéines.
Polysémie des mots dans certains cas.
Ressources biologiques (1)Ressources biologiques (1)
UMLS (UMLS (Unified Medical Language SystemUnified Medical Language System))
Grande source de connaissance biomédicale Grande source de connaissance biomédicale découpée en 3 parties :découpée en 3 parties :
• le Métathesaurusle Métathesaurus• le réseau sémantiquele réseau sémantique• un lexique médical Specialist Lexiconun lexique médical Specialist Lexicon
Ressources biologiques (2)Ressources biologiques (2)
LocusLink ou GeneLocusLink ou Gene
Base de données du NCBI intégrant les Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des gènes disponibles dans l’ensemble des bases de donnéesbases de données
Environ 40000 entréesEnviron 40000 entrées
Ressources biologiques (3)Ressources biologiques (3)
Gene OntologyGene Ontology
permet de produire un vocabulaire permet de produire un vocabulaire contrôlé s’appliquant à tous les contrôlé s’appliquant à tous les organismesorganismes
utilisée pour l’annotation des Bases de utilisée pour l’annotation des Bases de Données GénomiquesDonnées Génomiques
GO se compose de 3 réseaux structurés GO se compose de 3 réseaux structurés de termes précis portant sur la description de termes précis portant sur la description des produits des gènesdes produits des gènes
Fonctions moléculairesFonctions moléculaires
Processus biologiquesProcessus biologiques
Composants cellulairesComposants cellulaires
14000 termes
Intégration des données Intégration des données dans INTEXdans INTEX
1- LocusLink1- LocusLink>>37195LOCUSID: 37195LOCUS_CONFIRMED: yesLOCUS_TYPE: gene with protein product, function unknown…ACCNUM: AE003797|21626951|na|na|naTYPE: gPROT: AAF57604|7302521PROT: AAF57605|28380717PROT: AAF57606|28380718ACCNUM: AY113373|21064296|y; cn bw sp|na|naTYPE: mPROT: AAM29378|21064297OFFICIAL_SYMBOL: CG15109OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984ALIAS_SYMBOL: CT42557ALIAS_SYMBOL: CT42559
LEMME
VARIANTS
Création de DELAF et DELACF :Création de DELAF et DELACF :CG15109, CG15109.LOC
CT34984, CG15109.LOC
CT42557, CG15109.LOC
Besoin de modifier l’alphabet anglais de Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du INTEX –> insertion des chiffres et du caractère « - »caractère « - »
2- UMLS (Lexicon)2- UMLS (Lexicon)
VARIANT
LEMME
CATEGORIE
{base=APUD cell{base=APUD cellentry=E0000108entry=E0000108
cat=nouncat=nounvariants=metaregvariants=metaregacronym_of=amine precursor uptake decarboxylase cell|E0008543acronym_of=amine precursor uptake decarboxylase cell|E0008543
}}
Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés
APUD cell, APUD cell.ONAmine precursor uptake decarboxylase cell, APUD cell.UN
3- GO3- GO
Extraction des termes et création du Extraction des termes et création du DELAF et du DELACFDELAF et du DELACF
• Pour chaque réseau de termes, attribution Pour chaque réseau de termes, attribution d’une catégorie :d’une catégorie :
deoxyribonuclease,deoxyribonuclease.MOLEdeoxyribonuclease,deoxyribonuclease.MOLE
depurination,depurination.BIOdepurination,depurination.BIO
centromere,centromere.COMPcentromere,centromere.COMP
Filtrage des motifsFiltrage des motifs
Résultats avec INTEX dans sa version Résultats avec INTEX dans sa version originale :originale :– Seulement 45 % de termes reconnusSeulement 45 % de termes reconnus
~70 % de termes reconnus avec les ~70 % de termes reconnus avec les lexiques spécialisés.lexiques spécialisés.
Besoin de grammaires localesBesoin de grammaires locales
Application de 12 règles lexicalesApplication de 12 règles lexicales
Ex :Ex : <MOT>#-#<MOT><MOT>#-#<MOT>
acid-treatedacid-treatedADP-riboseADP-ribose
Terme technique
Molécule
Besoin d’un vérification manuelle des résultats obtenus 90% de termes reconnus
Conclusion et perspectivesConclusion et perspectives
Amélioration de 45 à 90% de Amélioration de 45 à 90% de reconnaissance de termes par notre reconnaissance de termes par notre systèmesystème
Application de ce système à un autre Application de ce système à un autre corpus du domaine biologiquecorpus du domaine biologique« single nucleotide polymorphism » ou « SNP »« single nucleotide polymorphism » ou « SNP »
corpus de 6729 résumés (10Mo)corpus de 6729 résumés (10Mo)
Mettre à jour les lexiques spécialisésMettre à jour les lexiques spécialisés– UMLS et GeneUMLS et Gene
Améliorer l’étape de vérification manuelle Améliorer l’étape de vérification manuelle
Extraction de connaissanceExtraction de connaissance