Download - Bases de données en biologie (suite)
![Page 1: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/1.jpg)
Bases de données en biologie (suite)
G. Almouzni (I. Curie)
![Page 2: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/2.jpg)
Bases de données en biologie
• BD séquences généralistes- séquences nucléotidiques- séquences protéiques
• BD bibliographiques
• Historique
Plan du cours (1)
Rappels de BIO
• BD spécialisées - par organisme- par thématique (problématique bio)
Violaine Pillet+ Extraction d ’information à partir de textes
• Des bases de données aux bases de connaissances
![Page 3: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/3.jpg)
Banques de séquences généralistes
• PIR-NBRF
Banques de séquences protéiques
• données expérimentalesisolation, séquençage
• données in silicodéduction à partir de la séquence nucléique par simple traduction
Séquences protéiques
• Swissprot
![Page 4: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/4.jpg)
PIR-NBRF
• création 1984
• données
NBRF (National Biomedical Research Foundation)
MIPS (Martinsried Institute for Protein Sequences, Munich)JIPID (Japan International Protein Information Database)
![Page 5: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/5.jpg)
http://pir.georgetown.edu/
![Page 6: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/6.jpg)
![Page 7: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/7.jpg)
![Page 8: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/8.jpg)
![Page 9: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/9.jpg)
Swissprot
• création 1986
• données
Université de Genève
Séquences banque PIR-NBRFSéquences banque EMBL (traduction)
Chaque entrée de la base a été expertisée par un annotateur
Amos Bairoch
SIB: Swiss Institute of Bioinformatics
Collaboration : SIB + EBI
![Page 10: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/10.jpg)
www.expasy.org/sprot/
![Page 11: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/11.jpg)
Bases de données en biologie
• BD séquences généralistes- séquences nucléotidiques- séquences protéiques
• Historique
Plan du cours
Rappels de BIO• BD spécialisées
- par organisme- par thématique (problématique bio)
• Des bases de données aux bases de connaissances
![Page 12: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/12.jpg)
Forte croissance + hétérogénéité des séquences des banques généralistes
constitution de bases de données
• par thématique
• par organisme
espace de connaissances de références
Des banques aux bases de séquences (1)
![Page 13: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/13.jpg)
• bases de séquences dédiées – à un organisme– à des objets biologiques communs à
plusieurs organismes
• travail important– correction des erreurs– élimination des doublons– annotations
Des banques aux bases de séquences (2)
![Page 14: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/14.jpg)
Bases de séquences Adresse Bases génériques (multi- organismes)EMBL / trEMBL http:/ / www.ebi.ac.uk/ embl/Genbank / GenPept http:/ / www.ncbi.nlm.nih.gov/ entrezDDBJ (DNA Data Bank of J apan) http:/ / www.ddbj .nig.ac.jp/SwissProt http:/ / www.expasy.org/ sprot/ Bases spécialisées (organisme)GenoList http:/ / genolist.pasteur.f rCyanobase http:/ / www.kazusa.or.jp/ cyano/TAI R (The Arabidopsis I nformation Resource) http:/ / www.arabidopsis.orgFlyBase (Database of the Drosophila Genome) http:/ / flybase.bio.indiana.edu/MGD (Mouse Genome Database) http:/ / www.informatics.jax.org/GDB (Human Genome data Base) http:/ / gdbwww.gdb.org/ Bases spécialisées (thématique)PROSI TE http:/ / www.expasy.org/ prositeeMOTI F http:/ / f old.stanford.edu/ motifEPD (Eukaryotic Promoter Database) http:/ / www.epd.isb-sib.ch/
Bases de séquences spécialisées
![Page 15: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/15.jpg)
![Page 16: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/16.jpg)
Génomes procaryotes
![Page 17: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/17.jpg)
Mais les données ne se limitent pas aux séquences...
![Page 18: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/18.jpg)
BD biologie moléculaire
Nom adresse MétabolismeKEGG (Kyoto Encyclopedia of Genes and Genomes) http:/ / www.genomes.ad.jp/ keggBRENDA http:/ / www.brenda.uni-koeln.deEMP (Enzymes and Metabolic Pathways) http:/ / www.empproject.comEnzyme http:/ / www.expasy.ch/ enzymeEcoCyc http:/ / ecocyc.org Régulation transcriptionnelleRegulonDB http:/ / itzmanna.cif n.unam.mx/ Computational
_Genomics/ regulonDB I nteractions protéine- protéineDI P (Database of I nteracting Proteins) http:/ / dip.doe-mbi.ucla.edu/BI ND (The Biomolecular I nteraction NetworkDatabase)
http:/ / www.bind.ca/
Données structurales (3D)PDB (Protein Data Bank) http:/ / www.rcsb.org/ pdbEC to PDB http:/ / www.biochem.ucl.ac.uk/ enzymes Famille de gènes ou de protéinesThe Protein Kinase Resource (PKR) http:/ / www.sdsc.edu/ kinases5S Ribosomal RNA Database http:/ / biobases.ibch.poznan.pl/ 5Sdata/
![Page 19: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/19.jpg)
Données structurales : PDB
![Page 20: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/20.jpg)
Navigation dans les bases
![Page 21: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/21.jpg)
• BD spécialisées - par organisme- par thématique (problématique bio)
Bases de données en biologie
• BD séquences généralistes- séquences nucléotidiques- séquences protéiques
• Historique
Plan du cours
Rappels de BIO
• Des bases de données aux bases de connaissances
![Page 22: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/22.jpg)
• Illusoire de penser construire un jour “ le ” système d’informations biologiques universel
pluralité des problématiques pluralité des bases de données
• > 1000 BDs
• Ces BDs sont conçues pour répondre à des objectifs différents.
• Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer
Schéma conceptuel = modèle dont la conception est pilotée par les questions qu’il doit permettre d’aborder
Une multiplicité de bases de données hétérogènes
Mais, conséquences pratiques facheuses...
![Page 23: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/23.jpg)
Une multiplicité de BDs hétérogènes : conséquences (1)Recherche d ’informations
Interroger plusieurs basesRelier entre elles les données extraites= Intégrer les données
merci Internet
Démarche fastidieuse
Démarche inenvisageable
Analyse d ’un petit nombre de séquences
Analyse de résultats à grande échelle (génome, protéome, transcriptome,…)
![Page 24: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/24.jpg)
• Problème technique : Diversité des modèles et des formats des bases concernées.
Cas favorable : s’adapter au modèle de chacune des bases.
Cas moins favorable (mais plus fréquent) : les dites “ bases de données ” sont constituées de simples fichiers munis d’un langage d’interrogation et de manipulation ad hoc.
Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données
Une multiplicité de BDs hétérogènes : conséquences (2)
Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases
Souvent: schéma indisponible, inexistant,…Pb :connaître le nom d ’un champ ou d ’un enregistrement est insuffisant
![Page 25: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/25.jpg)
Une multiplicité de BDs hétérogènes
Problème majeur:HETEROGENEITE des données ( nature, formats)
Volume de données : non limitant
Comment intégrer ces données biologiques, hétérogènes et distribuées, afin qu’elles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ?
INTEGRATION
![Page 26: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/26.jpg)
2 grandes catégories de solutions
Entrepôts de données (data warehousing)2
= restructurer les données au sein d ’un schéma uniqueles données des différentes bases concernées sont copiées de leurs bases d’origine
(+) temps de traitement des requêtes(-) mises à jours
Intégration de données hétérogènes
= ajouter, au-dessus des bases existantes, une couche logicielle • offre les interfaces nécessaires entre les bases • fait apparaître l’ensemble comme une seule base virtuelle
Approche fédérative1
(+) assure d’accéder à tout instant à des données qui sont à jour
Résoudre les problèmes d ’incompatibilité syntaxique et sémantique
![Page 27: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/27.jpg)
SRS - Sequence Retrieval System
Rajouter l ’URL
1
![Page 28: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/28.jpg)
SRS permet d ’accéder à différentes BDs via une interface uniqueExemple: ExPASy: SWISS-PROT, TrEMBL (SPTR)
SRS - Sequence Retrieval System1
![Page 29: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/29.jpg)
ENTREZ
ENTREZ (NCBI)1
![Page 30: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/30.jpg)
Mise en correspondance des entités modélisées dans différents schémas conceptuels
Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement
documenté
Cependant,dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base)
Parfois,description sous forme de textes dans la documentation associée
Expliciter et formaliser les entités manipulées
Entrepôt de données2
= restructurer les données au sein d ’un schéma unique
![Page 31: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/31.jpg)
Représentation de connaissances
François Rechenmann
Danielle Ziébelin : AROM
Des bases de données aux bases de connaissances...
![Page 32: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/32.jpg)
Modéliser plus finement les classes d’entités, ainsi que les relations qu’elles entretiennent
non plus seulement à des fins de requêtes et de gestionmais pour expliciter formellement leurs définitions
Des bases de données aux bases de connaissances
Ontologie : formalisation des concepts d’un domaine et des relations qu’ils entretiennent
Une ontologie n’est pas réductible à la constitution d’un vocabulaire
En pratique, le schéma d’une base de connaissance correspond = mise en œuvre de l’ontologie retenue
bases de données base de connaissances
![Page 33: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/33.jpg)
Les modèles de connaissances offrent une capacité d ’expression permettant d’aborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases
Champs texte (langage naturel)
Lisible et interprétable par un humain
Exploitation automatique très délicate
Ex: champ fonction
Bases de connaissances
![Page 34: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/34.jpg)
• Syntactic Annotation Feature detection by content
Genome annotation
DNA sequence
• CDSs, RNAs• Regulation signals• Repeats... etc
• Functional Annotation « function » attribution
Objects
Seq
•• Relational / Context Annotation ?
• gene products• operator families
•• Sequence similarity
![Page 35: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/35.jpg)
Genome B
Genome A
Synton
Genome A Genome B
Dyn. Prog.
• Comparative genomics
• Genetic networks
• Molecular assemblies
ABC tranporters Fichant et al.
• Metabolic pathways
relation
Relational Annotation
![Page 36: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/36.jpg)
Panoramix KBs
gene polypeptide
Chromosome BChromosome A
biochemical reactions
compounds (e.g. sugar...)molecularassembly
EC
EC
EC
Metabolix
Proteix
Genomix
EC enzyme
![Page 37: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/37.jpg)
Fini pour aujourd’hui...
![Page 38: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/38.jpg)
ENTREZ - BLAST
![Page 39: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/39.jpg)
Les limites des bases de séquences...
Hétérogénéité dans la nature des séquences
Variabilité de l ’état des connaissances sur les séquences
Erreurs dans les séquences
Biais d ’échantillonage
A voir ???
![Page 40: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/40.jpg)
• Databases: nombreuses erreurs (annotation automatique) !
• Toutes les BDs ne sont pas disponibles sur tous les serveurs
• Problème de synchronisation des mises à jour
• Références croisées
BDs: ATTENTION !
• Compatibilité syntaxique Format
• Compatibilité sémantiqueBiologiste + bio-informaticien
![Page 41: Bases de données en biologie (suite)](https://reader036.vdocuments.fr/reader036/viewer/2022081506/568145ec550346895db2ef0b/html5/thumbnails/41.jpg)
• Analyse de séquences
• Données de bonne qualité
• Complète, détaillée
• Remise à jour
• Peu redondante
• Indexée pour pouvoir poser des requêtes compliquées
• Quel site répond le plus rapidement
• …….??????
Prolifération de BDs
Recherche de la BD idéale