banques et bases de données de séquences biologiquesbanques et bases de données de séquences...

51

Upload: others

Post on 15-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques et bases de donnéesde séquences biologiques

OBI3

Enseignement Supérieur Public

20 avril 2018

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 1 / 44

Page 2: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Sommaire

1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques

2 Bases de données relationnellesDé�nitionPossibilités des BdD

3 Conclusion

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 2 / 44

Page 3: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes

Sommaire

1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques

2 Bases de données relationnellesDé�nitionPossibilités des BdD

3 Conclusion

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 3 / 44

Page 4: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes

Bref historique1965 Première compilation de protéines : Atlas of Protein Sequences (Dayho�)1972 Premier véritable séquençage d'un génome, le bactériophage MS21977 F. Sanger met au point la méthode de séquençage de l'ADN par ddNTP

1980Création de la banque EMBL. Les banques guettent les articles et enextraient les séquences

1981 Premières analyses bioinformatiques de masse : usage des codons1984 Développement de la réaction de polymérisation en chaîne (PCR)1984 Création de PIR = NBRF (USA) + MIPS (Allemagne) + JIPID (Japon)1986 Création de SwissProt = SIB + EBI1987 Réalisation et commercialisation du 1er séquenceur automatisé (Applied)1987 Invention des chromosomes arti�ciels de levure (YAC)1995 Séquençage de la 1e bactérie, Haemophilus in�uenzae (1,83 Mb)1996 Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb)1998 Séquençage du 1er organisme pluricellulaire, C. elegans (100 Mb)2001 Annonce du décryptage (presque) complet du génome humain2003 Création d'UniProt = PIR + SwissProt/TrEMBL2005 NGS (454, Solexa, solid)2005 Nanopore

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 4 / 44

Page 5: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Description

Banques généralistes de séquences nucléotidiques

Banque Maintenue par / URL Lieu

European Molecular Biology LaboratoryEBI (UK)

http://www.ebi.ac.uk/embl

National Center for Biotechnology InformationNIH (USA)

http://www.ncbi.nlm.nih.gov/nucleotide

Center for Information BiologyNIG (Japon)

http://www.ddbj.nig.ac.jp

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 5 / 44

Page 6: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Description

Echange quotidien

http://www.insdc.org

Nakamura et al. (2013) Nucleic Acids Res D21-4

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 6 / 44

Page 7: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Description

EMBL Avril 2018

source : http://www.ebi.ac.uk/embl/Services/DBStats/

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 7 / 44

Page 8: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Description

Biais de représentation des taxons

d'après http://www.ebi.ac.uk/embl/Documentation/Release_notes/current/relnotes.html

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 8 / 44

Page 9: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Description

Banques généralistes de séquences protéiques

Banque Maintenue par / URL Lieu

EMBL + Swiss Inst. Bioinfo. + Prot. Info. Res.EBI (UK)SIB (Swiss)PIR (USA)

http://www.uniprot.org

National Center for Biotechnology InformationNIH (USA)

http://www.ncbi.nlm.nih.gov/protein

Center for Information BiologyNIG (Japon)

http://www.ddbj.nig.ac.jp

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 9 / 44

Page 10: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Alimentation

Qui alimente les banques primaires ?

Les auteurs :

Equipes de recherche

Centres de séquençage

Consortiums d'annotation

Principes :

Chaque auteur est responsable de sa contribution

Lui seul peut la modi�er

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 10 / 44

Page 11: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Alimentation

Pour faire partager son savoir au monde entier

EMBL :

DDBJ :

Les 3 banques :

Exemples :

http://www.ebi.ac.uk/embl/Submission http://www.ebi.ac.uk/Sequin

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 11 / 44

Page 12: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Alimentation

Des nucléotides aux protéines

Données mars 2018 http://www.ebi.ac.uk/uniprot/TrEMBLstats

et http://www.expasy.org/sprot/relnotes/relstat.html

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 12 / 44

Page 13: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Une banque est un (long) texteExemple : une entrée EMBL

ID AJ416110; SV 2; linear; genomic DNA; STD; PRO; 3231 BP.

AC AJ416110;

DT 21-OCT-2001 (Rel. 69, Created)

DT 15-APR-2005 (Rel. 83, Last updated, Version 6)

DE Psychrobacter sp. TAD1 pyrB gene for aspartate transcarbamylase and pyrC'

DE gene for pseudo-dihydroorotase

KW aspartate transcarbamylase; pseudo-dihydroorotase; pyrB gene; pyrC' gene.

OS Psychrobacter sp. TAD1

OC Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales;

OC Moraxellaceae; Psychrobacter.

RN [1]

RC revised by [3]

RA Sun K.;

RT ;

RL Submitted (05-OCT-2001) to the EMBL/GenBank/DDBJ databases.

RL Sun K., Biochimie, CNRS-UMR 7631, 96 Boulevard Raspail, Paris, 75006,

RL FRANCE.

RN [2]

RA Sun K., Hommais F., Bertin P., Pothier J., di Prisco G., Danchin A.,

RA Herve G.;

RT "The Aspartate Transcarbamylase from the psychrophilic TAD1 psychrobacter

RT from Antarctica";

RL J. Bacteriol. 0:0-0(2003).

RN [3]

RP 1-3231

RA Sun K.;

RT ;

RL Submitted (16-FEB-2004) to the EMBL/GenBank/DDBJ databases.

RL Sun K., Biochimie, CNRS-UMR 7631, 96 Boulevard Raspail, Paris, 75006,

RL FRANCE.

(à suivre)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 13 / 44

Page 14: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Une banque est un (long) texteSuite de l'entrée EMBL AJ416110

FH Key Location/Qualifiers

FH

FT source 1..3231

FT /organism="Psychrobacter sp. TAD1"

FT /strain="TAD1"

FT /mol_type="genomic DNA"

FT /note="antarctic psycrotrophic bacterial strain"

FT /db_xref="taxon:81861"

FT -35_signal 430..436

FT /gene="pyrB"

FT TATA_signal 457..468

FT /gene="pyrB"

FT CDS 489..1487

FT /transl_table=11

FT /gene="pyrB"

FT /product="aspartate transcarbamylase"

FT /function="first enzyme of the pyrimidine pathway"

FT /EC_number="2.1.3.2"

FT /db_xref="GOA:Q934T0"

FT /db_xref="InterPro:IPR002082"

FT /db_xref="InterPro:IPR006130"

FT /db_xref="InterPro:IPR006131"

FT /db_xref="InterPro:IPR006132"

FT /db_xref="UniProtKB/Swiss-Prot:Q934T0"

FT /protein_id="CAD01098.2"

FT /translation="MPNTHDTKNNVSPSEYAKFDPSTIHQRLNTSLSRPQLNSDGSIRH

FT FLGVEGLNKAQLQAIIAKALFFEPSTRTRTTFEVAEKRLGANVLNLDIASSSAKKGESL

FT RDTLWNLQAMTADIFVVRHSASGAAHFMATEVTPDIAIINGGDGWHAHPTQGMLDMLTI

FT HREAPRPFEELSVAIIGDVKHSRVARSDISALQTLGVKDIRVIAPRTLLPKGIERFGVQ

FT VYEDMNSCVRDCDVIMGLRIQNERIGSPLLASSSEYYKQYGITPERVALAKPDALIMHP

FT GPMNRGVEIASSVADGPQSVILKQVSNGVAIRMAVLALTMEGQRAHQANRG"

(à suivre)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 14 / 44

Page 15: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Une banque est un (long) texte

Suite de l'entrée EMBL AJ416110

FT -35_signal 1539..1542

FT /gene="pyrC'"

FT /note="putative"

FT -10_signal 1571..1578

FT /gene="pyrC'"

FT /note="putative"

FT CDS 1593..2804

FT /transl_table=11

FT /gene="pyrC'"

FT /product="pseudo-dihydroorotase"

FT /function="essential to maintain the structure of the

FT ATCase"

FT /db_xref="GOA:Q710V0"

FT /db_xref="InterPro:IPR011059"

FT /db_xref="UniProtKB/TrEMBL:Q710V0"

FT /protein_id="CAD01099.1"

FT /translation="MIDNNNTTAQIVDLLPTAFSQSLPSSVSEQLTNNASDHQMWLLPP

FT LVDLCARLREPGLQQHGTLASEGSAALANGFLHVVIPPDTNPILENGSLLKGLRERALE

FT DGGIHLHILGALTAGLKGERPSNIAGLKKGGCIAVSNARRPFENDLVQLRTLEYAATFG

FT MKVFFYPDEPSLSGDGVAHEGYIASYHGLQGIPWIAETVALSTQLLMVEETGIAAHFSQ

FT LSCKSSVELMRWAKDKGLPVTCDVAMHQLHLTDDNLEGFNAMSYVLPPLRSNTDQQALR

FT RGLKDGTIDAICSHHEPLNVTAKKAPFAESIPGISNFDTFMALACQLVRDEVLTVEQLV

FT AKICLNPAKIAGIEDQYLETGGAILVDPDMKWQVTAETMLSNGKNTPFFGQQLQGRVVE

FT TFFG"

FT terminator 2902..2910

FT /gene="pyrC'"

XX

(à suivre)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 15 / 44

Page 16: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Une banque est un (long) texte

SQ Sequence 3231 BP; 878 A; 669 C; 746 G; 938 T; 0 other;

ccgagctcgg atccactagt aacggccgcc agtgtgctgg aaagcattta ataggatgga 60

tagttagcgg ccttaaaata gctatctctc tctattaatg tgaccctttg agcgtttata 120

aacaataaga tgatattctc tacaacaact attttgattg acgaaaatct atcgcatttt 180

tatcgtcatt cgctaattaa tgagccgtct taatgtcgtt ggcgctgata aattttggta 240

caaccgtcat taaaagagtt gataatagcc ttaagttgta acattcatta tcagtagtca 300

ttagcattat aaagttattg cggtaaagtg tagcaaataa gcgacaaaat gtccttattg 360

ctagacggtt aactaagtgt tttaagcaaa ataccaatga ttataagtat aataacctta 420

gctgtaatat tcagtttgaa tcagtaaatt caatcctaaa tataaaccta tcataaagac 480

ttgccattat gccaaatact cacgatacca agaataacgt ttccccttct gaatacgcca 540

agtttgatcc tagtactatt catcaaagac tcaatacttc gcttagtcga ccacaattaa 600

[...]

ttgctggtat tgaagatcaa tatctagaaa ctggcggagc tatattagta gaccctgata 2700

tgaaatggca agtaactgct gaaactatgc tgtctaacgg taaaaacacc cctttcttcg 2760

gccaacagtt acaaggtcgt gtcgtggaga cattctttgg ctaatctatc taatgccaag 2820

ctgcctataa aggtgagcgc agctagtcaa tctagtgagt cgatcaaggc agtagctatc 2880

tatgagatag tcaaaggtat tggcgcgctg ctaggagcag ctgctttatg gctatggcac 2940

aaagatttag atcagtggct agcgactgct actaatactt ggcagcaaaa ctttggtcag 3000

ctgttagcag cgcaagtaga aagcatagta cagctagcgc aaaaagctag tcacaactgg 3060

acgttattct tattgttgat ttttgcttat gccagcttgc gcttcattga agcttacggc 3120

ttatggcaag ataaaacttg ggcctattgg tttagcgtca tcggatacgg tgtttttata 3180

cctatagagc tgtactatct gttcgctagt acattccttt ccagcacact g 3231

//

Fin de l'entrée EMBL AJ416110

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 16 / 44

Page 17: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Visualisation (EMBL/EBI) : présentation, couleurs

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 17 / 44

Page 18: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Visualisation : liens...

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 18 / 44

Page 19: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Visualisation (Uniprot)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 19 / 44

Page 20: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Fonction �rechercher� de l'éditeur de texteExemple : HSP70ID FD661730; SV 1; linear; mRNA; EST; FUN; 601 BP.

AC FD661730;

DT 26-SEP-2008 (Rel. 97, Created)

DT 10-MAR-2011 (Rel. 108, Last updated, Version 2)

DE Ac_My_14d_4.12.01 Aspergillus carbonarius cDNA-AFLP library Aspergillus

DE carbonarius cDNA similar to Heat shock protein 70 (HSP70), mRNA sequence.

...

CC Isolated by cDNA-AFLP differential display, with primers:

CC Eco+AAC-Mse+ATC; encoding a putative Heat shock protein 70 (HSP70);

CC GO terms annotation: GO:0008150 GO:0006464 GO:0005215 GO:0006810

...

//

...

ID AB549340; SV 1; linear; mRNA; STD; INV; 2259 BP.

AC AB549340;

DT 09-MAR-2011 (Rel. 108, Created)

DT 09-MAR-2011 (Rel. 108, Last updated, Version 1)

DE Crassostrea gigas hsp70B mRNA for heat shock protein 70B, complete cds.

OS Crassostrea gigas (Pacific oyster)

OC Eukaryota; Metazoa; Mollusca; Bivalvia; Pteriomorphia; Ostreoida;

OC Ostreoidea; Ostreidae; Crassostrea.

...

RN [2]

RA Yokoyama Y.;

RT "cDNA cloning and expression of 70 kDa heat shock protein (HSP70) in the

RT oyster Crassostrea gigas";

RL Unpublished.

...

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 20 / 44

Page 21: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Problème : le texte n'est pas le sens - 1

Le mot est employé, mais le sens n'est pas celui qu'on cherche

ID TDX_ARATH Reviewed; 380 AA.

AC Q8VWG7; Q7XJ63; Q8LG82; Q9LVI2; Q9LVI3;

DE RecName: Full=TPR repeat-containing thioredoxin TDX;

DE AltName: Full=hsp70-interacting protein 2;

DE Short=AtHIP2;

OS Arabidopsis thaliana (Mouse-ear cress).

...

ID A8IRV0_CHLRE Unreviewed; 567 AA.

AC A8IRV0;

DE SubName: Full=Hsp70-Hsp90-organizing protein;

GN Name=HOP1; ORFNames=CHLREDRAFT_136069;

OS Chlamydomonas reinhardtii (Chlamydomonas smithii).

...

ID Q86BZ5_DROME Unreviewed; 238 AA.

AC Q86BZ5;

DE SubName: Full=Heat shock factor;

OS Drosophila melanogaster (Fruit fly).

RN [1]

RP NUCLEOTIDE SEQUENCE.

RC STRAIN=HV;

RA Bettencourt B.R., Lerman D.N., Feder M.E.;

RT "Escaping gene conversion: Adaptive molecular evolution of Hsp70

RT trans-regulators.";

RL Submitted (APR-2003) to the EMBL/GenBank/DDBJ databases.

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 21 / 44

Page 22: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Problème : le texte n'est pas le sens - 2

Le sens est celui qu'on cherche, mais le mot n'est pas employé

ID HQ434763; SV 2; linear; mRNA; STD; INV; 2169 BP.

AC HQ434763;

DT 30-NOV-2010 (Rel. 107, Created)

DT 02-MAR-2011 (Rel. 108, Last updated, Version 3)

DE Ostrinia furnacalis heat shock 70 kDa cognate protein (HSC70) mRNA,

DE complete cds.

OS Ostrinia furnacalis (Asian corn borer)

OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera;

OC Endopterygota; Lepidoptera; Glossata; Ditrysia; Pyraloidea; Crambidae;

OC Pyraustinae; Ostrinia.

RN [1]

RP 1-2169

RA Yang X., He K.L., Wang Z.Y., Li N.;

RT "Clone and sequence of heat shock protein 70kda protein gene from asian

RT corn borer";

RL Unpublished.

...

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 22 / 44

Page 23: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Pour aider : 1 - Nom recommandé

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 23 / 44

Page 24: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Pour aider : 2 - Keywords et Gene Ontology

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 24 / 44

Page 25: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Gene Ontology : un vocabulaire contrôlé...

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 25 / 44

Page 26: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Recherche

Gene Ontology : ... et hiérarchisé

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 26 / 44

Page 27: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Bilan sur les banques

Banques généralistes

Quelques points forts

Universalité : tout y est

Rapidité : directement de l'auteur à l'interrogeur

Quelques limites

Redondances : gènes séquencés et/ou entrés plusieurs fois

Hétérogénéité : annotation di�érente selon les auteurs

Vocabulaire : une banque contient des mots et non du sens

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 27 / 44

Page 28: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Banques généralistes Bilan sur les banques

Banques généralistes

Quelques points forts

Universalité : tout y est

Rapidité : directement de l'auteur à l'interrogeur

Quelques limites

Redondances : gènes séquencés et/ou entrés plusieurs fois

Hétérogénéité : annotation di�érente selon les auteurs

Vocabulaire : une banque contient des mots et non du sens

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 27 / 44

Page 29: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases

Sommaire

1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques

2 Bases de données relationnellesDé�nitionPossibilités des BdD

3 Conclusion

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 28 / 44

Page 30: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

Une Base de Données

Se dé�nit par quelques principes :

Cohérence des descriptions et du vocabulaire

Unicité de l'information

Intégrité des données

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 29 / 44

Page 31: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

De la banque à la baseDeux entrées :

ID CYAA_AERHYAC Q59119 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Aeromonas hydrophila.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Aeromonadaceae ; Aeromonas.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....ID CYAA_PROMIAC Q59685 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Proteus mirabilis.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Enterobacteriaceae ;Proteus.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 30 / 44

Page 32: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

De la banque à la baseDeux entrées :

ID CYAA_AERHYAC Q59119 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Aeromonas hydrophila.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Aeromonadaceae ; Aeromonas.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....ID CYAA_PROMIAC Q59685 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Proteus mirabilis.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Enterobacteriaceae ;Proteus.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 31 / 44

Page 33: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

Table (relation) enzyme

Regroupe les informations relatives à une enzyme

Identi�cateur unique (EC)

EC 4.6.1.1Gene CYAName Adenylate cyclaseActivity ATP = 3',5'-CYCLIC AMP + DIPHOSPHATELocalisation CYTOPLASMICSimilarity ADENYLYL CYCLASE CLASS-1 FAMILY

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 32 / 44

Page 34: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

Table (relation) publication

Regroupe les informations relatives à une référence

Identi�cateur unique (PMID)

Publi 8874804Authors Trotot P., Sismeiro O., Vivares C., Glaser P.,

Bresson-Roy A., Danchin A.Title Comparative analysis of the cya locus in enterobacteria

and related Gram-negative facultative anaerobesJournal BiochimieYear 1996Number 78Pages 277-287

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 33 / 44

Page 35: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

Liens

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 34 / 44

Page 36: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

Table (relation) Entrée EMBL

AC Q59119ID CYAA_AERHYEC 4.6.1.1Publi 8874804Species Aeromonas hydrophila

AC Q59685ID CYAA_PROMIEC 4.6.1.1Publi 8874804Species Proteus mirabilis

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 35 / 44

Page 37: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Dé�nition

Schéma conceptuel

Base colibri (Thèse de Claudine Médigue, UPMC 1991)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 36 / 44

Page 38: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Propriétés

Cohérence

Association entre objet (identi�cateur) et popriétés (champs)

Descriptions de même �granularité�

Une relation exprime du sens

RequêteOn peut facilement poser des questions du type :

Quels sont tous les auteurs ayant publié en 1996des articles sur des protéines cytoplasmiques ?

Comment faire ça avec �rechercher� ?

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 37 / 44

Page 39: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Propriétés

Cohérence

Association entre objet (identi�cateur) et popriétés (champs)

Descriptions de même �granularité�

Une relation exprime du sens

RequêteOn peut facilement poser des questions du type :

Quels sont tous les auteurs ayant publié en 1996des articles sur des protéines cytoplasmiques ?

Comment faire ça avec �rechercher� ?

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 37 / 44

Page 40: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Propriétés

Cohérence

Association entre objet (identi�cateur) et popriétés (champs)

Descriptions de même �granularité�

Une relation exprime du sens

RequêteOn peut facilement poser des questions du type :

Quels sont tous les auteurs ayant publié en 1996des articles sur des protéines cytoplasmiques ?

Comment faire ça avec �rechercher� ?

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 37 / 44

Page 41: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Quelques bases

Par organisme

http://www.yeastgenome.org Saccharomyces cerevisiae

http://www.arabidopsis.org Arabidopsis thaliana

http://flybase.org Drosophila melanogaster

http://zfin.org Danio rerio

Par type de données

http://www.mirbase.org micro-ARN

http://wwwdev.ebi.ac.uk/interpro Motifs de protéines

http://www.ebi.ac.uk/intact Interactions

http://biocyc.org Métabolisme

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 38 / 44

Page 42: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

L'idée du siècle

Pourquoi pas...

L'EMBL en Base de Données ?

Avant de se lancer dans cette entreprise, une question

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 39 / 44

Page 43: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

L'idée du siècle

Pourquoi pas...

L'EMBL en Base de Données ?

Avant de se lancer dans cette entreprise, une question

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 39 / 44

Page 44: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

L'idée du siècle

Pourquoi pas...

L'EMBL en Base de Données ?

Avant de se lancer dans cette entreprise, une question

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 39 / 44

Page 45: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Question de base (5 min.)

Prenez une feuille et un crayon...

Donnez la dé�nition d'un gène(2 phrases maximum)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 40 / 44

Page 46: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Question de base (5 min.)

Prenez une feuille et un crayon...

Donnez la dé�nition d'un gène(2 phrases maximum)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 40 / 44

Page 47: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Question de base (5 min.)

Prenez une feuille et un crayon...

Donnez la dé�nition d'un gène(2 phrases maximum)

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 40 / 44

Page 48: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Corrigé

Un gène est :

une portion d'ADN susceptible d'être transcrite

un locus positionné sur un chromosome

une partie codante et sa zone régulatrice

une unité de transmission de l'hérédité

un polynucléotide responsable de la synthèse d'un produit

.................. (votre dé�nition)

Toutes ces réponses sont correctesPour chacune, un schéma conceptuel di�érent

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 41 / 44

Page 49: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Bases Possibilités

Questions à résoudre avant de faire une table

Devons-nous considérer qu'il y a un gène ou plusieurs...

... en cas de duplication ?

... pour les gènes homologues dans di�érentes espèces ?

... pour les mutants ?

... en cas d'épissage alternatif ?

Tout dépend de nos centres d'intérêt

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 42 / 44

Page 50: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Conclusion

Sommaire

1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques

2 Bases de données relationnellesDé�nitionPossibilités des BdD

3 Conclusion

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 43 / 44

Page 51: Banques et bases de données de séquences biologiquesBanques et bases de données de séquences biologiques OBI3 Enseignement Supérieur Public 20 avril 2018 OBI3 (Ens. Sup. Pub.)

Conclusion

Conclusion

Banque ou base ?

OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 44 / 44