formats de données en biologie

68
Formats de données en biologie Pierre Poulain [email protected] 09/2011

Upload: pierrepo

Post on 22-Nov-2014

1.325 views

Category:

Education


4 download

DESCRIPTION

principaux formats de fichiers utilisés en biologie

TRANSCRIPT

Page 1: Formats de données en biologie

Formats de donnéesen biologie

Pierre [email protected]

09/2011

Page 2: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 2

Page 3: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 3

Page 4: Formats de données en biologie

Dogme de la biologie

PP Université Paris Diderot - Paris 7 4

ADN ARN protéine

transcription traduction

Page 5: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 5

Page 6: Formats de données en biologie

Expérimentalement

ADNA,T,C,G

ARNA,U,C,G

protéineV,G,W,C...

PP Université Paris Diderot - Paris 7 6

AAGATGACCGTGTGTCATTTGATCCTGAACTGTTTGAAAAAATGTTCCGTGACGGACTCTTTGATGATGAGACCTCGGAAGTAACGGAGCAGCGCAATGTTCCGTGACCAGCTGACAATGTATCAGATTCCAGACTGGATCAGATCTGAATGCCATTAGCTT

Page 7: Formats de données en biologie

Séquences > structures

PP Université Paris Diderot - Paris 7 7

TTGTCACCTGTACACTGGCATTACTACACAGAAACCCAGATGTCCGTTACCAACCAATGAAAGATGACCGTGTGTCATTCATTCCTAAGATTCAAAATGATTTCGATGGCAAAAACAAAATTGATCCTGAACTGTTTGAATTGAGAAAAGCTGTTATGGACACCAATGAAAATGAGGAAGAAAAAATGTTCCGTGACGACACTTTCGGCAAGAACCTGAATGCAAACACAAATACAGCAAGACTCTTTGATGATGAGACTAGTTCATCCTCTTTTAAGCAAAATTCCTCTCCCTTCGATGCCTCGGAAGTAACGGAGCAACCTGTGCAACCAACCTCCGCTGTCATGGGTACGGGTGGCAGCTTCTTGTCTCCACAGTACCAACGTGCGTCATCTGCTTCTCGTACTAATCTAGCGCCGAATAATACAAGCACCTCCAGTTTAATGAAGCCTGAATCAAGTCTCTACCTGGGGAATTCCAATAAATCATATTCGCATTTTAACAACAACGGCAGCAACGAAAACGCCCGCAACAACAACCCATATTTGTAATCCAATATATACTCACATGTAACAACTTATTATATAAATATTTAAGGGCAAGGATATCCTACATTATATTTCATAGAAAACCGCTCAAAAAGGTGTATTATCTCCATTACATCCCAACACCACACATATTTCAGCGATAAAAACCTTAAATGTGAAATTCGCTTTGGCTCTGCTTCCTTAAATGTACGCAATTGCCGCTTTTTTCTGACATCTTTTTTGACGTGTAGAGAAGGAAACAGATCCTCCAGAAGGGATTTACTGTTGGCTATTTTGTGTTAGAAGCAGGTTAATAATAGATTAGGTTGCGTAAGTCATGGTCGAAAATAGTACGCAGAAGGCCCCACATGCCGGAAATGATGATAATAGCTCTACCAAGCCATATTCGGAGGCGTTTTTCTTAGGGTTCAATAACCCAACGCCTGGATTAGAAGCTGAGCACTCAAGCACATCGCCTGCCCCCGAGAACTCCAACTTGAAAATCGGTATGCTATTATCAATGCTTTACAATTCTGTCGGTTACCAATATCTGGAGGATCATTGCCCTCAAGGTGGCGAATATTCGGATTTATTGAGAAATTTGATCAATGAATGTGAAGCTATTTTGCCATCTTACGAAATTATTGAACGCTACAAGAACCACTTTTATGAGTACGTTTATCCAAGTCTACCTTTCATCGAATTAGAAATTTTTGAAGAATCATTAAGTCAAACAATTTTTCCGGACCCAAACAACCCCTCCAAGGTGCAAATACGTATGGGTAGCACACATTTGAGAGCTAAGGTGGAAAACTTGAGTCTTCTATTGGTTATCTTGAAACTCTCATACATGTCAATAAGGTTTTTAGATCATAGTACAGCAGACTCGAGTTTTTATCTTTCAAAGGAAATA

Page 8: Formats de données en biologie

Séquences > structures

PP Université Paris Diderot - Paris 7 8

Page 9: Formats de données en biologie

Séquences > structures

PP Université Paris Diderot - Paris 7 9

Page 10: Formats de données en biologie

Beaucoup de données

Page 11: Formats de données en biologie

que vous manipulez

Page 12: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 12

Page 13: Formats de données en biologie

Séquencesnucléiques, protéiques

PP Université Paris Diderot - Paris 7 13

Page 14: Formats de données en biologie

Format Fasta

Le plus simple

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY

PP Université Paris Diderot - Paris 7 14

Page 15: Formats de données en biologie

Fasta

>en-têteséquence sur 80 caractères maximum par ligneséquence sur 80 caractères maximum par ligneséquence sur 80 caractères maximum par ligneséquence sur 80 caractères maximum par ligneséquence sur 80 carac

PP Université Paris Diderot - Paris 7 15

Page 16: Formats de données en biologie

Remarques

> colle en-tête

longueur de chaque ligne fixée

extensions .fasta, .seq, .fas, .fna, .faa

Python : chaînes de caractères + listes+ (biopython)

PP Université Paris Diderot - Paris 7 16

Page 17: Formats de données en biologie

Multifasta>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY>gi|134252438|gb|ABO64984.1| cytochrome b [Elephantulus rupestris]TAFSSVTHICRDVNYGWLIRYLHANGASLFFICLFIHVGRGIYYGSYLYFETWNIGVILLFITMATAFMGYVLPWGQMSFWGATVITNLLSAIPYIGTTLVEWIWGGFSVDKATLTRFFAFHFILPFIIAALAMVHLLFLHETGSNNPLGLVSDSDKIPFHPYYTIKDLLGVFAILILHLSLVLFSPDLLGDPDNYTPANPLNTPPHIKPEWYFLFAYAILRSIPNKLGGVLALVLSILILIIFPLLHTSKQRSLMFRPISQCLFWVLVADLLTLTWIGGQPVEHPYIIIGQLASILYFTIILVLMPIAGVIENHIIKL>gi|157367467|gb|ABV45600.1| cytochrome b [Mammuthus primigenius]MTHIRKSHPLLKIINKSFIDLPTPSNISTWWNFGSLLGACLITQILTGLFLAMHYTPDTMTAFSSMSHICRDVNYGWIIRQLHSNGASIFFLCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTDLVEWIWGGFSVDKATLNRFFALHFILPFTMIALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNYMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGILALLLSILILGMMPLLHTSKHRSMMLRPLSQVLFWTLATDLLMLTWIGSQPVEHPYIIIGQMASILYFSIILAFLPIAGMIENYLIK

PP Université Paris Diderot - Paris 7 17

Page 18: Formats de données en biologie

Bases de données de séquencesprimaires

GenBank – EMBL – DDBJ

PP Université Paris Diderot - Paris 7 18

Page 19: Formats de données en biologie

GenBank http://www.ncbi.nlm.nih.gov/

Page 20: Formats de données en biologie

trypsine ?

Page 21: Formats de données en biologie

trypsine !

Page 22: Formats de données en biologie

ExempleLOCUS NM_001001317 940 bp mRNA linear PRI 27-DEC-2010DEFINITION Homo sapiens trypsin X3 (TRYX3), mRNA.ACCESSION NM_001001317VERSION NM_001001317.2 GI:170650697[...]

FEATURES Location/Qualifierssource 1..940

/organism="Homo sapiens"/mol_type="mRNA"/db_xref="taxon:9606"/chromosome="7"/map="7q34"

gene 1..940/gene="TRYX3"/gene_synonym="FLJ16649; MGC35022; PRSS1; TRY1; UNQ2540"/note="trypsin X3"/db_xref="GeneID:136541"/db_xref="HPRD:15572"

[...]

ORIGIN1 aaggctggca aaaaggagac cagacaggag gcgtctgtag agatatcatg aacttcaact

61 tagctttgtt ttccagagac tggagctaaa ctgggctttc aacatcatca tgaagtttat[...]

781 tgccaaaatt ttttactata taccctggat tgaaaatgta atccaaaata actgagctgt841 ggcagttgtg gaccatatga cacagcttgt ccccatcgtt cacctttaga attaaatata901 aattaactcc tcaaaaaaaa aaaaaaaaaa aaaaaaaaaa

//

PP Université Paris Diderot - Paris 7 22

Page 23: Formats de données en biologie

ExempleLOCUS NM_001001317 940 bp mRNA linear PRI 27-DEC-2010DEFINITION Homo sapiens trypsin X3 (TRYX3), mRNA.ACCESSION NM_001001317VERSION NM_001001317.2 GI:170650697[...]

FEATURES Location/Qualifierssource 1..940

/organism="Homo sapiens"/mol_type="mRNA"/db_xref="taxon:9606"/chromosome="7"/map="7q34"

gene 1..940/gene="TRYX3"/gene_synonym="FLJ16649; MGC35022; PRSS1; TRY1; UNQ2540"/note="trypsin X3"/db_xref="GeneID:136541"/db_xref="HPRD:15572"

[...]

ORIGIN1 aaggctggca aaaaggagac cagacaggag gcgtctgtag agatatcatg aacttcaact

61 tagctttgtt ttccagagac tggagctaaa ctgggctttc aacatcatca tgaagtttat[...]

781 tgccaaaatt ttttactata taccctggat tgaaaatgta atccaaaata actgagctgt841 ggcagttgtg gaccatatga cacagcttgt ccccatcgtt cacctttaga attaaatata901 aattaactcc tcaaaaaaaa aaaaaaaaaa aaaaaaaaaa

//

PP Université Paris Diderot - Paris 7 23

en-tête

features

séquence

Page 24: Formats de données en biologie

En-têteLOCUS NM_001001317 940 bp mRNA linear PRI 27-DEC-2010

| | | | |nom taille type de division date de

molécule modification

ACCESSION NM_001001317|numéro d'accession (unique et stable)

SOURCE Homo sapiens (human)|nom de l'organisme

ORGANISM Homo sapiensEukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;Catarrhini; Hominidae; Homo.

|taxonomie

REFERENCE 1 (bases 1 to 940)AUTHORS Bubb,K.L., Bovee,D., Buckley,D., Haugen,E., Kibukawa,M.,

Paddock,M., Palmieri,A., Subramanian,S., Zhou,Y., Kaul,R., Green,P.and Olson,M.V.

TITLE Scan of human genome reveals no new Loci under ancient balancingselection

JOURNAL Genetics 173 (4), 2165-2177 (2006)PUBMED 16751668

|référence bibliographique

PP Université Paris Diderot - Paris 7 24

Page 25: Formats de données en biologie

Featuresdébut et fin du gène| nom du gène

gene 1..940 |/gene="TRYX3"/gene_synonym="FLJ16649; MGC35022; PRSS1; TRY1; UNQ2540"/note="trypsin X3"/db_xref="GeneID:136541"/db_xref="HPRD:15572"

|identifiants d'autres bases de données

séquence codante début et fin| |

CDS 110..835/gene="TRYX3"/gene_synonym="FLJ16649; MGC35022; PRSS1; TRY1; UNQ2540"/EC_number="3.4.21.4"/note="trypsin-X3" nom de la protéine produite/codon_start=1 |/product="trypsin-X3 precursor"/protein_id="NP_001001317.1"/db_xref="GI:48255915"/db_xref="CCDS:CCDS5871.1"/db_xref="GeneID:136541"/db_xref="HPRD:15572"/translation="MKFILLWALLNLTVALAFNPDYTVSSTPPYLVYLKSDYLPCAGVLIHPLWVITAAHCNLPKLRVILGVTIPADSNEKHLQVIGYEKMIHHPHFSVTSIDHDIMLIKLKTEAELNDYVKLANLPYQTISENTMCSVSTWSYNVCDIYKEPDSLQTVNISVISKPQCRDAYKTYNITENMLCVGIVPGRRQPCKEVSAAPAICNGMLQGILSFADGCVLRADVGIYAKIFYYIPWIENVIQNN"

|séquence de la protéine

PP Université Paris Diderot - Paris 7 25

Page 26: Formats de données en biologie

Séquence

ORIGIN1 aaggctggca aaaaggagac cagacaggag gcgtctgtag agatatcatg aacttcaact

61 tagctttgtt ttccagagac tggagctaaa ctgggctttc aacatcatca tgaagtttat121 cctcctctgg gccctcttga atctgactgt tgctttggcc tttaatccag attacacagt181 cagctccact cccccttact tggtctattt gaaatctgac tacttgccct gcgctggagt241 cctgatccac ccgctttggg tgatcacagc tgcacactgc aatttaccaa agcttcgggt301 gatattgggg gttacaatcc cagcagactc taatgaaaag catctgcaag tgattggcta361 tgagaagatg attcatcatc cacacttctc agtcacttct attgatcatg acatcatgct421 aatcaagctg aaaacagagg ctgaactcaa tgactatgtg aaattagcca acctgcccta481 ccaaactatc tctgaaaata ccatgtgctc tgtctctacc tggagctaca atgtgtgtga541 tatctacaaa gagcccgatt cactgcaaac tgtgaacatc tctgtaatct ccaagcctca601 gtgtcgcgat gcctataaaa cctacaacat cacggaaaat atgctgtgtg tgggcattgt661 gccaggaagg aggcagccct gcaaggaagt ttctgctgcc ccggcaatct gcaatgggat721 gcttcaagga atcctgtctt ttgcggatgg atgtgttttg agagccgatg ttggcatcta781 tgccaaaatt ttttactata taccctggat tgaaaatgta atccaaaata actgagctgt841 ggcagttgtg gaccatatga cacagcttgt ccccatcgtt cacctttaga attaaatata901 aattaactcc tcaaaaaaaa aaaaaaaaaa aaaaaaaaaa

// |séquence du gène

PP Université Paris Diderot - Paris 7 26

Page 27: Formats de données en biologie

Remarques

extension .gbk

visualisation : artemishttp://www.sanger.ac.uk/resources/software/artemis/

format EMBL (.embl) ∼ .gbk

Python : chaînes de caractères/listes+ expressions régulières

PP Université Paris Diderot - Paris 7 27

Page 28: Formats de données en biologie

EMBLID 7 standard; DNA; HTG; 5916 BP.AC chromosome:GRCh37:7:141951963:141957878:-1[...]OS Homo sapiens (human)OC Eukaryota; Metazoa; Eumetazoa; Bilateria; Coelomata; Deuterostomia;OC Chordata; Craniata; Vertebrata; Gnathostomata; Teleostomi; Euteleostomi;OC Sarcopterygii; Tetrapoda; Amniota; Mammalia; Theria; Eutheria;OC Euarchontoglires; Primates; Haplorrhini; Simiiformes; Catarrhini;OC Hominoidea; Hominidae; Homininae; Homo.[...]FT gene 1..5916FT /gene=ENSG00000171147FT /locus_tag="U66059.56"FT /note="Trypsin-X3 Precursor (EC 3.4.21.4)[...]FT CDS join(352..391,2386..2524,2748..3004,5448..5587,5689..5838)FT /gene="ENSESTG00000027201"FT /protein_id="ENSESTP00000068598"FT /note="transcript_id=ENSESTT00000068598"FT /translation="MKFILLWALLNLTVALAFNPDYTVSSTPPYLVYLKSDYLPCAGVLFT IHPLWVITAAHCNLPKLRVILGVTIPADSNEKHLQVIGYEKMIHHPHFSVTSIDHDIML[...]SQ Sequence 5916 BP; 1714 A; 1266 C; 1022 G; 1914 T; 0 other;

AAGGCTGGCA AAAAGGAGAC CAGACAGGAG GCGTCTGTAG AGATATCATG AACTTCAACT 60TAGCTTTGGT ACTTTCTTCC CTGAAGACAG AGGGCAGAAC TCTGAGTTCC AGAACCATTT 120TCAACTGTAT TGGGGACCAA TCACTTGACT CTATTCTTGT CTCTCTGACA GATGACGCTA 180CACTCTCCTC TGAATAATGG ACACCATTTC TAAAACTGAA TCCTGCTACT AAAATAATTC 240

[...]GTAATCCAAA ATAACTGAGC TGTGGCAGTT GTGGACCATA TGACACAGCT TGTCCCCATC 5880GTTCACCTTT AGAATTAAAT ATAAATTAAC TCCTCA 5916

//

PP Université Paris Diderot - Paris 7 28

Page 29: Formats de données en biologie

Bases de données de séquencessecondaires

UniProt – Pfam – ProSite – ...

PP Université Paris Diderot - Paris 7 29

Page 30: Formats de données en biologie

UniProt http://www.uniprot.org/

Page 31: Formats de données en biologie

trypsine ?

Page 32: Formats de données en biologie

trypsine !

Page 33: Formats de données en biologie

ExempleID TRY3_HUMAN Reviewed; 304 AA.AC P35030; A9Z1Y4; P15951; Q15665; Q5VXV0; Q9UQV3;DT 01-FEB-1994, integrated into UniProtKB/Swiss-Prot.DT 14-OCT-2008, sequence version 2.DT 11-JAN-2011, entry version 111.DE RecName: Full=Trypsin-3;DE EC=3.4.21.4;DE AltName: Full=Brain trypsinogen;DE AltName: Full=Mesotrypsinogen;[...]CC -!- FUNCTION: Digestive protease specialized for the degradation ofCC trypsin inhibitors.CC -!- CATALYTIC ACTIVITY: Preferential cleavage: Arg-|-Xaa, Lys-|-Xaa.CC -!- COFACTOR: Binds 1 calcium ion per subunit.[...]DR PIR; S33496; S33496.DR RefSeq; NP_002762.2; NM_002771.3.DR UniGene; Hs.654513; -.DR PDB; 1H4W; X-ray; 1.70 A; A=81-304.[...]FT DISULFID 196 263FT DISULFID 228 242FT DISULFID 253 277[...]SQ SEQUENCE 304 AA; 32529 MW; 4C4303C310B7BFFC CRC64;

MCGPDDRCPA RWPGPGRAVK CGKGLAAARP GRVERGGAQR GGAGLELHPL LGGRTWRAARDADGCEALGT VAVPFDDDDK IVGGYTCEEN SLPYQVSLNS GSHFCGGSLI SEQWVVSAAHCYKTRIQVRL GEHNIKVLEG NEQFINAAKI IRHPKYNRDT LDNDIMLIKL SSPAVINARVSTISLPTTPP AAGTECLISG WGNTLSFGAD YPDELKCLDA PVLTQAECKA SYPGKITNSMFCVGFLEGGK DSCQRDSGGP VVCNGQLQGV VSWGHGCAWK NRPGVYTKVY NYVDWIKDTIAANS

//

PP Université Paris Diderot - Paris 7 33

Page 34: Formats de données en biologie

DétailsID TRY3_HUMAN Reviewed; 304 AA.

| | |nom origine : Swiss-Prot taille

DT 01-FEB-1994, integrated into UniProtKB/Swiss-Prot.DT 14-OCT-2008, sequence version 2.DT 11-JAN-2011, entry version 111.

|dates d'entrée dans UniProt, de modification de la séquence, de modification de la fiche

DE RecName: Full=Trypsin-3;|

nom de la protéine

DE AltName: Full=Brain trypsinogen;DE AltName: Full=Mesotrypsinogen;DE AltName: Full=Serine protease 3;DE AltName: Full=Serine protease 4;DE AltName: Full=Trypsin III;

|noms alternatifs

OS Homo sapiens (Human).|

organisme

OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;OC Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;OC Catarrhini; Hominidae; Homo.

|taxonomie

PP Université Paris Diderot - Paris 7 34

Page 35: Formats de données en biologie

Détails (2)RN [1]RP NUCLEOTIDE SEQUENCE [MRNA] (ISOFORMS A AND B), AND VARIANT ALA-188.RC TISSUE=Brain;RX MEDLINE=94123994; PubMed=8294000; DOI=10.1016/0378-1119(93)90460-K;RA Wiegand U., Corbach S., Minn A., Kang J., Mueller-Hill B.;RT "Cloning of the cDNA encoding human brain trypsinogen andRT characterization of its product.";RL Gene 136:167-175(1993).

|référence bibliographique

CC -!- FUNCTION: Digestive protease specialized for the degradation ofCC trypsin inhibitors.CC -!- CATALYTIC ACTIVITY: Preferential cleavage: Arg-|-Xaa, Lys-|-Xaa.CC -!- COFACTOR: Binds 1 calcium ion per subunit.CC -!- SUBCELLULAR LOCATION: Secreted.

|annotations (fonction, localisation)

DR PIR; S12764; S12764.DR PIR; S33496; S33496.DR RefSeq; NP_002762.2; NM_002771.3.DR UniGene; Hs.654513; -.

|identifiants d'autres bases de données

PE 1: Evidence at protein level;|degré de confiance de l'existence (expression) de la protéine

PP Université Paris Diderot - Paris 7 35

Page 36: Formats de données en biologie

Détails (3)

FT MOD_RES 211 211 Sulfotyrosine (By similarity).FT DISULFID 87 217FT DISULFID 105 121[...]FT STRAND 111 117FT HELIX 119 121

|annotations de la séquence

SQ SEQUENCE 304 AA; 32529 MW; 4C4303C310B7BFFC CRC64;MCGPDDRCPA RWPGPGRAVK CGKGLAAARP GRVERGGAQR GGAGLELHPL LGGRTWRAARDADGCEALGT VAVPFDDDDK IVGGYTCEEN SLPYQVSLNS GSHFCGGSLI SEQWVVSAAHCYKTRIQVRL GEHNIKVLEG NEQFINAAKI IRHPKYNRDT LDNDIMLIKL SSPAVINARVSTISLPTTPP AAGTECLISG WGNTLSFGAD YPDELKCLDA PVLTQAECKA SYPGKITNSMFCVGFLEGGK DSCQRDSGGP VVCNGQLQGV VSWGHGCAWK NRPGVYTKVY NYVDWIKDTIAANS|

séquence de la protéine

//|fin de la fiche

PP Université Paris Diderot - Paris 7 36

Page 37: Formats de données en biologie

Remarques

extension .txt

également .xml

Python : chaînes de caractères/listes+ expressions régulières

(+ module xml)

PP Université Paris Diderot - Paris 7 37

Page 38: Formats de données en biologie

xml<?xml version='1.0' encoding='UTF-8'?><uniprot xmlns="http://uniprot.org/uniprot" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://uniprot.org/uniprot http://www.uniprot.org/support/docs/uniprot.xsd"><entry dataset="Swiss-Prot" created="1994-02-01" modified="2011-01-11" version="111"><accession>P35030</accession><accession>A9Z1Y4</accession><accession>P15951</accession><accession>Q15665</accession>[...]<dbReference type="NCBI Taxonomy" id="9606" key="2"/><lineage><taxon>Eukaryota</taxon><taxon>Metazoa</taxon><taxon>Chordata</taxon>[...]<feature type="disulfide bond"><location><begin position="228"/><end position="242"/>[...]<feature type="strand"><location><begin position="133"/><end position="137"/>[...]<sequence length="304" mass="32529" checksum="4C4303C310B7BFFC" modified="2008-10-14" version="2" precursor="true">MCGPDDRCPARWPGPGRAVKCGKGLAAARPGRVERGGAQRGGAGLELHPLLGGRTWRAARDADGCEALGTVAVPFDDDDKIVGGYTCEENSLPYQVSLNSGSHFCGGSLISEQWVVSAAHCYKTRIQVRLGEHNIKVLEGNEQFINAAKIIRHPKYNRDTLDNDIMLIKLSSPAVINARVSTISLPTTPPAAGTECLISGWGNTLSFGADYPDELKCLDAPVLTQAECKASYPGKITNSMFCVGFLEGGKDSCQRDSGGPVVCNGQLQGVVSWGHGCAWKNRPGVYTKVYNYVDWIKDTIAANS</sequence>

PP Université Paris Diderot - Paris 7 38

Page 39: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 39

Page 40: Formats de données en biologie

Protein Data Bank (PDB)

structures : ADN, ARN, protéines, virus...

Rayons-X, RMN, cryo-microscopie électronique

PP Université Paris Diderot - Paris 7 40

Page 41: Formats de données en biologie

PDB http://www.rcsb.org/pdb/home/home.do

Page 42: Formats de données en biologie

trypsine ?

Page 43: Formats de données en biologie

trypsine !

Page 44: Formats de données en biologie

ExempleHEADER HYDROLASE (SERINE PROTEINASE) 26-OCT-81 2PTNTITLE ON THE DISORDERED ACTIVATION DOMAIN IN TRYPSINOGEN.TITLE 2 CHEMICAL LABELLING AND LOW-TEMPERATURE CRYSTALLOGRAPHYCOMPND MOL_ID: 1;COMPND 2 MOLECULE: TRYPSIN;COMPND 3 CHAIN: A;COMPND 4 EC: 3.4.21.4;COMPND 5 ENGINEERED: YESSOURCE MOL_ID: 1;SOURCE 2 ORGANISM_SCIENTIFIC: BOS TAURUS;SOURCE 3 ORGANISM_COMMON: CATTLE;SOURCE 4 ORGANISM_TAXID: 9913KEYWDS HYDROLASE (SERINE PROTEINASE)EXPDTA X-RAY DIFFRACTION[...]REMARK 2 RESOLUTION. 1.55 ANGSTROMS.[...][...]ATOM 273 N ALA A 55 6.294 11.611 25.982 1.00 9.30 NATOM 274 CA ALA A 55 6.778 12.670 25.099 1.00 9.30 CATOM 275 C ALA A 55 7.329 13.864 25.883 1.00 9.30 CATOM 276 O ALA A 55 6.747 14.218 26.934 1.00 9.30 OATOM 277 CB ALA A 55 5.636 13.154 24.190 1.00 9.30 CATOM 278 N ALA A 56 8.461 14.383 25.454 1.00 7.97 NATOM 279 CA ALA A 56 9.069 15.522 26.129 1.00 7.97 CATOM 280 C ALA A 56 8.143 16.740 26.167 1.00 7.97 CATOM 281 O ALA A 56 8.162 17.496 27.169 1.00 7.97 OATOM 282 CB ALA A 56 10.414 15.918 25.506 1.00 7.97 C[...]

PP Université Paris Diderot - Paris 7 44

Page 45: Formats de données en biologie

PDB

PP Université Paris Diderot - Paris 7 45

en-tête

——————–

coordonnées

Þ

Þ

Page 46: Formats de données en biologie

Coordonnées

PP Université Paris Diderot - Paris 7 46

PyMOLRasmolVMD...

Python

Page 47: Formats de données en biologie

CoordonnéesATOM 601 N LEU A 99 10.007 19.687 17.536 1.00 12.25 NATOM 602 CA LEU A 99 9.599 18.429 18.188 1.00 12.25 CATOM 603 C LEU A 99 10.565 17.281 17.914 1.00 12.25 CATOM 604 O LEU A 99 10.256 16.101 18.215 1.00 12.25 OATOM 605 CB LEU A 99 8.149 18.040 17.853 1.00 12.25 CATOM 606 CG LEU A 99 7.125 19.029 18.438 1.00 18.18 CATOM 607 CD1 LEU A 99 5.695 18.554 18.168 1.00 18.18 CATOM 608 CD2 LEU A 99 7.323 19.236 19.952 1.00 18.18 C

PP Université Paris Diderot - Paris 7 47

Page 48: Formats de données en biologie

PP Université Paris Diderot - Paris 7 48

Page 49: Formats de données en biologie

Remarques

plusieurs chaînes

plusieurs structures (RMN)

des trous (RX)

Python : chaînes de caractères (tranches) + listes

PP Université Paris Diderot - Paris 7 49

Page 50: Formats de données en biologie

Plusieurs chaînes

ATOM 955 CD2 TYR A 117 28.547 16.730 59.818 1.00 34.54 CATOM 956 CE1 TYR A 117 26.512 14.828 59.696 1.00 34.81 CATOM 957 CE2 TYR A 117 28.117 16.089 60.985 1.00 35.96 CATOM 958 CZ TYR A 117 27.100 15.139 60.917 1.00 35.42 CATOM 959 OH TYR A 117 26.673 14.515 62.069 1.00 37.14 OATOM 960 OXT TYR A 117 25.735 19.061 58.351 1.00 32.81 OTER 961 TYR A 117ATOM 962 N ARG B 3 42.047 55.053 18.876 1.00 34.90 NATOM 963 CA ARG B 3 42.680 56.307 19.383 1.00 35.03 CATOM 964 C ARG B 3 43.365 56.041 20.722 1.00 33.56 CATOM 965 O ARG B 3 42.720 55.647 21.691 1.00 33.47 OATOM 966 CB ARG B 3 41.614 57.395 19.562 1.00 37.48 CATOM 967 CG ARG B 3 40.638 57.499 18.394 1.00 41.05 C

PP Université Paris Diderot - Paris 7 50

Page 51: Formats de données en biologie

Plusieurs structures

MODEL 1ATOM 1 N GLY A 1 11.935 -10.938 0.352 1.00 0.00 NATOM 2 CA GLY A 1 13.344 -10.643 0.600 1.00 0.00 CATOM 3 C GLY A 1 13.861 -9.576 -0.330 1.00 0.00 CATOM 4 O GLY A 1 14.929 -9.728 -0.931 1.00 0.00 O[...]ATOM 934 HB2 GLU A 60 9.981 7.744 1.905 1.00 0.00 HATOM 935 HB3 GLU A 60 10.321 6.103 2.451 1.00 0.00 HATOM 936 HG2 GLU A 60 12.152 6.972 3.824 1.00 0.00 HATOM 937 HG3 GLU A 60 11.700 8.597 3.310 1.00 0.00 HTER 938 GLU A 60ENDMDLMODEL 2ATOM 1 N GLY A 1 19.334 -6.988 0.864 1.00 0.00 NATOM 2 CA GLY A 1 18.296 -6.813 1.874 1.00 0.00 CATOM 3 C GLY A 1 18.000 -5.370 2.142 1.00 0.00 CATOM 4 O GLY A 1 18.677 -4.724 2.959 1.00 0.00 O[...]ATOM 934 HB2 GLU A 60 11.353 9.615 -0.439 1.00 0.00 HATOM 935 HB3 GLU A 60 13.095 9.643 -0.204 1.00 0.00 HATOM 936 HG2 GLU A 60 13.380 10.930 -2.203 1.00 0.00 HATOM 937 HG3 GLU A 60 11.654 10.817 -2.534 1.00 0.00 HTER 938 GLU A 60ENDMDL

PP Université Paris Diderot - Paris 7 51

Page 52: Formats de données en biologie

Des trous[...]ATOM 7568 CB LYS B 72 -59.462-109.221 -72.440 1.00 31.64 CATOM 7569 CG LYS B 72 -58.524-109.915 -73.424 1.00 31.85 CATOM 7570 CD LYS B 72 -58.889-109.602 -74.868 1.00 32.02 CATOM 7571 CE LYS B 72 -58.174-110.533 -75.837 1.00 31.61 CATOM 7572 NZ LYS B 72 -58.629-110.335 -77.242 1.00 31.27 NATOM 7573 N GLY B 73 -61.309-106.416 -72.158 1.00 31.85 NATOM 7574 CA GLY B 73 -62.485-105.832 -71.510 1.00 30.84 CATOM 7575 C GLY B 73 -63.598-106.848 -71.303 1.00 29.65 CATOM 7576 O GLY B 73 -64.660-106.750 -71.920 1.00 28.85 OATOM 7577 N SER B 74 -63.354-107.820 -70.425 1.00 28.53 NATOM 7578 CA SER B 74 -64.301-108.911 -70.179 1.00 27.75 CATOM 7579 C SER B 74 -64.180-109.438 -68.754 1.00 26.72 CATOM 7580 O SER B 74 -65.113-110.041 -68.227 1.00 24.48 OATOM 7581 CB SER B 74 -64.070-110.058 -71.166 1.00 26.32 CATOM 7582 OG SER B 74 -64.505-109.716 -72.470 1.00 25.54 OATOM 7583 N GLN B 79 -62.682-105.888 -62.336 1.00 42.85 NATOM 7584 CA GLN B 79 -63.246-104.902 -63.248 1.00 42.57 CATOM 7585 C GLN B 79 -62.146-104.278 -64.103 1.00 42.60 CATOM 7586 O GLN B 79 -60.992-104.191 -63.681 1.00 42.45 OATOM 7587 CB GLN B 79 -63.996-103.819 -62.464 1.00 42.46 CATOM 7588 CG GLN B 79 -64.950-102.964 -63.300 1.00 42.30 CATOM 7589 CD GLN B 79 -66.093-103.764 -63.905 1.00 42.15 CATOM 7590 OE1 GLN B 79 -66.388-104.879 -63.472 1.00 42.18 OATOM 7591 NE2 GLN B 79 -66.743-103.194 -64.911 1.00 41.70 NATOM 7592 N VAL B 80 -62.514-103.846 -65.305 1.00 42.30 NATOM 7593 CA VAL B 80 -61.549-103.342 -66.275 1.00 42.03 CATOM 7594 C VAL B 80 -60.882-102.055 -65.796 1.00 42.42 CATOM 7595 O VAL B 80 -61.544-101.165 -65.260 1.00 43.09 O[...]

PP Université Paris Diderot - Paris 7 52

Page 53: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 53

Page 54: Formats de données en biologie

Quelques précautions

restez prudents / données

PP Université Paris Diderot - Paris 7 54

Page 55: Formats de données en biologie

GenBank Z71230LOCUS Z71230 124 bp DNA linear PLN 14-NOV-2006DEFINITION Nicotiana tabacum chloroplast JLA region, sequence 2.ACCESSION Z71230VERSION Z71230.1 GI:1279604KEYWORDS rpl2 gene; transfer RNA-His; trnH gene.SOURCE chloroplast Nicotiana tabacum (common tobacco)

ORGANISM Nicotiana tabacumEukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;asterids; lamiids; Solanales; Solanaceae; Nicotianoideae;Nicotianeae; Nicotiana.

REFERENCE 1 (bases 1 to 124)AUTHORS Goulding,S.E., Olmstead,R.G., Morden,C.W. and Wolfe,K.H.TITLE Ebb and flow of the chloroplast inverted repeatJOURNAL Mol. Gen. Genet. 252 (1-2), 195-206 (1996)PUBMED 8804393

[...]FEATURES Location/Qualifiers

source 1..124/organism="Nicotiana tabacum"/organelle="plastid:chloroplast"/mol_type="genomic DNA"/isolate="Cuban cahibo cigar, gift from President FidelCastro"/db_xref="taxon:4097"

gene <1..11/gene="rpl2"

PP Université Paris Diderot - Paris 7 55

Page 56: Formats de données en biologie

GenBank NC_001610LOCUS NC_001610 17084 bp DNA circular MAM 14-APR-2009DEFINITION Didelphis virginiana mitochondrion, complete genome.ACCESSION NC_001610VERSION NC_001610.1 GI:5835037DBLINK Project: 11806KEYWORDS .SOURCE mitochondrion Didelphis virginiana (North American opossum)

ORGANISM Didelphis virginianaEukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;Mammalia; Metatheria; Didelphimorphia; Didelphidae; Didelphis.

REFERENCE 1 (bases 1 to 17084)AUTHORS Janke,A., Feldmaier-Fuchs,G., Thomas,W.K., von Haeseler,A. and

Paabo,S.TITLE The marsupial mitochondrial genome and the evolution of placental

mammalsJOURNAL Genetics 137 (1), 243-256 (1994)PUBMED 8056314

[...]FEATURES Location/Qualifiers

source 1..17084/organism="Didelphis virginiana"/organelle="mitochondrion"/mol_type="genomic DNA"/isolate="fresh road killed individual"/db_xref="taxon:9267"/tissue_type="liver"/dev_stage="adult"

PP Université Paris Diderot - Paris 7 56

Page 57: Formats de données en biologie

GenBank 252544LOCUS 252544 649 bp RNA linear VRL 19-SEP-2002DEFINITION gene 7 3' end, 5' end, segment 7 [human rotavirus, strain Wa,

Genomic RNA, 425 nt 2 segments].ACCESSIONVERSION GI:252544KEYWORDS .SOURCE Human rotavirus A

ORGANISM Human rotavirus AViruses; dsRNA viruses; Reoviridae; Sedoreovirinae; Rotavirus;Rotavirus A.

[...]FEATURES Location/Qualifiers

source 1..649/organism="Human rotavirus A"/mol_type="genomic RNA"/strain="Wa"/db_xref="taxon:10941"

ORIGIN1 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

61 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn121 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn181 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn241 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn301 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn361 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn421 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn481 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn541 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn601 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnn

//

PP Université Paris Diderot - Paris 7 57

Page 58: Formats de données en biologie

PDB 7GBP, chaîne D, res 67

Oups !PP Université Paris Diderot - Paris 7 58

Page 59: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 59

Page 60: Formats de données en biologie

TTGTCACCTGTACACTGGCATTACTACACAGAAACCCAGATGTCCGTTACCAACCAATGAAAGATGACCGTGTGTCATTCATTCCTAAGATTCAAAATGATTTCGATGGCAAAAACAAAATTGATCCTGAACTGTTTGAATTGAGAAAAGCTGTTATGGACACCAATGAAAATGAGGAAGAAAAAATGTTCCGTGACGACACTTTCGGCAAGAACCTGAATGCAAACACAAATACAGCAAGACTCTTTGATGATGAGACTAGTTCATCCTCTTTTAAGCAAAATTCCTCTCCCTTCGATGCCTCGGAAGTAACGGAGCAACCTGTGCAACCAACCTCCGCTGTCATGGGTACGGGTGGCAGCTTCTTGTCTCCACAGTACCAACGTGCGTCATCTGCTTCTCGTACTAATCTAGCGCCGAATAATACAAGCACCTCCAGTTTAATGAAGCCTGAATCAAGTCTCTACCTGGGGAATTCCAATAAATCATATTCGCATTTTAACAACAACGGCAGCAACGAAAACGCCCGCAACAACAACCCATATTTGTAATCCAATATATACTCACATGTAACAACTTATTATATAAATATTTAAGGGCAAGGATATCCTACATTATATTTCATAGAAAACCGCTCAAAAAGGTGTATTATCTCCATTACATCCCAACACCACACATATTTCAGCGATAAAAACCTTAAATGTGAAATTCGCTTTGGCTCTGCTTCCTTAAATGTACGCAATTGCCGCTTTTTTCTGACATCTTTTTTGACGTGTAGAGAAGGAAACAGATCCTCCAGAAGGGATTTACTGTTGGCTATTTTGTGTTAGAAGCAGGTTAATAATAGATTAGGTTGCGTAAGTCATGGTCGAAAATAGTACGCAGAAGGCCCCACATGCCGGAAATGATGATAATAGCTCTACCAAGCCATATTCGGAGGCGTTTTTCTTAGGGTTCAATAACCCAACGCCTGGATTAGAAGCTGAGCACTCAAGCACATCGCCTGCCCCCGAGAACTCCAACTTGAAAATCGGTATGCTATTATCAATGCTTTACAATTCTGTCGGTTACCAATATCTGGAGGATCATTGCCCTCAAGGTGGCGAATATTCGGATTTATTGAGAAATTTGATCAATGAATGTGAAGCTATTTTGCCATCTTACGAAATTATTGAACGCTACAAGAACCACTTTTATGAGTACGTTTATCCAAGTCTACCTTTCATCGAATTAGAAATTTTTGAAGAATCATTAAGTCAAACAATTTTTCCGGACCCAAACAACCCCTCCAAGGTGCAAATACGTATGGGTAGCACACATTTGAGAGCTAAGGTGGAAAACTTGAGTCTTCTATTGGTTATCTTGAAACTCTCATACATGTCAATAAGGTTTTTAGATCATAGTACAGCAGACTCGAGTTTTTATCTTTCAAAGGAAATA

données : séquences, structures...

Page 61: Formats de données en biologie

formats – informations

Page 62: Formats de données en biologie

il existe des normes

... pas toujours respectées

Page 63: Formats de données en biologie

réfléchissez aux objets que vous manipulez

Page 64: Formats de données en biologie

PP Université Paris Diderot - Paris 7 64

Page 65: Formats de données en biologie

Menu1 Rappels

2 Problématique

3 Séquences

4 Structures

5 Quelques précautions

6 Conclusion

7 Références & crédits graphiquesPP Université Paris Diderot - Paris 7 65

Page 66: Formats de données en biologie

RéférencesCours de J.-C. Gelly Bases de données en biologie

Bioinformatics for dummies de J.-M. Claverie et C. Notredame

BioStarIncorrect / unusual entries in main databases (GenBank, UniProt, PDB) ?http://biostar.stackexchange.com/questions/10869/

incorrect-unusual-entries-in-main-databases-genbank-uniprot-pdb

PP Université Paris Diderot - Paris 7 66

Page 67: Formats de données en biologie

Références (2)format FASTA – http://en.wikipedia.org/wiki/FASTA_format

GenBank – http://www.ncbi.nlm.nih.gov/format :http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

UniProt – http://www.uniprot.org/format : http://www.uniprot.org/manual/

PDB – http://www.rcsb.org/pdb/home/home.doformat :http://www.wwpdb.org/documentation/format23/v2.3.html

PP Université Paris Diderot - Paris 7 67

Page 68: Formats de données en biologie

Crédits graphiquesSquidonius (Wikimedia)

Ralphbijker (Flickr)

USDA/ARS

Viktorvoigt (Wikimedia)

Icons-Land (Findicons)

herzogbr (Flickr)

Icons-Land (Findicons)

PAPYRARRI (Flickr)

PP Université Paris Diderot - Paris 7 68