du génome aux protéomes « in silico » [email protected] institut suisse de...

68
du génome aux protéomes « in silico » [email protected] Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Upload: jerome-leger

Post on 04-Apr-2015

114 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

du génome aux protéomes« in silico »

[email protected]

Institut Suisse de Bioinformatique

Groupe Swiss-Prot

novembre 2004

Page 2: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

La bioinformatique, c’est quoi ?

L’utilisation de l’informatique pour l’analyse de l’ADN et des protéines de tous les êtres vivants.

Page 3: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données;

Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.

Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données;

Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine;

Page 4: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 1:acquisition de données

• Exemples: lecture d’images de gels 2D, spectrométrie de masse (MS), séquençage ADN...

• Détection de signaux ou d’images• Absence de contexte biologique.

Page 5: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Séquençage d’ADNInformatique instrumentale

Programme pour analyser les données

d’un séquenceur ADN

Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.

Page 6: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 2:Assemblage des séquences d’ADN

• Les méthodes actuelles de séquençage ne permettent pas d’obtenir des séquences fiables de plus de 1000 bp !

Nature 409, 860-921 (2001)

Page 7: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 2:Assemblage des séquences d’ADN

• -> Reconstruire la séquence complète d’un génome ou d’un morceau de chromosome (« contig ») à partir de séquences de 1000 bp;

• Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives.

“Celera-generated shotgun data set consisted of 27 million sequencing reads …”Whole-genome shotgun assembly and comparison of human genome assemblies.PNAS 101(7):1916-21 (2004)

Page 8: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC

Génome humain

3.2 milliards de pb

2.7 milliards de $ (coût en 2000)

100 $ (coût en 2008 ?)

Page 9: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Le génome humain (3ème version) contient actuellement encore 341 « trous »

(essentiellement vers les centromères/télomères, régions répétitives)

Nature (oct 2004), 431, 931

Page 10: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Contenu des banques de données de séquences en acides nucléiques

EMBL/GenBank/DDBJhttp://www.ebi.ac.uk/embl/index.html

Octobre 2004

Craig VenterEx: mer des Sargasses1 milliard pb/semainehttp://www3.ebi.ac.uk/Services/DBStats/

Page 11: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

http://www.ncbi.nlm.nih.gov/Genomes/index.html

Tous ces sites sont constamment remis à jour !

http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi

Page 12: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 3: Analyse de séquence ADN

• Détection des régions codantes;• Recherche de similarité (BLAST)• Analyse des sites de restriction (enzymes);• Traduction ADN en protéine;• Détection de régions de basse complexité;• Détection de séquences « repeats » comme les

microsatellites, minisatellites, Alu repeats, etc.;• Détection de régions ADN importantes non-codantes

comme les signaux de transcription (promoteur), origines de la réplication, etc.;

• Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

Page 13: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Détection des régions codantes (gènes)

• Problème assez facile chez les bactéries; très difficile chez les eucaryotes “supérieurs” (homme, drosophile, etc.);

• Chez l’homme: moins de 5 % du gènome est « codant » (transcrit en mARN).

• Techniques diverses: recherche de signaux, approches statistiques (biais des codons); similarité avec des séquences connues….

Page 14: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

•Premiers exons•TATA box•GC et CAT box•Région régulatrices

Recherche de « signaux » dansune petite partie du promoteur

d’une protéine (apo AII)

Page 15: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004
Page 16: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Une séquence ADN de C.elegans)(~25’000 bp)

Page 17: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Approche 1: Genebuilderhttp://l25.itba.mi.cnr.it/~webgene/genebuilder.html

Page 18: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Schéma récapitulatif

3 ’5 ’

Genebuilder prédiction

ADN génomiqueexons 1 4

Splicing / Epissage « in silico »

mARN mature1 2 3 4

2 3

108310031305

14061452

1661

1914

19972 31 4

Page 19: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 3: Analyse de séquence ADN

• Détection des régions codantes;• Recherche de similarité (BLAST)• Analyse des sites de restriction (enzymes);• Traduction ADN en protéine;• Détection de régions de basse complexité;• Détection de séquences « repeats » comme les

microsatellites, minisatellites, Alu repeats, etc.;• Détection de régions ADN importantes non-codantes

comme les signaux de transcription (promoteur), origines de la réplication, etc.;

• Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

Page 20: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Qu’est-ce qu’un BLAST ?

Outil informatique très efficace, permettant de faire des recherche de similarité à partir d'une séquence (protéine ou nucléique)

sur les séquences existantes (banques de données)

Qu’est-ce que les ESTs ?

“Expressed sequence tags” : cDNAs (mARNs) qui ont été rapidement séquencés, souvent

incomplets.

-> Très utiles pour connaître les régions génomiques “actives” (transcrites) et la structure

des gènes.(~24 mo de séquences “publiques”; 6 mo (homme))

Approche 2: Aligner la séquence génomique avec des mARNs

(BLAST contre ESTs)

Page 21: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

http://www.ncbi.nlm.nih.gov/BLAST/

Page 22: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Approche 2: Aligner la séquence génomique avec des mARNs

(BLAST contre ESTs)

Intron?

Page 23: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

EST => cDNA

gDNAexons 1 2 3 4

Splicing

Mature mARN (-> EST)1 2 3 4

Page 24: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Séquence codante de notre « gène »(sans les introns = correspondant au mARN)

108310031305

14061452

1661

1914

19972 31 4

Page 25: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 3: Analyse de séquence ADN

• Détection des régions codantes;• Recherche de similarité (BLASTN)• Analyse des sites de restriction (enzymes);• Traduction ADN en protéine;• Détection de régions de basse complexité;• Détection de séquences « repeats » comme les

microsatellites, minisatellites, Alu repeats, etc.;• Détection de régions ADN importantes non-codantes

comme les signaux de transcription (promoteur), origines de la réplication, etc.;

• Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

Page 26: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Les 3 phases de lecture…

Page 27: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Traduction avec « traduction multiple » http://www.infobiogen.fr/services/menuserv.html

Met

Stop

Page 28: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Recherche de similarité (contre les séquences de protéines déjà

connues: BLAST)

Page 29: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Conclusion de l’analyse

• La séquence de la protéine est MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIR WTVLHRIKNKKGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQT EDFRRQQREQAAKIAKDANKAVRAAKAAANKEKKASQPKTQQKTAKNVKT AAPRVGGKR

• Bonne prédiction par tous les logiciels, bons ESTs

• Notre gène inconnu est en fait déjà connu: il code pour une protéine ribosomale de type L24.

Page 30: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Des cas moins idéaux…

Ex: Chromosome 21

Page 31: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Combien de protéines humaines ?

Banques de données de séquences de protéines:(Swiss-Prot + TrEMBL = UniProt)

11’415 + 44’860 22’000

Estimation du nombre de gènes humains: 20’000-25’000

MS proteomics has verified more than 10% of human genes products, but has not identified significant numbers of unpredicted proteins (Southan C, Proteomics, 2004)

En cours: « peptide mapping » du génome, R. Aebersold, 21 % protéines humaines « vérifiées »….

Page 32: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

http://www.expasy.org/sprot/

-> ~ 1’200’000 protéines (estimation)

Page 33: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

C’est pas fini…

Page 34: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique- application 4:analyse de la séquence primaire des

protéines

• Caractérisation physicochimique• Prédiction de la localisation subcellulaire (“signal

séquences”, “transit peptides”);• Recherche de régions transmembranaires;• Recherche des régions fonctionnelles (domaines

conservés)• Recherche de sites de modifications post-

traductionelles (PTM). • Recherche de régions antigéniques;• Recherche de régions dont la composition est

biaisée (“low complexity sequences”);

Page 35: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

http://www.expasy.org/

Page 36: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Séquence d’une protéine « inconnue » de C.elegans

• >seq4• MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH• EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE• NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY• RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP• NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL• YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL• VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI• DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP• ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT• IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG• TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN• NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC• QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH• DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR• LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE• HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF• SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA• NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS• YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK• TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI• PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK• AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV• ISIIYDRCVDWISERLREKIRQRRKGA

Page 37: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique- application 4:analyse de la séquence primaire des

protéines

• Caractérisation physicochimique• Prédiction de la localisation subcellulaire (“signal

séquences”, “transit peptides”);• Recherche de régions transmembranaires;• Recherche des régions fonctionnelles (domaines

conservés)• Recherche de sites de modifications post-

traductionelles (PTM). • Recherche de régions antigéniques;• Recherche de régions dont la composition est

biaisée (“low complexity sequences”);

Page 38: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Déterminer les caractéristiques physico-chimiques

http://www.expasy.org/tools/protparam.html

Page 39: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique- application 4:analyse de la séquence primaire des

protéines

• Caractérisation physicochimique• Prédiction de la localisation subcellulaire (“signal

séquences”, “transit peptides”);• Recherche de régions transmembranaires;• Recherche des régions fonctionnelles (domaines

conservés)• Recherche de sites de modifications post-

traductionelles (PTM). • Recherche de régions antigéniques;• Recherche de régions dont la composition est

biaisée (“low complexity sequences”);

Page 40: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Localisation subcellulaire ?PSORT II

Page 41: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique- application 4:analyse de la séquence primaire des

protéines

• Caractérisation physicochimique• Prédiction de la localisation subcellulaire (“signal

séquences”, “transit peptides”);• Recherche de régions transmembranaires (TM);• Recherche des régions fonctionnelles (domaines

conservés)• Recherche de sites de modifications post-

traductionelles (PTM). • Recherche de régions antigéniques;• Recherche de régions dont la composition est

biaisée (“low complexity sequences”);

Page 42: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Résumé des différents résultats obtenus par différents programmes de prédiction

de TM

HMMTOP

PSORT II

TMpred

TMHMM

1 1130

1

1

1

1130

1130

1130

in

in

out

grande boucle

Page 43: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique- application 4:analyse de la séquence primaire des

protéines

• Caractérisation physicochimique• Prédiction de la localisation subcellulaire (“signal

séquences”, “transit peptides”);• Recherche de régions transmembranaires;• Recherche des régions fonctionnelles (domaines

conservés)• Recherche de sites de modifications post-

traductionelles (PTM). • Recherche de régions antigéniques;• Recherche de régions dont la composition est

biaisée (“low complexity sequences”);

Page 44: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

http://www.expasy.org/prosite/

Page 45: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Recherche des régions fonctionnelles

Il s’agit probablement d’une ATPase

Page 46: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique- application 4:analyse de la séquence primaire des

protéines

• Caractérisation physicochimique• Prédiction de la localisation subcellulaire (“signal

séquences”, “transit peptides”);• Recherche de régions transmembranaires;• Recherche des régions fonctionnelles (domaines

conservés)• Recherche de sites de modifications post-

traductionelles (PTM). • Recherche de régions antigéniques;• Recherche de régions dont la composition est

biaisée (“low complexity sequences”);

Page 47: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Sequence 484 ISPTTINTC 0.065 . Sequence 487 TTINTCGAI 0.029 . Sequence 499 CFDKTGTLT 0.077 . Sequence 501 DKTGTLTED 0.845 *T* Sequence 503 TGTLTEDGL 0.533 *T*

http://www.cbs.dtu.dk/services/NetPhos/

Prédiction des sites de phosphorylation(Importance des données expérimentales !)

Page 48: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

SulfinatorSulfatation

Glycosylation

Page 49: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Conclucion de l’analyse in silico de notre protéine inconnue

Poids moléculaire: 126 kD;Fonction: ATPase potentielle;Localisation subcellulaire: Membrane plasmique.Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire)PTM: Phosphorylée

Ça me semble

biologique …mais reste à le prouver !

Page 50: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

• Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution;

Bioinformatique - application 5:alignement de 2 séquences

MY-TAIL--ORIS-RICH-#x #### x#x# ####MONTAILLEURESTRICHE

(algorithme pour comparer des chants d’oiseaux)

Page 51: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

BLAST

Page 52: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

BLAST« la pierre angulaire de la bioinformatique »

Page 53: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 6: Alignement multiple

Exemples: Clustal W, T-coffee

tr|Q9N323 LVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGANDCAALKAAHAGISLSEAEASIA sp|Q21286|YBF7_CAEEL ITAMCDVYARMAPDQKAQLIGALQEIGAKVSMCGDGANDCAALKAAHAGISLSQAEASIA sp|Q9H7F0|ATY3_HUMAN LMLHGTVFARMAPDQKTQLIEALQNVDYFVGMCGDGANDCGALKRAHGGISLSELEASVA sp|Q9NQ11|ATY1_HUMAN VLVQGTVFARMAPEQKTELVCELQKLQYCVGMCGDGANDCGALKAADVGISLSQAEASVV sp|O74431|ATC9_SCHPO ILLKAQIFARMSPSEKNELVSCFQNLNYCVGFCGDGANDCGALKAADVGISLSEAEASVA sp|Q12697|ATC9_YEAST ILLNSSIYARMSPDEKHELMIQLQKLDYTVGFCGDGANDCGALKAADVGISLSEAEASVA : ::***:*.:* *: :*.: *.:********.*** *. *****: ***:.

Page 54: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Exemple d’un dendrogramme obtenu à partir d’un résultat de CLUSTALW à l’aide du programme « phylodendron »  

http://www.es.embnet.org/Doc/phylodendron/treeprint-form.html

Alignement multiple et dendogramme

Page 55: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 7:phylogénétique

• Reconstruction de l’évolution moléculaire des familles de protéines;• Reconstruction de l’évolution des espèces; création d’arbres

taxonomique;

• Reconstruction de l’évolution des chemins métaboliques.

Page 56: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Computational Challenges from the Tree of Life

The biology community has embarked on an enormously ambitious project, the assembly of the Tree of Life -- the phylogeny of all organisms on this planet.

This project presents a true computational grand challenge: - current phylogenetic methods can barely handle a few hundred organisms. - yet the Tree of Life has an estimated 10-100 million organisms.

November 8, 17:15, EPFL INM 202 Bernard Moret University of New Mexico Albuquerque, USA

Page 57: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 8analyse de la structure secondaire &

modélisation des protéines

Séquence d’une protéine

Structure d’une protéine

?MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEHEFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVENADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKYRKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGPNVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSLYSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVLVIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSIDKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKPADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVTIVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTGTLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKINNELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC

Page 58: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Bioinformatique - application 8analyse de la structure secondaire &

tertiaire des protéines

• Détermination de la structure tertiaire à partir de la séquence (“ab-initio”); problème non-résolu !

• Prédiction de la structure secondaire (hélices…)• Modélisation par homologie: prédire la structure

d’une nouvelle protéine ressemblant à une dont la structure est déjà connue; en plein développement…

• Programme de visualisation pour la structure 3D• Prédiction de “docking” entre protéines ou entre

une protéine et une petite molécule (« drug design »)

Page 59: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Exemple de données de cristallographie aux rayons X

Coordonnées atomiques - données expérimentales

CRYST1 42.700 41.700 73.000 90.00 104.60 90.00 P 21 2 12CA 82ORIGX1 1.000000 0.000000 0.000000 0.00000 12CA 83ORIGX2 0.000000 1.000000 0.000000 0.00000 12CA 84ORIGX3 0.000000 0.000000 1.000000 0.00000 12CA 85SCALE1 0.023419 0.000000 0.006100 0.00000 12CA 86SCALE2 0.000000 0.023981 0.000000 0.00000 12CA 87SCALE3 0.000000 0.000000 0.014156 0.00000 12CA 88ATOM 1 N TRP 5 8.519 -0.751 10.738 1.00 13.37 12CA 89ATOM 2 CA TRP 5 7.743 -1.668 11.585 1.00 13.42 12CA 90ATOM 3 C TRP 5 6.786 -2.502 10.667 1.00 13.47 12CA 91ATOM 4 O TRP 5 6.422 -2.085 9.607 1.00 13.57 12CA 92ATOM 5 CB TRP 5 6.997 -0.917 12.645 1.00 13.34 12CA 93ATOM 6 CG TRP 5 5.784 -0.209 12.221 1.00 13.40 12CA 94ATOM 7 CD1 TRP 5 5.681 1.084 11.797 1.00 13.29 12CA 95ATOM 8 CD2 TRP 5 4.417 -0.667 12.221 1.00 13.34 12CA 96ATOM 9 NE1 TRP 5 4.388 1.418 11.515 1.00 13.30 12CA 97ATOM 10 CE2 TRP 5 3.588 0.375 11.797 1.00 13.35 12CA 98ATOM 11 CE3 TRP 5 3.837 -1.877 12.645 1.00 13.39 12CA 99ATOM 12 CZ2 TRP 5 2.216 0.208 11.656 1.00 13.39 12CA 100ATOM 13 CZ3 TRP 5 2.465 -2.043 12.504 1.00 13.33 12CA 101ATOM 14 CH2 TRP 5 1.654 -1.001 12.009 1.00 13.34 12CA 102……. http://www.rcsb.org/pdb/

Page 60: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Programme de visualisation de la structure tridimentionnelle(Chime, Rasmol, PDB viewer…)

Interaction entre un facteur de transcription

(dimère) et l’ADN

Page 61: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

C’est beau…mais y a du

boulot !

Page 62: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

HIV: exemple d’application de la HIV: exemple d’application de la bioinformatiquebioinformatique

• 1984: identification du virus;• 1985: séquençage du génome de HIV-1 ; (4 laboratoires dont Montagnier/France et Gallo (USA) (??))

• 1985-1989: caractérisation des protéines;• 1989: structure X-ray de la protéase;• 1990: premiers inhibiteurs modélisés à partir de la

structure 3D de la protéase

• Novembre 1995: premier médicament (Invirase) approuvé par la FDA (trithérapie).

Page 63: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Structure 3D de la protease de HIV

Page 64: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Structure 3D de la protease de HIV +

inhibiteur

Page 65: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Conclusions

Extraordinaire potentiel de la bioinformatique…mais ne elle ne remplace(ra) pas les expériences «wet lab»

génomiques, protéomiques et autres, ni l’esprit critique humain (contexte biologique) !

La bioinfo fournit des outils performants aux chercheurs…

Les données expérimentales des chercheurs permettentd’améliorer les programmes bioinformatiques (prédiction)…

Page 66: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Avant …

Après …

Page 67: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Si vous êtes intéressés:

CPTIC 288 Explorer les génomes en classe

26 novembre 2004

http://www.webpalette.ch/dyn/4207.htm

Acquérir une vue d'ensemble des potentiels “éducatifs”des bases de données

(issues du séquençage du génome humain notamment)

http://tecfa.unige.ch/%7elombardf/projets/odyssee-genomes/

Page 68: Du génome aux protéomes « in silico » Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

Viroide 300

Petit phage (virus infectant une bactérie) 2,000

Virus du SIDA 10,000

Virus de l’herpès 150,000

Mycoplasma genitalium (bactérie parasite) 600,000

Bactérie 1 à 13 millions

Levure du boulanger 13 millions

Drosophile (mouche) 180 millions

Poisson fugu 360 millions

Homme 3.2 milliards

Pin 68 milliards

Salamandre 81 milliards

Amibe 670 milliards

La taille des génomes (en nombre de bases)