décoder les génomes

Post on 26-Jan-2016

33 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Décoder les génomes. ALLIER Biologie eT Informatique. Hugues Roest Crollius Ecole Normale Supérieure. La Génomique. Le Génome - est le support de l’information génétique - est grand. La Génomique nécessite la production de données à grande échelle - grands projets collaboratifs - PowerPoint PPT Presentation

TRANSCRIPT

ALLIER BIOLOGIE ET INFORMATIQUE

Décoder les génomes

Hugues Roest CrolliusEcole Normale Supérieure

La Génomique

Le Génome - est le support de l’information génétique- est grand

La Génomique nécessite la production de données à grande échelle

- grands projets collaboratifs- automatisation

Les problèmes: - le stockage- intégrer et centraliser les données- interroger et analyser les données

La production des données de génomiqueLes données: de quoi s’agit-il?

Cellule

Génome

Chromosome

Chromosome

ADN

ADN

Squelette phosphate

Paire de bases

Adénine Thymine

Guanine Cytosine

TGCACTC

ACGTGAG

Séquence d’ADN

La production des données de génomiqueDe l’expérience manuelle aux systèmes automatisés

Applied Biosystems 3730Broad Institute (USA)

1990 2008

La production des données de génomiqueUne croissance exponentielle

1995

1998

1996

1997

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

Levure

Nématode

Drosophile

Homo

Souris

Chimpanzé

Poule

Chien

Arabette

Tetraodon

Fugu

Rat

H. influenzae

OpossumC. Venter Macaque

100 200Gb

Progression du volume de données de séquences stockées dans les bases de données publiques

Ornithorynque J. Watson (09 JUIN 2008)

Sources : EMBL statistics

16 463 812 séquences distribuées selon 8135 positions géographiques

Sources : EMBL statistics

La production des données de génomiqueUne grande diversité

Source:EMBL statistics

Distribution des données de séquences

par groupes taxonomiques:Les vertébrés

représentent 70% du totalHumain

Invertébrés

Autres mammifères

Souris

Plantes

Autres vertébrés

Autres rongeurs

Bactéries

Champignons

La production des données de génomiqueUne grande diversité

La production des données de génomique

L’informatique est impliquée tout au long du processus de production:

- contrôle des machines à séquencer automatiques- Interprétation des signaux fluorescents produits par les machines- contrôles qualité- transfert de l’information de séquence- assemblage des génomes- stockage dans des bases de données- distribution à la communauté des chercheurs

Quelles sont les bases de donnée?

Les bases de données en génomique

GenbankNational Center for Biotechnology

Information (NCBI)

DDBJDNA Databank of Japan

EMBL-bankEuropean BioInformatics Institute (EBI)

Echange quotidien de

données

Génériques:

Spécialisées:

Animaux vertébrés Genome Animaux

Plantes (céréales, vigne,…) Bactéries

Et bien d’autres…

L’information de séquence

Est:- informatisée- standardisée- centralisée

- de très haute qualité

Une situation idéale pour l’analyse par des outils informatiques.

Mais quelle information est « codée » dans le génome, et comment l’identifier?

Le contenu en information d’un génome

La raison principale qui motive le séquençage d’un génome est d’accéder à son contenu en gènes

Mais un génome contient également des instructions pour:

- spécifier où et quand utiliser (exprimer) un gène- compacter l’ADN de chaque cellule (~2 mètres) dans le noyau- maintenir l’intégrité de la molécule d’ADN

- …

Qu’est ce qu’un gène ?

Le dogme central de la biologie moléculaire(le point de vue du biologiste)

ADN ARN Protéine

Sayo-Art Science Illustration pour la NSF

Qu’est ce qu’un gène?

KératineKRT31

Apolipoprotein E precursor

APOE

DoublecortineDCX

ADN

L’ADN des gènes portant les instructions nécessaires à la synthèse des protéines ne représente que 1,5 % des bases du génome humain

Le nombre total de gènes dans le génome humain a longtemps été une inconnue, et n’est pas encore déterminé avec précision. Il est estimé aujourd’hui à environ 23000 gènes.

Identifier la position d’un gène dans le génome

(le point de vue du bioinformaticien)

Les génomes sont trop grands pour espérer identifier les gènes un par un, par des approches ciblées et spécifiques à chacun d’eux.

Il faut des approches systématiques, automatiques

Une stratégie possible consiste à découvrir les « clés » qu’utilise la cellule pour lire les instructions, par des moyens informatiques

Annoter les gènes des génomes de manière automatique a été un objectif majeur de la bioinformatique pendant les 12 dernières années.

Identifier la position d’un gène dans le génome

(le point de vue du bioinformaticien)GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA

Qu’est ce qu’un gène?

exon intron

CTTGCAGATGTCGATGCTGGCAGTCA-----ATGAGGTTACATGGCCACAGGTA---GAGTGGCTGCAGATGACTGA

Récepteur olfactifOR6N1

KératineKRT31

Apolipoprotein E precursor

APOE

DoublecortineDCX

Identifier la position d’un gène…

Identifier la position d’un gène de manière automatique

Les signaux de début (ATG), de fin (TAA,TAG, TGA) et de bornes d’intron (GT et AG) ne sont pas suffisamment discriminant (ou spécifiques): seul certains parmi tous les signaux disponibles sont réellement utilisés pour marquer les limites des gènes.

Il faut donc rajouter de l’information.

Le dogme central de la biologie moléculaire

ADN ARN Protéine

Sayo-Art Science Illustration pour la NSF

Le séquençage des ARN messagersUne source d’information pour annoter les gènes dans le génome

CelluleNoyau

ADN

ARN

Protéine

Séquençage

ATGCCCTTCCCCAGCATCAGGTCTCCAGAGCCTTGCGGTGGCCTATAAAGCCTCCTAG

Séquence du génome

GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT

Annotation bioinformatiq

ue

GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT

Analyser la séquence d’un génomeIdentifier une séquence particulière

Le génome humain est composé de 3 milliards de bases A,T,C et G.

Comment connaître la positions exacte d’une séquence d’ARN de 100 bases, parmi les différents chromosomes humain, c’est-à-dire parmi les 3 milliards de bases?

Cela a revient à rechercher son nom et prénom dans la liste du nom et prénom de tous les français et tous les allemands listés dans le désordre, sans espaces.

Un algorithme a été développé dans ce but: BLAST

Développé en 1990 par des informaticiens aux USA, leur article a été cité plus de 23.000 fois depuis (4 citations par jour en moyenne), or en moyenne un article n’est cité que 24 fois. Il s’agit du logiciel le plus utilisé dans les Sciences du Vivant dans le monde.

Comment fonctionne BLAST ?

BLAST(Basic Local Alignment Search Tool)

ATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACG

GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA

A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C

T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C

Match exact

Séquence « requête »

Séquence « cible »

“mot” de taille W = 11 bases

BLAST(Basic Local Alignment Search Tool)

A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C

T T A C G C G A T G T A G A C A G C G T A G C A A TG T T G

Séquence requête

Séquence cibleG T A T G

Matrice de score

A T G C NA 5 -4 -4 -4 -2T -4 5 -4 -4 -2G -4 -4 5 -4 -2C -4 -4 -4 5 -2N -2 -2 -2 -2 -1paramètre X= seuil à ne pas dépasser = -21

BLAST(Basic Local Alignment Search Tool)

C A G C G T A G C A A ××

+5+5-4-4

Somme = -8

BLAST(Basic Local Alignment Search Tool)

Etape 1: ancrage par un mot de taille définie (paramètre W)

Etape 2: extensions de chaque côté (paramètre X)

Si l’on recherche une identification 100% exacte, alors X=0

Sur un ordinateur familial, la dernière version de BLAST trouve la position correcte d’une séquence de 100 bases dans le génome humain en moins de 2 minutes.

Identifier les gènes dans un génome

Nécessite d’associer l’identification de signaux (début, fin, bornes des introns) avec des informations obtenues à partir de l’expression des gènes (ARN). Est-ce ce suffisant?

Annotation automatique des

gènes

Identifier les signaux

(début, fin, bornes des

introns

Informations dérivées de l’expression des gènes

(ARNs)

Génomique comparative

1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09

J.C. VenterBactérie Levure Ver MoucheHumain Souris Poule Chimpanzé

Au delà du génome humain, ceux de bien d’autres espèces ont été séquencés, pour les mêmes raisons: accéder à leurs gènes. Ces ressources permettent d’appliquer une stratégie de génomique comparative,très puissante pour aider à l’annotation des gènes.

La génomique comparative

Poisson zèbre

Medaka

Epinoche

Fugu

Tetraodon

Crapaud

Poule

Ornithorynque

Opossum

Eléphant

Tenrec

Tatou

Hérisson

Vache

Chien

Macaque

Humain

Chimpanzé

Carnivora

Boreoeutheria

Xenarthra

Metatheria

Prototheria

Theria

Mammalia

Amniota

Osteichthyes

0100 50200 150300 250400 350450

LapinRat

SourisMurinae

Lagomorpha

Catarrhini

Insectivora

Millions d’années

Eutheria

Actinopterigii Teleostei

RequinChondrichthyes

Sarcopterigii

Tetrapoda

Percomorpha

Otocephala

Poissons

Mammifères

AmphibiensOiseaux

Euarchontoglire

Humain

Souris

La génomique comparativeEvolution des vertébrés

La génomique comparativeUne ressource pour l’annotation des gènes

Exemple: Le gène de la kératine, protéine entrant dans la composition des poils, des ongles et des cheveux chez les mammifères.

L’homme et la souris ont hérité leur gène de kératine de leur dernier ancêtre commun. La fonction de la protéine est toujours la même, il est donc raisonnable de supposer que le gène de la kératine contient toujours des instructions (une séquence) très similaire entre l’homme et la souris.

Comparer la séquence du génome de l’homme et de la souris permettrait d’identifier les deux gènes en une seule opération.

cacagacctggaa-caaactaaagccagacacatactATGGACACCAAGG……ctcagactcagagacaacgtgaagctgaacacacaccATGGATACCAAGG……

……GAGGAGCTCCAGCAGAAGgtaagattcctaagaac……ttctagATCTTGTG…………GAGGAGCTGCAGCAGAAGgtaaga-gctcagcaag……ttctagATCTTGTG……

La génomique comparativeUne ressource pour l’annotation des gènes

Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent les mêmes grandes fonctions de la vie

- reproduction- développement- système nerveux central- système digestif- système musculaire- ….

On estime que les gènes présents dans le génome de la souris ou du chien peuvent être informatifs pour identifier les gènes humains (ou vice-versa) simplement par alignement de séquence.

Généralisation: Toutes les informations importantes contenues dans le génome (codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces différentes et donc d’être découvertes par alignement de séquences.

Identifier les gènes dans un génome

Annotation automatique des

gènes

Identifier les signaux

(début, fin, bornes des

introns

Informations dérivées de l’expression des gènes

(ARNs)

Analyse du texte- alphabet- grammaire

- informatique- algorithmique- statistique

Génomique expérimentale- échantillons biologiques - molécules

- biologie moléculaire- bioinformatiqueGénomique

comparative

Séquençage haut débit - procédé industriel - évolution- bioinformatique

Historique des estimations du nombre de gènes dans le génome

92 93 94 95 96 97 98 99 00 01 02 03 04 05 06

20 000

40 000

160 000

140 000

120 000

100 000

80 000

60 000

Estimations publiées

Estimations non publiées

Publication génome humain

07

Identifier les régions fonctionnelles dans les génomesAu delà des gènes codant les protéines, que reste-t-il à découvrir?

Aujourd’hui (juin 2008) , 22740 gènes ont été annotés dans le génome humain.

1°) Une énigme: Certaines régions du génomes ne sont pas des gènes, mais sont 100% identiques entre l’homme et la souris sur de longue distances : régions « ultra conservées ». Quelles sont leurs fonctions?

TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC

TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC

TTGCCATTCATTAGTTATGTTCACAATAAGATTACCAACTCCCGGGACTAGCTCATC-------

Identifier les régions fonctionnelles dans les génomesAu delà des gènes codant les protéines, que reste-t-il à découvrir?

Un gène pour fonctionner au bon moment et au bon endroit, a lui-même besoin d’instructions, qui sont également contenue dans la séquence du génome: les séquences de régulation.

Il n’existe pas de signaux connus qui soient systématiquement associés à ces régions. Les méthodes expérimentales sont très laborieuses et coûteuses.

Annotation automatique

des régions de régulation

Identifier les signaux

Informations dérivées

de l’expression des gènes

(ARNs)

Génomique

comparative

✗ ✗

Navigateur de Génome à UCSC : http://genome.ucsc.edu/

Identifier les régions de régulationLa génomique comparative à la rescousse

Le gène MCM2 code une protéine importante pour la réplication des chromosomes. Il possède 16 exons bien conservés au cours de l’évolution, des primates aux poissons.

Identifier les régions de régulationLa génomique comparative à la rescousse

Le gène GATA2 code pour une protéine importante pour la mise en place du système vasculaire au cours du développement. Il possède 6 exons bien conservés au cours de l’évolution, des primates aux poissons

Donc, ce n’est à priori pas un exon « oublié »

Il contient de multiple signaux « STOP »

Identifier les régions de régulationUne expérience de biologie

Région inconnue LacZ

ProtéineLacZ+

Β-lactamase=

Couleur bleue

Embryon de

souris

Khandekar, M. et al. Development. 2007 May;134(9):1703-12.

Artère ombilical

e

Veine ombilical

e

Système vasculaire

du sac vitellin

21 jours

Identifier les régions de régulation

L’analyse bioinformatique fournit une piste importante: - la région est conservée au cours de l’évolution, donc elle a une fonction importante - mais ce n’est pas un fragment de gène

L’expérience de biologie moléculaire confirme: la région est une région de régulation qui spécifie l’endroit et le moment où le gène doit être exprimé.

Conclusion

Séquencer les génomes, identifier l’information qu’ils contiennent et comprendre sa signification nécessite à toutes les étapes une alliance étroite entre biologie et informatique.

top related