homologie - orthologie- paralogie

33
Homologie - orthologie- paralogie Deux gènes sont homologues s'ils ont divergé à partir d'une séquence ancêtre commune. Deux gènes sont orthologues si leur divergence est due à la spéciation (le gène ancêtre commun se trouvait dans l'organisme ancêtre). Deux gènes sont paralogues si leur divergence est due à la duplication du gène ancêtre. Donc deux séquences sont ou ne sont pas homologues. Dire que la protéine X a 80% d'homologie avec la protéine Y est donc incorrect: soit: les deux protéines présentent 80% d'identité (résidus identiques) les deux protéines présentent 80% de similitude (résidus similaires)

Upload: zachary-atkins

Post on 30-Dec-2015

28 views

Category:

Documents


2 download

DESCRIPTION

Homologie - orthologie- paralogie. Deux gènes sont homologues s'ils ont divergé à partir d'une séquence ancêtre commune. Deux gènes sont orthologues si leur divergence est due à la spéciation (le gène ancêtre commun se trouvait dans l'organisme ancêtre). - PowerPoint PPT Presentation

TRANSCRIPT

Homologie - orthologie- paralogie

• Deux gènes sont homologues s'ils ont divergé à partir d'une séquence ancêtre commune.

• Deux gènes sont orthologues si leur divergence est due à la spéciation (le gène ancêtre commun se trouvait dans l'organisme ancêtre).

• Deux gènes sont paralogues si leur divergence est due à la duplication du gène ancêtre. Donc deux séquences sont ou ne sont pas homologues.

Dire que la protéine X a 80% d'homologie avec la protéine Y est donc incorrect: soit:

• les deux protéines présentent 80% d'identité (résidus identiques)• les deux protéines présentent 80% de similitude (résidus similaires)

Homologie - orthologie- paralogie

Spéciation 1

Duplication 1

Spéciation 2

Duplication2

A1 B1 B2 C1 C2 C3

Sur l'arbre, les événements de spéciation sont indiqués par une fourche et ceux de duplication par une ligne horizontale. Deux gènes dont l'ancêtre commun réside à une fourche sont orthologues et deuxgènes dont l'ancêtre commun se trouve sur une ligne horizontale sont paralogues.En appliquant cette règle:

• A1 est orthologue à B1,B2,C1,C2 et C3• B1 est orthologue à C1 et paralogue à B2, C2 et C3• B2 est orthologue à C2 et C3 et paralogue à B1 et C1• C1 est orthologue à B1 et paralogue à B2, C2 et C3• C2 et C3 sont paralogues, ils sont orthologues à B2 et paralogues à B1 et C1

(extrait de Fitch, 2000, TIG vol. 16, N°5)

Autres Définitions

• Xénologie : quand l'histoire d'un gène implique un transfert entre espèces de matériels génétiques (les transferts horizontaux). Les transferts de gènes entre organelles et noyau sont exclus de cette définition.

• Analogie : quand la similarité de caractères est apparue à la suite d'un processus de convergence.

AC

BC

Myc

opla

sma

pneu

mon

iae

Mycoplasma genitalium

D

D

B

B

CC

Mp C B A D

Mg D B C A

A

A

Comparaison de la position desgènes orthologues entre deuxgénomes

a) M. genitalium/H. influenzaeb) H. influenzae/E. coli

(extrait de Watanabe et al., 1997,J. Mol. Evol., 44 (Suppl. 1, S57-S64)

Conservation des gènes orthologues entre E. coli et B. subtilis(issus de KEGG)

Comparaison de l'organisation des gènes de l'opéron des protéines ribosomiques(issus de KEGG)

Conservation de la structure en opérons au sein des génomes

(Itoh et al. (1999) Mol. Biol. Evol., vol 16, 332-346)

Analyse réalisée à partir de structures opéroniques déterminées expérimentalement :

• 256 opérons décrits chez Escherichia coli (~ 3,5 gènes/opéron)

• 100 opérons décrits chez Bacillus subtilis (~4,1 gènes/opéron)

La comparaison de ces opérons avec les opérons orthologues de 11 autres génomes complètement séquencés a été réalisée. Le génome de Saccharomyces cerevisiae a été inclus dans cette liste car l'organisation de certains de ces gènes est connue pour être similaire à celle observée chez les bactéries.

Définition des paires d'orthologues:

• Les ORFS entre les deux génomes comparés doivent être les plus similaires de façon réciproque (BBH) (Fig. 1a).

• La similarité doit être statistiquement significative.

• Si un orthologue donné présente plus de similarité avec des paralogues du même génome, tous les paralogues sont considérés comme étant orthologues au partenaire de l'autre génome (Fig. 1b).

Fig. 1bFig. 1a

Conservation de la structure en opérons au sein des génomes

(Itoh et al., 1999)

•structure opéronique identique (exactement la même dans les 2 génomes).

• structure opéronique similaire: partiellement conservée, les translocations, les délétions et au plus 2 insertions dans l'opéron sont autorisées.

• structure opéronique détruite: si 2 orthologues ou plus sont trouvés entre les 2 génomes mais la structure en opérons n'est pas conservée.

• structure opéronique inconnue ou perdue: si aucun ou seulement un orthologue a été trouvé dans un opéron

Définition des classes d'opérons orthologues

Conservation de la structure en opérons au sein des génomes

(Itoh et al., 1999)

(Itoh et al., 1999) Génomes analysés

Arbre phylogénétique sans racine obtenu à partir de l'alignementdes séquences protéiques EF-2/G(facteur d'élongation)

Les nombres correspondent auxvaleurs de bootstrap pour 1000répétitions.

Eco: E. coliHin: H. influenzaeHpy: H. pyloruBsu: B. subtilisMge: M. genitaliumMpn: M. pneumoniaeSyn: Synechocystis sp.Sce: S. cerevisiaeMja: M. jannaschiiMth: M. thermoautotrophicumAfu: A. fulgidusTHICU: Thiobacillus cuprinusANANI: Anacystis nidulansTHETH: Thermus aquaticusAQUAE: Aquifex aeolicusMETVA: Methanococcus vannieliiTHEAC: Thermoplasma acidophilumSCHPO: S. pombeCHICK: Gallis gallusDROME: D. melanogasterCAEEL: C. elegansHUMAN: Homo sapiens

(Itoh et al., 1999) Conservation de la structure de 256 opérons d' E. colidans les autres génomes

(Itoh et al., 1999) Conservation de la structure de 100 opérons de B. subtilisdans les autres génomes

(Itoh et al., 1999)

Comparaison de la structure de l'opéron dnaK dans 5 génomes bactériens

(Itoh et al., 1999)

Nombre D'IS dans les différents génomes analysés

Conservation de l'ordre des gènes chez les procaryotes

(Tamanes, 2001 http://genomebiology/2001/2/6/research)

Analyse de l'ordre des gènes pour répondre aux questions suivantes:

• La conservation est-elle la même chez tous les procaryotes ?

• Les régions conservées sont-elles distribuées uniformément sur le chromosome ?

Définitions opérationnelles:

• 2 ORF sont dites homologues (recherche avec Blast) si :

• l'alignement représente au moins 75% de la longueur des 2 ORF

• la e-value est inférieur à 10-5

• 2 ORF sont dites orthologues si on a une relation bijective de similarité ("best bidirectionnal hit" (BBH))

• La mesure de la conservation des gènes entre 2 génomes est donnée par le rapport :

nombre de gènes localisés dans des suites conservées

nombre total de gènes orthologues

• Une suite :

• est constituée de gènes sur le même brin

• contient au moins 3 gènes

• au plus 3 insertions sont autorisées

(Tamanes, 2001)

Conservation de l'ordre des gènes dans les génomes procaryotes en fonction de ladistance phylogénétique mesurée par le nombre de substitutions dans les SSU rRNA

(Tamanes, 2001)

Conservation de l'ordre des gènes dans les génomes d'eubactéries en fonction de ladistance phylogénétique mesurée par le nombre de substitutions dans les SSU rRNA

Conservation de l'ordre des gènes dans les génomes procaryotes en fonction de la distance phylogénétique mesurée par la moyenne des distances obtenues par phylogénie moléculaire sur 24 protéines codées par des gènes conservés dans l'ensemble des organismes étudiés.

(Tamanes, 2001)

(Tamanes, 2001) Distribution de la conservation des gènes le long des génomes

Génome de référence: E. coli

Axe des y: génome individuel ordonné suivant la distance évolutive (SSU rRNA) croissante

T: Terminaison de réplication, O: origine de réplication

(Tamanes, 2001) Distribution de la conservation des gènes le long des génomes

Génome de référence: Xylella fastidosa

Axe des y: génome individuel ordonné suivant la distance évolutive (SSU rRNA) croissante

(Tamanes, 2001)

• Dans les suites de gènes conservées les produits de traduction sont généralement impliqués dans une même classe fonctionnelle.

• Pas de classe fonctionnelle sur-représentée, à l'exception de la traduction à cause de l'opéron des protéines ribosomiques.

• Quand les suites sont impliquées dans le métabolisme, les gènes codent pour des enzymes qui agissent de façon séquentielle dans une voie métabolique ou qui forment des complexes enzymatiques.

Analyse des suites de gènes conservées entre génomes

Un exemple de suite de gènes conservés

Conservation de l'ordre des gènes : une empreinte des protéines qui interagissent physiquement

(Dandekar et al., 1998, TIBS, 23,324-328)

• Ordre des gènes est considérablement modifié quand l'identité des protéines orthologues de deux génomes est inférieure à 50%.

• Pour avoir une conservation de l'ordre des gènes significative du point de vue de l'évolution il faut donc étudier celle-ci dans des espèces éloignées.

• Etude réalisée sur 3 groupes de 3 génomes avec 2 des distances intergénomiques ayant moins de 50% d'identité entre les orthologues communs.

• 3 protéobactéries (E. coli, H. influenzae, H. pylori)• 3 bactéries Gram + (B. subtilis, M. genitalium, M. pneumoniae)• 3 archébactéries (M. jannaschii, M. thermoautotrophicum, A. fulgidus)

• Pour éviter les problèmes de transferts horizontaux, seuls les gènes orthologues conservés dans le même ordre dans les trois génomes sont pris en compte.

(Dandekar et al., 1998)

Pourcentage d'identité entre les orthologues communs des deux espèces

Conservation de l'ordre des gènes : une empreinte des protéines qui interagissent physiquement

(Dandekar et al., 1998, TIBS, 23,324-328)

Résultats:

Environ 100 gènes orthologues sont conservés dans le même sens de transcription en paires ou en groupes dans les 3 génomes.

Parmi ces paires conservées:• pour au moins 75%, les gènes codent pour des protéines dont les interactions physiques ont été démontrées expérimentalement:

• protéines ribosomiques• sous unités de l'ARN polymérase• sous unités de l'ATP synthétase (cf. résultats de Tamanes)• certaines sous unités des transporteurs ABC• différentes sous unités enzymatiques• protéines de la division cellulaire (FtsA et FtsZ)

• pour 20%, de part la fonction des protéines codées on peut prédire qu'elles interagissent physiquement

• pour les 5% restants, soit pas de fonction décrite pour les protéines, soit pas d'évidence d'interaction entre-elles

(Dandekar et al., 1998) Opéron tryptophane: organisation dans les 9 génomes comparés

Seule la paire de gènestrpB-trpA est conservée.Ces deux gènes codent pourdeux sous unités de latryptophane synthétase.

Le concept d'uber-operon

(Lathe et al.,2000, TIBS, 25, 474-479)

Les études précédentes ont montré que:

• Individuellement, les opérons, ensembles de gènes co-transcrits et co-régulés, étaient très peu conservés au cours de l'évolution.• L'ordre des gènes et le contenu en gènes des opérons ainsi que leur mécanisme de régulation pouvaient varier même dans des espèces proches.

Dans cet article, Lathe et col. montrent en fait que ces réarrangements sont conservateurs, les réarrangements génomiques maintiennent les gènes individuels dans leur contexte fonctionnel et de régulation.

Ce contexte est appelé uber-opéron.

Le concept d'uber-operon

(Lathe et al.,2000, TIBS, 25, 474-479)

Mise en évidence au niveau informatique.

Définition du voisinage: 2 gènes sont voisins si ils sont dans le même sens de transcription et séparés par moins de 250 pb.

Définition d'un opéron: comme il y a peu de preuves expérimentales des structures opéroniques, le terme opéron désigne ici un opéron putatif constitué d'un ensemble de gènes séparés de moins de 250 pb et dans le même sens de transcription (donc voisins).

Caractérisation d'un uber-opéron, 3 étapes:

1) Un gène et ses orthologues sont identifiés dans un groupe donné de génomes (ici 15).

2) Les voisins conservés de ces orthologues sont déterminés. Un gène voisin sera considéré comme conservé, si des gènes orthologues sont trouvés dans au moins 3 génomes.

3) Les orthologues de ces nouveaux gènes sont recherchés dans tous les génomes. Les voisins conservés sont déterminés.

Les étapes 2 et 3 sont répétées jusqu'à ce qu'aucun nouvel orthologue ne soit identifié. Cet algorithme converge souvent vers un nombre fini de gènes fonctionnellement apparentés.Cet ensemble de gènes forme l'uber-opéron.

(Lathe et al., 2000)

Exemple conceptuel d'un uber-opéron au cours de l'évolution

(Lathe et al., 2000) Exemple de l'uber-opéron associé à la traduction

(Lathe et al., 2000)

Exemple de l'uber-opéron associé au flagelle

(Lathe et al.,2000)

Evolution des uber-opérons

Les remaniements de gènes se feraient au hasard dans les génomes au cours de l'évolution.

Si des gènes lors de ces remaniements se trouvent localisés dans un autre contexte (pas de régulation appropriée) cela pourrait être sélectivement négatif pour la population et ils seraient éliminés.

Par contre, si ces réarrangements placent les gènes dans un nouvel environnement contenant des gènes fonctionnellement apparentés et sous le contrôle d'une même régulation (même régulon), cela aura peu d'impact sur la survie de l'organisme et ils seront donc maintenus.

D'où l'observation aujourd'hui d'uber-opérons.