Université d’Evry Val d’Essonne
Ecole doctorale des Génomes aux organismes
Laboratoire Statistique et Génome – UMR CNRS 8071 – INRA 1152 – Université d’Evry Val d’Essonne
Tour Evry 2 – 523, place des Terrasses – 91034 Evry cedex
Soluscience SA – Biopole Clermont-Limagne – 63360 Saint-Beauzire
Le domaine protéique, une unité
d’homologie pertinente en génomique
comparative
THESE
présentée et soutenue publiquement le 7 Novembre 2006
pour l’obtention du diplôme de DOCTORAT
par
Sophie Pasek
Composition du jury :
Daniel Kahn Rapporteur
Eduardo Rocha Rapporteur
Pierre Netter Examinateur
Bernard Prum Examinateur
Jean-Loup Risler Directeur de thèse
Sommaire 1
Sommaire
Sommaire ................................................................................................................................... 1
Table des Illustrations ............................................................................................................... 4
Avertissements et abréviations................................................................................................... 6
Introduction ................................................................................................................................ 7
1 Les domaines protéiques .................................................................................................. 12
1.1 Définition, présentation................................................................................................ 12
1.1.1 Définition biologique ........................................................................................... 12
1.1.2 Formalisation........................................................................................................ 12
1.1.3 Les bases de données de domaines ...................................................................... 13
1.1.4 Le domaine : une unité d’évolution...................................................................... 13
1.2 Homologie : du gène au domaine................................................................................. 14
1.2.1 Définition de gènes homologues .......................................................................... 14
1.2.2 Limites de cette définition.................................................................................... 14
1.2.3 Définition de domaines homologues.................................................................... 15
1.2.4 Relations entre homologie de gènes et homologie de domaines.......................... 15
1.3 Travaux récents sur les domaines................................................................................. 16
1.3.1 Les combinaisons de domaines ............................................................................ 16
1.3.2 Les réseaux d’interactions de domaines............................................................... 17
1.3.3 Les réarrangements de domaines ......................................................................... 17
1.3.4 Mes travaux .......................................................................................................... 18
2 De la synténie de gènes à la synténie de domaines .......................................................... 21
2.1 La synténie de gènes .................................................................................................... 21
2.1.1 Définition générale............................................................................................... 21
2.1.2 Intérêts en biologie ............................................................................................... 22
2.1.3 Définition adoptée ................................................................................................ 23
2.1.4 Limites de cette définition.................................................................................... 24
2.2 La synténie de domaines .............................................................................................. 25
Sommaire2
2.2.1 Définition adoptée ................................................................................................ 25
2.2.2 Comparaison de la synténie de domaines avec la synténie de gènes ................... 27
2.3 Conclusions .................................................................................................................. 29
3 De la fusion de domaines à la fusion de gènes................................................................. 32
3.1 Les réarrangements de domaines ................................................................................. 32
3.1.1 Définitions et état de l’art..................................................................................... 32
3.1.2 Classification des différents types de réarrangements ......................................... 32
3.1.3 Problématique....................................................................................................... 34
3.2 Mécanismes d’évolution des protéines multi-domaines .............................................. 34
3.2.1 La recombinaison intra-domaine.......................................................................... 35
3.2.2 La recombinaison inter-domaine.......................................................................... 36
3.2.3 La fusion/fission de gènes .................................................................................... 37
3.3 La fusion/fission de gènes, un mécanisme majeur de l’évolution des protéines multi-
domaines............................................................................................................................... 38
3.3.1 Cribler des réarrangement de domaines ............................................................... 38
3.3.2 Importance quantitative des différents réarrangements élémentaires .................. 42
3.3.3 Identification d’un mécanisme majeur ................................................................. 43
3.4 Conclusions .................................................................................................................. 45
4 De la redondance en gènes à la redondance en domaines................................................ 48
4.1 La redondance en gènes ............................................................................................... 48
4.1.1 La robustesse génétique et les mécanismes de compensation.............................. 48
4.1.2 Une littérature abondante et polémique ............................................................... 48
4.1.3 Les expériences de robustesse génétique aux mutations nulles chez S.cerevisiae
49
4.1.4 La redondance en gène à travers les travaux de Gu et al. .................................... 50
4.2 La redondance en domaines ......................................................................................... 51
4.2.1 Problématique liée à la duplication partielle de gènes ......................................... 51
4.2.2 Mise en évidence d’un nouveau mécanisme de compensation ............................ 52
4.3 Conclusions .................................................................................................................. 56
Conclusion et perspectives ....................................................................................................... 58
Bibliographie............................................................................................................................ 60
Sommaire 3
Références Internet................................................................................................................... 67
ANNEXE 1 : Les domaines Pfam............................................................................................ 69
ANNEXE 2 : La synténie de gènes / domaines ....................................................................... 70
ANNEXE 3 : Article 1, la synténie de domaines..................................................................... 73
ANNEXE 4 : Article 2, l’évolution des protéines multi-domaines.......................................... 74
ANNEXE 5 : Article 3, la redondance en domaines................................................................ 75
Table des Illustrations4
Table des Illustrations
Figure 1 : Domaines des protéines codées par les gènes trpC, trpF et trpC(F) ..................... 15
Figure 2 : Un cas de réarrangement circulaire entre deux ADN-polymérases du virus de
l’hépatite B ............................................................................................................................... 18
Figure 3 : Un exemple de macrosynténie. Carte des macrosynténies entre le chromosme 9
humain, les chromosomes 2, 4, 13 et 19 de la souris. Les blocs d’une même couleur font
partie d’une même synténie. Chaque bloc est relié à son bloc « orthologue » dans l’autre
espèce par des traits. Image provenant d’ENSEMBL (cf référence internet [2]).................... 22
Figure 4 : Définition de la synténie sur un chromosome X. Chaque gène est représenté par
une flèche pleine. Les noms des gènes sont indiqués en dessous des gènes, leur position au
dessus. ...................................................................................................................................... 23
Figure 5 : Un exemple de synténie de domaines : le système phosphotransférase du fructose.
Cette synténie qui traverse Yersinia pestis, Salmonella typhi, Vibrio cholerae et Escherichia
coli contient 3 gènes faisant partie du système phosphotransférase spécifique du fructose.
Cette synténie présente une duplication chez S. typhi. La seconde occurrence de S. typhi
semble ne pas être spécifique du fructose d’après les annotations.......................................... 26
Figure 6 : Un exemple de synténie de domaines : l’opéron tryptophane. Cette synténie qui
traverse les génomes de Anabaena sp., Bacteroides thetaiotaomicron, Escherichia coli,
Salmonella typhi et Yersinia pestis montre de nombreux rérrangements de type fusion de
gènes. Les locus tag des gènes sont indiqués en dessous de chacun d’entre eux. Pour
Bacteroides thetaiotaomicron et Escherichia coli, on a indiqué en plus le nom de chaque gène
au dessus de celui-ci................................................................................................................. 27
Figure 7 : Sensibilité comparée de la synténie de gènes et de la synténie de domaines. Carte
du chromosome d’E.coli. Les gènes faisant partie d’une synténie sont indiqués en rouge, les
autres en bleu. Le cercle intérieur représente les résultats de DomainTeam (synténie de
domaines) tandis que le cercle extérieur représente ceux de GeneTeam (synténie de gènes).
En vert sont représentés les plus grandes régions synténiques respectivement pour GeneTeam
et DomainTeam. ....................................................................................................................... 28
Table des Illustrations 5
Figure 8 : Les différents types de réarrangements élémentaires ............................................. 33
Figure 9 : Les indels internes et terminaux.............................................................................. 33
Figure 10 : Un mécanisme possible de permutation circulaire. I-CP : intermédiaire de
permutation circulaire, CP : permutation circulaire. Figure extraite de Weiner et al. 2005. 34
Figure 11 : Recombinaison intra-domaine entre deux déterminants hsdS de deux plasmides de
L. lactis. .................................................................................................................................... 36
Figure 12 : Une synténie de domaines à deux occurrences chez H. influenzae et V. cholerae.
Les couples de gènes homologues sont indiqués par des flèches doubles. .............................. 41
Figure 13 : Synténie de domaines entre les génomes 1, 2 et 3 et scénario en 3 étapes (a, b, c)
montrant que la fusion/fission de gènes peut être à l’origine des indels terminaux sans être en
contexte de « fusion/fission évidente ». .................................................................................... 45
Figure 14 : Distribution comparée des gènes dupliqués et des singletons en fonction des 4
classes de délétion. Figure extraite de Gu et al. (2003). Role of duplicate genes in genetic
robustness against null mutations. Nature 421, 63-66............................................................. 51
Figure 15 : Scénario de duplication puis de fission d’un gène illustrant la création d’un gène
dupliqué partiel (i.e. constitué de copies de morceaux d’autres gènes). ................................. 52
Figure 16 : Définition des trois classes de gènes : Dupliqués, dupliqués partiels et singletons.
.................................................................................................................................................. 53
Figure 17 : Distribution comparée des gènes singletons, des dupliqués partiels et des
dupliqués en fonction des 4 classes de délétions (faible, modéré, important, létal). ............... 55
Figure 18 : Distribution comparée des gènes dupliqués proches, des dupliqués distants et des
dupliqués partiels en fonction des 4 classes de délétions (faible, modéré, important, létal)... 56
Tableau 1 : Les données synténiques. 8491 synténies de domaines ayant un score supérieur à
90 ont été retenues. Un gène est dit synténique s’il appartient à une synténie de domaines :
c’est le cas de 59852 gènes soit 70% des gènes des 28 bactéries considérées. Un gène inséré
est un gène situé dans une synténie de domaines, dont les domaines ne font pas partie de la
synténie (domaines insérés). .................................................................................................... 42
Tableau 2 : Distribution des différents types de réarrangements élémentaires de domaines. 43
Avertissements et abréviations6
Avertissements et abréviations
Identifiants : sauf indication contraire, les identifiants utilisés sont :
• Pour les gènes, les noms de locus ou les noms de gènes,
• pour les protéines, les identifiants Uniprot,
• pour les domaines, les numéros d’accession Pfam.
NR : Base de données contenant toutes les séquences non redondantes de GenBank, EMBL,
DDBJ et PDB.
HMM (Hidden Markov Model) : Modèle à chaîne de Markov cachée.
BBH (Bidirectionnal Best Hit) : Meilleur score réciproque. Méthode utilisée pour identifier
les orthologues. On admet que si deux protéines appartenant à deux organismes distincts sont
en BBH, alors les gènes qui codent ces deux protéines sont orthologues.
Famille de domaines : On utilise le terme famille de domaines pour désigner tous les
domaines d’un même type, c’est à dire tous ceux qui portent le même numéro d’accession ou
identifiant.
Introduction 7
Introduction
Etudier les phénomènes évolutifs afin de retracer la phylogénie des espèces et de comprendre
les mécanismes sous-jacents constitue un des enjeux majeurs de la génomique comparative.
Elle tente en effet, d’interpréter la multitude de données disponibles afin de proposer des
modèles d’évolution, de retracer les processus responsables de la conservation/divergence
entre les génomes. Par définition, l’unité utilisée en génomique comparative est le gène. Au
niveau le plus bas, les mutations qui affectent directement les nucléotides formant la séquence
d'ADN du gène sont étudiées (mutations ponctuelles). À un niveau plus élevé, l’étude des
segments chromosomiques constitués de plusieurs gènes permet d’étudier la dynamique
affectant ces segments tels que des duplications, inversions, transpositions, délétions,
insertions, implications dans des transferts horizontaux. Finalement, à très grande échelle, les
génomes entiers (ensembles de gènes) pouvant être dupliqués par des processus d'hybridation,
de polyploïdisation ou soumis à des processus d’endosymbiose et menant souvent à de
nouvelles espèces constituent également un des sujets d’étude de la génomique comparative.
Une étape fondamentale dans l'analyse comparative de génomes est d'établir la
correspondance entre les gènes, i.e. trouver les gènes homologues parmi lesquels on distingue
les orthologues et les paralogues. Deux gènes orthologues dans deux génomes distincts
partagent une histoire évolutive commune : celle qui s’est écoulée avant la spéciation. De
même, deux gènes paralogues dans un même génome partagent une histoire évolutive
commune : celle qui s’est écoulée avant la duplication. En pratique, la recherche des
homologues se fonde sur les résultats de comparaison des séquences des protéines codées par
les gènes. Plus particulièrement, l’identification des orthologues est basée sur la recherche du
meilleur hit réciproque (BBH). Cependant, après spéciation ou duplication, les gènes peuvent
subir de multiples réarrangements tels que des duplications internes, des fusions/fissions de
telle sorte que différentes parties du gène peuvent avoir des histoires évolutives distinctes.
Dans ce cas, l’homologie n’a plus de sens au niveau du gène mais elle en a un au niveau des
différentes parties du gènes. D’autre part, sur le plan structural et fonctionnel, chaque partie
Introduction8
du gène peut assurer une fonction indépendante du reste du gène. C’est le cas par exemple de
certains gènes qui codent pour différentes sous-unités d’un même complexe ou pour des
enzymes multi-fonctionnelles. Ces parties du gène qui constituent des unités d’évolution à
part entière et qui ont une structure et une fonction propre sont appelées modules ou
domaines. La plupart des protéines sont modulaires, c’est à dire constituées de domaines et
cette modularité fausse les résultats de nombreuses méthodes en génomique comparative.
Afin de tenir compte de cette modularité, on se propose de réaborder certains problèmes de
génomique comparative en utilisant comme unité non plus le gène mais le domaine. De même
que le gène, le domaine est une unité qui peut être étudiée à divers niveaux : chaque domaine
peut faire l’objet de mutations ponctuelles, les séquences des domaines peuvent être
dupliquées, inversées, transposées, délétées, insérées ou impliquées dans des transferts
horizontaux, etc. ; un gène peut être considéré comme codant pour un ensemble de domaines
et un groupe de gènes formant un segment chromosomique peut être redécrit comme un
ensemble de domaines.
Dans cette thèse, nous avons revisité trois thématiques classiques abordant ou utilisant
des techniques liées à la génomique comparative en les étudiant sous l’angle des domaines
plutôt que des gènes. Chacun des trois thèmes fait l’objet d’un chapitre. Dans chaque cas,
utiliser le domaine comme unité à la place du gène s’est avéré pertinent et a permis d’apporter
de nouveaux résultats.
Le premier chapitre décrit la synténie de domaines, i.e. l’équivalent en domaines de la
synténie de gènes. La recherche de synténies est une méthode largement utilisée en
génomique comparative. Les régions synténiques identifiées correspondent à des segments
chromosomiques dont le contenu en gènes est conservé entre plusieurs espèces. Les synténies
obtenues permettent tout d’abord d’apprécier le degré de conservation entre les génomes et
constituent ainsi un moyen d’évaluer la dynamique qui s’exerce à travers les multiples
réarrangements tels que les duplications, insertions/délétions, inversions, transpositions,
fusions/fissions, etc. La synténie est également très utilisée pour compléter les annotations
fonctionnelles manquantes. Comme dans la plupart des outils de génomique comparative,
Introduction 9
l’unité de la synténie est le gène et c’est la conservation du contenu en gènes qui est
recherchée. La méthode que nous introduisons utilise le domaine comme unité de la synténie
et recherche la conservation locale du contenu en domaines. Cette méthode présente de
nombreux avantages. Tout d’abord, les profils HMM utilisés pour détecter les domaines sont
plus sensibles que les comparaisons de séquences habituellement utilisées pour détecter les
gènes homologues. Ensuite, elle permet en plus des réarrangements de gènes de détecter les
réarrangements de domaines (duplications, fusions/fissions, etc.). Finalement, elle permet de
s’affranchir de la détection des liens d’orthologie et de paralogie. Nous montrons que les
régions synténiques ainsi trouvées sont plus nombreuses et plus larges qu’en utilisant la
synténie de gènes.
Le second chapitre est consacré à l’évolution des architectures multi-domaines des
protéines bactériennes et aux mécanismes responsables des réarrangements de domaines. Les
mécanismes à l’origine de l’évolution des gènes font l’objet de nombreux travaux. Ceux-ci
utilisent les méthodes classiques de la génomique comparative : alignements de séquences,
recherche des meilleurs hits, etc. Cependant, certains réarrangements n’affectent que certaines
parties des gènes telles que les duplications internes, les permutations circulaires ou les
fusions/fissions et ne sont pas criblés par ces méthodes. Dans ce cas, les réarrangements de
domaines permettent d’étudier l’évolution des gènes. L’étude des synténies de domaines
précédemment décrites nous a permis de cribler des protéines ayant subi des réarrangements
élémentaires de domaines parmi lesquels on a distingué les protéines affectées par une
substitution de domaine de celles affectées par une répétition ou une insertion/délétion de
domaine. Nous avons mis en évidence que parmi ces réarrangements, les insertions/délétions
de domaine sont largement plus représentées et qu’elles interviennent le plus souvent en
position terminale de la séquence protéique. L’analyse des régions synténiques contenant ces
gènes affectés par des insertions/délétions terminales nous a permis de mettre en évidence que
la fusion/fission de gènes constitue un mécanisme majeur de l’évolution des architectures
multi-domaines des protéines bactériennes.
Introduction10
Le troisième chapitre a pour objet la redondance en domaines en tant que mécanisme
de compensation aux mutations nulles. Suite à la délétion d’un gène, certains mécanismes dits
de compensation ont pour conséquence de compenser la perte de l’activité habituellement
assurée par le gène délété. Deux mécanismes de compensation ont été mis en évidence et
largement discutés : (i) le recrutement de voies métaboliques ou réseaux alternatifs et (ii) la
compensation par des gènes paralogues (i.e. dupliqués). Dans ce second cas, lorsqu’un gène
est délété dans un organisme, s’il existe une copie de ce gène dans cet organisme alors la
copie peut compenser la perte d’activité due à la délétion. Ce mécanisme de compensation est
également appelé redondance en gènes. De même qu’une redondance en gènes, il existe une
redondance en domaines. En effet, suite aux réarrangements de domaines évoqués plus hauts,
certains gènes ne constituent pas des copies « complètes » d’autres gènes mais sont constitués
de copies de morceaux d’autres gènes. On appelle ces gènes les « dupliqués partiels ». Nous
avons testé chez Saccharomyces cerevisiae le comportement à la délétion de ces gènes
dupliqués partiels. Cette étude a permis de mettre en évidence un nouveau mécanisme de
compensation appelé la « redondance en domaines ». Nous avons étudié les bases
moléculaires de ce mécanisme et discuté deux mécanismes moléculaires probablement
impliqués dans ce type de compensation. Lorsqu’un gène partiellement dupliqué est délété, il
peut être compensé (i) soit par une protéine plus grande qui contient entre autres les mêmes
domaines (ii) soit par l’interaction entre plusieurs protéines qui contiennent l’ensemble des
domaines requis pour assurer l’activité. Utiliser le domaine comme unité a cette fois permis
de mettre en évidence un nouveau mécanisme de compensation génétique.
Chapitre I : Les domaines protéiques
Les domaines protéiques12
1 Les domaines protéiques
1.1 Définition, présentation
1.1.1 Définition biologique
Le terme domaine est utilisé pour désigner différentes entités protéiques. Les structuralistes
définissent souvent le domaine comme une unité structurale capable de se replier
indépendamment du reste de la protéine1. En biochimie, les domaines sont fréquemment
décrits comme des régions protéiques dont la fonction a été expérimentalement caractérisée
(indépendamment de la structure). En génomique comparative, les domaines sont considérés
comme des séquences homologues que l’on peut rencontrer dans des contextes moléculaires
différents (Orengo et Thornton, 2005). En général, ces trois définitions sont compatibles et
s’accordent sur ce qu’ils considèrent comme étant un domaine. Ici, j’adopterai une définition
proche de celle utilisée en génomique comparative en définissant le domaine comme une
unité d’évolution indépendante pouvant constituer à lui seul une protéine mono-domaine ou
pouvant s’associer avec d’autres domaines au sein d’un protéine multi-domaine (Vogel et al.,
2005).
1.1.2 Formalisation
La plupart du temps, les domaines sont représentés par des consensus. Dans le cas de ProDom
(Bru et al., 2005), cette représentation est une séquence consensus, pour PROSITE (Hulo et
al., 2006), il s’agit d’un motif représenté sous la forme d’une expression régulière alors que
BLOCKS (Henikoff et Henikoff, 1994) représente ce consensus à l’aide d’alignements sans
1 D’après Eddy, cette définition appartient à la classe de définitions du type « Je le sais quand j’en vois un »
(référence internet[1]).
Les domaines protéiques 13
trou et Pfam2 (Protein families ; Finn et al., 2006) ou SCOP (Structural classification of
Proteins ; Andreeva et al., 2004) à l’aide d’un profil HMM déduit d’un alignement multiple.
1.1.3 Les bases de données de domaines
Il existe de nombreuses bases de données de domaines qui diffèrent entre elles pour chacun
des critères suivants :
• La définition de domaine,
• Le type de représentation formelle du domaine,
• Le protocole d’alimentation de la base de données (automatique, manuelle, hybride),
• La documentation, les services disponibles,
• La couverture en nombre de séquences.
Concernant les définitions, SCOP a une vision structurale du domaine et calcule ses profils
HMM à partir de séquences protéiques dont la structure est connue.
Pour le protocole d’alimentation, ProDom et BLOCKS sont entièrement automatiques alors
que Pfam et PROSITE sont des approches hybrides avec dans le cas de Pfam, une phase
manuelle de validation de l’alignement multiple servant de « graine » pour le profil HMM
suivie d’une phase automatique de recherche de l’alignement « complet » permettant
d’assurer une mise à jour automatique des données (voir l’annexe 1 pour plus de détails).
Notons qu’il existe bien d’autres bases de données de domaines (CATH (Reeves et al., 2006),
SMART (Simple Modular Architecture Research Tool) ; Letunic et al., 2006, etc.) mais que
le but de ce travail n’est pas de les répertorier.
1.1.4 Le domaine : une unité d’évolution
Riley et Labedan ont défini le module en tant que segment structural d’homologie (Riley et
Labedan, 1997). La base de données SCOP (Structural Classification of Proteins), quant à elle
considère le domaine comme une unité d’évolution, un domaine pouvant être observé seul au
sein d’une protéine mono-domaine ou associé avec d’autres domaines au sein de protéines
2 Pour une description des domaines Pfam, se reporter à l’annexe 1.
Les domaines protéiques14
multi-domaines (Murzin et al., 1995). On verra dans la partie 1.2 l’importance et les
implications de cette définition. Celle-ci a ensuite été largement reprise dans de nombreux
travaux. Ainsi en 2001, Apic et al. estiment qu’il n’existe probablement qu’un répertoire
limité de domaines qui se dupliquent et se combinent de différentes manières pour former
l’ensemble des protéines d’un génome (Apic et al., 2001 ; Chothia et al., 2003).
1.2 Homologie : du gène au domaine
1.2.1 Définition de gènes homologues
L’homologie désigne une relation d’évolution entre des gènes. On définit des gènes
homologues comme des gènes issus d’un gène ancestral commun. On distingue deux
catégories fondamentales de gènes homologues : les orthologues et les paralogues. S’il s’agit
de gènes issus d’un gène ancestral commun par héritage vertical, on parle de gènes
orthologues. Si ces gènes ont évolué par duplication l’un de l’autre, ils sont alors dits
paralogues (Koonin, 2005).
1.2.2 Limites de cette définition
Certaines relations d’évolution entre gènes sont indétectables par les méthodes usuelles de
comparaison de séquences. En effet, toutes les parties d’un gène n’ont pas la même histoire
(Fitch, 2000), c’est à dire qu’un gène peut coder pour une protéine constituée de domaines
provenant de plusieurs autres gènes. Dans ce cas, c’est chacun des domaines qui partage un
lien d’homologie avec un domaine similaire codé par un autre gène. Considérons l’exemple
du gène de biosynthèse du tryptophane d’E. coli trpC(F) (Figure 1). Ce gène code pour une
enzyme bi-fonctionnelle qui inclut la fonction indole-3-glycerol phosphate synthase assurée
par le domaine IGPS et la fonction anthranilate isomérase assurée par le domaine PRAI. Ce
gène est issu de la fusion des gènes trpC et trpF tels que présents par exemple chez B. subtilis
où le gène trpC code pour une indole-3-glycerol phosphate synthase constituée du domaine
IGPS et le gène trpF pour une anthranilate isomérase constituée du domaine PRAI. Dans ce
cas, si l’on s’interroge sur la relation d’homologie qui existe entre ces trois gènes, la définition
atteint ses limites puisque ce sont les domaines IGPS et PRAI qui sont homologues deux à
deux. On peut citer également les cas de permutations circulaires pour lesquels les outils
Les domaines protéiques 15
classiques de détection d’homologie (alignement de séquences) sont inadapté (Weiner et
al., 2005 ; cf partie 1.3.3 pour une description de la permutation circulaire).
Figure 1 : Domaines des protéines codées par les gènes trpC, trpF et trpC(F)
Fitch, dans une revue traitant des problèmes liés à la notion d’homologie (Fitch, 2000)
mentionne ce point qu’il nomme ‘The recombination problem’. Il en arrive à la conclusion
que, lorsqu’on veut tenir compte des réarrangements de domaines, le gène n’est pas l’unité
adéquate pour parler d’orthologie ou de paralogie. Dans ce cas, le domaine s’avère être une
unité plus pertinente. Quant à Koonin, il généralise cette conclusion en suggérant de revoir
l’ensemble des processus évolutifs en terme de domaines plutôt qu’en terme de protéines
(gènes) (Koonin, 2000).
1.2.3 Définition de domaines homologues
On définit des domaines homologues comme des domaines issus d’un domaine ancestral
commun. De même que pour les gènes, on parlera de domaines orthologues s’ils sont issus
d’une spéciation et de domaines paralogues s’ils sont issus d’une duplication. Comme pour
les protéines, le répertoire de domaines évolue par duplication puis divergence (mutation).
Une évolution convergente est également envisageable.
1.2.4 Relations entre homologie de gènes et homologie de domaines
On définit l’architecture de domaines d’une protéine comme la suite ordonnée des domaines
qui la composent (de N- vers C-terminal). Ainsi chaque domaine (ou partie du gène) sera
considéré comme une unité d’évolution du gène. Penser l’homologie en terme de domaines
présente plusieurs avantages. Comme on l’a déjà discuté (partie 1.2.2), cela permet:
• De détecter des réarrangements de domaines (fusions, permutations, etc.),
Les domaines protéiques16
• D’associer plusieurs histoires évolutives à un même gène (fusion de gènes, etc.).
De plus, l’utilisation de profils HMM tels que ceux utilisés par Pfam permet de détecter des
homologies éloignées (séquences divergentes). En effet, les profils HMM sont connus pour
être plus sensibles que les comparaisons de séquences deux à deux (Eddy, 1998) car le profil
est sensible au maintien de la signature du domaine qui accompagne souvent la divergence de
la séquence (i.e. les profils HMM capturent une plus grande diversité de séquence).
1.3 Travaux récents sur les domaines
1.3.1 Les combinaisons de domaines
L’étude des combinaisons de domaines du répertoire protéique actuel est importante tant sur
le plan biochimique pour caractériser la fonction des protéines que sur le plan évolutif pour
reconstruire l’histoire évolutive des gènes qui codent ces protéines. En effet, dans les
protéines multi-domaines, c’est la combinaison des domaines qui détermine la fonction de la
protéine et sur le plan évolutif, toutes les parties d’un gène n’ont pas la même histoire (cf
1.2.2).
Les combinaisons de domaines observées présentent les caractéristiques
suivantes (caractéristiques issues de (Apic et al., 2001 ; Vogel et al., 2005 ; Vogel et al.,
2004a)) :
• L’orientation N-C terminale des combinaisons de domaines est très conservée (90% des
paires de domaines sont toujours dans le même ordre),
• Il existe peu de domaines versatiles (i.e. ayant de nombreux partenaires de combinaison) ;
la plupart des domaines sont en effet observés en combinaison avec un ou deux
partenaires au plus,
• Les combinaisons observées ne représentent qu’une petite partie des combinaisons
possibles ; les mécanismes aboutissant à la création de combinaison de domaines sont
probablement soumis à une forte pression de sélection.
De l’ensemble de ces observations ont été mis en évidence les supra-domaines qui
représentent des combinaisons de deux ou trois domaines qui sont réutilisées dans différents
Les domaines protéiques 17
contextes protéiques en combinaison avec différents domaines (Vogel et al., 2004a). Ces
éléments ont permis l’établissement du scénario évolutif suivant : la combinaison de
domaines serait un processus aléatoire, certaines combinaisons seraient largement dupliquées
ou disparaîtraient (Vogel et al., 2005). Plus généralement, la création de nouvelles
combinaisons de domaines associée à l’expansion des familles de domaines et certains
mécanismes tels que l’épissage alternatif chez les eucaryotes joueraient un rôle important
dans la complexité croissante des organismes (Vogel et al., 2004b).
1.3.2 Les réseaux d’interactions de domaines
Les domaines protéiques constituent une interface de liaison entre les protéines qui
interagissent ou les protéines d’un même complexe. La nature modulaire des protéines, leur
flexibilité, et leur propriété de liaison ont largement participé à l’évolution des processus
cellulaires (Pawson et al., 2003). Plusieurs travaux ont posé la question des interactions entre
protéines en terme d’interactions entre domaines (Kim et al., 2002 ; Ng et al., 2003 ; Sprinzak
et al., 2001 ; Deng et al., 2002). Ils ont en commun la problématique suivante : étant donnés
une base de données de domaines et des données d’interaction protéine-protéine à grande
échelle, les paires de domaines interagissant fréquemment sont identifiées. Cette identification
permet d’en déduire un modèle de prédiction d’interaction protéine-protéine basé sur la
simple connaissance du contenu en domaines des protéines. De plus, ce modèle précise les
domaines impliqués dans l’interaction. Ces travaux diffèrent cependant dans l’évaluation de la
prédiction des interactions. L’approche la plus courante consiste à attribuer aux paires de
domaines un score proportionnel à leur nombre d’occurrences dans des paires de protéines
interagissant (Kim et al., 2002 ; Ng et al., 2003 ; Sprinzak et al., 2001). D’autres approches
présentent des modèles statistiques d’estimation des probabilités d’interaction entre domaines
tels que Deng et al. (Deng et al. , 2002) et Nye et al. (Nye et al., 2005).
1.3.3 Les réarrangements de domaines
Il existe différents types de réarrangements de domaines qui seront détaillés dans le chapitre
III. Cependant, un réarrangement particulier fait l’objet d’une littérature intéressante : la
permutation circulaire (Lindqvist et Schneider, 1997 ; Uliel et al., 2001 ; Uliel et al., 1999 ;
Weiner et al., 2005). Elle désigne un réarrangement d’une séquence telle que la partie N-
Les domaines protéiques18
terminale est transférée à l’extrémité C-terminale de la protéine (ou vice versa). La séquence
résultante présente donc un réarrangement non linéaire de la séquence de départ. Soit par
exemple la combinaison ABC qui comprend dans l’ordre les domaines A, B, puis C, la partie
N-terminale A est transférée à l’extrémité C-terminale de la protéine ce qui donne la nouvelle
combinaison BCA. Le cas de deux ADN-polymérases du virus de l’hépatite B illustre ce
réarrangement (cf Figure 2).
Figure 2 : Un cas de réarrangement circulaire entre deux ADN-polymérases du virus de
l’hépatite B
La première polymérase O91514_HBV est constituée de N- en C-terminal des domaines
DNA_pol_viral_N, RVT_1 puis DNA_pol_viral_C alors que la deuxième Q69590_HBV est
constituée des domaines RVT_1, DNA_pol_viral_C puis DNA_pol_viral_N du fait du
réarrangement circulaire de 300 acides aminés (longueur du domaine DNA_pol_viral_N).
Pour cet exemple, l’alignement BLAST (avec les paramètres par défaut) contre la base NR de
O91514_HBV donne une liste des 100 premiers homologues qui ne contient pas
Q69590_HBV d’où la nécessité de mettre au point des procédures dédiées à la détection de ce
type de réarrangements (Uliel et al., 2001 ; Uliel et al., 1999 ; Weiner et al., 2005). La
méthode la plus récente RASPODOM (Weiner et al., 2005) a permis l’analyse de l’histoire
évolutive de ces types de réarrangements et de son lien probable avec la fusion de gènes
(Weiner et al., 2006).
1.3.4 Mes travaux
Dans la suite de ce manuscrit, je présenterai mes travaux concernant les domaines. Je décrirai
trois points généralement étudiés en terme de gènes en les abordant en terme de domaines : la
synténie (Pasek et al., 2005 - Annexe 3), les fusions/fissions (Pasek et al., 2006a - Annexe 4)
et la redondance (Pasek et al., 2006b - Annexe 5). Je m’appliquerai à montrer comment
l’utilisation du domaine comme unité d’homologie a permis d’affiner ces problématiques
Les domaines protéiques 19
habituellement liés aux gènes. Notons que j’ai fait le choix de travailler avec les domaines
de la base de données Pfam (Finn et al., 2006) qui représente un bon compromis entre
exactitude et complétude (cf annexe 1 pour une description de la base de données Pfam) mais
tout autre base aurait pu être utilisée pour mener à bien les travaux décrits ci-après.
Chapitre II : De la synténie de gènes à la
synténie de domaines
De la synténie de gènes à la synténie de domaines 21
2 De la synténie de gènes à la synténie de domaines
2.1 La synténie de gènes
2.1.1 Définition générale
A l’origine, la synténie désigne la présence simultanée sur le même chromosome de deux ou
plusieurs loci. Aujourd’hui, la notion de synténie est de plus en plus utilisée pour décrire la
conservation du contenu en gènes d’un segment chromosomique entre deux espèces ou plus
(Passarge et al., 1999). On parle aussi de conservation de blocs synténiques ou de groupes de
synténie. Cette notion suppose une conservation de la proximité entre les gènes considérés, la
proximité étant définie relativement à l’ordre des gènes sur le chromosome. Notons que
l'identification d'orthologues potentiels entre les génomes est un préalable à la recherche de
régions synténiques.
On distingue deux types de synténie : la microsynténie et la macrosynténie. Les régions
synténiques des génomes eucaryotes sont souvent définies comme un groupe de deux gènes
ou plus, chacun ayant un orthologue sur le même chromosome dans une autre espèce (cf
figure 3). On parle dans ce cas de macrosynténie (Pevzner et Tesler, 2003 ; Jaillon et al.,
2004). La figure 3 illustre plusieurs macrosynténies entre le chromosome 9 humain et les
chromosomes 2, 4, 13 et 19 de la souris. Considérons par exemple les blocs verts du
chromosome 19 de la souris : les orthologues de ces blocs (reliés par des traits) ne sont pas
contigus sur le chromosome humain. Pour les génomes procaryotes (ou les eucaryotes
inférieurs tels que les levures), on inclut fréquemment une contrainte supplémentaire : la
conservation de la proximité doit être établie sur tous les génomes comparés. On parle alors
de microsynténie ou conservation locale du voisinage génique (von Mering et al., 2003 ;
Bergeron et al., 2002 ; Luc et al., 2003). Dans la suite de ce chapitre, on considèrera
uniquement la microsynténie des génomes procaryotes.
De la synténie de gènes à la synténie de domaines22
Figure 3 : Un exemple de macrosynténie. Carte des macrosynténies entre le chromosme 9
humain, les chromosomes 2, 4, 13 et 19 de la souris. Les blocs d’une même couleur font
partie d’une même synténie. Chaque bloc est relié à son bloc « orthologue » dans l’autre
espèce par des traits. Image provenant d’ENSEMBL (cf référence internet [2]).
2.1.2 Intérêts en biologie
La structure des génomes bactériens est dynamique : elle est affectée par de nombreux
réarrangements qui modifient l’organisation du chromosome (Casjens, 1998 ; Tillier et
Collins, 2000 ; Omelchenko et al., 2003 ; Rocha, 2004). Etant donnée cette plasticité, toute
conservation locale du voisinage génique est probablement due à une pression de sélection
(Overbeek et al., 1999): par exemple des gènes codant pour des protéines qui interagissent
De la synténie de gènes à la synténie de domaines 23
physiquement ou qui sont impliqués dans une même voie métabolique ou plus généralement
des gènes soumis à la régulation d’un même promoteur comme les opérons (Marcotte et al.,
1999a ; Marcotte et al., 1999b ; Sali, 1999 ; Galperin et Koonin, 2000 ; Enright et Ouzounis,
2001 ; Suyama et Bork, 2001 ; Korbel et al., 2001 ; Suhre et Claverie , 2004). La détection de
synténies permet donc d’identifier des gènes codant pour des protéines susceptibles d’être
fonctionnellement liés et/ou d’interagir. La synténie permet également d’évaluer et
d’identifier les réarrangements affectant les génomes tels que les transpositions, délétions,
insertions, inversions, fusions et fissions (Sankoff, 2003; Tang et Moret, 2003). Elle constitue
ainsi une mesure phylogénétique.
2.1.3 Définition adoptée
Il existe des définitions plus ou moins souples de la synténie. Certaines considèrent que
l’ordre des gènes et la contiguïté doivent être conservés (Overbeek et al., 1999) mais la
plupart du temps, les définitions autorisent des réarrangements locaux de l’ordre des gènes
tels que insertions, délétions, inversions, transpositions, fusions, etc (Tamames, 2001 ;
Bergeron et al., 2002 ; Calabrese et al., 2003 ; Durand, et Sankoff, 2003 ; Luc et al., 2003).
Dans ce manuscrit, nous nous baserons sur la définition formelle de la synténie telle qu’elle a
été implémentée dans GeneTeam par Bergeron et al. (Bergeron et al., 2002). Le chromosome
est défini comme une séquence ordonnée de gènes (par exemple, les gènes f, u, a et w
représentés figure 4) en considérant uniquement les gènes qui codent pour des protéines et en
attribuant un seul gène à une même séquence nucléique.
Figure 4 : Définition de la synténie sur un chromosome X. Chaque gène est représenté par une
flèche pleine. Les noms des gènes sont indiqués en dessous des gènes, leur position au dessus.
De la synténie de gènes à la synténie de domaines24
A chaque gène est attribuée une position qui correspond à son ordre d’apparition sur le
chromosome. Ainsi, sur la figure 4, le gène f est à la position 1, u à la position 2, a à la
position 3 et w à la position 4. Notons que les gènes chevauchants (Fukuda et al., 1999) sont
notés contigus relativement à l’ordre de leur position de départ sur le chromosome. La
distance entre deux gènes est défini par la différence entre leur position. Ainsi entre les gènes
w et u, respectivement de position 4 et 2, la distance est de 2 comme illustré figure 4. Pour la
recherche de microsynténies, il est nécessaire de fixer un paramètre appelé delta qui
représente la distance maximale entre deux gènes consécutifs de la synténie. Ainsi, si l’on
considère que le gène a de la figure 4 ne fait pas partie de la synténie qui contient les gènes f,
u et w alors on a autorisé l’insertion d’un gène c’est à dire qu’on a autorisé une distance
maximale d’insertion de 2 représentée par delta. Pour une description de l’algorithme qui
implémente cette définition (Bergeron et al., 2002 ; Luc et al., 2003), voir l’annexe 2.
2.1.4 Limites de cette définition
En pratique, la recherche de synténies nécessite préalablement d’identifier les familles de
gènes orthologues entre tous les génomes comparés. Les principales limitations à la recherche
de synténies sont en réalité liées à cette étape d’identification des orthologues. Les méthodes
traditionnellement utilisées pour identifier les orthologues (comparaison de séquences et
BBHs (Overbeek et al., 1999)) atteignent en effet leurs limites quand les séquences divergent.
Ainsi, plus on veut comparer de génomes et plus il est difficile de construire des familles
d’orthologues entre les génomes ; une seule séquence divergente pouvant briser la chaîne. De
plus, un gène peut être absent d’un des génomes étudiés.
D’autre part, considérer uniquement les orthologues est limitant car une synténie peut-être
dupliquée au sein d’un même chromosome. Pour considérer aussi ces duplications, il faut
ajouter à la recherche des orthologues, celle des paralogues et construire des familles
constituées à la fois d’orthologues et de paralogues. Cependant, dans le cas des gènes qui
codent des protéines multi-domaines il est difficile (ou impossible) de classer le gène dans
une seule famille (Yona et al., 1999). La construction de ces familles suppose donc qu’un
gène peut appartenir à plusieurs familles. Or, dans ce cas, la recherche de synténies donne lieu
à une exploration exponentielle. Aussi, les (rares) outils permettant la recherche de synténies
De la synténie de gènes à la synténie de domaines 25
dupliquées (de gènes), se limitent pour ces raisons techniques à la comparaison de deux
génomes (He et Goldwasser, 2005).
2.2 La synténie de domaines
2.2.1 Définition adoptée
Au lieu de considérer le gène comme « unité synténique » (Luc et al., 2003), on choisit de
considérer le domaine (Pasek et al., 2005). Chaque gène est divisé en la suite ordonnée de
domaines constituant la protéine pour laquelle il code. A chaque domaine est attribuée une
position sur le chromosome relativement à l’ordre d’apparition sur le chromosome de la
séquence codant le domaine (i.e. relativement à l’ordre des gènes et à l’ordre du domaine dans
le gène tout en tenant compte de son orientation). Notons que lorsque les domaines sont
imbriqués (Bateman et al., 2004), ils sont considérés adjacents relativement à l’ordre
d’apparition de leur position de départ. La distance entre deux domaines est définie par la
différence entre leur position. Le paramètre delta représente la distance maximale autorisée
entre deux domaines consécutifs faisant partie de la synténie. Cette notion est implémentée
dans DomainTeam (Pasek et al., 2005).
La figure 5 représente un exemple de synténie de domaines obtenu avec delta fixé à 3. Cette
synténie traverse quatre organismes (Yersinia pestis, Salmonella typhi, Vibrio cholerae et
Escherichia coli) et est constituée de 5 domaines différents (359, 381, 294, 2379, 2378). Les
numéros indiqués sont des abréviations des numéros d’accession de Pfam avec 359 pour
PF00359, 2378 pour PF02378, etc.
De la synténie de gènes à la synténie de domaines26
Figure 5 : Un exemple de synténie de domaines : le système phosphotransférase du fructose.
Cette synténie qui traverse Yersinia pestis, Salmonella typhi, Vibrio cholerae et Escherichia
coli contient 3 gènes faisant partie du système phosphotransférase spécifique du fructose.
Cette synténie présente une duplication chez S. typhi. La seconde occurrence de S. typhi
semble ne pas être spécifique du fructose d’après les annotations.
Cette synténie est dupliquée chez S. typhi. La première occurrence contient les mêmes
domaines dans le même ordre que chez Y. pestis sauf que l’ensemble de l’occurrence est dans
le sens inverse (En l’absence du contexte, on ne peut pas préciser s’il s’agit d’une inversion
ou si les génomes ont été séquencés sur des brins différents). Dans la seconde occurrence de
S. typhi, le domaine 294 est dupliqué et inversé. Les deux domaines 294 entourent un
domaine inséré le domaine 1116 . Ce domaine constitue une protéine mono-domaine. Pour
tous ces cas, l’insertion du domaine est équivalent à l’insertion d’un gène et le gène est
spécifié entre « # ». Par rapport aux quatre autres occurrences, on remarque encore une
duplication du domaine 359 et une transposition du domaine 294. D’autre part, l’occurrence
chez V. cholerae présente une duplication du domaine 2379 et celle chez E. coli une
duplication du domaine 294.
De la synténie de gènes à la synténie de domaines 27
Figure 6 : Un exemple de synténie de domaines : l’opéron tryptophane. Cette synténie qui
traverse les génomes de Anabaena sp., Bacteroides thetaiotaomicron, Escherichia coli,
Salmonella typhi et Yersinia pestis montre de nombreux rérrangements de type fusion de
gènes. Les locus tag des gènes sont indiqués en dessous de chacun d’entre eux. Pour
Bacteroides thetaiotaomicron et Escherichia coli, on a indiqué en plus le nom de chaque gène
au dessus de celui-ci.
Un autre exemple de synténie est représenté figure 6. Cette synténie de domaines, obtenue en
fixant delta à 3, traverse 5 génomes et montre de nombreux réarrangements tels que des
fusions. Cette synténie est en fait une partie de l’opéron tryptophane. On peut remarquer par
exemple le gène trpG de Bacteroides thetaiotaomicron, fusionné avec trpE chez Anabaena
sp. (ALL0414) et avec trpD chez E. coli (trpGD).
2.2.2 Comparaison de la synténie de domaines avec la synténie de gènes
Nous avons étudié la sensibilité comparée de la synténie de gènes et de la synténie de
domaines en utilisant la définition de GeneTeam (Luc et al., 2003), pour le premier et de
DomainTeam (Pasek et al., 2005) pour le second. Les deux algorithmes implémentent la
même notion de synténie mais avec comme unité le gène pour GeneTeam et le domaine pour
DomainTeam. Les deux algorithmes ont été appliqués aux génomes d’E.coli, de Y. pestis et de
V. cholerae en fixant dans les deux cas le paramètre delta à 3 (autorisant une insertion de 2
De la synténie de gènes à la synténie de domaines28
gènes ou de 2 domaines consécutifs). A partir des résultats ainsi obtenus, on a dessiné la carte
du chromosome d’E. coli en indiquant en rouge les gènes d’E. coli qui font partie d’une
synténie à la fois avec Y. pestis et V. cholerae, les autres gènes étant en bleu.
Figure 7 : Sensibilité comparée de la synténie de gènes et de la synténie de domaines. Carte
du chromosome d’E.coli. Les gènes faisant partie d’une synténie sont indiqués en rouge, les
autres en bleu. Le cercle intérieur représente les résultats de DomainTeam (synténie de
domaines) tandis que le cercle extérieur représente ceux de GeneTeam (synténie de gènes).
En vert sont représentés les plus grandes régions synténiques respectivement pour GeneTeam
et DomainTeam.
Chaque méthode a permis de dessiner une carte. Les 2 cartes sont représentées de manière
concentrique dans la figure 7 où le cercle intérieur représente les résultats de DomainTeam
tandis que le cercle extérieur représente les résultats de GeneTeam. Si les régions synténiques
identifiées coïncident la plupart du temps, celles obtenues avec DomainTeam sont plus
grandes et plus nombreuses. Les plus grandes synténies identifiées (représentées en vert sur
les cartes) contiennent 31 et 26 gènes respectivement pour DomainTeam et GeneTeam. En
De la synténie de gènes à la synténie de domaines 29
tout, les régions synténiques représentent 2207 gènes (52% des gènes de E. coli) et 1662
gènes (40%) respectivement pour DomainTeam et GeneTeam. La synténie de domaine est
donc plus sensible que la synténie de gènes. Cette différence peut être expliquée par trois
raisons liées à l’utilisation des domaines :
(i) Le domaine est une unité d’homologie moins stricte que le gène permettant de tenir
compte d’homologies éloignées (cf 2.1.4).
(ii) La synténie de domaines tient compte des réarrangements de domaines (insertion,
délétion, duplication, fusion) en plus des réarrangements de gènes. Par exemple, la
présence d’une fusion de gènes/domaines n’est pas comptée comme une insertion dans
le cas de la synténie de domaines alors que la vision en gènes la pénalise d’une
insertion. En effet, considérons la figure 6 : le gène trpG de Bacteroides
thetaiotaomicron est fusionné avec trpD chez E. coli. En terme de synténie de
domaines il n’y a donc aucune insertion de domaine dans ce cas. Par contre, en
raisonnant en gènes, on aurait estimé que l’orthologue de trpD chez B.
thetaiotaomicron est trpGD chez E. coli (du fait du BBH) et on n’aurait attribué aucun
orthologue au gène trpG de B. thetaiotaomicron. Celui-ci aurait donc compté pour une
insertion dans la synténie.
(iii) Le domaine permet la recherche de synténies dupliquées sans donner lieu à une
recherche exponentielle puisqu’un domaine appartient à une famille et une seule. Le
repérage de synténies de domaines dupliquées permet donc de comparer
simultanément plus de deux génomes (cf 2.1.4 et figure 5).
Notons que comme DomainTeam recherche toutes les synténies de domaines, certaines
synténies contenant par exemple des domaines versatiles peu spécifiques ne sont pas très
intéressantes. Un score a été mis au point qui permet d’évaluer la pertinence de chaque
synténie de domaines. Ce score tient compte du nombre de gènes par occurrence, du nombre
de domaines distincts, de la fréquence des domaines observés (cf Annexe 2).
2.3 Conclusions
De nombreux réarrangements affectent les génomes. Ces réarrangements ne se limitent pas
aux bornes des gènes. Ils concernent en effet aussi bien des gènes (ou groupes de gènes) dans
De la synténie de gènes à la synténie de domaines30
leur totalité que des parties de gènes ou domaines. Les synténies désignent des segments
chromosomiques dont le contenu en gènes est conservé d’une espèce à l’autre tout en
autorisant un certain nombre de réarrangements locaux. En recherchant des synténies de
domaines plutôt que des synténies de gène, on détecte en plus les synténies qui
s’accompagnent de réarrangements concernant des parties de gènes ou domaines. De plus, en
raisonnant en domaines plutôt qu’en gènes, on s’affranchit de l’étape de détection des gènes
orthologues – ou bien de la recherche des familles de gènes homologues. Or les principales
limitations à la détection des synténies sont souvent liées à ces étapes.
Chapitre III : De la fusion de domaines à la
fusion de gènes
De la fusion de domaines à la fusion de gènes32
3 De la fusion de domaines à la fusion de gènes
3.1 Les réarrangements de domaines
3.1.1 Définitions et état de l’art
On définit l’architecture multi-domaine d’une protéine comme la suite ordonnée de ses
domaines de N- vers C- terminale. Pour désigner une architecture de domaines, on parle aussi
parfois de combinaison de domaines. Les différentes combinaisons de domaines ont été
étudiées (Apic et al., 2001 ; Vogel et al., 2004a ; Vogel et al., 2005) et comme on l’a déjà
décrit dans le chapitre 1 (partie 1.3.1), ces travaux ont mis en évidence une grande
conservation de l’ordre des domaines dans les architectures, l’existence de couples et de
triplets de domaines rencontrés préférentiellement ensemble (les supra-domaines), l’absence
ou la sur-représentation de certaines combinaisons. L’ensemble de ces travaux suggèrent que
la création des architectures multi-domaines n’est pas un phénomène aléatoire. Les différents
réarrangements de domaines ont également fait l’objet de travaux récents (Björklund et al.,
2005 ; Weiner et al., 2006b). On désigne par réarrangement de domaines tout mécanisme
susceptible de modifier le contenu en domaines où l’ordre des domaines d’une architecture
multi-domaine. Une littérature particulièrement abondante concerne les réarrangements de
type permutation circulaire (Lindqvist et Shneider, 1997 ; Uliel et al., 1999 ; Uliel et al.,
2001 ; Weiner et al., 2005) et a déjà été décrite dans le chapitre 1 (partie 1.3.3).
3.1.2 Classification des différents types de réarrangements
Les différents types de réarrangements élémentaires sont représentées Figure 8. La
classification utilisée ici est la même que celle établie par Björklund et al. (Björklund et al.,
2005). Elle comprend les trois classes décrites ci-après:
(i) La substitution de domaine désigne l’échange d’un domaine par un autre,
De la fusion de domaines à la fusion de gènes 33
(ii) L’indel ou insertion/délétion désigne l’insertion (resp. la délétion) d’un domaine
différent des domaines adjacents au point d’insertion dans l’architecture de domaines,
(ii) La répétition désigne l’addition d’un domaine identique à l’un des domaines adjacents
au point d’addition dans l’architecture de domaines.
Figure 8 : Les différents types de réarrangements élémentaires
Notons que les événements de type indels et répétitions peuvent chacun être subdivisés en
deux catégories qui dépendent de la position de l’insertion/délétion du domaine ou de la
répétition. Ainsi, on distingue les insertions internes et terminales, comme représentées Figure
9, et les répétitions internes et terminales.
Figure 9 : Les indels internes et terminaux.
De la fusion de domaines à la fusion de gènes34
Outre les réarrangements élémentaires pour lesquels on passe d’une architecture multi-
domaines à une autre par un seul des événements présentés ci-dessus (substitution, indel,
répétition), on distingue également des réarrangements complexes. On fait en général
l’hypothèse que tout réarrangement complexe est une combinaison de réarrangements
élémentaires décrits ci-dessus. Par exemple, les permutations circulaires présentées dans la
partie 1.3.3 font partie de la catégorie des réarrangements complexes. Un des mécanismes
proposés par Weiner et al. est représenté Figure 10 (Weiner et al., 2005). Il met en jeu une
duplication des trois domaines d’un gène suivie de trois délétions de domaines (domaines A,
B et C) suivis des insertions des codons d’initiation et de terminaison adéquats.
Figure 10 : Un mécanisme possible de permutation circulaire. I-CP : intermédiaire de
permutation circulaire, CP : permutation circulaire. Figure extraite de Weiner et al. 2005.
3.1.3 Problématique
Les réarrangements de domaines que l’on constate découlent de mécanismes qui interviennent
au niveau de la molécule d’ADN tels que les recombinaisons. On se pose ici la question des
mécanismes qui sont à l’origine des réarrangements constatés.
3.2 Mécanismes d’évolution des protéines multi-domaines
Chez les bactéries, trois mécanismes sont supposés être à l’origine de la création de nouvelles
architectures de domaines : la recombinaison homologue à l’intérieur d’un domaine
(O’Sullivan et al., 2000), la recombinaison au niveau de séquences inter-domaines
De la fusion de domaines à la fusion de gènes 35
particulières (de Château et Bjorck, 1994 ; de Château et Bjorck, 1996) et la fusion/fission
de gènes (Riley et Labedan, 1997; Yanai et al., 2001; Le Bouder-Langevin et al., 2002).
3.2.1 La recombinaison intra-domaine
O’Sullivan et ses collègues ont montré, chez Lactococcus lactis, que deux nouveaux hybrides
du gène hsdS ont évolué par recombinaison homologue entre deux gènes hsdS possédant des
architectures multi-domaines différentes (O’Sullivan et al., 2000). Deux plasmides de L.
lactis contenant chacun un déterminant hsdS sont représentés Figure 11. Chaque gène est
constitué d’un domaine central très conservé (le domaine B) et de deux domaines variables N-
et C- terminaux A, C et D, E respectivement pour le plasmide 1 et le plasmide 2. Une
recombinaison homologue entre les domaines conservés (B) des deux gènes a conduit à la
création de deux nouveaux déterminants hsdS présentant chacun des architectures multi-
domaines différentes de celles des gènes parentaux. Les deux gènes ont échangés les
domaines variables N- et C- terminaux résultant en la création des architectures multi-
domaines DBC et ABE. Notons que cette recombinaison s’accompagne d’une cointégration
des plasmides 1 et 2 formant ainsi le plasmide 3 pour lequel l’ordre des gènes est bouleversé
au voisinage des gènes recombinés.
De la fusion de domaines à la fusion de gènes36
Figure 11 : Recombinaison intra-domaine entre deux déterminants hsdS de deux plasmides de
L. lactis.
3.2.2 La recombinaison inter-domaine
De Château et Björck ont identifié des séquences interdomaines particulières (appelées recer
pour recombination spacer) qui sont probablement à l’origine de l’évolution de la famille des
protéines « mosaïques » PAB (protéine se liant à l’albumine) chez différentes souches de
De la fusion de domaines à la fusion de gènes 37
Peptostreptococcus magnus (de Château et Bjorck, 1994 ; de Château et Bjorck, 1996).
D’après leur travail, ces séquences constituent des lieux privilégiés de recombinaison à
l’origine du brassage des domaines dans certaines familles de protéines multi-domaines
bactériennes.
3.2.3 La fusion/fission de gènes
La fusion de gènes est un mécanisme qui aboutit à la concaténation de deux gènes pour en
faire un seul. Sur le plan protéique, elle se traduit par la concaténation des architectures multi-
domaines des deux protéines qui fusionnent. Considérons de nouveau l’exemple du gène de
biosynthèse du tryptophane d’E. coli trpC(F) représenté Figure 1 du chapitre 1 (partie 1.2.2).
Ce gène est issu de la fusion des gènes trpC et trpF tels que présents par exemple chez B.
subtilis où le gène trpC code pour une indole-3-glycerol phosphate synthase constituée du
domaine IGPS et le gène trpF pour une anthranilate isomérase constituée du domaine PRAI.
Le gène de fusion trpC(F) code pour une enzyme qui assure les deux fonctions et dont
l’architecture multi-domaine est constituée à la fois du domaine IGPS et du domaine PRAI.
La fission constitue le phénomène inverse de la fusion et conduit à la division d’un gène en
deux autres gènes. Notons que, en présence à la fois de la forme fissionnée du gène dans un
génome et de sa forme fusionnée dans un autre génome, il est difficile, la plupart du temps, de
faire l’hypothèse d’une fusion plutôt que d’une fission ou inversement. Des études basées sur
des méthodes de parcimonie ont permis d’orienter dans certains cas le mécanisme et ont
conclu que les fusions sont en moyenne quatre fois plus fréquentes que les fissions
(Kummerfeld et Teichmann, 2005).
Les mécanismes à l’origine de la fusion/fission de gènes ne sont pas clairement établis.
Cependant, Yanai et al. ont émis l’hypothèse raisonnable que l’évolution des gènes fusionnés
passe par un état intermédiaire où les gènes coexistent juxtaposés et non fusionnés sur le
génome (Yanai et al., 2002). On imagine aisément que la simple délétion d’un codon stop
permet de réunir deux cadres de lecture voisins en un seul. De même, l’insertion d’un codon
stop permet de couper un cadre de lecture en deux. Les mécanismes conduisant à cette
insertion/délétion peuvent être dus, par exemple, à la mutation d’une base ou à une
recombinaison illégitime tel que le « slippage » (Viguera et al., 2001) sans pour autant que
cela ait été mis en évidence. Quoiqu’il en soit, ce mécanisme intervient au niveau d’une
De la fusion de domaines à la fusion de gènes38
séquence séparant deux gènes voisins et plusieurs études ont souligné l’implication de la
fusion de gènes dans la création de nouvelles architectures multi-domaines (Yanai et al.,
2001 ; Riley et Labedan, 1997).
3.3 La fusion/fission de gènes, un mécanisme majeur de l’évolution
des protéines multi-domaines
Notre objectif est de mettre en relation les réarrangements de domaines que l’on constate et
les mécanismes qui en sont à l’origine. La première étape consiste donc à collecter des
protéines ayant subi un réarrangement de domaines.
3.3.1 Cribler des réarrangement de domaines
Pour cribler les réarrangements de domaines, il faut d’abord identifier des protéines ayant subi
un tel réarrangement. Ces protéines doivent par ailleurs partager une histoire évolutive
commune (être codées par des gènes homologues), l’une ayant subi un réarrangement
élémentaire de domaines par rapport à l’autre. Or, les outils communément utilisés pour
détecter les homologues ne tiennent généralement pas compte des protéines ayant subi un
réarrangement de domaines (cf chapitre 1). D’autre part, se baser uniquement sur les
architectures multi-domaines pour détecter des réarrangements de domaines pourrait conduire
à mettre en rapport des protéines qui ne partagent une histoire évolutive que très lointaine. Par
exemple, considérons deux protéines p1 et p2 d’architecture de domaines AC et ABC
respectivement. En se basant exclusivement sur l’architecture des domaines des deux
protéines, on pourrait penser qu’un indel interne du domaine B est intervenu entre p1 et p2.
Cependant, si p1 et p2 ne partagent une histoire évolutive que très lointaine et qu’il existe une
autre protéine p3 d’architecture AB évolutivement plus proche de p2, on pourrait cette fois
penser qu’un indel terminal du domaine C est survenu entre p2 et p3. C’est pour éviter ce
genre de problèmes qu’on a choisi de cribler les protéines ayant subi un réarrangement de
domaines uniquement parmi des protéines évolutivement proches. Dans ce but, nous avons
utilisé le contexte synténique pour s’assurer des relations d’homologie.
De la fusion de domaines à la fusion de gènes 39
Le contexte synténique a été défini en utilisant la synténie de domaines décrite dans le
chapitre 2. Les synténies ont été obtenues pour un ensemble de 13 bactéries Gram+ et de 15
bactéries Gram- en fixant delta à 2 (cf définition de delta dans le paragraphe 2.1.3). Seules les
synténies présentant un score supérieur à 90 ont été considérées (voir annexe 2 pour une
définition du score). Pour s’assurer de l’homologie entre les protéines qu’on considère, on
impose que les protéines appartiennent à deux occurrences distinctes d’une même synténie de
domaines. Les liens d’homologie sont attribués comme illustré dans la Figure 12 qui présente
une synténie de domaines de deux occurrences : une chez Haemophilus influenzae, l’autre
chez Vibrio cholerae. Pour chaque synténie de domaines, les occurrences sont comparées
deux à deux. Pour chaque protéine d’une occurrence, on recherche son homologue dans
l’autre occurrence tel que le couple de protéines homologues possède des architectures de
domaines présentant la plus grande similarité3 dans la synténie. Si ces architectures ne sont
pas exactement identiques, c’est que l’une des protéines a subi un réarrangement de domaines
et si ce réarrangement est de type élémentaire, alors il est comptabilisé. Dans la Figure 12, les
couples d’homologues sont indiqués par des flèches. Ainsi, HI0140 est l’homologue de
VC1783 car les protéines codées par ces gènes présentent la même architecture de domaines.
HI0147 et VC1777 sont aussi détectés comme homologues. En effet, bien que leurs
architectures de domaines ne soient pas identiques, elles présentent la meilleure similarité
dans la synténie car 2 domaines sur 3 sont identiques. Dans ce dernier cas, il s’agit
d’homologues ayant subi un réarrangement de domaines et d’après la classification présentée
dans la partie 3.1.2, il s’agit d’un indel terminal. Notons qu’un gène a au plus un homologue
dans la synténie et qu’il peut n’en avoir aucun. Ainsi, le gène VC1778 présente une similarité
d’un domaine sur trois avec HI0147 et une similarité nulle avec tous les autres gènes de la
synténie. Comme HI0147 partage une plus grande similarité avec VC1777 qu’avec VC1778,
il a déjà un homologue. On n’affecte donc aucun homologue à VC1778 dans la synténie.
Les caractéristiques générales des synténies de domaines identifiées ici figurent dans le
tableau 1. Sur un total de 28 bactéries considérées, 8491 synténies de domaines ayant un score
supérieur à 90 ont été retenues. 59852 gènes sont inclus dans ces synténies sur un total de
3 On défint la similarité entre deux architectures de domaines comme le rapport entre le nombre de domaines
communs entre les deux architectures et le nombre de domaines qui composent la plus grande architecture des
deux.
De la fusion de domaines à la fusion de gènes40
85890 gènes, ce qui signifie qu’on comptabilise les réarrangements de domaines pour 70%
des gènes des 28 bactéries considérées. La méthode décrite ci-dessus a été appliquée à ces
synténies et tous les réarrangements élémentaires de domaines comptabilisés.
De la fusion de domaines à la fusion de gènes 41
Figure 12 : Une synténie de domaines à deux occurrences chez H. influenzae et V. cholerae.
Les couples de gènes homologues sont indiqués par des flèches doubles.
De la fusion de domaines à la fusion de gènes42
15 Gram- 13 Gram+ 28 bactéries
Nombre de gènes 50076 35814 85890
Nombre de synténies de domaines 5115 3376 8491
Nombre de gènes synténiques 35129 24723 59852
Nombre de gènes insérés 1870 1440 3310
Tableau 1 : Les données synténiques. 8491 synténies de domaines ayant un score supérieur à
90 ont été retenues. Un gène est dit synténique s’il appartient à une synténie de domaines :
c’est le cas de 59852 gènes soit 70% des gènes des 28 bactéries considérées. Un gène inséré
est un gène situé dans une synténie de domaines, dont les domaines ne font pas partie de la
synténie (domaines insérés).
3.3.2 Importance quantitative des différents réarrangements élémentaires
141 ensembles de protéines, chacun contenant au moins une protéine ayant subi un
réarrangement de domaines, ont été identifiés. La distribution des différents réarrangements
élémentaires de domaines comptabilisés est représentée dans le tableau 2. Notons qu’afin de
rendre compte de la position interne ou terminale des indels et des répétitions, nous avons
écarté toutes les protéines mono-domaines de notre étude.
De la fusion de domaines à la fusion de gènes 43
15 Gram- 13 Gram+ 28 bactéries
Substitution 6 4 10
Indel 55 40 95
interne 2 3 5
terminal 53 37 90
Répétition 21 15 36
interne 1 1 2
terminale 20 14 34
Tableau 2 : Distribution des différents types de réarrangements élémentaires de domaines.
On constate que les substitutions sont rares (10/141), que les événements les plus fréquents
sont des indels (95/141) et qu’ils sont majoritairement terminaux (90/95). De même, les
répétitions sont majoritairement terminales (34/36). Notons que Björklund et al. avaient déjà
remarqué dans une autre étude la sur-représentation des indels terminaux (Björklund et al.,
2005). Cette sur-représentation a également été confirmée plus tard par Weiner et al. (Weiner
et al., 2006b).
3.3.3 Identification d’un mécanisme majeur
Nous avons essayé d’identifier le mécanisme à l’origine de ces indels terminaux. Une
étude des contextes synténiques de ces indels terminaux nous a permis de remarquer que
certains d’entre eux étaient en contexte de « fusion/fission évidente ». C’est à dire qu’en
fusionnant un gène et son voisin, on reconstitue l’architecture multi-domaines de la plus
grande des deux protéines affectées par l’indel terminal. On parle de fusion/fission évidente
car dans ce cas la présence des gènes juxtaposés non fusionnés dans un génome et de
l’homologue fusionné dans un autre est une trace claire que la fusion/fission est responsable
du réarrangement de domaines constaté (Yanai et al., 2002). Un cas de « fusion/fission
évidente » est représenté Figure 12 où les gènes HI0147 et VC1777 ont été détectés comme
ayant été affectés par un indel terminal. Dans ce cas, la fusion des architectures multi-
domaines des protéines codées par les gènes VC1777 et VC1778 reconstitue l’architecture
De la fusion de domaines à la fusion de gènes44
multi-domaine de la protéine codée par le gène HI0147. On a ainsi comptabilisé 38 cas de
« fusions/fissions évidentes » parmi les 90 indels terminaux. 42% des indels terminaux sont
donc clairement dus à des fusions/fissions. Ainsi, on estime qu’au moins 27% des
réarrangements de domaines (38/141) sont dus à des fusions/fissions de gènes.
Pour les 52 indels terminaux restants, nous nous sommes demandés si la fusion/fission de
gènes pouvait être responsable du réarrangement et nous avons imaginé le scénario représenté
Figure 13. Cette figure représente une synténie de domaines entre les génomes 1, 2 et 3. A
l’étape a, un gène s’insère dans l’occurrence du génome 1 de la synténie. Notons que ces
événements sont fréquents : comme indiqué dans le tableau 1, 40% (3310/8491) des synténies
de domaines étudiées contiennent un gène inséré. Ce gène inséré est conservé (étape b) puis
fusionne avec l’un de ses voisins (étape c). Dans ce cas, l’indel terminal observé est dû à une
fusion sans pour autant qu’il reste une trace des gènes juxtaposés non fusionnés dans un des
génomes considérés. A l’inverse, un gène peut fissioner et s’exciser ou subir une délétion de
telle sorte qu’il n’y a plus de trace des éléments juxtaposés fissionnés. En conséquence, si on
suppose que tous les indels terminaux sont dus à de la fusion/fission de gènes, la
fusion/fission est à l’origine 64% (90/141) des réarrangements élémentaires. Finalement, on
estime que la fusion/fission de gènes contribue entre 1/3 et 2/3 à la création de nouvelles
architectures de domaines. On en déduit donc qu’il s’agit d’un mécanisme majeur de la
création de nouvelles architectures multi-domaines.
De la fusion de domaines à la fusion de gènes 45
Figure 13 : Synténie de domaines entre les génomes 1, 2 et 3 et scénario en 3 étapes (a, b, c)
montrant que la fusion/fission de gènes peut être à l’origine des indels terminaux sans être en
contexte de « fusion/fission évidente ».
3.4 Conclusions
Les nouveaux gènes sont principalement créés par duplication suivie de la divergence d’une
des copies du gène. Cependant, d’autre mécanismes conduisent à la création de gènes
originaux . Parmi eux, on distingue les réarrangements impliquant des morceaux de gènes. Ce
mécanisme est connu chez les organismes eucaryotes sous le terme de brassage d’exons ou
brassage de domaines car il conduit à la création de nouvelles combinaisons de domaines. A
travers ce travail, nous avons montré que, chez les bactéries, on constate également des
réarrangements entre différents morceaux de gènes : ceux qui codent pour des domaines.
De la fusion de domaines à la fusion de gènes46
Nous avons mis en évidence qu’un des mécanismes majeurs à l’origine de la création de
nouvelles combinaisons de domaines est lié au jeu des fusions/fissions de gènes.
Chapitre IV : De la redondance en gènes à la
redondance en domaines
De la redondance en gènes à la redondance en domaines48
4 De la redondance en gènes à la redondance en
domaines
4.1 La redondance en gènes
4.1.1 La robustesse génétique et les mécanismes de compensation
La plupart des délétions de gènes n’ont pas de conséquence phénotypique identifiable sur
l’organisme. Ce comportement en réponse à la délétion est dû à l’existence de mécanismes de
compensation qui constituent la robustesse génétique de l’organisme. On distingue deux
mécanismes de compensation qui expliquent la robustesse génétique : (i) le recrutement de
voies métaboliques ou réseaux secondaires et (ii) la complémentation fonctionnelle par
l’intermédiaire de gènes dupliqués (ou paralogues) (Wagner, 2000 ; Gu et al., 2003 ; Gu,
2003). Dans le premier cas, c’est la réorganisation des réseaux qui compense la perte de la
fonction assurée par le gène qui a subi la délétion. Dans le deuxième cas, la présence d’un
gène dupliqué compense la perte de fonction car si l’une des copies est inactivée, l’autre copie
qui assure la même fonction ou une fonction très similaire compense l’activité perdue. Pour ce
deuxième mécanisme de compensation, on parle aussi de redondance en gènes.
4.1.2 Une littérature abondante et polémique
De nombreux travaux ont mis en évidence l’importance de l’un ou l’autre de ces deux
mécanismes de compensation, ou encore discutent leur importance relative. Par exemple,
d’après Wagner, la réorganisation des réseaux métaboliques est un mécanisme de
compensation au moins aussi important (voire plus important) que la redondance en gène
(Wagner, 2005). He et Zhang, de leur côté, pensent que la contribution à la robustesse de la
redondance en gènes est un mécanisme dont l’importance est surestimée (He et Zhang, 2006a
; He et Zhang, 2006b).
De la redondance en gènes à la redondance en domaines 49
4.1.3 Les expériences de robustesse génétique aux mutations nulles chez
S.cerevisiae
De nombreux travaux traitant de la robustesse génétique utilisent les résultats de l’expérience
à grande échelle décrite ci-après (Steinmetz et al., 2002). Chez S. cerevisiae, on dispose d’une
collection de mutants. Plus précisément, on dispose de 4706 mutants, chacun correspondant à
la délétion d’un gène et de 1060 expériences de délétion pour lesquelles on n’a pas de mutant
car la délétion du gène est létale. Les 4706 mutants sont testés dans 5 conditions de croissance
différentes (aérobies et anaérobies) et pour chacune de ces 5 conditions une mesure de la
« fitness » f de l’organisme pour son milieu est évaluée. Cette « fitness » est un taux de
croissance. Elle tient compte de la capacité de survie et de reproduction de la souche mutante
considérée par rapport à la moyenne de toutes les souches. Par définition, on fixe f = 0 si la
délétion est létale et f = 1 s’il n’y a pas de différence entre la « fitness » du mutant et la
« fitness » moyenne des individus sauvages. Pour chaque gène, on définit f min comme étant la
plus petite des 5 mesures de « fitness » obtenues dans chacune des 5 conditions testées. En
fonction de ces mesures, les gènes sont classés en 4 catégories (Gu et al., 2003) :
(i) f min > 0,95 : classe FAIBLE i.e. gène dont la délétion a peu ou pas d’effet sur le
phénotype,
(ii) 0,8 ≤ f min < 0,95 : classe MODERE i.e. gène dont la délétion a un effet modéré sur le
phénotype,
(iii) 0 < f min < 0,8 : classe IMPORTANT i.e. gène dont la délétion a un effet important sur
le phénotype,
(iv) f = 0 : classe LETAL i.e. gène dont la délétion a un effet létal sur le phénotype.
A partir de ce classement, on peut étudier la distribution des « fitness » pour des gènes
regroupés selon les caractéristiques que l’on veut tester. Notons que l’interprétation de ces
expériences est un point discutable. Par exemple, Papp et al. montrent que la plupart des
gènes dont la délétion a peu ou pas d’effet sur le phénotype, ont un comportement à la
délétion tout à fait différent (et non anodin) en dehors des conditions expérimentales (i.e. dans
un milieu naturel) (Papp et al., 2004). Autrement dit, les 5 conditions testées en laboratoire ne
De la redondance en gènes à la redondance en domaines50
reflètent pas l’ensemble des conditions environnementales dans lesquelles certains gènes
peuvent exercer leur spécificité.
4.1.4 La redondance en gène à travers les travaux de Gu et al.
A partir des résultats des expériences de robustesse précédemment décrites (partie 4.1.3), Gu
a mis en évidence l’importance des gènes dupliqués dans la robustesse aux mutations nulles.
Il a comparé les distributions des gènes dupliqués et des gènes singletons en fonction des
différentes classes de délétion (impact faible, modéré, important ou létal sur le phénotype).
Ces deux ensembles sont définis à partir de critères d’alignement de séquences entre
protéines. Toutes les protéines de S. cerevisiae sont alignées les unes avec les autres en
utilisant blast. Un gène dupliqué est défini comme un gène codant pour une protéine
présentant un alignement avec au moins une autre protéine tel que :
(i) L’alignement couvre plus de 50% de la plus grande des deux protéines,
(ii) Le pourcentage d’identité de l’alignement est supérieur à 30%.
Un singleton est défini comme un gène codant pour une protéine ne présentant aucun
alignement ayant une E-value inférieure à 0,1 avec les autres protéines de l’organisme. Les
distributions sont représentées sur la Figure 14. On peut remarquer que la proportion de gènes
dupliqués pour lesquels la délétion a peu ou pas d’effet sur le phénotype est plus importante
que celle des singletons (dupliqués : 64%, singletons : 40%). A l’inverse, la proportion de
singletons pour lesquels la délétion est létale est plus importante que celle des gènes dupliqués
(singletons : 29%, dupliqués : 12%). L’analyse statistique des 2 distributions confirme la
différence entre les distributions.
De la redondance en gènes à la redondance en domaines 51
Figure 14 : Distribution comparée des gènes dupliqués et des singletons en fonction des 4
classes de délétion. Figure extraite de Gu et al. (2003). Role of duplicate genes in genetic
robustness against null mutations. Nature 421, 63-66.
4.2 La redondance en domaines
4.2.1 Problématique liée à la duplication partielle de gènes
Si le travail de Gu a mis en évidence la différence de robustesse entre les gènes dupliqués et
les singletons, on se pose ici la question de la robustesse des gènes dupliqués partiels. Un
dupliqué partiel peut être défini comme un gène constitué de copies de morceaux d’autres
gènes. Ce gène peut provenir d’une duplication partielle ou complète d’un autre gène et avoir
subi des réarrangements (fusions/fissions, duplications internes, etc.). Considérons par
exemple le scénario de la Figure 15. Un gène G1 constitué des morceaux vert, rouge et bleu se
duplique entièrement créant ainsi un nouveau gène G2, copie du premier, constitué des mêmes
morceaux vert, rouge et bleu. La copie ainsi créée fissionne ensuite entre les morceaux rouge
et bleu créant ainsi deux nouveaux gènes : G3 constitué des morceaux vert et rouge et G4
constitué du morceau bleu. G1 est un dupliqué partiel puisqu’il est constitué d’une copie de G3
De la redondance en gènes à la redondance en domaines52
et d’une copie de G4. De même G3 et G4 sont des dupliqués partiels car ils sont constitués de
copies de parties de G1.
Figure 15 : Scénario de duplication puis de fission d’un gène illustrant la création d’un gène
dupliqué partiel (i.e. constitué de copies de morceaux d’autres gènes).
Les gènes issus de permutation circulaire (cf partie 1.3.1) sont aussi un exemple de dupliqués
partiels. De même que Gu s’est intéressé à la robustesse des gènes dupliqués, on se pose ici la
question de la robustesse des dupliqués partiels. Si le gène G1 est inactivé, on peut imaginer
que l’interaction entre les gènes G3 et G4 puisse compenser la perte d’activité. A l’inverse, si
le gène G3 ou le gène G4 est inactivé, leur activité pourrait être restaurée par le gène G1 qui
contient des copies des morceaux ayant subi une délétion.
4.2.2 Mise en évidence d’un nouveau mécanisme de compensation
4.2.2.1 Définition de trois classes de gènes
Détecter des dupliqués partiels à partir d’alignements de séquences n’est pas trivial. En effet,
la taille des protéines à aligner peut varier considérablement (cas des fusions/fissions) et
l’ordre des morceaux n’est pas strictement conservé (cas de la permutation circulaire). Nous
avons donc pris le parti de considérer les domaines comme unité représentant nos morceaux
de gènes. Basé sur la décomposition en domaines PfamA des protéines, on définit alors 3
classes de gènes :
(i) Les dupliqués,
(ii) Les dupliqués partiels,
De la redondance en gènes à la redondance en domaines 53
(iii) Les singletons.
Ces 3 classes de gènes sont définis comme suit :
(i) Les gènes dupliqués présentent la même architecture de domaines,
(ii) Un singleton contient au moins un domaine qui n’apparaît dans aucune autre protéine
de l’organisme considéré,
(iii) Un dupliqué partiel n’a pas de dupliqué et est constitué de domaines qui appartiennent
à d’autres protéines.
L’exemple représenté Figure 16 illustre ces définitions. Un protéome composé des protéines
P1, P2, P3 et P4 y est représenté. Pour chaque protéine est figurée sa décomposition en
domaines (A, B, C ou E).
Figure 16 : Définition des trois classes de gènes : Dupliqués, dupliqués partiels et singletons.
P4 est un singleton car il contient le domaine E qui n’appartient à aucune autre protéine du
protéome. P1 et P2 sont des dupliqués car ils contiennent exactement la même suite ordonnée
de domaines. P3 est un dupliqué partiel car il n’a pas de dupliqué mais est constitué du
domaine A qui apparaît dans d’autres protéines (P1, P2 et P4) et du domaine C qui apparaît
dans P4.
De la redondance en gènes à la redondance en domaines54
4.2.2.2 Intérêts de cette définition
Cette définition basée sur les domaines a deux intérêts principaux. Tout d’abord, comme les
profils HMM utilisés pour détecter les domaines sont plus sensibles que les alignements de
séquences deux à deux (Eddy, 1998), les homologies détectées peuvent être plus éloignées.
Ainsi notre ensemble de gènes dupliqués est plus large que celui de Gu (Gu et al., 2003). Il
contient à la fois les dupliqués de Gu, qu’on appelle les dupliqués proches, et des dupliqués
plus anciens qui présentent une homologie plus distante qu’on appelle les dupliqués distants.
Les gènes dupliqués que nous avons définis peuvent donc être divisés en deux catégories :
(i) Les dupliqués proches détectables par alignement de séquence et qui ont la même
architecture de domaines et,
(ii) Les dupliqués distants non détectables par alignement de séquence mais qui ont tout
de même la même architecture de domaines.
Par ailleurs, l’utilisation des domaines conduit à envisager la problématique initiale en des
termes plus larges. Tout comme l’étude des gènes dupliqués revient à étudier la redondance
en gènes, l’étude des dupliqués partiels revient ici à étudier la redondance en domaines et son
rôle en tant que mécanisme de compensation.
4.2.2.3 La redondance en domaines : un mécanisme de compensation
Le protéome de S. cerevisiae a été divisé en trois ensembles de gènes (singletons, dupliqués
partiels et dupliqués) dont on a comparé deux à deux les distributions des différentes classes
de délétions. Ces distributions sont représentées Figure 17.
De la redondance en gènes à la redondance en domaines 55
Figure 17 : Distribution comparée des gènes singletons, des dupliqués partiels et des
dupliqués en fonction des 4 classes de délétions (faible, modéré, important, létal).
Dans un premier temps, on peut remarquer que ces résultats confirment ceux obtenus par Gu
et al. (Gu et al., 2003). D’une part, la proportion de gènes dupliqués pour lesquels la délétion
a peu ou pas d’effet sur le phénotype est supérieure à celle des singletons (dupliqués : 56%,
singletons : 31%). D’autre part, la proportion de singletons pour lesquels la délétion est létale
est supérieure à celle des gènes dupliqués (singletons : 45%, dupliqués : 23%). Cependant,
cette expérience met également en évidence que les dupliqués partiels ont une robustesse
intermédiaire (faible :43%, létal : 34%). L’analyse statistique des distributions deux à deux
confirme la différence entre les distributions. On estime en outre que la contribution de la
redondance en domaines à la robustesse génétique est comprise entre 10% et 37%. La
redondance en domaines est donc un mécanisme de compensation plus faible que la
redondance en gènes mais d’une importance non négligeable.
4.2.2.4 Robustesse des dupliqués distants
Nous avons divisé l’ensemble des gènes dupliqués en 2 classes comme défini dans la partie
4.2.2.2 :
De la redondance en gènes à la redondance en domaines56
(i) Les dupliqués proches et,
(ii) Les dupliqués distants.
Nous avons comparé les distributions de ces dupliqués distants et dupliqués proches en
fonction des 4 classes de délétion. Les résultats sont représentés Figure 18. Les dupliqués
proches présentent une meilleure robustesse aux mutations nulles que les dupliqués distants.
Cette différence est statistiquement significative. Notons que la robustesse de ces deux
catégories de dupliqués a aussi été comparée à celle des dupliqués partiels. Il en résulte que si
les dupliqués proches sont plus robustes que les dupliqués partiels, il n’a pas été mis en
évidence de différence significative entre la robustesse des dupliqués distants et celle des
dupliqués partiels.
Figure 18 : Distribution comparée des gènes dupliqués proches, des dupliqués distants et des
dupliqués partiels en fonction des 4 classes de délétions (faible, modéré, important, létal).
4.3 Conclusions
Nous avons mis en évidence que la redondance en domaines est un mécanisme de
compensation certes moins important que la redondance en gènes mais dont l’importance
n’est pas négligeable. Ce mécanisme de compensation peut s’expliquer de deux façons :
De la redondance en gènes à la redondance en domaines 57
(i) soit la compensation est assurée par une protéine qui contient, entre autres, les domaines
de la protéine inactivée et dans ce cas une partie de la protéine est capable d’agir
indépendamment du reste de la protéine,
(ii) soit la compensation est assurée par l’interaction entre plusieurs protéines, interaction qui
met en contact l’ensemble des domaines concernés par la délétion.
Dans les deux cas, ceci illustre une indépendance relative des domaines par rapport aux
protéines qui les contiennent.
Conclusion et perspectives58
Conclusion et perspectives
L’intérêt des domaines protéiques est multiple. Sur le plan structural, les domaines font
l’objet d’études de repliements en relation avec des fonctions précises (fixation d’un ligand ou
substrat, régulation, etc…). Sur le plan fonctionnel, ils permettent d’enrichir les annotations
des protéines en mettant en relation des régions fonctionnelles identiques qui interviennent
dans des contextes moléculaires différents (liaison au calcium par exemple). Sur le plan
évolutif, l’intérêt des domaines est double. Ils permettent d’une part de traiter les relations
d’homologie à une échelle plus petite que celle du gène (« homologie par morceaux »).
D’autre part, la sensibilité des outils dédiés à l’identification des domaines permet de détecter
des homologies éloignées. En effet, quand les séquences divergent beaucoup et que leur
ressemblance ne peut plus être détectée par alignement de séquences, les signatures des
domaines peuvent être conservées et détectées grâce aux profils HMM car ceux-ci capturent
une plus grande diversité de séquence. Ainsi nous avons montré que la synténie de domaines
est plus sensible que la synténie de gènes. Les synténies détectées sont plus nombreuses, plus
grandes et peuvent être dupliquées au sein d’un même chromosome. De plus, ces synténies
tiennent compte de protéines affectées par des réarrangements de domaines (fusions/fissions,
permutations circulaires, etc…).
Dans le cadre de la synténie de domaines, nous avons étudié des protéines liées par une forte
relation d’homologie et ayant néanmoins subi un réarrangement de domaines. Nous avons
observé que les insertions/délétions (indels) de domaines sont les réarrangements les plus
fréquents et que ces indels interviennent le plus souvent en position terminale de la protéine.
Cette constatation et l’observation du voisinage synténique, nous a permis de mettre en
évidence que ces indels terminaux sont fortement liés à la fusion/fission de gènes. Nous en
avons déduit que la fusion/fission de gènes est un mécanisme majeur de la création de
nouvelles architectures de domaines.
Finalement, nous avons étudié les domaines dans le cadre de la robustesse génétique aux
mutations nulles et montré que la redondance en domaines constitue un nouveau mécanisme
de compensation. Ce mécanisme s’inspire du principe de la redondance en gènes. Dans le cas
Conclusion et perspectives 59
de gènes dupliqués, la délétion d’une des copies peut être compensée par une des autres
copies. Ainsi la duplication des gènes (redondance en gènes) participe à la robustesse
génétique. Dans notre cas, la duplication partielle crée des gènes constitués de copies de
morceaux d’autres gènes (domaines). Ceux-ci participent aussi à la robustesse génétique
(redondance en domaines).
Pour l’ensemble des trois problématiques que nous avons abordées, utiliser le domaine
comme unité au lieu du gène nous a permis de gagner en finesse et de tirer de nouvelles
conclusions. Ceci pourrait être également utile pour d’autres problématiques que j’envisage
d’aborder. Entre autres, je me propose de comparer la duplication de gènes et la duplication
de domaines. Ces deux phénomènes sont-ils liés aux mêmes mécanismes moléculaires ? Sont-
ils soumis aux mêmes pressions ? Un autre enjeu consiste à établir une distribution
phylogénétique des différents domaines afin d’identifier des domaines impliqués dans des
transferts horizontaux (disséminés par des phages, des séquences d’insertion, etc.). Ceci
pourrait permettre d’identifier des gènes issus de transferts horizontaux non détectés par les
méthodes usuelles notamment dans le cas de gènes isolés non transférés en îlots.
Bibliographie60
Bibliographie
Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG. 2004.
SCOP database in 2004: refinements integrate structure and sequence family data. Nucleic
Acids Res. 32(Database issue):D226-9.
Apic G, Gough J, Teichmann SA. 2001. Domain combinations in archaeal, eubacterial
and eukaryotic proteomes. J Mol Biol. 310:311-25.
Bateman A, Coin L, Durbin R, Finn RD, Hollich V, Griffiths-Jones S, Khanna A,
Marshall M, Moxon S, Sonnhammer EL, Studholme DJ, Yeats C, Eddy SR. 2004. The Pfam
protein families database. Nucleic Acids Res. 32(Database issue): D138-41.
Bergeron A, Corteel S, Raffinot M. 2002. The algorithmic of gene teams. Lecture
Notes Comput. Sci. 2452: 464-476.
Björklund SK, Ekman D, Light S, Frey-Skott J, Elofsson A. 2005 Domain
rearrangements in protein evolution. J Mol Biol. 353: 911-23.
Bru C, Courcelle E, Carrere S, Beausse Y, Dalmar S, Kahn D. 2005. The ProDom
database of protein domain families: more emphasis on 3D. Nucleic Acids Res. 33(Database
issue):D212-5.
Calabrese PP, Chakravarty S, Vision TJ. 2003. Fast identification and statistical
evaluation of segmental homologies in comparative maps. Bioinformatics. 19 Suppl 1: i74-80.
Casjens S. 1998. The diverse and dynamic structure of bacterial genomes. Annu Rev
Genet. 32 : 339-377.
Chothia C, Gough J, Vogel C, Teichmann SA. 2003. Evolution of the protein
repertoire. Science. 300(5626):1701-1703.
de Château M, Bjorck L. 1994. Protein PAB, a mosaic albumin-binding bacterial
protein representing the first contemporary example of module shuffling. J Biol Chem.
269(16):12147-12151
Bibliographie 61
de Château M, Bjorck L. 1996. Identification of interdomain sequences promoting the
intronless evolution of a bacterial protein family. Proc Natl Acad Sci U S A. 93(16):8490-
8495.
Deng M, Mehta S, Sun F, Chen T. 2002. Inferring domain-domain interactions from
protein-protein interactions. Genome Res. 12(10):1540-1548.
Durand D, Sankoff D . 2003. Tests for gene clustering. J. Comput. Biol. 10: 453-482.
Eddy SR. 1998. Profile hidden Markov models. Bioinformatics. 14: 755-763.
Enright AJ, Ouzounis CA. 2001. Functional associations of proteins in entire genomes
by means of exhaustive detection of gene fusions. Genome Biol. 2: research0034.1-0034.7.
Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S, Hollich V, Lassmann T,
Moxon S, Marshall M, Khanna A, Durbin R, Eddy SR, Sonnhammer EL, Bateman A. 2006.
Pfam: clans, web tools and services. Nucleic Acids Res. 34(Database issue):D247-51.
Fitch WM. 2000. Homology a personal view on some of the problems. Trends Genet.
16(5):227-231.
Fukuda Y, Washio T, Tomita, M. 1999. Comparative study of overlapping genes in
the genomes of Mycoplasma genitalium and Mycoplasma pneumoniae. Nucleic Acids Res.
27: 1847-1853.
Galperin, MY, Koonin, EV. 2000. Who's your neighbor? New computational
approaches for functional genomics. Nature Biotech. 18: 609-613.
Gu Z, Steinmetz LM, Gu X, Scharfe C, Davis RW, Li WH. 2003. Role of duplicate
genes in genetic robustness against null mutations. Nature. 421: 63-66.
Gu X. 2003. Evolution of duplicate genes versus genetic robustness against null
mutations. Trends Genet. 19: 354-356.
He X, Goldwasser MH. 2005. Identifying conserved gene clusters in the presence of
homology families. J Comput Biol. 12(6):638-656.
He X, Zhang, J. 2006a. Transcriptional reprogramming and backup between duplicate
genes: is it a genome-wide phenomenon? Genetics. 172 : 1363-1367.
He X, Zhang J. 2006b. Higher duplicability of less important genes in yeast genomes.
Mol. Biol. Evol. 23: 144-151.
Bibliographie62
Henikoff S, Henikoff JG. 1994. Protein family classification based on searching a
database of blocks. Genomics. 19(1):97-107.
Hulo N, Bairoch A, Bulliard V, Cerutti L, De Castro E, Langendijk-Genevaux PS,
Pagni M, Sigrist CJ. 2006. The PROSITE database. Nucleic Acids Res. 34(Database
issue):D227-30.
Jaillon O, Aury JM, Brunet F, Petit JL, Stange-Thomann N, Mauceli E, Bouneau L,
Fischer C, Ozouf-Costaz C, Bernot A et al. 2004. Genome duplication in the teleost fish
Tetraodon nigroviridis reveals the early vertebrate proto-karyotype. Nature. 431(7011):946-
957.
Kim WK, Park J, Suh JK. 2002. Large scale statistical prediction of protein-protein
interaction by potentially interacting domain (PID) pair. Genome Inform Ser Workshop
Genome Inform. 13:42-50.
Koonin EV, Aravind L, Kondrashov AS. 2000. The impact of comparative genomics
on our understanding of evolution. Cell. 101(6):573-576.
Koonin EV. 2005. Orthologs, paralogs, and evolutionary genomics. Annu Rev Genet.
39:309-338.
Korbel JO, Jensen LJ, von Mering C, Bork P. 2004. Analysis of genomic context:
prediction of functional associations from conserved bidirectionally transcribed gene pairs.
Nature Biotech. 22: 911-917.
Kummerfeld SK, Teichmann SA. 2005. Relative rates of gene fusion and fission in
multi-domain proteins. Trends Genet. 21: 25-30.
Le Bouder-Langevin S, Capron-Montaland I, De Rosa R, Labedan B. 2002. A strategy
to retrieve the whole set of protein modules in microbial proteomes. Genome Res.
12(12):1961-1973.
Letunic I, Copley RR, Pils B, Pinkert S, Schultz J, Bork P. 2006. SMART 5: domains
in the context of genomes and networks. Nucleic Acids Res. 34(Database issue):D257-60.
Lindqvist Y, Schneider G. 1997. Circular permutations of natural protein sequences:
structural evidence. Curr Opin Struct Biol. 7(3):422-427.
Bibliographie 63
Luc N, Risler JL, Bergeron A, Raffinot M. 2003. Gene teams: a new formalization of
gene clusters for comparative genomics. Comput Biol Chem. 27(1):59-67.
Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D. 1999a. A
combined algorithm for genome-wide prediction of protein function. Nature. 402: 83-86.
Marcotte EM, Pellegrini M, Ho-Leung N, Rice DW, Yeates TO, Eisenberg D. 1999b.
Detecting protein function and protein-protein interactions from genome sequences. Science.
30:751-753.
Murzin AG, Brenner SE, Hubbard T, Chothia C. 1995. SCOP: a structural
classification of proteins database for the investigation of sequences and structures. J Mol
Biol. 247(4):536-40.
Ng SK, Zhang Z, Tan SH. 2003. Integrative approach for computationally inferring
protein domain interactions. Bioinformatics. 19(8):923-929.
Nye TM, Berzuini C, Gilks WR, Babu MM, Teichmann SA. 2005. Statistical analysis
of domains in interacting protein pairs. Bioinformatics. 21(7):993-1001.
Omelchenko MV, Makarova KS, Wolf YI, Rogozin IB, Koonin EV. 2003. Evolution
of mosaic operons by horizontal gene transfer and gene displacement in situ. Genome Biol. 4:
R55.
Orengo CA, Thornton JM. 2005. Protein families and their evolution-a structural
perspective. Annu Rev Biochem. 74:867-900.
Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N. 1999. The use of gene
clusters to infer functional coupling. Proc Natl Acad Sci U S A. 96(6):2896-2901.
O'Sullivan D, Twomey DP, Coffey A, Hill C, Fitzgerald GF, Ross RP. 2000. Novel
type I restriction specificities through domain shuffling of HsdS subunits in Lactococcus
lactis. Mol Microbiol. 36(4):866-875.
Papp B, Pal C, Hurst LD. 2004. Metabolic network analysis of the causes and
evolution of enzyme dispensability in yeast. Nature. 429:661-664.
Bibliographie64
Pasek S, Bergeron A, Risler JL, Louis A, Ollivier E, Raffinot M. 2005. Identification
of genomic features using microsyntenies of domains: domain teams. Genome Res.
15(6):867-874.
Pasek S, Risler JL, Brezellec P. 2006a. Gene fusion/fission is a major contributor to
evolution of multi-domain bacterial proteins. Bioinformatics. 22(12):1418-1423.
Pasek S, Risler JL, Brezellec P. 2006b. The role of domain redundancy in genetic
robustness against null mutations. J Mol Biol. 362(2):184-191.
Passarge E, Horsthemke B, Farber RA. 1999. Incorrect use of the term synteny. Nat
Genet. 23(4):387.
Pawson T, Nash P. 2003. Assembly of cell regulatory systems through protein
interaction domains. Science. 300(5618):445-452.
Pevzner P, Tesler G. 2003. Genome rearrangements in mammalian evolution: lessons
from human and mouse genomes. Genome Res. 13(1):37-45.
Reeves GA, Dallman TJ, Redfern OC, Akpor A, Orengo CA. 2006. Structural
Diversity of Domain Superfamilies in the CATH Database. J Mol Biol. 360(3):725-741.
Riley M, Labedan B. 1997. Protein evolution viewed through Escherichia coli protein
sequences: introducing the notion of a structural segment of homology, the module. J Mol
Biol. 268(5):857-68.
Rocha EP. 2004. Order and disorder in bacterial genomes. Curr Opin Microbiol.
7:519-527.
Sali A. 1999. Functional links between proteins. Nature. 402:23-26.
Sankoff D. 2003. Rearrangements and genome evolution. Curr. Opin. Gen. Dev. 13:
583-587.
Sprinzak E, Margalit H. 2001. Correlated sequence-signatures as markers of protein-
protein interaction. J Mol Biol. 311(4):681-692.
Steinmetz LM, Scharfe C, Deutschbauer AM, Mokranjac D, Herman ZS, Jones T, Chu
AM, Giaever G, Prokisch H, Oefner PJ, Davis RW. 2002. Systematic screen for human
disease genes in yeast. Nat Genet. 31:400-404.
Bibliographie 65
Suhre K, Claverie JM. 2004. FusionDB: a database for in-depth analysis of
prokaryotic gene fusion events. Nucleic Acids Res. 32 Database issue: D273-276.
Suyama M, Bork P. 2001. Evolution of prokaryotic gene order: genome
rearrangements in closely related species. Trends Genet. 17:10-13.
Tamames J. 2001. Evolution of gene order conservation in prokaryotes. Genome Biol.
2(6):RESEARCH0020.
Tang J, Moret BM. 2003. Scaling up accurate phylogenetic reconstruction from gene-
order data. Bioinformatics. 19 Suppl 1: i305-312.
Tillier ER, Collins RA. 2000. Genome rearrangement by replication-directed
translocation. Nat Genet. 26 :195-197.
Uliel S, Fliess A, Amir A, Unger R. 1999. A simple algorithm for detecting circular
permutations in proteins. Bioinformatics. 15(11):930-6.
Uliel S, Fliess A, Unger R. 2001. Naturally occurring circular permutations in
proteins. Protein Eng. 14(8):533-542.
Viguera E, Canceill D, Ehrlich SD. 2001. Replication slippage involves DNA
polymerase pausing and dissociation. EMBO J. 20(10):2587-2595.
Vogel C, Berzuini C, Bashton M, Gough J, Teichmann SA. 2004a. Supra-domains:
evolutionary units larger than single protein domains. J Mol Biol. 336(3):809-23.
Vogel C, Bashton M, Kerrison ND, Chothia C, Teichmann SA. 2004b. Structure,
function and evolution of multidomain proteins. Curr Opin Struct Biol. 14(2):208-16.
Vogel C, Teichmann SA, Pereira-Leal J. 2005. The relationship between domain
duplication and recombination. J Mol Biol. 346(1):355-365.
von Mering C, Huynen M, Jaeggi D, Schmidt S, Bork P, Snel B. 2003. STRING: a
database of predicted functional associations between proteins. Nucleic Acids Res. 31(1):258-
261.
Wagner A. 2000. Robustness against mutations in genetic networks of yeast. Nat
Genet. 24:355-361.
Bibliographie66
Wagner A. 2005. Distributed robustness versus redundancy as causes of mutational
robustness. Bioessays. 27 :176-188.
Weiner J 3rd, Thomas G, Bornberg-Bauer E. 2005. Rapid motif-based prediction of
circular permutations in multi-domain proteins. Bioinformatics. 21(7):932-937.
Weiner J 3rd, Bornberg-Bauer E. 2006a. Evolution of circular permutations in
multidomain proteins. Mol Biol Evol. 23(4):734-743.
Weiner J 3rd, Beaussart F, Bornberg-Bauer E. 2006b. Domain deletions and
substitutions in the modular protein evolution. FEBS J. 273(9):2037-2047.
Yanai I, Derti A, DeLisi C. 2001. Genes linked by fusion events are generally of the
same functional category: a systematic analysis of 30 microbial genomes. Proc Natl Acad Sci
U S A. 98(14):7940-7945.
Yanai I, Wolf YI, Koonin EV. 2002. Evolution of gene fusions: horizontal transfer
versus independent events. Genome Biol. 3 :research0024.
Yona G, Linial N, Linial M. 1999. Protomap: automatic classification of protein
sequences, a hierarchy of protein families, and local maps of the protein space. Proteins.
37:360-378.
Bibliographie 67
Références Internet
[1] Sean Eddy. Cold Spring Harbor Computational Genomics Course, November 1999.
http://www.people.virginia.edu/~wrp/cshl00/domain-lecture.html
[2] ENSEMBL, http://www.ensembl.org/index.html
ANNEXES
ANNEXE 1 : Les domaines Pfam 69
ANNEXE 1 : Les domaines Pfam
Pfam est une collection d’alignements multiples et de modèles HMM recouvrant la quasi
totalité des domaines protéiques connus. Pour chaque famille de domaines, Pfam met à
disposition :
(i) Les alignements multiples pour ce domaine,
(ii) Les architectures de domaines des protéines contenant ce domaine,
(iii) La distribution phylogénétique du domaine,
(iv) Les conformations structurales connues de protéines contenant ce domaine,
(v) Des liens vers d’autres bases de données.
Pfam est une base de données alimentées de manière semi-automatique. Elle est divisée en
deux parties : les PfamA et les PfamB. La base contient 8296 familles de domaines PfamA
(en Mai 2006). Pour chaque famille de domaines PfamA, un alignement « graine »
représentatif d’un ensemble de séquences contenant ce domaine est calculé et vérifié
manuellement. Puis un profil HMM est construit à partir de cet alignement « graine » et est
utilisé afin de générer automatiquement un alignement « complet » parmi les séquences
protéiques disponibles dans les banques. Les domaines PfamB sont, pour leur part, générés
entièrement automatiquement à l’aide d’alignements multiples correspondant aux domaines
ProDom qui ne recouvrent pas des domaines PfamA. La distinction entre alignement
« graine » et alignement « complet » facilite la mise à jour de la base de données puisque
l’alignement « graine » et le profil HMM sont stables tandis que seul l’alignement complet est
mis à jour au fur et à mesure des mises à jour des bases de séquences protéiques.
En Mai 2006, la version courante de Pfam est la 20.0. 74% des séquences protéiques
contiennent au moins un domaine PfamA et parmi celles qui n’en contiennent pas, 11%
d’entres elles contiennent au moins un PfamB.
ANNEXE 2 : La synténie de gènes / domaines70
ANNEXE 2 : La synténie de gènes / domaines
Définition formelle
Etant donné S un ensemble de domaines, et une distance δ, les éléments de S divisent un
ensemble de chromosomes en δ-chaînes. Il existe des suites maximales de domaines de S,
telles que la distance entre deux domaines consécutifs dans une suite est inférieure ou égale à
δ. Considérons par exemple, les domaines A, B et C (S = {A, B, C}) et Chr l’ensemble
suivants de chromosomes au sein desquels on a souligné les domaines A, B et C :
Chr = ABD EFBCAGH IJAKBCLM NOPCAQARS
Pour δ = 2, les éléments de S divisent Chr en quatre δ-chaînes : AB, BCA, AKBC et CAQA.
Notons que des domaines peuvent apparaître dans un ordre différent dans différentes δ-
chaînes et que ces domaines ne sont pas nécessairement contigus dans une δ-chaîne donnée.
Le contenu en domaines d’une δ-chaîne constitue un sous-ensemble de l’ensemble S.
Chaque δ-chaîne qui contient tous les éléments de l’ensemble S est appelé une occurrence de
l’ensemble S. Un ensemble de domaines T constitue une extension de l’ensemble S si S est
contenu dans T et que chaque occurrence de S est contenue dans une occurrence de T.
Définition Etant donné δ , un ensemble de domaines S constitue une δ-équipe d’un ensemble
de chromosomes Chr s’il existe au moins une occurrence de l’ensemble S dans Chr, et que
S n’a pas d’extension.
Par exemple, dans l’ensemble Chr de chromosomes représenté ci-dessus, l’ensemble
S = {A, B, C} est une δ-équipe avec δ = 2. Elle a deux occurrences : BCA et AKBC. A
l’inverse, l’ensemble {B} n’est pas a δ-équipe car l’ensemble T = {A, B} est une extension de
{B}, ce qui signifie que chaque instance d’un domaine B est suffisamment proche d’une
instance d’un domaine A. Notons que pour δ = 2, l’ensemble T = {A, B} est aussi δ-équipe
même si S contient T parce que S n’est pas une extension de T. Dans ce cas, la δ-équipe a trois
occurrences : AB, BCA and AKB, ce qui montre que les équipes peuvent être imbriquées.
ANNEXE 2 : La synténie de gènes / domaines 71
Ainsi, dans un ensemble de n chromosomes, un ensemble de domaines {A, B, C} peut
constituer une équipe conservée dans m ≤ n chromosomes mais un sous-ensemble {A, B} du
précédent ensemble peut être conservé dans k > m chromosomes. Dans un tel cas, les résultats
de DomainTeam contiennent alors les deux ensembles. Autrement dit, DomainTeam ne
détecte pas uniquement les équipes conservées dans tous les chromosomes. La définition
d’une δ-équipe précédemment énoncée est une généralisation directe de la notion d’équipes
de gènes telle qu’elle a été introduite par Bergeron et al. (Bergeron et al., 2002), qui traite le
cas de chromosomes contenant une unique copie de chaque gène.
Le nombre d’équipes peut être exponentiel
En l’absence de contraintes supplémentaires4, la définition d’une δ-équipe peut conduire à un
algorithme théoriquement exponentiel, car le nombre d’équipes de domaines peut être
exponentiel avec le nombre de domaines. Cependant, des exemples « réels » impliquant des
centaines de gènes peuvent être traités efficacement en un temps raisonnable.
Afin de montrer la nature exponentielle de la définition d’une δ-équipe, considérons
un ensemble L de n domaines. Construisons n chromosomes, chacun contenant n – 1
domaines différents obtenus en enlevant un domaine différent de L à chaque fois. Alors, pour
δ = n – 2, chaque sous-ensemble de L est une δ-équipe. Par exemple, avec n = 5, L = {A, B, C,
D, E} et les cinq chromosomes suivants :
ABCD ABCE ABDE ACDE BCDE
Chaque sous-ensemble S de L a au moins une occurrence, car S est contenu au moins une fois
par chromosome et la distance entre deux domaines dans un chromosome est toujours plus
petite que δ = n – 2. Pour chaque domaine d n’appartenant pas à S, il existe une occurrence de
S qui n’est pas contenue dans S ∪ d, particulièrement le chromosome dans lequel d a été
enlevé, ainsi S n’a pas d’extension. Ainsi S est une δ-équipe.
4 Par exemple une contrainte serait d’imposer que les équipes traversent exactement m chromosomes.
ANNEXE 2 : La synténie de gènes / domaines72
Définition du score
Etant donné une δ-équipe, soit np le nombre de protéines appartenant à toutes les occurrences
de cette équipe, nd le nombre de domaines différents, no le nombre d’occurrences de l’équipe
et m la somme pondérée des fréquences de chaque domaine (m = ∑i ni * fi avec ni le nombre de
fois où le domaine i est observé dans l’équipe et fi la fréquence du domaine i dans l’ensemble
total des chromosomes étudiés). Le score S est alors défini tel que :
S = 10 x log10 [(np / no) * (nd / m)].
Les meilleurs rangs sont attribués aux équipes ayant les meilleurs scores, c’est à dire aux
équipes ayant un nombre moyen important de protéines par occurrence (np/no) avec un
nombre important de domaines différents (nd) et un faible nombre de domaines fréquents
(1/m). L’expérience montre que les équipes pour lesquelles S > 90 sont potentiellement
intéressantes.
ANNEXE 3 : Article 1, la synténie de domaines 73
ANNEXE 3 : Article 1, la synténie de domaines
Pasek S, Bergeron A, Risler JL, Louis A, Ollivier E, Raffinot M. 2005. Identification
of genomic features using microsyntenies of domains: domain teams. Genome Res.
15(6):867-874.
Identification of genomic features usingmicrosyntenies of domains: Domain teamsSophie Pasek,1,4,5 Anne Bergeron,3 Jean-Loup Risler,1 Alexandra Louis,2
Emmanuelle Ollivier,1 and Mathieu Raffinot1
1Laboratoire Genome et Informatique, CNRS/UEVE, and 2Infobiogen, 91034 Evry cedex, France; 3LacIM, Universite du Quebec aMontreal, Montreal, Quebec, Canada; 4Soluscience, Biopole Clermont-Limagne, 63360 Saint-Beauzire, France
The detection, across several genomes, of local conservation of gene content and proximity considerably helps theprediction of features of interest, such as gene fusions or physical and functional interactions. Here, we want toprocess realistic models of chromosomes, in which genes (or genomic segments of several genes) can be duplicatedwithin a chromosome, or be absent from some other chromosome(s). Our approach adopts the technique oftemporarily forgetting genes and working directly with protein “domains” such as those found in Pfam. This allowsthe detection of strings of domains that are conserved in their content, but not necessarily in their order, which werefer to as domain teams. The prominent feature of the method is that it relaxes the rigidity of the orthologycriterion and avoids many of the pitfalls of gene-families identification methods, often hampered by multidomainproteins or low levels of sequence similarity. This approach, that allows both inter- and intrachromosomalcomparisons, proves to be more sensitive than the classical methods based on pairwise sequence comparisons,particularly in the simultaneous treatment of many species. The automated and fast detection of domain teams,together with its increased sensitivity at identifying segments of identical (protein-coding) gene contents as well asgene fusions, should prove a useful complement to other existing methods.
[Supplemental material is available online at www.genome.org.]
Protein structures and sequences can often be split up into “do-mains.” Databases such as SCOP for the structures (Andreeva etal. 2004) or Pfam for the sequences (Bateman et al. 2004) aredevoted to the identification, classification, and storage of pro-tein domains. Recent studies have focused on protein domains asevolutionary units (Patthy 2003; Vogel et al. 2004) or basic ele-ments in protein–protein interactions (Nye et al. 2004). As statedby Koonin et al. (2000) about comparative genomics, the conceptof orthology breaks down for genes coding for complex, multido-main proteins and much of the evolutionary process should bethought of and analyzed in terms of domains rather than pro-teins (genes). In this study, we adopt a novel approach to thesearch for chromosomal segments with identical or almost iden-tical protein-coding gene content, based on the decompositionof the genes into the domains of the proteins they code for.
Although the term “synteny” originally referred to gene locion the same chromosome, it is now widely used to refer to geneloci in different organisms, located on a chromosomal region ofcommon evolutionary ancestry (Passarge et al. 1999). Thus, likemany others, we shall use the word synteny to mean “local con-servation of gene content and proximity across several organ-isms.” This conservation probably points out, in many cases, to aselection pressure that tends to preserve the very proximity of thegenes (Overbeek et al. 1999). As a consequence, the detection,across several genomes, of local conservation of gene contentand proximity considerably helps the prediction of features ofinterest such as the physical interaction of proteins or their par-
ticipation in common metabolic/regulatory networks (Marcotteet al. 1999a,b; Sali 1999; Galperin and Koonin 2000; Enright andOuzounis 2001; Suyama and Bork 2001; von Mering et al. 2003;Korbel et al. 2004; Suhre and Claverie 2004). It also enables phy-logenetic reconstructions through the identification of some ofthe numerous rearrangements events that can affect a genome,i.e., transpositions, deletions, insertions, inversions, fusions, andfissions (for review, see Sankoff 2003; Tang and Moret 2003).
Syntenic regions in eucaryotic genomes are generally de-fined as groups of two or more genes in one species that possessan ortholog on the same chromosome in another species, irre-spective of their orientation or order (Pevzner and Tesler 2003;Jaillon et al. 2004). Here, one can speak of macrosynteny. Amongprokaryotic genomes, the definition often adds the constraint ofgene proximity—not necessarily contiguity—on both of thecompared chromosomes (Bergeron et al. 2002; Luc et al. 2003;von Mering et al. 2003). The addition of this constraint results inmuch shorter conserved regions, in which case, one speaks ofmicrosynteny. In the search for microsyntenies, one can insist onthe conservation of gene order (Overbeek et al. 1999), but gen-erally the order, contiguity, and even strandeness of the genes arerelaxed to some extent (Fujibuchi et al. 2000; Tamames 2001;Bergeron et al. 2002; Calabrese et al. 2003; Durand and Sankoff2003; Luc et al. 2003). Such relaxed microsyntenies were formallydefined as gene teams by Bergeron et al. (2002).
In this study, we reinvestigate the search for microsynteniesby temporarily forgetting genes and working directly with pro-tein domains, such as those found in Pfam (Bateman et al. 2004).We define chromosomal regions of conserved protein domains asdomain teams. This choice has many interesting consequences.First, it allows us to process simultaneously intrachromosomal
5Corresponding author.E-mail [email protected]; fax 33-1-60-87-38-97.Article and publication are at http://www.genome.org/cgi/doi/10.1101/gr.3638405. Article published online before print in May 2005.
Methods
15:000–000 ©2005 by Cold Spring Harbor Laboratory Press; ISSN 1088-9051/05; www.genome.org Genome Research 1www.genome.org
and interchromosomal comparisons. Indeed, since all of the pro-tein-coding genes are decomposed into the domains of the pro-teins they code for, the usual step of finding the “bidirectionalbest hits” (e.g., Overbeek et al. 1999) is avoided, as well as theproblem of partitioning sequences into nonoverlapping and bio-logically coherent clusters when multidomain proteins are pres-ent (see, for example, Yona et al. 1999). As a consequence, therigidity of the orthology criterion is relaxed, and this approachallows us to process more realistic models of chromosomes, inwhich genes or segments of genes can be duplicated or even beabsent from some chromosomes. Moreover, considering genesfrom the domain point of view enables us to integrate multiple-sequence alignments information; the position-sensitive scoringmatrices (Gribskov et al. 1987) or the hidden Markov model pro-files (Eddy 1998) that are stored in the Pfam database (Bateman etal. 2004) are known to be more sensitive than pairwise sequencealignments (e.g., Altschul et al. 1997). Finally, this model allowsthe detection of events such as fusions and duplications thatwould not be otherwise obvious.
We implemented this concept in a software namedDomainTeam, freely available on request for academic purposes.The strength and limitations of this approach are discussed indetail in this work.
DomainTeam
For reasons that will be made clear in the Results section, we shallhere interest ourselves only in prokaryotic organisms. From acomputational point of view, a chromosome can be defined as acollection of genes. Focusing on protein-coding genes, we wantto define a chromosome as an ordered sequence of genes, wherea unique coding sequence is associated with the nucleic acidsequence of a gene. In addition, we will divide each gene into oneor more consecutive domains, each domain having a label. In thepresent case, the domains will be the Pfam domains of theencoded proteins (Pfam imposes a nonoverlapping rule ondomains). In those few cases where a domain is inserted withinanother one (Bateman et al. 2004), the two domains are consid-ered as adjacent. Overlapping genes (e.g., Fukuda et al. 1999)are similarly noted as contiguous (see Supplemental material,part 1).
The distance between two domains on the same chromo-some is the difference between their positions. The position of adomain is defined using the order in which the domains appearon the chromosome (considering both DNA strands). Given a setS of domain labels, and a fixed distance �, the labels of S divide aset of chromosomes in �-chains. These are maximal runs of do-mains whose labels belong to S, such that the distance betweentwo consecutive domains in a run is less than or equal to �. Forexample, consider the domains A, B, and C (S = {A, B, C}) and thefollowing set C of chromosomes in which these domains havebeen underlined:
C = ABD EFBCAGH IJAKBCLM NOPCAQARS
With � = 2, the set S induces four �-chains on the chromo-somes of C: AB, BCA, AKBC, and CAQA. Note that the domains indifferent �-chains can appear in different orders, and are notnecessarily contiguous in a given �-chain.
The content of a �-chain is the subset of S of the labels thatappear in the domains of the run. Each �-chain that contains allof the labels of a set S is called an occurrence of the set S. A set of
labels T is an extension of a set S if S is contained in T, and eachoccurrence of S is contained in an occurrence of T.
Definition 1
Given �, a set S of labels is a �-team of a set of chromosomes C ifthere is at least one occurrence of the set S in C, and S has noextension.
For example, in the above set C of chromosomes, the setS = {A, B, C} is a �-team with � = 2. It has two occurrences: BCAand AKBC. On the other hand, the set {B} is not a �-team, sincethe set T = {A, B} is an extension of {B}, which means that eachoccurrence of label B implies a nearby occurrence of label A (thereverse is not true). Note that for � = 2, the set T = {A, B} is also a�-team, even if S contains T because T is not an extension of S. Inthis case, it has three occurrences: AB, BCA and AKB, whichmeans that teams can be nested. Thus, in a set of n chromosomes,a set {A, B, C} can be a team conserved in m � n chromosomes,but the shorter nested set {A, B} can be conserved in k > m chro-mosomes. DomainTeam will report both sets. In other words,DomainTeam does not report only those teams conserved in allof the chromosomes. Definition 1 is a direct generalization of thenotion of gene teams introduced by Bergeron et al. (2002), whichaddressed the case of chromosomes containing a unique copy ofeach gene. He and Goldwasser (2004) also defined an extensionof gene teams that allows multiple copies of a gene in a chromo-some. However, the number of chromosomes must be restrictedto two in order to achieve polynomial time complexity of theiralgorithm.
Figure 1 shows an example of a domain team found in fourdifferent organisms, exhibiting significant rearrangements. Thefive domains present in Yersima pestis are transposed, reversed,and duplicated in Salmonella typhi, Escherichia coli, and Vibriocholerae. Another example is shown in the Supplemental material(part 2), depicting a team found in a set of 10 pathogenic bacte-ria.
The number of teams can be exponential
Without additional constraints, Definition 1 also leads to theo-retically exponential algorithms, since the number of domainteams can be exponential in the number of labels. However, as
Figure 1. A domain team (� = 3) of five domains with occurrences infour different organisms, with two occurrences in S. typhi. The first oc-currence in S. typhi has the same domain order and content as the oc-currence in Y. pestis, except that the whole segment is reversed. In thesecond occurrence in S. typhi, domain 294 is duplicated in reverse, sand-wiching an insertion of a new domain. There is also a transposition ofdomain 294 and a duplication of domain 359, with respect to the fourother occurrences. V. cholerae has a duplication of domain 2379 and E.coli a duplication of domain 294.
Pasek et al.
2 Genome Researchwww.genome.org
shown in the next sections, real-life examples involving thou-sands of genes can be computed efficiently or at least in a rea-sonable time.
In order to show the exponential nature of Definition 1,consider a set L of n labels. Construct n chromosomes, each con-taining n-1 different labels obtained by removing one differentlabel from L. Then, for � = n-2, each proper subset of L is a �-team.For example, with n = 5 and L = {A, B, C, D, E}, one gets thefollowing five chromosomes:
ABCD ABCE ABDE ACDE BCDE
Each proper subset S of L has at least one occurrence, sinceS is contained in at least one chromosome, and the distancebetween two labels in a chromosome is always less than � =n � 2. For any domain d not in S, there is an occurrence of Sthat is not contained in S ∪ d, namely, the chromosome inwhich d was removed, therefore, S has no extension. Thus, S isa �-team.
Results and Discussion
Sensitivity of DomainTeam as viewedfrom three closely related genomes
As a way to test the sensitivity of ourapproach, we compared the results ob-tained by GeneTeam (Luc et al. 2003)and DomainTeam on a set of three chro-mosomes from closely related species.Both algorithms implement the samenotion of microsynteny, but GeneTeamsearches for regions of conserved or-thologous protein-coding genes, whileDomainTeam looks for regions of con-served protein domains content. Thecomparison was performed by mappingthe chromosome of E. coli according to
the syntenic regions it shares with both the S. typhi and Y. pestischromosomes. In both programs, the � parameter was set to 3(allowing gaps of two consecutive genes or domains).
The results are summarized in Figure 2. The first obviousobservation is that, for both programs, there are no huge teamsthat would encompass almost all of the genome. Rather, thesethree closely related species share a lot of microsyntenic regions(red color in Fig. 2). As expected, the teams obtained byDomainTeam (inner circle) and GeneTeam (outer circle) mostoften coincide. However, DomainTeam identifies larger andmore numerous microsyntenies, as large nonsyntenic regions re-ported by GeneTeam are broken into several domain teams. Thelargest teams (green in Fig. 2) contain 31 and 26 genes forDomainTeam and GeneTeam, respectively. On the whole, thedomain teams harbor 2207 genes (52% of the E. coli genes) andthe gene teams 1662 (40%). This difference can be explained byat least three reasons, i.e., the use of the domain criterion (1)relaxes the need for strict homology, (2) permits various rear-rangements of domains such as duplications or fusions, and (3)allows one to take paralogs into account; thus, the identificationof duplicated regions. These three points are discussed in thenext sections.
The use of domains bypasses the rigidity of pairwisesequence comparisons
As already stated, multiple-sequence alignment profiles makeprotein sequence comparisons more sensitive than classical pair-wise alignments. Homology inference will inevitably fail in thelast case, when sequences diverged too much, while two highlydivergent homologous (protein) sequences may well continue topossess a common Pfam domain.
Figure 3 displays a schematic representation of a conservedteam between E. coli and S. typhi, in which the proteins share fivedomains. The proteins encoded by pgtA and pgtB in S. typhi areknown to be the members of a two-component regulatory system(Kadner 1996). As shown in the STRING database (von Mering etal. 2003), genes encoding two-component systems are often ad-jacent. The pairs YfhA/YfhK and Sty2809/Sty2811 are putativeproteins that were assigned the same function (two-componentregulatory system) by homology with proteins from other bacte-ria. However, sequence comparisons of PgtB with both YfhK andSty2811 resulted in high Blast2 E-values (10 and 0.17, respec-tively). As a consequence, the teams YfhA/YfhK and Sty2809/Sty2811 are not reported in STRING (they appear, however, inthe KEGG database [Kanehisa et al. 2004] which is maintained
Figure 2. Map of the E. coli chromosome where genes colored red arethose genes of E. coli that belong to a team also found in S. typhi and Y.pestis. Genes colored blue do not belong to a microsyntenic regionshared by the three species. The inner circle shows the results ofDomainTeam (� = 3). The outer circle shows those of GeneTeam (� = 3),based on the set of 2106 triplets of orthologous proteins obtained by thebidirectional best hit method. Syntenic regions reported by DomainTeamand GeneTeam coincide, but DomainTeam finds larger syntenic regionsand identifies 2207 syntenic genes (52% of the E. coli genes) versus 1662(40%) for GeneTeam. Green regions indicate the largest teams (31 and26 genes) for DomainTeam and GeneTeam respectively. Figure 2 wasdrawn using GenomeViz (Ghai et al. 2004).
Figure 3. An example of a team (� = 3) found in E. coli and S. typhi, corresponding to proteins thatbelong to the so-called “two-components regulatory system.” The figures near the arrows are theBLAST E-values corresponding to the pairwise alignments of the proteins. It can be seen that theproteins YfhK and PgtB share but little sequence similarity, preventing this team from being detectedby automated methods based on sequence comparisons. Similarly, PgtB and STY2811 are poorlysimilar, but the use of their Pfam labels led to pinpointing the duplication in S. typhi.
Domain teams
Genome Research 3www.genome.org
through considerable manual expertise). Similarly, the probableduplication of pgtA and pgtB in S. typhi would not have beendetected by an automated procedure based on pairwise compari-sons. Note that the two inserted genes yfhG and sty2810 code forhighly similar (hypothetical) proteins, which reinforces the prob-ability that the two teams yfhA/yfhG/yfhK and STY2809/STY2810/STY2811 are genuine orthologous conserved segmentswhose proteins share the same functions in the two species.
Using domains instead of genes as an atomic unit allows usto detect domain rearrangements such as fusions
The detection of gene fusion events can be used to predict func-tional associations of proteins, such as functional interaction orcomplex formation (Enright et al. 1999; Marcotte et al. 1999b;Enright and Ouzounis 2001; Yanai et al. 2001). Fusions can beconsidered as extreme cases of conservation of gene proximity.
Indeed, “evolution of gene fusion often involves an intermediatestage, during which the future fusion components exist as jux-taposed and coregulated, but still distinct genes within operons”(Yanai et al. 2002). In such a context of proximity, DomainTeamcan easily detect fusion events, since a two-domains fused pro-tein and the one-domain adjacent unfused proteins will result inthe same team.
An example is given in Figure 4, which results from thesearch for conserved teams across five bacteria. This team is partof the tryptophan operon. While trpC is a stand-alone gene inBacteroides thetaiotaomicron and Anabaena, it is fused with trpF inE. coli, S. typhi, and Y. pestis. As to trpG, it is fused with trpD in E.coli and S. typhi, but with trpE in Anabaena. These fusions are alsodetected by other methods based on sequence comparisons andare reported in FusionDB (Suhre and Claverie 2004) and AllFuse(Enright and Ouzounis 2001). However, the simultaneous com-parison of several chromosomes by DomainTeam enables an im-mediate synthetic view of all the domain rearrangements.
Since DomainTeam detects only the fusions between adja-cent genes, it will not replace other methods that rely basicallyon sequence comparisons, irrespective of the distance betweenthe fusion components. However, the increased sensitivity af-forded by the Pfam domains enables us to find otherwise unde-tected fusions. We examined the fusions concerning adjacent genesin the pairs E. coli/Haemophilus influenzae and E. coli/Helicobacterpylori reported by FusionDB, AllFuse, and DomainTeam. A total of39 such (predicted) fusions was found, only two of them beingreported by the three methods, eight by two methods, and 29 byone method, among which five were predicted by DomainTeamonly. As shown in Table 1, in all of these last five cases, one of thefusion (protein) components did not match sufficiently the fusedprotein to be detected by a similarity search. Conversely, eightfusions predicted by FusionDB or AllFuse were not detected byDomainTeam, because one of their components did not possess
Table 1. Some otherwise undetected composite genes reported by DomainTeams
N-terminal gene C-terminal gene Composite gene
Hl1549 (lolD) ABC_tran HI1548 (lolE) FtsX E>100 b0879 (macB) ABC_tran/FtsXLipoprotein releasing system ATP-binding
protein lolDLipoprotein releasing system transmembrane
protein lolCMacrolide-specific ABC-type efflux carrier
H. influenzae H. influenzae E. coliHl0769 (ftsE) ABC_tran Hl0770 (ftsX) FtsX E>100 b0879 (macB) ABC_tran/FtsXCell division ATP-binding protein ftsE* Cell division protein ftsX homolog* Macrolide-specific ABC-type efflux carrierH. influenzae H. influenzae E. coliHl0291 HMA E=2.10�4 Hl0290 HMA/E1-E2ATPase/Hydrolase b0484 (copA) HMA/HMA/E1-E2ATPase/
HydrolaseHypothetical protein Probable cation-transporting ATPase Copper-transporting P-type ATPaseH. influenzae H. influenzae E. coliHl0988 (leu2) Aconitase Hl0989 (leuD) Aconitase_C E=0.83 b1276 (acnA) Aconitase/Aconitase_C3-isopropylmalate dehydratase large subunit* 3-isopropylmalate dehydratase small subunit* Aconitate hydratase 1H. influenzae H. influenzae E. colib3577 DctQ E=2.4 b3578 DctM/DedA Hl0147 DctQ/DctM/DedAHypothetical protein* Hypothetical protein* Hypothetical proteinE. coli E. coli H. influenzaeb2678 (proW) BPD_transp_1 b2679 (proX) OpuAC E>100 HP0818 BPD_transp_1/OpuACGlycine betaine/L-proline transport system
permease*Glycine betaine-binding periplasmic protein
precursor*Osmoprotection protein (prowx)
E. coli E. coli H. pylori
Probable gene fusions between adjacent genes detected by DomainTeams after the comparison of the chromosomes of E. coli, H. influenzae, and H.pylori. Here are listed only the composite genes not reported in AllFuse and FusionDB. Note, however, that the fusion between the two components canbe reported in FusionDB or AllFuse, based on evidence from other genomes (*). Each gene is identified by its ordered locus name, followed by its name(if any), followed by the Pfam domain(s) found in the protein they code for. The BLAST2 E-value between one of the components and the compositeprotein is also reported.
Figure 4. Part of the tryptophan operon as identified in five bacteria(� = 3), exhibiting rearrangements and fusions of domains. Genes arelabeled with their “ordered locus name” and, for E.coli and B. thetaiotao-micron, by their names.
Pasek et al.
4 Genome Researchwww.genome.org
a Pfam label. It is therefore clear that while DomainTeam cannotby itself replace other published methods, it can be used usefullyas a complementary tool to detect otherwise unpredicted fusions.
Duplications are detected by intrachromosomal comparisons
The classical step of finding orthologous genes before searchingfor syntenies prevents the detection of intrachromosomal dupli-cations. We have already shown in Figure 3 that the use of do-mains and intrachromosomal comparisons not only enables oneto find duplications, but also to detect duplications where thesequence similarities are weak. Another example containing aduplication of a whole syntenic region will be found in theSupplemental material (part 2), showing a team found in a set of10 pathogenic bacteria.
Sensitivity of DomainTeam in massive comparisons
The simultaneous detection of a local conservation of ortholo-gous genes in a number of chromosomes is a difficult task, sincethe sequence similarities can be weak in distant species. As a wayto explore the sensitivity of DomainTeam across many genomes,we took as a test case the collection of E. coli operons stored in theRegulonDB database (Salgado et al. 2004; J. Collado-Vides, pers.comm.) and searched for their being conserved in a set of 14other Gram� bacteria. From the set of 309 E. coli operons, 245(79%) were fully recovered by at least one domain team. Theconserved regions, hence, the teams, were always larger than theoperons per se. In some cases, one or more genes within a teamencompassing an operon were considered as insertions as theycorresponded to proteins that had no Pfam label (an example isgiven in Fig. 5). The fifty operons that could not be entirelyrecovered as a single domain team were operons that containedtoo many consecutive Pfam unlabeled genes. They were thus
broken into several partial segments.Fourteen operons in E. coli have nocounterpart in any of the 14 other bac-teria.
Each fully recovered operon wasclassified according to the number ofchromosomes the team was found in,from two to 16 (the set of 15 Gram�
bacteria comprised 16 chromosomes,since the genome of V. cholerae consistsof two chromosomes; see Methods).Each class was then divided into threegroups in the following way: (1) group1, containing the teams found only intwo or more of the eight gammaproteo-bacteria chromosomes; (2) group 2, con-taining the teams found in both gam-maproteobacteria and other proteobac-teria (comprising two epsilonproteo-bacteria and one alphaproteobacte-rium); (3) group 3, containing the teamsfound simultaneously in gammaproteo-bacteria, other proteobacteria, and moredistant taxons (the set included one cya-nobacterium, one bacteroidete, one spi-rochete, one chlamydiae, and one ther-motogae). Figure 6 illustrates the phylo-genetic distribution of the 245 fullyrecovered operons. While 14 operons
are specific to E. coli, 96 operons were recovered only within thegammaproteobacteria (group 1), and 33 extra operons were alsofound in other proteobacteria (group 2). Surprisingly enough, the116 remaining operons were also fully recovered within at leastone of the more distant species (group 3). See Supplemental ma-terial, part 3, for the list of operons and their phylogenetic dis-tribution.
Figure 5. An example of a team (� = 3) found in four bacteria. This team corresponds to the “su-peroperon” yjeFE-amiB-mutL-miaA-hfq-hflXKC in the RegulonDB database, from b4167 to b4175 in E.coli. The conserved team thus extends beyond this operon. Some proteins do not contain a Pfam label(arrowheads). However, DomainTeams could retrieve the entire operon (and more) because theseproteins are considered as insertions. The proteins are labeled by the “ordered locus name” of theirgenes.
Figure 6. Diagram of the phylogenetic distribution of 245 E. coli op-erons (of 309) fully recovered by at least one domain team in the set of15 Gram� bacteria. The figure shows the distribution of the operons asa function of the number of chromosomes in which the operons wereidentified as syntenic. Each class has been divided into three categories,depending on the species where the teams were found, i.e., only ingammaproteobacteria or only in proteobacteria, or also in other taxons.Thus 96 operons (gray) were recovered only within close species (gam-maproteobacteria), but the diagram shows that 149 other operons areconserved in more distant bacteria. Fourteen operons (class 1) werefound only in E. coli.
Domain teams
Genome Research 5www.genome.org
Limitations of domain teams identification
However sensitive the method is, DomainTeam may report falsenegatives in those cases where adjacent protein-coding genes arenot labeled with a Pfam domain. Conversely, DomainTeam mayresult in false positives due to “promiscuous domains” of broadspecificity (Marcotte et al. 1999b; see also, Harlow et al. 2004)that link otherwise unrelated proteins. An empirical score aimedat ranking the observed sets of teams has been designed to reducethe number of false positives.
The DomainTeam algorithm relies on pre-existing Pfam an-notations of proteomes. As of December 2004, the Pfam librarycovers 74% of the proteins in SWISS-PROT/TrEMBL. This meansthat, on average, one protein in four is not (so far) labeled with aPfam domain. As shown in Table 2, the Pfam coverage of com-plete proteomes is heterogeneous and varies from 96% for Buch-nera aphidicola (a symbiotic bacterium endowed with a small ge-nome) down to 40% for the archaebacterium Aeropyrum pernix.Obviously, DomainTeam will inevitably miss these unlabeledproteins and their corresponding genes. Most of the time, how-ever, they will simply be considered as insertions within theteams (a false negative will be obtained when n consecutive genesare unlabeled, with n � �). In order to apply DomainTeam toa newly sequenced genome, one would have first to annotatethe proteins with the HMMER series of programs (http://hmmer.wustl.edu/), which may not be trivial. Since the aim ofDomainTeam is not to supercede other tools dedicated to thesearch of microsyntenies, but to allow a more sensitive approach,we would rather advise using GeneTeam (Luc et al. 2003) as a firstglobal approach for the study of a genome devoid of Pfam an-notations.
Although microsyntenic regions can be found across eu-karyotic genomes (e.g., Oh et al. 2002; Jaillon et al. 2004), thesituation here is so complicated by the presence of promiscuousdomains, tandemly duplicated genes, and alternative splicing,that DomainTeam does not seem to perform better than otherexisting tools for higher eukaryotic species.
Some “promiscuous domains,” such as DNA-binding do-mains, increase the number of small uninteresting teams. Weaddressed this problem through the use of a simple and empiricalscore, aimed at ranking the observed sets of teams as a functionof the number of different domains they contain and the numberof different chromosomes they belong to. For one set of a given�-team, let np be the number of proteins in the team (not count-ing those proteins having one or more orphan Pfam label[s]), ndthe number of different domains, no the number of occurrencesof the team, and m the weighted mean of the frequencies of thedomains in the set (m = ∑i ni * fi with ni the number of times the
domain i appears in the team and fi thefrequency of the domain i in the set).The score S is defined as
S = 10 � log10 [(np/no) * (nd/m)].
The best ranks are for those teamshaving a high number of proteinsper chromosome (np/no) with a highnumber of different domains (nd)and a low number of promiscuousdomains (1/m). It is our experiencethat teams with S > 90 are potentially in-teresting. See Supplemental material,part 4, as an example of the average
number of proteins per occurrence in those teams having ascore � 90.
Practical computing considerations
The computation time required to compare a set of chromo-somes is a function of the number of chromosomes, the numberof proteins in the set, the value of �, and the degree of conser-vation between the organisms under study. We tested the effi-ciency of DomainTeam on a 1 Ghz Sun ultrasparc III+ processor.The comparison with � = 3 was performed in 5 min for the set of16 Archaebacteria, 320 min for the set of 15 Gram� bacteria(containing very close species), and 29 min for the set of 13Gram+ bacteria. Thus, DomainTeam can compare a large numberof chromosomes in a reasonable time. See Supplemental mate-rial, part 5, for more information about computing consider-ations.
Conclusions
Most of the methods aimed at detecting chromosomal regions ofconserved gene content are based on the sequence similaritiesbetween the encoded proteins. We have shown that labeling thegenes with the Pfam domain(s) of the proteins they code for,coupled with the notion of teams, adds an extra sensitivity to theprocess and makes it possible to compare simultaneously morethan 10 chromosomes in a reasonable time. In addition, the pro-gram DomainTeam performs both inter- and intrachromosomalcomparisons at the same time. It should prove a useful comple-ment to other existing methods.
Methods
Chromosome tables and Pfam annotationsThe chromosomal ordered lists (chromosome tables) of the bac-terial genes and their products (together with their UniProt IDs)were downloaded from the EBI “proteome” site (http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do). The Pfam an-notations pertaining to the above-mentioned proteomes weredownloaded from ftp://ftp.sanger.ac.uk/pub/databases/Pfam/database-files.
Bacterial setsThe bacterial sets used in this study were as follows:
Set of 15 Gram� bacteria: Anabaena sp, Bacteroides thetaio-taomicron, Borrelia burgdorferi, Campylobacter jejuni NCTC 11168,Chlamydia muridarum, Escherichia coli K12, Haemophilus influen-zae, Helicobacter pylori ATCC 700392, Pseudomonas aeruginosa,
Table 2. Coverage of the Pfam database
Number ofgenomes
Meancoverage (%) Highest coverage (%) Lowest coverage (%)
Eukaryota 17 64 75 49Arabidopsis thaliana Plasmodium falciparum
Bacteria 157 76 96 44Buchnera apidicola Rhodospirellula baltica
Archae 19 66 79 40Pyrococcus abyssi Aeropyrum pernix
The coverage of a complete proteome is the number of its proteins (in percent) that contain one ormore Pfam domain(s). The data have been extracted from the Pfam Web site (December 2004).
Pasek et al.
6 Genome Researchwww.genome.org
Rhizobium loti, Salmonella typhi, Thermotoga maritima, Vibrio cho-lerae, Xylella fastidiosa, Yersinia pestis CO-92.
Set of 13 Gram+ bacteria: Bacillus subtilis, Bifidobacteriumlongum, Clostridium perfringens, Corynebacterium efficiens, Deino-coccus radiodurans, Enterococcus faecalis, Lactococcus lactis, Lacto-bacillus plantarum, Listeria monocytogenes, Mycobacterium leprae,Oceanobacillus iheyensis, Staphylococcus aureus N315, Streptococcusagalactiae serotype V.
Set of 16 archaebacteria: Aeropyrum pernix, Archaeoglobusfulgidus, Halobacterium sp, Methanobacterium thermoautotrophi-cum, Methanococcus jannaschii, Methanopyrus kandleri, Methanosar-cina acetivorans, Methanosarcina mazei, Pyrococcus abyssi, Pyrobacu-lum aerophilum, Pyrococcus furiosus, Pyrococcus horikoshii, Sulfolo-bus solfataricus, Sulfolobus tokodaii, Thermoplasma acidophilum,Thermoplasma volcanium.
DomainTeamThe program DomainTeam is written in standard ANSI C and wasrun under both the Linux kernel 2.4.21 (Intel Pentium III at 1.3GHz) and Sun Solaris 9 (Ultrasparc III+ at 1 Ghz) operating sys-tems. The full results of DomainTeam for the Gram� and Gram+and archaebacteria can be viewed and queried by gene namefrom http://lgi.infobiogen.fr/DomainTeams. The DomainTeamprogram is freely available on request for academic purposes.Binary codes and scripts to display graphical outputs can be ob-tained from the same URL (Downloads). See also the link ‘Over-view of the software’ for an explanation of the text output formatof DomainTeam.
Acknowledgments
We thank the Infobiogen team for their patience and under-standing during very long runs and M. Marshall from the Pfamteam for her help in retrieving the proper annotation files.
References
Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller,W., and Lipman, D.J. 1997. Gapped BLAST and PSI-BLAST: A newgeneration of protein database search programs. Nucleic Acids Res.25: 3389–3402.
Andreeva, A., Howorth, D., Brenner, S.E., Hubbard, T.J., Chothia, C.,and Murzin, A.G. 2004. SCOP database in 2004: Refinementsintegrate structure and sequence family data. Nucleic Acids Res.32: D226–D229.
Bateman, A., Coin, L., Durbin, R., Finn, R.D., Hollich, V.,Griffiths-Jones, S., Khanna, A., Marshall, M., Moxon, S.,Sonnhammer, E.L., et al. 2004. The Pfam protein families database.Nucleic Acids Res. 32: D138–D141.
Bergeron, A., Corteel, S., and Raffinot, M. 2002. The algorithmic of geneteams. Lecture Notes Comput. Sci. 2452: 464–476.
Calabrese, P.P., Chakravarty, S., and Vision, T.J. 2003. Fast identificationand statistical evaluation of segmental homologies in comparativemaps. Bioinformatics 19: i74–i80.
Durand, D. and Sankoff, D. 2003. Tests for gene clustering. J. Comput.Biol. 10: 453–482.
Eddy, S.R. 1998. Profile hidden Markov models. Bioinformatics14: 755–763.
Enright, A.J. and Ouzounis, C.A. 2001. Functional associations ofproteins in entire genomes by means of exhaustive detection of genefusions. Genome Biol. 2: research0034.1–0034.7.
Enright, A.J., Iliopoulos, I., Kyrpides, N.C., and Ouzounis, C.A. 1999.Protein interaction maps for complete genomes based on genefusion events. Nature 402: 86–90.
Fujibuchi, W., Ogata, H., Matsuda, H., and Kanehisa, M. 2000. Aheuristic graph comparison algorithm and its application to detectfunctionally related enzyme clusters. Nucleic Acids Res.28: 4021–4028.
Fukuda, Y., Washio, T. and Tomita, M. 1999. Comparative study ofoverlapping genes in the genomes of Mycoplasma genitalium and
Mycoplasma pneumoniae. Nucleic Acids Res. 27: 1847–1853.Galperin, M.Y. and Koonin, E.V. 2000. Who’s your neighbor? New
computational approaches for functional genomics. Nat. Biotech.18: 609–613.
Ghai, R., Torsten Hain, T. and Chakraborty, T. 2004. GenomeViz:Visualizing microbial genomes. BMC Bioinformatics 5: 198.
Gribskov, M., McLachlan, A.D., and Eisenberg, D. 1987. Profile analysis:Detection of distantly related proteins. Proc. Natl. Acad. Sci.84: 4355–4358.
Harlow, T.J., Gogarten, J.P., and Ragan, M.A. 2004. A hybrid clusteringapproach to recognition of protein families in 114 microbialgenomes. BMC Bioinformatics 5: 45.
He, X. and Goldwasser, M. 2004. Identifying conserved gene clusters inthe presence of orthologous groups. In Proceedings of the EighthAnnual International Conference on Computational Molecular Biology(RECOMB) 2004 (eds. P.E. Bourne and D. Gusfield), pp. 272–280.ACM, New York.
Jaillon, O., Aury, J-M., Brunet, F., Petit, J-L., Stange-Thomann, N.,Mauceli, E., Bouneau, L., Fischer, C., Ozouf-Costaz, C., Bernot, A., etal. 2004. Genome duplication in the teleost fish Tetraodon nigroviridisreveals the early vertebrate proto-karyotype. Nature 431: 946–957.
Kadner, R.J. 1996. Cytoplasmic membrane. In Escherichia coli andSalmonella typhimurium, cellular and molecular biology (eds. F.C.Neidhardt et al.), pp. 58–87. ASM Press, Washington, DC.
Kanehisa, M., Goto, S., Kawashima, S., Okuno, Y., and Hattori, M. 2004.The KEGG resource for deciphering the genome. Nucleic Acids Res.32: D277–D280.
Koonin, E.V., Arawind, L., and Kondrashov, A.S. 2000. The impact ofcomparative genomics on our understanding of evolution. Cell101: 573–576.
Korbel, J.O., Jensen, L.J., von Mering, C., and Bork, P. 2004. Analysis ofgenomic context: Prediction of functional associations fromconserved bidirectionally transcribed gene pairs. Nat. Biotech.22: 911–917.
Luc, N., Risler, J-L., Bergeron, A., and Raffinot, M. 2003. Gene teams: Anew formalization of gene clusters for comparative genomics.Comput. Biol. Chem. 27: 59–67.
Marcotte, E.M., Pellegrini, M., Thompson, M.J., Yeates, T.O., andEisenberg, D. 1999a. A combined algorithm for genome-wideprediction of protein function. Nature 402: 83–86.
Marcotte, E.M., Pellegrini, M., Ho-Leung, N., Rice, D.W., Yeates, T.O.,and Eisenberg, D. 1999b. Detecting protein function andprotein–protein interactions from genome sequences. Science30: 751–753.
Nye, T.M., Berzuini, C., Gilks, W.R., Babu, M.M., and Teichmann, S.A.2004. Statistical analysis of domains in interacting protein pairs.Bioinformatics 21: 993–1001.
Oh, K.C., Hardeman, C., Ivanchenko, M.G., Ellard-Ivet, M., Nebenfür,A., White, T.J., and Lomax, T.L. 2002. Fine mapping in tomato usingmicrosynteny with the Arabidopsis genome: The Diageotropica (Dgt)locus. Genome Biol. 3: research0049.1–0049.11.
Overbeek, R., Fonstein, M., D’Souza, M., Pusch, G.D., and Maltsev, N.1999. The use of gene clusters to infer functional coupling. Proc.Natl. Acad. Sci. 96: 2896–2901.
Passarge, E., Horsthemke, B., and Farber, R.A. 1999. Incorrect use of theterm synteny. Nat. Genet. 23: 387.
Patthy, L. 2003. Modular assembly of genes and the evolution of newfunctions. Genetica 118: 217–231.
Pevzner, P. and Tesler, G. 2003. Genome rearrangements in mammalianevolution: Lessons from human and mouse genomes. Genome Res.13: 37–45.
Salgado, H., Gama-Castro, S., Martinez-Antonio, A., Diaz-Peredo, E.,Sanchez-Solano, F., Peralta-Gil, M., Garcia-Alonso, D.,Jimenez-Jacinto, V., Santos-Zavaleta, A., Bonavides-Martinez, C., etal. 2004. RegulonDB (version 4.0): Transcriptional regulation,operon organization and growth conditions in Escherichia coli K-12.Nucleic Acids Res. 32: D303–D306.
Sali, A. 1999. Functional links between proteins. Nature 402: 23–26.Sankoff, D. 2003. Rearrangements and genome evolution. Curr. Opin.
Gen. Dev. 13: 583–587.Suhre, K. and Claverie, J-M. 2004. FusionDB: A database for in-depth
analysis of prokaryotic gene fusion events. Nucleic Acids Res.32: D273–D276.
Suyama, M. and Bork, P. 2001. Evolution of prokaryotic gene order:Genome rearrangements in closely related species. Trends Genet.17: 10–13.
Tamames, J. 2001. Evolution of gene order conservation in prokaryotes.Genome Biol. 2: 0020.1–0020.11.
Tang, J. and Moret, B.M. 2003. Scaling up accurate phylogeneticreconstruction from gene-order data. Bioinformatics 19: i305–i312.
Vogel, C., Bashton, M., Kerrison, N.D., Chothia, C., and Teichmann, S.A.
Domain teams
Genome Research 7www.genome.org
2004. Structure, function and evolution of multidomains proteins.Curr. Opin. Struct. Biol. 14: 208–216.
von Mering, C., Huynen, M., Jaeggi, D., Schmidt, S., Bork, P., and Snel,B. 2003. STRING: A database of predicted functional associationsbetween proteins. Nucleic Acids Res. 31: 258–261.
Yanai, I., Derti, A., and DeLisi, C. 2001. Genes linked by fusion eventsare generally of the same functional category: A systematic analysisof 30 microbial genomes. Proc. Natl. Acad. Sci. 98: 7940–7945.
Yanai, I., Wolf, Y.I., and Koonin, E.V. 2002. Evolution of gene fusions:Horizontal transfer versus independent events. Genome Biol.3: research0024.1–0024.13.
Yona, G., Linial, N., and Linial, M. 1999. Protomap: Automaticclassification of protein sequences, a hierarchy of protein families,and local maps of the protein space. Proteins 37: 360–378.
Web site references
ftp://ftp.sanger.ac.uk/pub/databases/Pfam/database-files; The directory ofthe Pfam ftp server that contains the Pfam annotations of theproteins in UniProt.
http://hmmer.wustl.edu/; HMMER series of programs.http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do; The proteome
Home Page at EBI.http://lgi.infobiogen.fr/DomainTeams; DomainTeams full results and
code downloads.
Received January 3, 2005; accepted in revised form March 28, 2005.
Pasek et al.
8 Genome Researchwww.genome.org
ANNEXE 4 : Article 2, l’évolution des protéines multi-domaines74
ANNEXE 4 : Article 2, l’évolution des protéines multi-
domaines
Pasek S, Risler JL, Brezellec P. 2006a. Gene fusion/fission is a major contributor to
evolution of multi-domain bacterial proteins. Bioinformatics. 22(12):1418-1423.
Vol. 22 no. 12 2006, pages 1418–1423
doi:10.1093/bioinformatics/btl135BIOINFORMATICS DISCOVERY NOTE
Genome analysis
Gene fusion/fission is a major contributor to evolution of
multi-domain bacterial proteinsSophie Pasek1,2,�, Jean-Loup Risler1 and Pierre Brezellec11Laboratoire Statistique et Genome, 523 Place des Terrasses, 91034 Evry cedex, France and2Soluscience, Biopole Clermont-Limagne, 63360 Saint-Beauzire, France
Received on February 13, 2006; revised on March 22, 2006; accepted on April 3, 2006
Advance Access publication April 6, 2006
Associate Editor: Alex Bateman
ABSTRACT
Most proteins comprise one or several domains. New domain architec-
tures can be created by combining previously existing domains. The
elementary events that create new domain architectures may be cate-
gorized into three classes, namely domain(s) insertion or deletion
(indel), exchange and repetition. Using ‘DomainTeam’, a tool dedicated
to the search for microsyntenies of domains, we quantified the relative
contribution of these events. This tool allowed us to collect homologous
bacterial genes encoding proteins that have obviously evolved by
modular assembly of domains. We show that indels are the most
frequent elementary events and that they occur in most cases at either
the N- or C-terminus of the proteins. As revealed by the genomic
neighbourhood/context of the corresponding genes, we show that a
substantial number of these terminal indels are the consequence of
gene fusions/fissions. We provide evidence showing that the contribu-
tion of gene fusion/fission to the evolution of multi-domain bacterial
proteins is lower-bounded by 27% and upper-bounded by 64%. We
conclude that gene fusion/fission is a major contributor to the evolution
of multi-domain bacterial proteins.
Contact: [email protected]
Supplementary information: Supplementary data are available at
http://stat.genopole.cnrs.fr/domainteams/Bioinformatics/results.html
INTRODUCTION
Most of the proteins harbour two or more domains [such as those
stored in SCOP (Andreeva et al., 2004) or Pfam (Bateman et al.,2004)], which results in a wide variety of domain combinations
(Bornberg-Bauer et al., 2005; Orengo and Thornton, 2005). Since
domains are considered as essential units for the modular assembly
of new genes (Doolittle, 1995; Patthy, 2003; Vogel et al., 2004a),
statistics on these combinations and on the distribution of the num-
ber of domains in proteins have been extensively analysed (Koonin
et al., 2002; Vogel et al., 2004b). Recently, Bjorklund and collab-
orators (Bjorklund et al., 2005) have introduced a novel measure,
called Domain Distance, which they define as the number of
unmatched domains in an alignment of two domain architectures.
Using this measure, they were able to quantify the elementary
events [i.e. domain(s) insertion/deletion (indel), repetition and
exchange] that distinguish a protein from its closest neighbour.
However, to date, little is known about the relationships between
these elementary events and the molecular mechanisms they
originate from. We report here an analysis aiming at finding
which molecular mechanisms are the sources of new domain
combinations.
To investigate this question, we first searched for proteins that
have obviously evolved by modular assembly of domains. The
search for modular reshaped homologs, i.e. proteins encoded by
genes derived from a common ancestor, is not as simple as it
could seem [see Fitch (2000) and Koonin (2005)]. First, the impact
of ‘evolutionary/elementary’ events on homology is that different
parts (encoding distinct domains) of genes in one species may be
orthologous to different genes in another species (in case of a gene
fusion for instance). Second, classical methods based on sequence
similarities cannot detect properly those homologous relatives that
do not possess strictly the same domain architecture (Weiner et al.,2005). On the contrary, relying exclusively on the domain archi-
tectures to conclude on homology may result in linking too weakly
related proteins. This can bias the quantification of the elementary
events. As an example, consider two proteins p1 and p2 of respec-
tive domain architectures AC and ABC (where A, B and C are
domains). One may infer that an internal insertion (deletion) of
domain B occurred between p1 and p2. However, if p1 and p2
are weakly related and if there exists another protein p3 of domain
architecture AB closer to p2, one would rather infer a terminal
insertion (deletion) of domain C between p2 and p3. This is the
reason why we searched only for strongly related proteins and based
our search for homologs on the syntenic context of the genes. This
one was determined using the DomainTeam software (Pasek et al.,2005, http://stat.genopole.cnrs.fr/domainteams/). In a first step,
DomainTeam splits the proteins into their PfamA domains
(Bateman et al., 2004). It then searches across several genomes
for strings of domains that are conserved in their content but not
necessarily in their order.
Using a definition of homology based on both domains and the
syntenic context, we then collected sets of homologous proteins
containing at least one reshaped protein, i.e. sets in which at
least one protein differed from all the other proteins by one and
only one elementary event. The subsequent analysis of these sets
showed that (1) internal domain(s) indel and domain exchange are
rare events whereas indels at either the N- or C-terminus are the
most common events, (2) the genomic contexts of those genes
reshaped by terminal indels reveal that a substantial number of
them originate from gene fusion/fission. We show that the contribu-
tion of gene fusion/fission events to the evolution of multi-domain�To whom correspondence should be addressed.
1418 � The Author 2006. Published by Oxford University Press. All rights reserved. For Permissions, please email: [email protected]
bacterial proteins is bounded between 27 and 64%. We conclude
that gene fusion/fission is a major contributor to modular evolution
of multi-domain bacterial proteins.
MATERIALS AND METHODS
Domain architecture definition
The domain architecture of a protein is defined as the ordered pattern of its
PfamA domains (Bateman et al., 2004) from the N- to the C-terminus.
Definition of the elementary events
The elementary events that create new domain architectures can be categor-
ized into three different classes (Bjorklund et al., 2005): domain(s)
exchange, indel (insertion/deletion) and repetition (Fig. 1a). Exchange of
domain is the substitution of one domain for another. Insertion (resp.
deletion) is the addition (resp. excision) of a new domain(s) different
from the adjacent domains. Repetition is the addition of the same domain(s)
as one of the adjacent domains. Note that domain indels can be classified into
two categories depending on their positions (Fig. 1b). An internal indel
occurs in the middle of a protein (i.e. between two domains) while a terminal
indel occurs at either the N- or C- terminus. In order to determine the
positions of the indels, we only considered architectures with more than
two domains (two-domain proteins are often created from two single-domain
proteins and, as a result, the position (internal or terminal) of the domains is
irrelevant). We did not distinguish between insertion and deletion, as this is
not possible using domain architectures only. Whether it is an insertion or a
deletion, the difference between the two architectures should involve at least
25 amino acids (the size of a short Pfam domain).
Similarity between domain architectures
The similarity between two domain architectures Arch1 and Arch2 is defined
as the ratio intersection/cardinal where
1. intersection is defined as the number of domains that appear in both
architectures and
2. cardinal is defined as max(card1,card2) where card1 (resp. card2) is the
number of domains that compose Arch1 (resp. Arch2).
Two identical domain architectures have a similarity value of 1 and,
conversely, architectures with no domain in common have a similarity
value of 0. Note that in this study, we imposed that (1) at least two domains
have to be shared by the two architectures to consider that a similarity value
can be calculated, (2) two domain architectures which differ by more than
one elementary event are not taken into account.
Genomic context: syntenies of domains
The syntenic context of the genes was determined using the
DomainTeam software [see Pasek et al. (2005), http://stat.genopole.cnrs.
fr/domainteams/]. In the first step, DomainTeam splits the proteins into
their PfamA domains (Bateman et al., 2004). It then searches across several
genomes for strings of domains that are conserved in their content but not
necessarily in their order. A set of such ‘conserved strings’ is called a
‘domain team’ whereas each ‘conserved string’ is called an occurrence
(Fig. 2).
DomainTeam is a tool that allows to process simultaneously
intra-genomic and inter-genomic comparisons. The user-defined parameter
d, which specifies the maximal number of ‘foreign’ domains inserted
Fig. 1. Classification of the elementary events involved in the evolution of protein domain architectures. (a) The elementary events which create new domain
architectures can be categorized into three different classes: domain(s) exchange, indel and repetition. Exchange of domain is the substitution of one domain for
another. Insertion (resp. deletion) is the addition (resp. excision) of new domain(s) other than the adjacent domain(s) whereas repetitions are the addition of the
same domain(s) as one of the adjacent domain(s). (b) Domain(s) indel can be divided into two categories depending on the position of the indel. An internal indel is
an indel which occurs in the middle of a protein (i.e. between two domains). A terminal indel occurs at either the N- or C-terminus of a protein.
Evolution of multi-domain proteins
1419
between two domains belonging to the team, was set to 2. We discarded from
this study all the domain teams having a score <90 [see Pasek et al. (2005) for
the definition of the score of a domain team].
Identification of sets of homologous and
reshaped proteins
Homologous proteins (i.e. proteins encoded by genes deriving from a com-
mon ancestor) are defined as follows:
1. They are located in the same syntenic context (i.e. in two different
occurrences of the same domain team).
2. Their domain architectures are the most similar in the domain team
(where similarity is defined in the section ‘Similarity between domain
architectures’).
A reshaped protein is defined as a protein which differs from its homo-
log(s) by one and only one elementary event.
Sets of homologous proteins containing at least one reshaped protein were
built by considering each pair of occurrences in a domain team and by
performing an all by all protein domain architecture comparison. For
instance, in the example given in Figure 2, HI0147 is detected as a terminal
indel with respect to its homolog VC1777.
The results have been manually verified by considering also the Pfam
‘context domains’ [Context domains are added by Pfam when a highly
probable domain of a protein is not detected since its signature is lower
than the PfamA threshold (Coin et al., 2003)] or the SMART domains
(Letunic et al., 2004).
Bacterial sets
The bacterial sets used in this study are as follows:
Gram�: Anabaena sp., Bacteroides thetaiotaomicron, Borrelia
burgdorferi, Campylobacter jejuni NCTC 11168, Chlamydia muridarum,
Escherichia coli K12, Haemophilus influenzae, Helicobacter pylori ATCC
700392, Pseudomonas aeruginosa, Rhizobium loti, Salmonella typhi, Ther-motoga maritima, Vibrio cholerae, Xylella fastidiosa, Yersinia pestis CO-92.
Gram+: Bacillus subtilis, Bifidobacterium longum, Clostridium
perfringens, Corynebacterium efficiens, Deinococcus radiodurans,Enterococcus faecalis, Lactococcus lactis, Lactobacillus plantarum, Listeria
monocytogenes, Mycobacterium leprae, Oceanobacillus iheyensis,
Staphylococcus aureus N315, Streptococcus agalactiae serotype V.
The PfamA annotations pertaining to the above-mentioned proteomes
were downloaded from ftp://ftp.sanger.ac.uk/pub/databases/Pfam/
database-files
RESULTS
We ran ‘DomainTeam’ on two sets of complete bacterial
genomes (see Materials and Methods). The first set comprised
15 Gram-negative bacteria and the second 13 Gram-positive (see
Materials and Methods). Homologous reshaped proteins were
searched for in the 8491 best-scoring domain teams (see Materials
and Methods). We rejected those multi-domain proteins that could
result from more than one ‘elementary event’, i.e. domain indel,
exchange or repetition (see Fig. 1a and Materials and Methods).
Fig. 2. Schematic representation of a domain team and identification of homologous genes. (see also http://stat.genopole.cnrs.fr/domainteams/html/Gram-/2/
IM_dt_15gram-_d3_203.html). Here is an example of a domain team across the genomes of H.influenzae (haein) and V.cholerae (vibch). This team contains 11
domains labelled by their Pfam number, i.e. {PF00480, PF00597, PF00701, PF01380, PF01344, PF01418, PF01979, PF03480, PF04131, PF04290, PF06808}.
Proteins are reconstructed and symbolized by grey rectangles. They are labelled with the ordered locus names of their genes. This synteny of domains presents
several local rearrangements. Thus, for instance, domain PF01182 inH.influenzae is absent inV.cholerae. The Pfam number of such a domain is encapsulated by
‘#’. The VC1780 gene in V.cholerae is not annotated in Pfam. Its ordered locus name is therefore encapsulated by ‘�’. The horizontal dotted arrows denote the
forward or reverse orientation of the genes in the genomes. The double arrows indicate pairs of proteins that are homologous (see Materials and Methods).
S.Pasek et al.
1420
Moreover, in order to fairly evaluate the relative proportion of
the elementary events, we retained only the reshaped proteins
with at least three domains. Otherwise, the position (internal or
terminal) of the domains is irrelevant. Indeed, we observed that
the vast majority of the two-domain reshaped proteins correspond
to either N- or C-terminal indels. Considering these two-domain
reshaped proteins would have led to underestimate internal indel.
Finally, 141 sets of homologous proteins, each set containing at
least one reshaped protein, were selected for analysis (see Supple-
mentary Material Table S1 for the list of the 141 sets). These sets
were classified according to the elementary events defined in
Materials and Methods (Fig. 1a and b). Table 1 shows that the
domain teams cover �70% of the genes of the 28 bacteria
considered in this study, providing strong support to the
conclusions of our analysis.
The contribution of gene fusion/fission events to the
evolution of bacterial multi-domain proteins is
lower-bounded by 27%
Indels are the most frequent events (95 out of 141, see Table 2).
Among indels, the most numerous ones are terminal indels (90 out
of 95, see Table 2), which substantiates a study carried out by
Bjorklund and co-workers (Bjorklund et al., 2005). A statistical
analysis shows that the number of terminal indels compared with
internal indels is significantly greater than that expected by chance
(see Supplementary file S4 for the statistical test). This led us to
explore the mechanisms that could explain the over-representation
of terminal indels. Two documented mechanisms have been
proposed to drive terminal indels: gene fusion/fission (Riley and
Labedan 1997; Yanai et al., 2001) and ‘intra-domain recombi-
nation’ as exemplified by O’Sullivan et al. (2000).
A careful analysis of the syntenic contexts of the proteins
reshaped by terminal indels reveals that 42% (38 out of 90) of
these correspond to what we called a ‘straightforward fusion/fis-
sion’ (Table 3) and thus have been obviously rearranged by gene
fusion/fission [see Supplementary material Table S2 for the KEGG
(Kanehisa et al., 2004) and COG (Tatusov et al., 2000) annotations
of the straightforward fusions/fissions]. An example of ‘straightfor-
ward fusion/fission’ is given in Figure 2 where gene HI0147 from
H.influenzae corresponds to the straightforward fusion of genes
VC1777 and VC1778 from Vibrio cholerae. The notion of ‘straight-
forward fusion/fission’ correlates well with a study of Yanai and
co-workers (Yanai et al., 2002) suggesting that evolution by gene
fusion involves an intermediate stage during which the future fusion
components co-exist as juxtaposed but still distinct genes.
On the whole, 38 events out of 141 clearly correspond to gene
fusions/fissions. Thus, it can be estimated that the contribution of
gene fusion/fission to the evolution of multi-domain proteins is 27%
(38/141). This is a lower bound. Indeed, we assumed here that none
of all the ‘other terminal indels’ (52 ¼ 90 � 38) is because of a gene
fusion/fission event. Yet, a terminal indel which is not substantiated
by a straightforward fusion/fission may be explained by a process
involving gene fusion/fission. This point is addressed in the
Discussion section.
Terminal repetitions are not explained by gene
fusion/fission
According to Andrade et al. (2001) ‘repeats are thought to arrive via
intragenic duplication and recombination event’. Our results
correlate well with this suggestion. Indeed, among the 34 cases
of terminal domain repetitions, only 3 are because of straight-
forward fusions/fissions whereas 31 are not (data not shown).
This indicates that domain repetitions do not mainly occur through
gene fusions/fissions. It also demonstrates that our methodology
(i.e. the way we collected our data set of homologous multi-domain
proteins) is sound and correct.
DISCUSSION
The contribution of gene fusion/fission events to the
evolution of bacterial multi-domain proteins is
upper-bounded by 64%
As outlined before, we showed that 42% of terminal indels
are detected as straightforward fusion/fissions. The importance of
this percentage led us to design a scenario by which the terminal
indels that do not correspond to straightforward fusions could
nevertheless be explained by a process of gene fusion. The scenario
Table 1. Overview of the syntenic data
15 Gram� 13 Gram+ 28 Bacteria
Number of genes 50 076 35 814 85 890
Number of domain teams 5115 3376 8491
Number of syntenic genesa 35 129 24 723 59 852
Number of inserted genesb 1870 1440 3310
aA ‘syntenic gene’ is a gene belonging to at least one domain team. Such genes represent
�70% (59 852/85 890) of the genes considered in our study.bAn ‘inserted gene’ is a gene located in a ‘domain team’, the domains of which do not
belong to the considered syntenic stretch. Such genes are found in�40% (3310/8491) of
the ‘domain teams’.
Table 2. Distribution of the different elementary events involved in the
creation of new domain architectures
15 Gram� 13 Gram+ 28 Bacteria
Exchange 6 4 10
Indel 55 40 95
Internal indel 2 3 5
Terminal indel 53 37 90
Repetition 21 15 36
Internal repetition 1 1 2
Terminal repetition 20 14 34
Table 3. Distribution of the different terminal indels
15 Gram� 13 Gram+ 28 Bacteria
Straightforward fusion 21 17 38
Other terminal indel 32 20 52
Total 53 37 90
Evolution of multi-domain proteins
1421
is based on the three-step procedure depicted in Figure 3. As
shown in Table 1, �40% of the domain teams host an ‘inserted
gene’, i.e. a gene coding for a protein, the domains of which do
not belong to the syntenic stretch. This is in agreement with the
observation that the structure of bacterial genomes is highly
dynamic (Casjens, 1998; Tillier and Collins, 2000; Omelchenko
et al., 2003; Rocha, 2004). Therefore, a gene can easily be
inserted into a syntenic genome stretch. If such a gene fuses
with one of its neighbours, then no mark will remain to indicate
that this terminal indel is the result of a gene fusion. In a similar
way, a gene may be split into two parts and one part may be
excised from the syntenic stretch; as in the case of fusion, no
mark will remain to indicate that this terminal indel is the result
of a gene fission. This suggests that some (or many) of the ‘other
terminal indels’ may well be attributed to plain gene fusions/fis-
sions, increasing the prevalence of this evolutionary process. As a
consequence, talking about ‘domain shuffling’ might be misleading
in many cases. Indeed, a majority of new domain architectures
might be better explained by ‘gene shuffling’ followed by fusion
events. That is to say, domains do not shuffle but genes do and after
their shuffling, genes may eventually fuse.
Based on the scenario described above, an upper bound of the
contribution of gene fusion/fission to the evolution of multi-domain
proteins can be estimated by assuming that all the ‘other terminal
indels’ are because of plain gene fusion/fission. This gives an upper
estimate of 64% (90/141).
Our aim here is not to rule out other mechanisms as being con-
tributors to evolution of bacterial multi-domain proteins. However,
we believe that gene fusion/fission might be the major contributor.
Riley and Labedan (1997) already suggested that any multi-domain
proteins might be the result of gene fusion. Kummerfeld and
Teichmann (2005) showed that fusion/fission are frequent events
(fusion being four times more frequent than fission). However, to
draw their conclusion, these two works rely on bases which are not
as firm as it seems. Thus, for instance, Kummerfeld and Teichmann
(2005) looked for domain architectures that are present as a single
protein in at least one genome (composite form) and as a set of
shorter proteins in other genomes (split form), irrespective of the
Fig. 3. Scenario: ‘Other terminal indels’ explained by gene fusion. (a) Gene insertion into a syntenic stretch [see Tillier and Collins (2000) for instance]. (b)
Conservation of the new inserted gene within the syntenic stretch. (c) Fusion between the inserted gene and one of its neighbour. The pictured scenario could
explain the link between ‘Other terminal indels’ and gene fusion. This suggests that ‘other terminal indels’ could be due to gene fusion without footprint of the two
flanking and unfused genes (i.e. straightforward fusion).
S.Pasek et al.
1422
location on the genome of these shorter proteins. For these authors,
these composite and split domain architectures represent ortholo-
gous proteins. In our opinion, this criterion is too loose while in our
approach, the use of the syntenic context allows to establish an
unambiguous connection between composite and split forms.
Finally, note that a very recently published work (Weiner and
Bornberg-Bauer, 2006) substantiates our analysis since it provides
evidences showing that a particular class of multi-domain protein
rearrangement, called circular permutation, probably evolved
through gene fusion/fission.
Checking for sequencing errors in straightforward
fusions/fissions
To fully assess the methodology used in the present study, we
wondered whether fused/unfused genes could be the result of gene-
prediction or sequencing errors (which would make our results
irrelevant). In the case of bacterial genomes, the object of the
present study, a false straightforward fusion could only be
attributed to a sequencing error such as a nucleotide omission
(Koonin and Galperin, 2003) leading to an artefactual frameshift.
Thus, for each identified straightforward fusion in a domain
team, we searched for the presence of a similar fused (resp. unfused)
form in a set of closely related genomes (w.r.t. the taxonomy).
Indeed, if each of the fused and unfused forms can be identified
in several closely related genomes, the fusion is most unlikely
to be the result of a sequencing error (Kummerfeld and
Teichmann, 2005). It turned out that, according to the previous
criterion, 71% (27 cases) of the straightforward fusions/
fissions detected in this study are not spurious (see Supplementary
Material Table S3 for the results of this analysis). Note that
this analysis required the use of additional genomic sequences
not listed in the bacterial sets.
ACKNOWLEDGEMENTS
The authors are grateful to Jean-Luc Ferat, Meriem El Karoui and to
the members of ABI (University of Paris VI) for helpful discussions.
The authors thank the two anonymous referees for their useful and
relevant comments.
Conflict of Interest: none declared.
REFERENCES
Andrade,M.A. et al. (2001) Protein repeats: structures, functions, and evolution.
J. Struct. Biol., 134, 117–131.
Andreeva,A. et al. (2004) SCOP database in 2004: refinements integrate structure and
sequence family data. Nucleic Acids Res., 32, D226–D229.
Bateman,A. et al. (2004) The Pfam protein families database. Nucleic Acids Res., 32,
D138–D141.
Bjorklund,S.K. et al. (2005) Domain rearrangements in protein evolution. J. Mol. Biol.,
353, 911–923.
Bornberg-Bauer,E. et al. (2005) The evolution of domain arrangements in proteins and
interaction networks. Cell. Mol. Life Sci., 435–445.
Casjens,S. (1998) The diverse and dynamic structure of bacterial genomes. Annu. Rev.
Genet., 32, 339–377.
Coin,L. et al. (2003) Enhanced protein domain discovery by using language modeling
techniques from speech recognition. Proc. Natl Acad. Sci. USA, 100, 4516–4520.
Doolittle,R.F. (1995) The multiplicity of domains in proteins. Annu. Rev. Biochem.,
64, 287–314.
Fitch,W.M. (2000) Homology a personal view on some of the problems. Trends Genet.,
16, 227–231.
Kanehisa,M. et al. (2004) The KEGG resource for deciphering the genome. Nucleic
Acids Res., 32, D277–D280.
Koonin,E.V. (2005) Orthologs, paralogs, and evolutionary genomics. Annu. Rev.
Genet., 39, 309–338.
Koonin,E.V. and Galperin,M.Y. (2003) Sequence—Evolution—Function: Computa-
tional Approaches in Genomics. Kluwer Academic Publisher.
Koonin,E.V. et al. (2002) The structure of the protein universe and genome evolution.
Nature, 420, 218–223.
Kummerfeld,S.K. and Teichmann,S.A. (2005) Relative rates of gene fusion and fission
in multi-domain proteins. Trends Genet., 21, 25–30.
Letunic,I. et al. (2004) SMART 4.0: towards genomic data integration. Nucleic Acids
Res., 32, D142–D144.
Omelchenko,M.V. et al. (2003) Evolution of mosaic operons by horizontal gene trans-
fer and gene displacement in situ. Genome Biol., 4, R55.
Orengo,C.A. and Thornton,J.M. (2005) Protein families and their evolution—a struc-
tural perspective. Annu. Rev. Biochem., 867–900.
O’Sullivan,D. et al. (2000) Novel type I restriction specificities through domain shuff-
ling of HsdS subunits in Lactococcus lactis. Mol. Microbiol., 36, 866–875.
Pasek,S. et al. (2005) Identification of genomic features using microsyntenies of
domains: domain teams. Genome Res., 15, 867–874.
Patthy,L. (2003) Modular assembly of genes and the evolution of new functions.
Genetica, 118, 217–231.
Riley,M. and Labedan,B. (1997) Protein evolution viewed through Escherichia coli
protein sequences: introducing the notion of a structural segment of homology, the
module. J. Mol. Biol., 268, 857–868.
Rocha,E.P. (2004) Order and disorder in bacterial genomes. Curr. Opin. Microbiol., 7,
519–527.
Tatusov,R.L. et al. (2000) The COG database: a tool for genome-scale analysis of
protein functions and evolution. Nucleic Acids Res., 28, 33–36.
Tillier,E.R. and Collins,R.A. (2000) Genome rearrangement by replication-directed
translocation. Nat. Genet., 26, 195–197.
Vogel,C. et al. (2004a) Structure, function and evolution of multidomain proteins.
Curr. Opin. Struct. Biol., 14, 208–216.
Vogel,C. et al. (2004b) Supra-domains: evolutionary units larger than single protein
domains. J. Mol. Biol., 336, 809–823.
Weiner,J.,III et al. (2005) Rapid motif-based prediction of circular permutations in
multidomain proteins. Bioinformatics, 21, 932–937.
Weiner,J.,III and Bornberg-Bauer,E. (2006) Evolution of circular permutations in
multidomain proteins. Mol. Biol. Evol., 23, 734–743.
Yanai,I. et al. (2001) Genes linked by fusion events are generally of the same functional
category: a systematic analysis of 30 microbial genomes. Proc. Natl Acad. Sci.
USA, 98, 7940–7945.
Yanai,I. et al. (2002) Evolution of gene fusions: horizontal transfer versus independent
events. Genome Biol., 3, research0024.
Evolution of multi-domain proteins
1423
ANNEXE 5 : Article 3, la redondance en domaines 75
ANNEXE 5 : Article 3, la redondance en domaines
Pasek S, Risler JL, Brezellec P. 2006b. The role of domain redundancy in genetic
robustness against null mutations. J Mol Biol. 362(2):184-191.
The Role of Domain Redundancy in Genetic RobustnessAgainst Null Mutations
Sophie Pasek1,2⁎, Jean-Loup Risler1 and Pierre Brézellec1
1Laboratoire Statistique etGénome, UMR CNRS 8071,523 Place des Terrasses, 91034Evry cedex, France2Soluscience, BiopôleClermont-Limagne, 63360Saint-Beauzire, France
A key question in molecular genetics is why severe gene mutations oftendo not result in a detectable abnormal phenotype. Alternative networksare known to be a gene compensation mechanism. Gene redundancy, i.e.the presence of a duplicate gene (or paralog) elsewhere in the genome,also underpins many cases of gene dispensability. Here, we investigatedthe role of partial duplicate genes on dispensability, where a partialduplicate is defined as a gene that has no paralog but which codes for aprotein made of domains, each of which belongs to at least anotherprotein. The rationale behind this investigation is that, as a partialduplicate codes for a domain redundant protein, we hypothesised that itsdeletion might have a less severe phenotypic effect than the deletion ofother genes. This prompted us to (re)address the topic of genedispensability by focusing on domain redundancy rather than on generedundancy. Using fitness data of single-gene deletion mutants ofSaccharomyces cerevisiae, we will show that domain redundancy is acompensation mechanism, the strength of which is lower than that ofgene redundancy. Finally, we shall discuss the molecular basis of this newcompensation mechanism.
© 2006 Elsevier Ltd. All rights reserved.
*Corresponding authorKeywords: gene dispensability; gene duplication; gene redundancy; proteindomain; domain redundancy
Introduction
Deleting a gene in an organism often has littlephenotypic effect. Such “gene dispensability” isthought to be the result of two main compensationmechanisms: (i) genetic buffering from alternativegene networks, (ii) functional complementationfrom duplicate genes.1–3 The strength and therelative contribution of these two mechanisms arebroadly discussed. For instance, Papp and collea-gues pointed out that the dominant explanation forapparent dispensability is due to the presence in thegenome of genes that seem to be non-essential butthat in fact have key roles under environmentalconditions not yet examined in the laboratory.4
Wagner discussed evidence suggesting that distrib-uted robustness (e.g. network flux reorganisation) isequally or more important for mutational robust-ness than gene redundancy.5 He and Zhang, as forthemselves, provided evidence for the overestima-
tion of the contribution of duplicate genes to geneticrobustness.6,7
If the relative contribution of the two above-mentioned compensation mechanisms is a contro-versial issue, their respective bases are well docu-mented and very different:
(1) Network flux reorganisation provides a wayto compensate the loss of a function by meansof alternative metabolic pathways1 (or alter-native regulatory networks), and
(2) Duplicate genes (or paralogs) can buffer thegenome against gene-deletion because, if onecopy is deleted, another with the same orsimilar function can be used instead.1,2,8–10
To date, the role of gene duplication in genedispensability has focused on completely duplicatedgenes (i.e. genes subjected to a duplication yielding agene copy that is initially completely redundant tothe ancestral copy with respect to sequence andfunctionality). De facto, the role of “partial duplicategenes,” i.e. genes created through (partial orcomplete) gene duplication in conjunction with
E-mail address of the corresponding author:[email protected]
doi:10.1016/j.jmb.2006.07.033 J. Mol. Biol. (2006) 362, 184–191
0022-2836/$ - see front matter © 2006 Elsevier Ltd. All rights reserved.
shuffling events, gene fusion, gene fission, internalduplication, etc.,11–13 has never been studied withinthe framework of gene dispensability. Yet, it might berelevant. First, let us keep in mind that it has beenshown that a gene may be split into two geneswhile keeping its activities.14 Let us now consider apartial duplicate gene that has been created throughthe duplication of a gene followed by its fission. Insuch a case, one might hypothesise that the deletionof the fused form of the gene might be compensatedby the interaction between the two proteins encodedby the unfused genes.This prompted us to address the role of partial
duplicates in gene dispensability. Obviously, partialduplicates are not as straightforwardly created anddetectable as the three genes involved in the toyscenario described before. Thus, we decided toscreen partial duplicate genes based on a domainapproach rather than on sequence comparisons.Indeed, the detection of partial duplicate genesusing sequence comparison is difficult whereas it iseasier and more reliable using domain databasessuch as Pfam.15 Thus, we will define here a partialduplicate as a gene: (i) coding for a protein thedomain architecture of which (i.e. the orderedpattern of its domains from the N to the C terminus)is unique, (ii) each domain of which belongs to atleast another protein. According to this definition, apartial duplicate is a gene that has no paralog (item(i)) and that codes for a domain redundant protein(item (ii)). Consequently, focusing on partial dupli-cate genes (rather than on completely duplicategenes) is a way to study the role of domainredundancy (rather than gene redundancy) in genedispensability.Using fitness data of single-gene deletion mu-
tants of Saccharomyces cerevisiae,16 we providehere evidence that domain redundancy is a com-pensation mechanism. Then we evaluate thestrength and importance of domain redundancyin genetic robustness and compare its contribu-tion with that of gene redundancy. Finally, weexplore the molecular basis of this new compen-sation mechanism.
Results
To evaluate the strength and importance ofdomain redundancy in genetic robustness of S.cerevisiae, while getting rid of the already documen-ted effect of gene redundancy,2 we divided the yeastgenome into three disjoint subsets of genes (seeFigure 1):
(1) Set of duplicate genes. A duplicate gene, orduplicate, is defined here as a gene coding for aprotein, the Pfam domain15 architecture ofwhich is equal to that of another protein of S.cerevisiae. Domain profiles (HMM profiles)being more conserved during evolution thanthe proteic sequences themselves,17 genes thatare “duplicated in sequence” code for proteins
that have identical architecture of domains.They are consequently members of this set. Inaddition, this set may also contain genescoding for proteins the sequences of whichdiverged so much that they could not bedetected as being related relying on sequencecomparison only. In conclusion, the set ofduplicates largely accounts for genes that maybe compensated by gene duplication,
(2) Set of partial duplicate genes. A partialduplicate gene, or partial duplicate, is definedas a gene that has no paralog but that codesfor a protein, each domain of which can befound in at least another protein of S.cerevisiae. As a consequence, such a genecodes for a domain redundant protein (seeFigure 1). The set of partial duplicates is atthe heart of our study as it gathers genes thatcannot be compensated by gene duplicationbut the function of which might be bufferedthanks to domain redundancy,
(3) Set of singletons. A singleton, or single gene, isdefined as a gene coding for a protein thatcontains at least one domain specific to thisprotein, i.e. this domain does not belong to anyother protein of S. cerevisiae. The set ofsingletons contains genes that have no dupli-cates and that code for proteins that are notdomain redundant. As a consequence, suchproteins can be backed up neither by generedundancy nor by domain redundancy. Thesegenes will be controls in our study.
From 6673 yeast open reading frames in thechromosomal table from EBI, we found 3076proteins having both a “Saccharomyces GenomeDatabase” name (to avoid including pseudogenesand erroneously predicted genes), a Uniprotidentifier (which is required to cross-refer theprotein identifiers and the Pfam domains) andbelonging to the same fitness group (i.e. weak,moderate, strong or lethal) for the two replicates ofthe single gene deletion experiments (see Materials
Figure 1. Examples of duplicates, partial duplicateand singleton. Let P1, P2, P3 and P4 be four proteins. P1 andP2 are duplicates, since they share the same domainarchitecture. P3 is a partial duplicate because (i) it has noduplicate, (ii) its domain A can be found in P1 (or in P2 orin P4) and its domain C in P4. P4 is a singleton since thedomain E, which is part of its domain architecture, doesnot belong to any other protein.
185Domain Redundancy and Genetic Robustness
and Methods). From these 3076 proteins, 2407proteins had a PfamA annotation. Finally, fromthese 2407 S. cerevisiae proteins, we found 551singletons, 1615 duplicates and 241 partial dupli-cates (see Table 1).
Domain redundancy contributes to genedispensability
There is a higher probability of functionalcompensation for a partial duplicate than for asingleton
We compared the frequency distribution offitness for partial duplicate genes with that forsingleton genes (Figure 2 and Table 1). The twodistributions are significantly different (chi-squaredtest: p-value=7.435×10−3; see Statistical analysis inMaterials and Methods). Partial duplicate geneshave a significantly lower proportion of genes witha lethal effect of deletion (34% versus 45%) and asignificantly higher proportion of genes with aweak effect of gene deletion (43% versus 31%). Thiscomparison indicates that there is a significantlyhigher probability of functional compensation for apartial duplicate gene than for a singleton.
Contribution of domain redundancy to geneticrobustness is estimated to be bounded between10% and 37%
The relative importance of the domain redun-dancy compensating mechanism can be estimatedroughly as follows (procedure derived from Guet al.2). If we assume that the proportion of geneswith a weak effect of deletion in partial duplicategenes, when compared with the proportion forsingleton genes, is due to compensation by domainredundancy (43% for partial duplicates, 31% forsingletons, difference 12%), this will give the lowerbound (Min) of the contribution of domain re-dundancy to genetic robustness. Thus, out of 103partial duplicates with a weak effect of deletion,29 are compensated by domain redundancy ((12/43)×103). The number of genes that are robustagainst deletion being equal to 275 (103 partialduplicates and 172 singleton genes), the robust-ness attributed to domain redundancy can beestimated to be 10% (i.e. Min=29/275=10%). Theupper bound can be estimated by assuming thatall of the genes with a weak effect of deletion inpartial duplicates are due to domain redundancy.This gives an upper estimate (Max) of 37%
because 103 partial duplicates and 172 singletonsshowed a weak effect of deletion (i.e. Max=103/(103+172)=37%).
Analysis of the relative contribution of generedundancy and domain redundancy
Gene redundancy contributes more than domainredundancy to gene dispensability
We compared the frequency distribution of fitnessfor partial duplicate genes with that for duplicategenes (Figure 2 and Table 1). The two distribu-tions are significantly different (chi-squared test:p-value=0.8×10−3). Duplicate genes have a signifi-cantly lower proportion of genes with a lethal effectof deletion (24% versus 34%) and a significantlyhigher proportion of genes with a weak effect ofgene deletion (56% versus 43%). This comparisonindicates that there is a significantly higher prob-ability of functional compensation for a duplicategene than for a partial duplicate. Moreover, dupli-cate genes are more numerous than partial dupli-cates (1615 versus 241 genes). On the whole, thisshows that gene redundancy contributes more thandomain redundancy to gene dispensability.
“Distant gene” redundancy is a compensationmechanism that does not contribute more thandomain redundancy to gene dispensability
Based on sequence comparisons, Gu and collea-gues showed that genes having duplicates arecompensated better than genes that have noduplicates.2 In our approach, the definition ofduplicate is based on a domain architecture compar-ison. As a result, our set of duplicates contains genesthat have no duplicates detectable by sequencecomparison. For such genes, one can imagine that
Table 1. Distribution by fitness group (weak, moderate,strong, lethal) of duplicates, partial duplicates andsingletons
Weak Moderate Strong Lethal Total
Duplicates 907 132 196 380 1615Partial duplicates 103 22 35 81 241Singletons 172 46 84 249 551
Figure 2. Relative distribution of fitness for duplicate,partial duplicate and singleton. Distribution of fitness forthe 551 singleton genes, the 241 partial duplicates and the1615 duplicate genes. The differences for the threedistributions are statistically significant (according to achi2 test). This shows that functional compensation for apartial duplicate is between that of a singleton and that ofa duplicate.
186 Domain Redundancy and Genetic Robustness
the sequences diverged so much that the duplicationcannot be detected based on sequence comparisononly. This prompted us to focus our attention onthese distant duplicate genes and to compare theirability of being compensated with that of the partialduplicate genes. To carry out this comparison, wedivided the set of duplicates into two classes: closeduplicates and distant duplicates. We defined closeduplicates as duplicates that have at least oneduplicate according to sequence comparison criter-ion (see Identification of close duplicates in Materi-als and Methods). All other duplicates are referredto as distant duplicates.A comparison of the frequency distribution of
fitness for the 841 distant duplicate genes we found(Table 2) with that for the 551 singletons (Table 1)shows that the two distributions are significantlydifferent (chi-squared test: p-value≪10−6). Thiscomparison indicates that there is a significantlyhigher probability of compensation for a distantduplicate than for a singleton, showing that distantduplicate genes contribute to genetic robustness. Inaddition, a comparison of the frequency distributionof fitness for the 841 distant duplicate genes wefound (Table 2) with that for the 241 partialduplicates (Table 1) shows that the two distributionsare not significantly different (chi-squared test:p-value=0.6261). This suggests that distant generedundancy does not contribute more than domainredundancy to gene dispensability.In addition note that, as expected, (i) there is a
significantly higher probability of functional com-pensation for a close duplicate gene than for a partialduplicate (p-value≪10−6), (ii) there is a significantlyhigher probability of functional compensation fora close duplicate gene than for a distant duplicate(p-value≪10−6); this shows, as already stressed by
Gu and colleagues, that functional compensationdecreases with sequence divergence.
Domain redundancy and gene redundancy are not“additive” compensation mechanisms
A duplicate is defined here as a gene coding for aprotein the domain architecture of which is equal tothat of another protein in yeast. Nevertheless,assuming that we do not consider its duplicate(s),such a gene might be classified as a partial duplicateas far as it codes for a protein each domain of whichbelongs to at least another protein. Thus, we candistinguish between duplicates coding for proteinsthat may be buffered both by gene redundancy anddomain redundancy compensation mechanisms,and duplicates that can only be compensated bygene redundancy (see Figure 3).Wewondered whether a gene satisfying both gene
redundancy and domain redundancy criteria isbetter compensated than a gene satisfying only thegene redundancy criteria. To carry out this experi-ment, we divided the set of duplicates into two sets:duplicates that satisfy both gene redundancy anddomain redundancy criteria (called hereafter dupli-cates_GRDR) and duplicates that satisfy only generedundancy criterion (called hereafter duplica-tes_GR). We then compared the frequency distribu-tion of fitness for the 705 duplicate_GRDR wefound with that for the 910 duplicates_GR (Table3). The two distributions are not significantlydifferent (chi-squared test: p-value=0.0465). Thiscomparison indicates that there is not a significantlyhigher probability of functional compensation for aduplicate_GRDR than for a duplicate_GR. Thissuggests that a duplicate is not compensated bydomain redundancy compensation mechanism.
Characterisation of the mechanistic basis of thedomain redundancy compensation mechanism
We showed that domain redundancy is a com-pensation mechanism.We evaluated its contributionto genetic robustness and compared its strength tothat of gene redundancy. In this section, we try to
Figure 3. Domain redundancyand gene redundancy are not ad-ditive compensation mechanisms.(a) Duplicate satisfying only generedundancy criterion (GR). (b) Dup-licate satisfying both gene redun-dancy (GR) anddomain redundancy(DR) criteria.
Table 2.Distribution by fitness group of close and distantduplicates
Weak Moderate Strong Lethal Total
Close duplicates 508 61 79 126 774Distant duplicates 339 71 117 254 841Total duplicates 907 132 196 380 1615
187Domain Redundancy and Genetic Robustness
decipher the mechanistic basis of compensationthrough domain redundancy.
The strength of domain redundancy compensationmechanism is not a function of domain frequency
To get insights into the molecular basis of domainredundancy compensation mechanism, we firstwondered whether a partial duplicate composed ofdomains each of which belongs to numerous otherproteins has a higher probability of compensationthan a partial duplicate composed of rare domains.The rationale behind this investigation is that onemay hypothesise that a partial duplicate composedof frequent domains is better compensated thanks tothe presence in the cell of numerous proteins sharingits domains. To carry out this experiment, weassociated to each protein the number of occur-rences of its least frequent domain, where number ofoccurrences is defined as the number of proteins towhich the considered domain belongs. Then, weplotted the frequency distribution of fitness forproteins associated to the same number. Theobtained results (see Figure 4) indicate that a partialduplicate composed of frequent domains is not moredispensable than a partial duplicate composed ofrare domains (note that we obtained similar resultsusing the most frequent domain; data not shown).This suggests that a protein composed of frequentdomains and coding for a defective gene has not agreater chance to be compensated, although there isa greater probability that proteins made of itsdomains act where and when this protein used toact.
Molecular basis of domain redundancy: two putativemechanisms of compensation
Until now, we hypothesised that a gene codingfor a protein composed of domains each of whichbelongs to at least another protein might becompensated by interactions between some ofthese proteins (see Figure 5, grey arrow). As anexample, let us consider a partial duplicate that hasbeen created through the duplication of a genefollowed by its fission. We assume that the deletionof the fused form of the gene might be compensatedby the interaction between the two proteinsencoded by the unfused genes. This scenario isbiologically convincing as far as it has been shownthat a gene may be split into two genes while
keeping its activities. Indeed, Raudonikiene andcolleagues showed that although the genes encod-ing the beta and beta'-subunits of RNA polymeraseare fused in Helicobacter pylori, they may beseparated without damage for this organism, i.e.H. pylori is viable and can colonize conventionalmice.14 However, note that a protein composed ofdomains all of which belong to one and only oneother protein is also a partial duplicate (see Figure5, black arrow). As an example, let us consider apartial duplicate that has been created through theduplication of a gene followed by its fusion withanother gene. One might hypothesise that thedeletion of the former gene might be compensatedby the fused gene. Indeed, it has been shown that apart of a gene may be involved in a biochemicalactivity while the other part is not required for thisactivity. Hence, characterising the function of athree-member gene family involved in the thiaminebiosynthetic pathway, Llorente and colleaguesshowed that the C-terminal domain of these genescoding for two-domain proteins is not required forkinase activity.18
Assuming that the two mechanisms describedabove are involved in partial duplicates compensa-tion, one can remark that (i) a partial duplicatecoding for a one-domain protein is necessarilycompensated by a protein that encompasses itsdomain (see Figure 5), whereas, (ii) a partialduplicate coding for a two-domain protein may becompensated either by a protein encompassing itsdomains or by interactions between at least twoother proteins, or by both mechanisms (see Figure5). We wondered whether a bi-domain partialduplicate, which might be compensated by twoputative compensation mechanisms, is better com-pensated than a mono-domain partial duplicate,which may be compensated by only one. To carryout this experiment, we divided the set of partialduplicates into genes coding for one-domain andtwo-domain proteins. Then, we compared the
Table 3. Distribution by fitness group of Duplicates_GRDR and Duplicates_GR
Weak Moderate Strong Lethal Total
Duplicates_GRDR 416 48 73 168 705Distant_GR 491 84 123 212 910Total duplicates 907 132 196 380 1615
Duplicates_GRDR are duplicates satisfying both gene redun-dancy and domain redundancy criteria. Duplicates_GR areduplicates satisfying only gene redundancy criterion.
Figure 4. Compensation is not a function of thedomain occurrence frequency. Each protein encoded bya partial duplicate was associated to the number ofoccurrences of its least frequent domain. Then, we plottedthe frequency distribution of fitness (y axis) for proteinshaving the same number of occurrences of least frequentdomain (x axis). The x values vary from 2 to 5, sincebeyond 6 the number of proteins is too small.
188 Domain Redundancy and Genetic Robustness
frequency distribution of fitness for the 46 partialduplicates coding for one-domain proteins withthat for the 75 partial duplicates coding for two-domain proteins (data not shown). The twodistributions are not significantly different (chi-squared test: p-value=0.243). This suggests thatone-domain proteins are not lesser compensatedthan two-domain proteins, giving strength tocompensation through one protein. However, notethat although the conditions of application of chi2
test are satisfied, the small size of our data sets (ofmono and bi-domain partial duplicates) forbids usto draw any firm conclusions from this experiment.
Discussion
We studied the role of domain redundancy in S.cerevisiae gene dispensability. We emphasise thatcompensation here does not imply that the gene isdispensable in long-term evolution but means thatthe gene is dispensable in an individual under theconditions tested (see Fang et al.19 for a study aboutdispensability, essentiality and long-term evolu-tion). To carry out this study, we analysed thephenotypic effect of the deletion of partial duplicategenes, defined here as genes having no paralog butwhich code for proteins each domain of which canbe found in at least another protein of yeast. Weshowed that domain redundancy is a compensationmechanism weaker than gene redundancy. We alsoshowed that these two compensation mechanismsare not additive (i.e. a gene satisfying both thedomain redundancy and the gene redundancycriteria is not better compensated than a genesatisfying only gene redundancy criterion).
Screening genes using a domain approachrather than a sequence approach
In order to address the role of partial duplicates ingene dispensability, we decided to screen such genes
using a domain approach rather than sequencecomparisons. Indeed, the detection of partial dupli-cate genes using sequence comparison is difficult,whereas it is easier and more reliable using domaindatabases such as Pfam.15 Moreover, this methodo-logical choice has several interesting consequences.Firstly, contrary to a method based on sequence
comparison, our domain-based strategy takes intoaccount duplicates for which divergence in sequencemay be important. Indeed, the tools that are used todetect domains (Hidden Markov Profiles) areknown to be more sensitive than pairwise sequencecomparison.17 Since domain profiles (HMM pro-files) are more conserved during evolution than thesequences themselves, our set of duplicates containgenes coding for proteins the sequences of whichdiverged so much that they cannot be detected asbeing related, based on sequence comparison only.Obviously, genes that are duplicated in sequencecode for proteins that have identical architecture ofdomains and are consequently members of ourduplicates set. As a conclusion, a set of duplicatesbased on a domain search strategy will contain theduplicates that would be obtained using sequencecomparisons.Secondly, using a domain approach, we implicitly
address the role of domain redundancy in geneticrobustness against null mutation. Focusing ondomain redundancy rather than on duplicates orpartial duplicates is a more suited approach to studythe mechanisms of robustness. Indeed, for instance,a gene coding for a protein each domain of whichbelongs to at least another protein of the samegenome does not necessarily mean that this gene hasbeen created through partial (or complete) duplica-tion of genes of the considered genome. Thus, it ispossible that genes acquired through horizontaltransfer satisfy our definition of partial duplicates,while they are clearly not! In a similar way, wecannot exclude that two Pfam domains may havethe same label while they do not necessarily derivefrom a common domain ancestor (thanks to
Figure 5. Representation of twoputative mechanistic bases of com-pensation through domain redun-dancy. Partial duplicate 1 is a genecoding for a one-domain protein.Partial duplicate 2 is a gene codingfor a two-domain protein. Partialduplicate 1 is necessarily compen-sated by a protein encompassingits domain (black arrow). Partialduplicate 2 may be compensatedeither by a protein that encom-passes its domains (black arrow)or by interaction between at leasttwo other proteins (grey arrows).
189Domain Redundancy and Genetic Robustness
molecular evolutionary convergence). In such cases,talking about domain redundancy is more appro-priate. Nevertheless, note that we do believe thatdomain redundancy compensation mechanism isstrongly related to duplication.
Relationships between gene redundancy anddomain redundancy
As highlighted previously, except for horizontaltransfer or domain convergence, the creation ofpartial duplicates is obviously related to duplication:a partial duplicate is made of a series of domains,each of which is paralogous (i.e. created by copy) to adomain that belongs to a different gene. Thus, partialduplicates are probably constructed from domainsoriginating from several other different genes(through gene duplication, gene fusion/fission orother domain rearrangements).11–13 Note that we donot claim here that partial gene duplications neces-sarily correspond to domain boundaries. Indeed, it ishighly probable that in most cases duplicationbreakpoints do not correspond to domain bound-aries, but the most common fate of genes composedof such “truncated” domains is probably non-functionalization (gene-silencing).In addition, gene redundancy and domain redun-
dancy are also relatedwith respect to their molecularbasis. We showed here that a partial duplicatecomposed of frequent domains has not a higherprobability of compensation than a partial duplicatecomposed of rare domains. Similarly, a gene havingmany paralogs is not better compensated than a genehaving only one paralog (see Supplementary Data).This last point demonstrates that compensation, be itby domain or gene redundancy, is not a function ofthe domain frequency or of the number of genecopies. It suggests that other requirements areneeded to allow compensation. It is likely that thedefected/deleted gene and gene(s) that supply thedefective activity have to be transcribed, translatedand signalled to be active at the same time, in thesame place and in a similar way. In the case ofdomain redundancy, this suggests that partialduplicate genes remain strongly linked to some ofthe genes from which they have been created (byduplication, fusion/fission, or other domain rear-rangements). Answering the question of whetherdomain redundancy or gene redundancy hasevolved to enable such compensation or is insteada side product is beyond the scope of this article.
Domain redundancy and the non-holistic natureof some proteins
Studying the molecular bases of domain redun-dancy compensation mechanism, we hypothesisedthat a gene coding for a protein composed ofdomains each of which can be found in at leastanother protein might be compensated: (i) byinteractions between some of these proteins (seeFigure 5, grey arrow), or (ii) by a protein encom-passing the domain of the considered defective gene
(see Figure 5, black arrow). These two mechanismsshare a common property: the somewhat “non-holistic nature” of some proteins. Indeed, the firstmechanism implies that, to some extent, the functionof some proteins is nomore than the function of theirparts (i.e. their domains); the second mechanismimplies that some domains of a protein may actindependently of the whole. Some authors havealready reported examples that substantiate thesetwo mechanisms (see Raudonikiene et al.14 and Llo-rente et al.18 for instance). Here, we provide (indirect)evidence suggesting that these mechanisms, andtherefore the non-holistic nature of some proteins,might be more important than previously thought.
Materials and Methods
Fitness data
A nearly complete set of single-gene-deletion mutantsof the S. cerevisiae genome16 enabled us to carry out ourexperiments. As done by Gu et al.2 (see Fitness measure-ments), we classified the yeast genes into four groups(weak, moderate, strong, lethal) on the basis of aminimum fitness value for a strain across the five differentgrowth conditions tested. We downloaded from http://www-deletion.stanford.edu/YDPM/YDPM_index.htmltwo data sets, Regression_Tc1_hom.txt and Regression_Tc2_hom.txt, which are two replicates of the sameexperiments. We only took into account genes associatedto the same phenotypic group in both replicates.
Pfam annotations
The PfamA15 and Context domains Pfam20 annota-tions pertaining to the S. cerevisiae proteome were down-loaded from ftp://ftp.sanger.ac.uk/pub/databases/Pfam/database-files. All protein domain architectureswere considered by including both the PfamA andContextDomain results (using statistical language modelingmethods, context domains are added by Pfam when ahighly probable domain of a protein is not detected (itssignature being lower than the PfamA threshold)).
Identification of singletons, duplicates and partialduplicates
A singleton is defined as a gene coding for a protein thatcontains at least one domain specific to this protein, i.e.this domain does not belong to any other protein of S.cerevisiae. A duplicate is defined as a gene coding for aprotein the domain architecture of which is exactly thesame as in another protein of S. cerevisiae (i.e. the samedomains in the same order). All other genes are referred toas partial duplicate genes, that is they code for proteins,the domain architecture of which is unique in S. cerevisiaebut which is composed of domains, each of which can befound in at least another protein of S. cerevisiae.
Identification of close duplicates
An all-against-all Blast search was conducted forthe whole set of S. cerevisiae proteins (downloaded
190 Domain Redundancy and Genetic Robustness
from Integr8 http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do). To carry out this comparison, we used theblast2 algorithm of the Biofacet package21 together withthe similarity matrix BLOSUM62. Low complexity regionsof the query sequence were masked using the seg algo-rithm. Two genes were then considered as close duplicatesif they coded for proteins that fulfilled the following threecriteria: (i) the Blast-alignable region between the twoproteins was longer than 60% of the longer protein, (ii) theidentity between the two proteins was greater than 30%and (iii) the e-value was lower than 10−6.
Statistical analysis
We used the Pearson's test to compare our fitnessdistributions. In all the considered cases, the expectedfrequencies are larger than 5, so we decided to usethe classical chi-square approximation to compute thep-values.
Acknowledgements
We thank Carène Rizzon and Grégory Nuel(Laboratoire Statistique et Génome, Evry - France).We are also grateful to the members of the Atelier deBioinformatique (Université Paris VI, Paris, France)for helpful comments and discussion.
Supplementary Data
Supplementary data associated with this articlecan be found, in the online version, at doi:10.1016/j.jmb.2006.07.033
References
1. Wagner, A. (2000). Robustness against mutations ingenetic networks of yeast. Nature Genet. 24, 355–361.
2. Gu, Z., Steinmetz, L. M., Gu, X., Scharfe, C., Davis,R. W. & Li, W. H. (2003). Role of duplicate genes ingenetic robustness against null mutations.Nature, 421,63–66.
3. Gu, X. (2003). Evolution of duplicate genes versusgenetic robustness against null mutations. TrendsGenet. 19, 354–356.
4. Papp, B., Pal, C. & Hurst, L. D. (2004). Metabolicnetwork analysis of the causes and evolution ofenzyme dispensability in yeast. Nature, 429, 661–664.
5. Wagner, A. (2005). Distributed robustness versusredundancy as causes of mutational robustness.Bioessays, 27, 176–188.
6. He, X. & Zhang, J. (2006). Transcriptional reprogram-ming and backup between duplicate genes: is it agenome-wide phenomenon? Genetics, 172, 1363–1367.
7. He, X. & Zhang, J. (2006). Higher duplicability of lessimportant genes in yeast genomes. Mol. Biol. Evol. 23,144–151.
8. Kafri, R., Bar-Even, A. & Pilpel, Y. (2005). Transcrip-tion control reprogramming in genetic backup cir-cuits. Nature Genet. 37, 295–299.
9. Koonin, E. V. (2005). Paralogs and mutational robust-ness linked through transcriptional reprogramming.Bioessays, 27, 865–868.
10. Hurst, L. D. & Pal, C. (2005). Dissecting dispensability.Nature Genet. 37, 214–215.
11. Fitch, W. M. (2000). Homology a personal view onsome of the problems. Trends Genet. 16, 227–231.
12. Koonin, E. V. (2005). Orthologs, paralogs, and evolu-tionary genomics. Annu. Rev. Genet. 39, 309–338.
13. Pasek, S., Risler, J. L. & Brezellec, P. (2006). Genefusion/fission is a major contributor to evolution ofmulti-domain bacterial proteins. Bioinformatics, 22,1418–1423.
14. Raudonikiene, A., Zakharova, N., Su, W. W., Jeong,J. Y., Bryden, L., Hoffman, P. S. et al. (1999).Helicobacterpylori with separate beta- and beta′-subunits of RNApolymerase is viable and can colonize conventionalmice. Mol. Microbiol. 32, 131–138.
15. Bateman, A., Coin, L., Durbin, R., Finn, R. D., Hollich,V., Griffiths-Jones, S. et al. (2004). The Pfam proteinfamilies database. Nucl. Acids Res. 32, D138–D141(Database issue).
16. Steinmetz, L. M., Scharfe, C., Deutschbauer, A. M.,Mokranjac, D., Herman, Z. S., Jones, T. et al. (2002).Systematic screen for human disease genes in yeast.Nature Genet. 31, 400–404.
17. Eddy, S. R. (1998). Profile hidden Markov models.Bioinformatics, 14, 755–763.
18. Llorente, B., Fairhead, C. & Dujon, B. (1999). Geneticredundancy and gene fusion in the genome of thebaker's yeast Saccharomyces cerevisiae: functional char-acterization of a three-member gene family involvedin the thiamine biosynthetic pathway. Mol. Microbiol.32, 1140–1152.
19. Fang, G., Rocha, E. & Danchin, A. (2005). Howessential are nonessential genes? Mol. Biol. Evol. 22,2147–2156.
20. Coin, L., Bateman, A. & Durbin, R. (2003). Enhancedprotein domain discovery by using language model-ing techniques from speech recognition. Proc. NatlAcad. Sci. USA, 100, 4516–4520.
21. Glemet, E. & Codani, J. J. (1997). LASSAP, a LArgeScale Sequence compArison Package. Comput. Appl.Biosci. 13, 137–143.
Edited by K. Karn
(Received 28 April 2006; received in revised form 11 July 2006; accepted 18 July 2006)Available online 25 July 2006
191Domain Redundancy and Genetic Robustness
Résumé :
La génomique comparative tente d’identifier les gènes qui, d’un génome à un autre ou
à l’intérieur d’un même génome, partagent une histoire évolutive commune afin, par exemple,
d’identifier les mécanismes évolutifs sous-jacents. Habituellement, l’unité utilisée en
génomique comparative est le gène mais ce choix pose différents problèmes. En effet,
différentes parties d’un gène peuvent avoir des histoires évolutives distinctes et/ou assurer des
fonctions indépendantes. Afin de tenir compte de cette modularité, cette thèse se propose de
revisiter certains problèmes liés à la génomique comparative en utilisant une unité d’évolution
plus petite que le gène : le domaine. Trois points généralement étudiés en terme de gènes ont
été abordés en terme de domaines : la synténie, les fusions/fissions et la redondance.
Nous introduisons ici la notion de synténie de domaines et recherchons des segments
chromosomiques dont le contenu - non plus en gènes - mais en domaines est conservé d’une
espèce à l’autre. Cette méthode s’est avérée plus fine que la synténie de gènes : elle a permis
de détecter plus de synténies ou des synténies plus grandes, notamment celles qui
s’accompagnent de réarrangements concernant des parties de gènes ou domaines. Le
deuxième point que nous avons étudié concerne les réarrangements de domaines observés
chez les protéines bactériennes. Nous avons mis en évidence qu’un des mécanismes majeurs à
l’origine de la création de nouvelles combinaisons de domaines est fortement lié au jeu des
fusions/fissions de gènes. Finalement, nous avons abordé la redondance des protéomes en
domaines et leur lien avec la robustesse des organismes aux mutations nulles. Nous avons
ainsi montré que la redondance en domaines est un mécanisme de compensation moins
important que la redondance en gènes mais qui n’est pas négligeable.
Dans chaque cas, utiliser le domaine comme unité d’homologie à la place du gène
s’est avéré pertinent et a permis d’apporter de nouveaux résultats.