evolution moléculaire et phylogénie - frangun.orgfrangun.org/m2-eeb-cours2.pdf · biométrie et...
TRANSCRIPT
1
Evolution Moléculaire et PhylogéniePhylogénie
Dominique [email protected]
Biométrie et Biologie Evolutive, UMR5558, Lyon IBioinformatique et Génomique Evolutive
Plan du cours
I. L’évolution moléculaire I1. Le cadre théoriqueI2. Les données et les questionnements
II. Evolution de quelques traits moléculairesII.1 Composition en Base des GénomesII.2 Taux d’évolutionII.3. Taille des génomes
III. Conclusion
II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp
- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle
II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp
- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle
2
Distribution taxonomique de la composition globale en base des génomes
Forte variabilité inter spécifique p qHomogénéité intra génomique
Forte homogénéité inter spécifique
Structuration variableselon les espèces
Sueoka 1964
g p qForte hétérogénéité intra génomique
(structuration en isochores)
Extrait de Li et Graur, 91, Fundamentals of Molecular Evolution
Validation avec les données de génomes complets
riens 1164 génomes procaryotes (sans les archées)
Génomes de vertébrés
Carsonella ruddii 16 5%
bre
de g
enre
s bac
tér
5
10
15
20
?Carsonella ruddii 16,5% Anaeromyxobacter dehalogens 77%
GC %
Nom
b
020 30 40 50 60 70 80
Galtier, 97Fujita MK, GBE, 2011
Hétérogénéité en GC des génomes procaryotes
Di = GCi – GC meani : fenêtre de 100pb non chevauchante
AT rich
GC rich
Bohlin et al BMC Genomics 2010
Distribution gaussienne des Di → somme d’effets indépendants
Hétérogénéité intra génomique en GC des génomes de vertébrés
3
Mesure du %GC3pour un gène codant
Sous l’hypothèse ,évolution neutre de la position III des codonsrépartition au hasard des gènes codants dans le génomep g g
La fréquence en GC3 des gènes codants est un proxy de la fréquence en GC totale.La distribution du %GC3 constitue une signature génomique de l’espèce.
Approche comparative des signatures génomiques obtenues avec des jeux de gènes orthologues.
Neutralité du %GC3 ?
Lien entre le %GC3 et le %GC des régions non codantes prochesPas de lien entre le %GC3 et le taux de substitution silencieux Ks H0 : Ks =uPas de lien entre le %GC3 et le niveau d’expression du gène
Approche corrélative
Question
La composition en base des génomes est-elle le fruit de pressions sélectives ou d’un processus neutre de fixation des mutations ou des deux processus ?
MODÈLES SÉLECTIONNISTE ET NEUTRALISTE
Escherichia coli
Génomes sous pression de sélection
Escherichia coliBacillus subtilisSaccharomyces cerevisiaeSchizosaccharomyces pombeDictyostelium discoideumDrosophila melanogasterCaenorhabditis elegansArabidopsis thaliana
l lGénomes sous évolution neutre
Mycoplasma capricolumMicrococcus luteus
Streptomyces spHomo sapiensMus musculus
Gallus gallus
II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp
- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle du BUCG
4
Modèle neutre du biais d’usage du code génétique
Biais mutationnel Sueoka, 61
G/C A/Tu
vu/v = (1-p(G+C))/p(G+C) représente le biais mutationnel
Si u/v = 3.0 p(G+C) = 25%u/v = 1 p(G+C) = 50%
p(G+C) = v/(v+u) probabilité de G+C attendue à l’équilibre
u/v 1 p(G C) 50%u/v = 0.33 p(G+C) = 75%
Génomes procaryotes: Biais mutationnel global
L’usage du code à savoir l’utilisationdes codons synonymes est corrélé en termede GC à la fréquence globale en GCdu génome chez certains procaryotes.
Deux exemples:
Composition en GC des génomes des bactériesComposition en GC des génomes des bactériesendosymbiotiques
Composition en GC des génomes de Vertébrés : la structuration en isochores
Pa Pseudomonas aeruginosa
Contenu en G+C des génomes bactériens
Anaeromyxobacter dehalogenansBactérie gram négativeBactérie du sol75% GC5 013Kb – 4346 protéines
Les génomes des bactéries endosymbiotiques sontde plus petites tailles, plus riches en A/T et présententdes taux d’évolution plus élevés.
Mlot Mesorhizobium lotiFumoto, Nar 2002
Wernegreen , Nature Review in Genetics 2002
En vert symbiote primaire
Bu-Ap BuchneraWg Wiggleswpthia
Carsonella ruddii Gamma bactérieEndosymbiote des psyllides16,6% GC159Kb – 182 protéines Nakabachi A, science 2006
5
Biais mutationnel ou pression sélective ?(Vernegreen and Funk 2004)
• Etude avec le génome de Buchnera aphidicolaEtude avec le génome de Buchnera aphidicolabactérie endosymbiotique obligatoire du puceron. (depuis 200-250 MA)
– Biais mutationnel de GC vers AT associé à une diminution de Ne.(Moran 2002).
– Sélection favorisant les bases AT car les bases G et C seraient contre sélectionnées du fait de leur fort coût métabolique (Rocha et Danchin 2002).
Classification des changementsCAACAGCACCAT
Gln
His
l hiChangements
CAG GTG CAA CAGCAG GTG CAA CAGCAG GTG CAA CAACGG GTG GAA CAGCAG GAG CAT CAGCAG GAG TAT CAGCAG GAG CAT CAG
polymorphiques
2 non synonymes 1 synonyme
2 non synonymes 0 synonymeCAG GAG CAT CAG
CGG GAG CAT CAG0 synonyme
Changements fixés 2 non synonymes
ADN codant et non codant, ET, régions recombinantes, etc
Résultats(1) Polymorphisme entre lignées de Buchnera -U.ambrosiae
AT GC 15 GC AT 18 NS (p < 0,6)
AT GC taux v = 0 0043AT GC taux v 0,0043GC AT taux u = 0,0392
En théorie : %AT attendu à l’équilibre U/U+V = 0,9011Avec les données : le % de AT est de 90,21% en moyenne pour l’ensemble
des gènes codants
Equilibre
(2) Substitutions synonymes entre Buchnera -U.ambrosiae et Buchnera- U.rudbeckiae
AT GC 67 GC AT 51 NS (p < 0,14)
stationnarité
Pas de biais de fixation
Test de la neutralité
= Mutations AT GC Mutations GC AT fixation
GC ATfixation
AT GC
Equilibre
La probabilité de fixation est identique pour
=Substitutions GC AT Substitutions AT GC
GC AT AT GC
p q ples deux patrons de mutation ce qui atteste du processus
neutre de la fixation
6
Evolution de la composition en GC des bactéries endosymbiotiques
C l tCalyptogenaSymbionte de palourdes
(2) Taux de substitutions très élevés (délétions, substitutions(3) Réduction de la taille du génome (perte de gènes de réparation)
(4) Biais mutationnel vers AT (sélection en faveur du GC)
(1) Relaxation des pressions de sélection (Ne ) Hirokazu et al, extremophiles 2008
5 lignées de bactéries pathogènes clonales avec plusieurs souches
Composition en GC : adaptation ou dérive génétique ?
– Sueoka (61), biais mutationnels différents selon les génomes bactériens,
– Hershberg, PLOS genetics 2010, g, g ,• Existence d’un Biais mutationnel vers AT détection avec le patron de mutation biaisé vers AT• Bactéries Libres / Ne importante : sélection peu agir Augmentation en GC pour répondre à des contraintes environnementales
(T°, oxygène, ….)• Endosymbiotique/Ne faible : la dérive l’emporte
Biais mutationnel vers AT (Vernegreen, 2004)
– Hidelbrand, Plos genetics 2010
• Biais mutationnel sélectionnéCoût métabolique de synthèse des nucléotides (Rocha, Trends in Genetics 2002)
Relation GC et Températureelat on G et empératurechez les procayotes
7
GC% génomique
N= 224 genres
Pas de relation entre la compositionen GC et la température optimalede croissance et ceci quelque soitl’échelle taxonomique
Température optimale de croissance °C
Galtier, Lobry, 97
l échelle taxonomique.
Pas de relation entre la compositionen Purine (A et G) et la température optimalede croissance.
Thermomètres moléculaires
Nature 2008
Hiroyuki Kimura et al
ARN ribosomaux
Analyse factorielle des correspondances
Archées 15 (4) -7 (3) - 10 (2) – 1(1)Bactérie 5 (4) - 9 (3) - 5 (1)
1. Psychrophile 6 espèces Topt ≤ 202. Mésophile 415 espèces 20 ≤ Topt ≤ 593. Thermophile 16 espèces 59 ≤ Topt ≤ 804. Hyperthermophile 20 espèces Topt ≥ 80
2006
559 514 732 codons559 514 732 codons
Thermomètres moléculaires
Nature 2008
ARN ribosomauxGaltier – Lobry. Mol. Evol. 97
ProtéinesZeldovich et al. Plos Comp Biol 2007
I V Y W R E L
8
Inférence Paléo environnementRelation GC - température
Chez les procaryotes où l’effet direct de la température peut être mesuré,les différentes études montrent qu’aucune relation directe sur la compositionglobale en base n’a pu être mise en évidence.
En revanche, une relation directe entre la composition en GC au niveau derégion d’ADN impliquée dans la structure secondaire des ARN ribosomaux (loupe) et la température a été clairement identifiée : thermomètre moléculaire 1.
Une relation directe entre la composition en AA (indépendante du GC) et latempérature a également été identifiée : thermomètre moléculaire 2température a également été identifiée : thermomètre moléculaire 2.
Ces relations résultent de pression de sélection pour le maintien de la structuresecondaire de l’ARN (ARNr) ou la conformation de la protéine.
Deux exemples:
Composition en GC des génomes des bactériesComposition en GC des génomes des bactériesendosymbiotiques
Structuration en GC des génomes de Vertébres : isochores
Giorgio Bernardi (1933)g ( )
30
40
50
60
GC
%
0 200 400 600 800 1000kb
100 kb chromosome 19
chromosome 21
Biais mutationnel ?
Procaryotes Vertébrés
Processus neutrede l’évolution du GC
Régions génomiques
Duret, 2009, Annual Review of genomics and human genetics
9
Variabilité de la composition en GC chez les vertébrés
Fenêtres glissantes (100kb)
>53%46%-53%41%-46%37%-41%
MbCostantini et al, 2006, Genome res.
<37%
CHROMOSOME 21 (Homme)
H1+H2L1+L2 H3H1+H2L1+L2 L1+L2
Modèle de la structuration en isochore
isochore %C+G % total genomic DNA
L1+L2 : 33%-44% 62 % H1+H2 : 44%-51% 31%H3 : 51%-60% 3-5%
H1+H2L1+L2 H3H1+H2L1+L2 L1+L2
>300 kb
Bernardi et al. 1985
L’organisation en isochore est associéeà d’autres composants génomiques
• Densité en gène (Mouchiroud 1991, Zoubak 1996, IHGSC 2001)• Régions riches en GC sont plus riches en gènes codants
• Longueur des introns (Duret 1995 , IHGSC 2001)L i t t d l tit t ill d l é i i h GC• Les introns sont de plus petites tailles dans les régions riches en GC
• Insertion des ETs (Soriano 1983, Zerial 1986, Smit 1999 , IHGSC 2001)• Les Ets de grande tailles commes les LINES sont absentes des régions riches en
GC• Replication (Bernardi, 1998; Watanabe, 2002)
• Les gènes à réplication précose sont plus riches en GC que les gènes à réplication tardive
• Recombinaison (Eyre-Walker 1993 IHGSC 2001)Recombinaison (Eyre Walker 1993, IHGSC 2001)• Les régions qui recombinent beaucoup sont riches en GC
• Banding chromatidien (Saccone 1993, IHGSC 2001)• Les isochores riches en GC se retrouvent préférentiellement dans le bande
télomérique et les bandes réverses (non colorées)• Organisation du noyau (Saccone 2002, Federico 2006)
• Les isochores riches en GC se retrouvent au centre du noyau
Répartition des isochores entre chromosomes Saccone, 2002, gene
Les régions télomériques des chromosomes sont majoritairement riches en GC (isochore très riches en GC de type H3 rouge). Les régions bleus correspondent aux isochores à bas GC de type L1.Les chromosomes les plus courts sont majoritairement composés d’isochores de type H3 (rouge).
Structuration en GC des génomes d’eucaryotesCammarano et al, BMC Genomics, 2009
10
Costantini M, et al
Forte variabilité du profil génomique en GCentre génomes d’eucaryotes unicellulairesExemple du groupe des plasmodiums (parasite humain)
Des espèces avec des profils génomiques homogènesriches en GC (algues vertes Ostreococcus tauri) oufaibles en GC (amibe Dictyostelium discoideum)
Environnement ?
• Variation du patron mutationnel le long du génome (Filipski 1987, Wolfe et al. 1989, …)– liée à la réplication (Wolfe, 93, Tenzen, 95, Watanabe, 2002, Costantini
2008 PNAS)
Variation spatiale du biais mutationnel ?
Incorporation du BrdU aucours de la réplication- région à réplication précose- région à réplication tardive
GC : Nonoverlapping window of 100 kb
• Variation du patron mutationnel le long du génome (Filipski 1987, Wolfe et al. 1989, …)– liée à la réplication (Wolfe, 93, Tenzen, 95, Watanabe, 2002, Costantini
2008 PNAS)
Variation spatiale du biais mutationnel ?
– le patron de substitution (GC/AT) des séquences non contraintes (pseudogènes, séquences répétées) dépend du contexte en GC/AT (isochore) (Casane 1997, Francino Ochman 1999, IHGSC 2001)
– Test du patron de mutation (GC/AT) avec des données SNP en fonction de la composition locale en GC ( Eyre-Walker, 99, Smith, 2001, Duret et al, 2002)
Distribution des fréquences des allèles GC et AT
0.6
GC ATGC
<5% 5%-15% 15%-50% >50%0
0.2
0.4
Fréquence des allèles dérivées
Proportiondes SNPs
Distribution attendue en l’absence de biais de fixationDistribution attendue en l absence de biais de fixation
NB: la forme de la distribution peut varier selon l’histoire démographique mais est identique pour les allèles GC et AT.
11
Distribution des fréquences des allèles
AT et GC aux sites silencieux
• 410 SNPs (non codant et ) l f é
<5% 5%-15% 15%-50% >50%0
0.2
0.4
0.6GC-poor genes
allele frequency
proportion of SNP's
synonymes) avec la fréquence des allèles (Cargill et al 1999)
• Chimpanzé, outgroup pour orienter les mutations
• Les allèles GC ségregent à plus fortes fréquences que les allèles
<5% 5%-15% 15%-50% >50%0
0.2
0.4
0.6GC-median genes
GC rich genesAT dans les gènes à haut et moyen GC (test de vraisemblance)
<5% 5%-15% 15%-50% >50%0
0.2
0.4
GC-rich genes
GC
ATGC
Duret et al. Genetics, 2002
0.34
0.35
Autosomes, non-coding regions
AT->GCGC->AT
s dér
ivée
s0.
300.
310.
320.
33
Mea
n D
AF
moy
enne
des
allè
les
N=2,900,000 SNPs introns et régions intergeniques autosomales.
Taux de crossover local (5kb) HapMap
0.02 0.05 0.10 0.20 0.50 1.00 2.00 5.00 10.00
0.29
Local CO rate (5 kb) cM/Mb (Log scale)
Fréq
uenc
e m
Taux de crossing-over, cM/Mb (Log)
Biais de convertion génique (BGC)Evènement moléculaire associé à la Recombinaison méïotique
T
Non-crossing over Crossing over
Hétéroduplex ADN
G
TA
CG
(G->A) (T->C) RéparationMismatch ADN
BGC : Biais de fixation des allèles GC dans les régions fortementrecombinante et dont le mécanisme s’apparente à l’effet d’un distorteur de ségrégation
BGC et évolution du GC• La dynamique de fixation des allèles avec le BGC est identique à celui de
la sélection directionnelle,• Les allèles GC ont une plus grande probabilité de se fixer que les allèles g
AT (Eyre-Walker 1999, Duret et al. 2002, Galtier et al. 2002, Spencer et al. 2006, Galtier 2009),
• Le biais de réparation vers GC a été observé expérimentalement chez les mammifères, Xenope et la levure (biais plus faible),
• le biais de fixation est directement lié au taux de recombinaison de la région génomique
• L’intensité du BGC dépend :p– Du taux de recombinaison local “r”– Du système de reproduction– De la taille efficace de la population “Ne”– De l’intensité du biais de réparation “b”
• Biais de conversion génique : processus non sélectif qui affecte le GC codant et non codant des régions fortement recombinantes.
12
• Chez les Vertébrés– Biais mutationnel vers AT dans les régions non recombinantes
Composition en GC : adaptation ou dérive génétique ?
– Biais de conversion génique vers GC dans les régions recombinantes– Variation de recombinaison et de GC à des échelles différentes
Vrai chez d’autres organismes ?
Mb
Le gBGC se retrouve dans deLe gBGC se retrouve dans de nombreux génomes eucaryotes.
Il semble également présent dans certaines génomes procaryotes.
II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp
- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle
Deux exemples:
Composition en GC des génomes de procaryote,p g p y ,E. Coli et les autres
Composition en GC des génomes d’eucaryotes pluricellulaires, D. Melanogaster et les autres
13
Biais d ’usage du code chezEscherichia coli
Gènes hautement exprimés61 codons – 35 ARNt – 20AA
Correspondance entre la fréquencedes codons majoritaires et celle des ARNt majoritaires.
Les gènes hautement expriméscodent pour des protéines produitesen grande quantité.
Ikemura 1982, Gouy & Gautier 1982
Permet d’identifier les codons Optimaux.
Le biais d’usage des codons est
Codon N(a) Majoritaire Fobs(b)
Fatt(c)
RSCU(d)
Arg 6 CGC 40% 17% 2.39Leu 6 CUG 50% 17% 2.97Ser 6 AGC 28% 17% 1.66Thr 4 ACC 43% 25% 1.74Pro 4 CCG 53% 25% 2.10
Mesure du biais d’usage du code : RSCU
Exemple : gènes d’E. coli
Le biais d usage des codons est notable (à des degrés divers) pour tous les acides aminés qui ont des codons synonymes ainsi que pour les terminateurs.
Pro 4 CCG 53% 25% 2.10Ala 4 GCG 36% 25% 1.42Gly 4 GGC 40% 25% 1.61Val 4 GUG 37% 25% 1.49Lys 2 AAA 76% 50% 1.53Asn AAC 55% 50% 1.10Gln 2 CAG 65% 50% 1.31His 2 CAU 57% 50% 1.14Glu 2 GAA 69% 50% 1.38Asp 2 GAU 63% 50% 1.26Tyr 2 UAU 57% 50% 1.14Cys 2 UGC 56% 50% 1.11Phe 2 UUU 57% 50% 1.15Ile 3 AUU 51% 33% 1.52Ter 3 UAA 63% 33% 1.89
2
Mesure à l’échelle des gènes,classes de gènes ou génomes.
(a) Nombre de codons synonymes(b) Fréquence observée parmi les codons synonymes(c) Fréquence attendue si tous les codons étaient
utilisés à la même fréquence(d) Relative Synonymous Codon Usage =
fréquence observée / fréquence attendue
Permet d’identifier les codons Favorisés ou évités.
Sélection traductionnelle pour l’usage du code
Sharp et al 2010 Biais mesuré avec RSCU
Variabilité d’usage du code(58 codons)- inter spécifiqueinter spécifique- inter génique
30% des génomesbactériens ne montrent pas de sélection traductionnelleSharp et al NAR 2005
Plotkin et Kudla, 2010,Nat Rev Genet
14
Impact du biais d’usage du code
K%HE %FE
Biais de composition en acide aminé pour les gènes hautement exprimés
CMW
F HS
Q Y
NP
DT
E
R I
KAV
G
L
%HE-%FE
%ARNt majoritaire
Sharp et Li 87
KS
22 gènes d’ Escherichia colicomparés avec les orthologuesde Salmonella typhimurium.
Codon Adaptation Index
La pression de sélection surl’usage du code s’accompagned’une diminution du taux de substitutions silencieux.
Equilibre sélection-mutation
Gènes fortement exprimés
Usage du code génétique optimaux
Bulmer Genetics 91
Gènes de
Sélection Mutation
Gènes deE. coli4000
Gènes faiblement exprimés
Sélection traductionnelle sur l’usage du code génétique
• Les codons favorisés correspondent aux ARNt majoritaires,• Les gènes qui présentent la fréquence la plus élevée de codons favorisés sont les
Critères
es gè es qu p ése te t a éque ce a p us é evée de codo s avo sés so t esgènes les plus exprimés (ARNm ou protéine),
• La pression de sélection pour maintenir l’usage optimal s’accompagne d’une diminution du taux de substitution silencieux.
Le gain de fitness pour l’organisme est :- une augmentation de la vitesse de traduction (procaryotes)
Nature de la pression sélective
E. coli 3 à 6 X plus rapide (Robinson 84, Irwin, J.B.Chem 95,Rhagavan,PNAS 2012 )
- une augmentation de la fidélité de la traduction (eucaryotes)diminution du coût lié à la correction des erreurs, à la production de protéines non fonctionnelles
15
Variation de la vitesse de traductionintergénique ou intragénique
• Augmentation du nbre de sites d’initiation de la traduction,• Autocorrélation entre codons synonymes qui utilisent le mêmeAutocorrélation entre codons synonymes qui utilisent le même
ARNt (Cannarozzi et al. 2010),
• Réduction stabilité du messager près du site d’initiation de la traduction (eucaryo/procaryo) (Gu et al, 2010),
• Série de codons non optimaux dans les 90 à 150 premiers nucléotides (Tuller et al,Cell 2010), ralentissement de la traduction,L f é d d ti t l d d l it• La fréquence des codons optimaux est plus grande dans les sites conservés que dans les sites non conservés (Akashi, 95)
Conséquences :
- Pause/accélération de la traduction
Augmentation duniveau d’expressiondu gène hétérologue en controlant le biais d’usage d d d l’ i
Gustafsson, Trends inBiotechnology, 2004
du code de l’organisme hôte
Deux exemples:
Composition en GC des génomes de procaryote,p g p y ,E. Coli et les autres
Composition en GC des génomes d’eucaryotes pluricellulaires, D. Melanogaster et les autres
600
700
N=14148
D. melanogaster600
700
N=17082
C. elegansr
Usage du code chezla drosophile, le nématode et l’arabette
0
100
200
300
400
500
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
N=14148CG3m=65,7± 9,5%
0
100
200
300
400
500
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
CG3m=40,2 ± 8,6%
1400
A th li
GC3 % GC3 %
Nom
bre
Nom
bre
Nom
bre
0
200
400
600
800
1000
1200
0 10 20 30 40 50 60 70 80 90
N=25376CG3m=42,8 ± 6,3%
A. thaliana
GC3 %
16
Difficultés pour les organismes pluricellulaires
• Mesure du niveau d’expression des gènesQuantité de mRNA produit par gènes codant selon le type de– Quantité de mRNA produit par gènes codant selon le type de tissu, le stade de développement
• Etiquette : EST, Sage• Données haut débit de RNAseq
• Mesure de la fréquence des ARNt majoritaires– Nbre de gènes codant les ARNt utilisé comme proxy de la g p y
fréquence des ARNt
Sélection sur l’usage du code chez Drosophila
Abondance des ARNt >
Lys Lys
Moriyama & Powell(J Mol Evol 1997)
Corrélation avec les niveaux d’expression
codo
n
UUC UUUAAG AAA
(J Mol Evol, 1997)
Bia
is d
e
Expression Duret (PNAS, 1999)
Corrélation avec les taux de substitutions synonymes
0.5
0.6 UnpreferredP f d
Ex:LYSAAG→AAAAAA AAG
Ségrégation des mutations
Biais de codon
Ks
Sharp & Li (J Mol Evol, 1989)Bierne & Eyre-Walker (Genetics, 2003)
0
0.1
0.2
0.3
0.4
<0.25 0.25-0.5 0.5-0.75 >0.75 Fixed
Preferred
Akashi (Gene, 1997)
AAA→AAG
rôle primordial joué par la taille efficace Ne
L’action de la sélection naturelle est fortement conditionnée par la taille efficace des populations.
Quel est l’impact de Ne sur la variabilité compositionnelle au
S < 1/Ne
sein des génomes d’eucaryote ?
Pression de sélection traductionnelle et Ne
• Cutter et al (MBE 2006) ont comparé la sélection traductionnelle sur 37 génomes de nématodes (700 Ma).traductionnelle sur 37 génomes de nématodes (700 Ma).– Génomes avec CG3s moyen de 10% à 63,5%– Espèces ayant des environnements très différents (libre ou
parasite de plantes et mammifères)
– Usage du code avec Fop (ΔRSCU moyen par génome)– Expression à partir des données EST
17
Biais d’usage du code en relation avec l’expression
ΔRSCU moyenΔRSCU moyen
Les codons optimaux diffèrent selon les génomes, une tendance versune composante phylogénétique, effet de la composante en GC
Facteurs responsables du biais d’usage du code
Le biais d’usage du code (RSCU) s’explique majoritairement par le niveau de transcription des gènes (log(EST)) (génomes à gauche) ou par le biais mutationnel (GC3s) (génomes à droite).
Pression de sélection et NeImpact des modes de viesur les biais d’usage du code.
Les nématodes au régime de vie libre dans le milieu présententlibre dans le milieu présententun biais d’usage du code plus marqué que les nématodes parasites d’hôtes.
Facteurs responsables du biais d’usage du code
Biais mutationnelSélection traductionnelle
18
Biais de composition associé au biais mutationnel AT/GC identique pour toutes les régions génomiques codantes ou non codantes,
Conclusion : Modèle neutre de l’évolution du GC
toutes les régions génomiques codantes ou non codantes, Pas de lien avec le niveau d’expression des gènes, Taux de mutation différentiel selon la nature des bases – patron de
mutation biaisé AT/GC, Patron de substitution identique au patron de mutation, Biais d’usage du code (GC3s/AT3s) est lié au biais mutationnel (AT/GC), Le biais peut impacter la composition en AA dans les régions où la
i i GC êcomposition en GC est extrême, Evolution sous le modèle neutre lorsque Ne faible
Conclusion : Pression de sélection Conséquence en terme de GC
Fixation des mutations AT/GC biaisée soit pour l’ensemble du génome (procaryote) soit localement (eucaryote supérieur),
P d b i i diffè d d i (à l’é ilib ) Patron de substitution diffère du patron de mutation (à l’équilibre), Biais de composition AT/GC diffère pour les régions génomiques sous
sélection et celles qui ne sont pas sous sélection (biais mutationnel) Taux de substitution silencieux (position III, intron, intergénique) différe du
taux de mutation (sel. Purificatrice /sel. Adaptative), Si sélection traductionnelle, le biais d’usage du code (GC3s/AT3s) diffère
de la composition en AT/GC des régions non codantes, Si sélection traductionnelle, lien fort entre le biais d’usage du code et le
niveau d’expression des gènes (également avec la fréquence des ARNt majoritaires)
Conclusion : modèle non sélectif de l’évolution du GC : le gBGC
Fixation des mutations AT/GC biaisée dans les régions fortement birecombinantes,
les allèles GC ont une plus grande probabilité de se fixer que les allèles AT), La dynamique de fixation des allèles avec le BGC est identique à celui de la
sélection directionnelle, La dynamique de fixation dépend de la taille efficace Ne, le taux de
recombinaison r, le système de reproduction et la valeur du biais de réparation b,
Le gBGC induit un enrichissement en GC dans les régions codantes et non codantes fortement recombinante.
MODÈLES SÉLECTIONNISTE ET NEUTRALISTE
Escherichia coli
Génomes sous pression de sélection
Escherichia coliBacillus subtilisSaccharomyces cerevisiaeSchizosaccharomyces pombeDictyostelium discoideumDrosophila melanogasterCaenorhabditis elegansArabidopsis thaliana
l lGénomes sous évolution neutre
Mycoplasma capricolumMicrococcus luteus
Streptomyces spHomo sapiensMus musculus
Gallus gallus
19