universite rennes 1 ufr sciences de la vie et de l ... · étroitement apparentés, cette...

24
UNIVERSITE RENNES 1 UFR Sciences de la vie et de l’environnement MASTER SCIENCES TECHNOLOGIE SANTE MENTION ECOLOGIE - ENVIRONNEMENT RAPPORT BIBLIOGRAPHIQUE DE MASTER II RECHERCHE Spécialité écologie fonctionnelle, comportementale et évolutive METHODES D’ANALYSE EN PHYLOGEOGRAPHIE : OU EN EST-ON ? Emilien Voldoire Maîtres de stage : Eric Petit et Sylvain Fournet STAGE EFFECTUE A L’UNITE MIXTE DE RECHERCHE BIO3P Biologie des organismes et des populations appliquée à la protection des plantes Institut National de la Recherche Agronomique (INRA) Domaine de la Motte 35653 Le Rheu cedex Année universitaire 2009-2010

Upload: lytuong

Post on 15-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSITE RENNES 1

UFR Sciences de la vie et de l’environnement

MASTER SCIENCES TECHNOLOGIE SANTE MENTION ECOLOGIE - ENVIRONNEMENT

RAPPORT BIBLIOGRAPHIQUE DE MASTER II RECHERCHE

Spécialité écologie fonctionnelle, comportementale et évolutive

METHODES D’ANALYSE EN PHYLOGEOGRAPHIE : OU EN EST-ON ?

Emilien Voldoire

Maîtres de stage : Eric Petit et Sylvain Fournet

STAGE EFFECTUE A L’UNITE MIXTE DE RECHERCHE BIO3P

Biologie des organismes et des populations appliquée à la protection des plantes

Institut National de la Recherche Agronomique (INRA)

Domaine de la Motte

35653 Le Rheu cedex

Année universitaire 2009-2010

2

TABLE DES MATIERES

TABLE DES ABREVIATIONS 4

METHODES DE RECHERCHE BIBLIOGRAPHIQUE 5

I La phylogéographie : une discipline intégrative 7

(1) Acquisition des données moléculaires 8

(2) Les marqueurs multi-locus 9

II La phylogéographie selon Avise : une approche qualitative 10

III Une approche plus statistique: la « Nested Clade Phylogeographic Analysis » 12

(1) Construction d’un arbre d’haplotypes 12

(2) Construction d’une série de clades emboités 13

(3) Hypothèse nulle de non association géographique 15

IV Le coup de grâce de la « Nested Clade Phylogeographic Analysis »? 16

(1) Ambiguïté de la NCPA 16

(2) Faible performance de la NCPA dans des études de simulation 16

V Phylogéographie statistique : l’apport de la théorie de la coalescence 17

(1) La théorie de la coalescence 18

(2) L’approche du maximum de vraisemblance 19

(3) L’approche bayésienne 20

VI Bibliographie 22

3

TABLE DES ABREVIATIONS

ADN : Acide Désoxyribonucléique

ADNmt : Acide Désoxyribonucléique mitochondrial

ARN : Acide Ribonucléique

NCPA : Nested Clade Phylogeographic Analysis

RFLP : Restriction Fragment Length Polymorphism

MRCA : Most Recent Common Ancestor

TMRCA : Time to the Most Recent Common Ancestor

4

METHODES DE RECHERCHE BIBLIOGRAPHIQUE

La recherche bibliographique réalisée dans le cadre de ce travail est tout d’abord basée sur un

certain nombre de publications générales relatives au sujet et fournies par mes maîtres de

stage. La phylogéographie est une discipline intégrative, et ces premières publications traitent

de phylogénie, biologie des populations et biogéographie. Ainsi, j’ai désiré dans un premier

temps revoir les notions de base relatives à ces différents domaines, et ce à l’aide du réseau

d’enseignement en ligne GENET de Tours notamment. Dans un second temps, le travail de

recherche bibliographique s’est axé sur la phylogéographie en tant que tel et ses méthodes

d’analyse. Le moteur de recherche Web of Science® permet d’obtenir les travaux et revues du

sujet étudié. Les principaux mots clés utilisés ont été « Avise », « Templeton » et « Statistical

phylogeography » qui définissent de manière sous jacente les trois principales approches

méthodologiques en phylogéographie. En outre, le moteur de recherche Google a constitué

également une source d’information non négligeable pour ce travail de recherche

bibliographique.

5

6

I La phylogéographie : une discipline intégrative

La biogéographie tente d’identifier les processus environnementaux, biologiques et

historiques qui structurent la biodiversité à différentes échelles spatiales et temporelles, à

savoir les patrons de diversité des espèces. Une approche plus récente, la phylogéographie,

vient se placer dans cet espace scientifique, en intégrant une dimension phylogénétique. Ainsi,

selon Avise (Avise et al., 1987), le terme phylogéographie signifie simplement l’étude des

relations phylogénétiques entre divers groupes, notamment au niveau intraspécifique, et de

leur distribution géographique. Cette discipline opère une synthèse entre la phylogénie, la

génétique des populations et la biogéographie plus traditionnelle, et essaie de déterminer les

événements historiques (processus générateurs de biodiversité) qui ont eu un impact sur la

distribution et la structure génétique des populations actuelles.

Le terme phylogéographie est apparu pour la première fois dans un compte rendu de

séminaire écrit par Avise et ses collègues (Avise et al., 1987). Ces derniers désirent souligner

la relation étroite qui existe entre génétique des populations et phylogénie, alors très peu

considérée à l’époque de la publication : les processus de microévolution opérant au sein des

espèces peuvent expliquer les différences macroévolutives entre espèces ou taxons supérieurs.

Aujourd’hui, le lien entre ces deux disciplines semble évident avec le développement au cours

de ces dernières années d’approches rétrospectives en génétique des populations, notamment

avec la théorie de la coalescence.

Il est important de préciser dès à présent la place de la phylogéographie en sciences et de

présenter par là même les différents domaines exploités dans cette discipline (Avise, 2009).

Dans les années qui précèdent l’apparition de la phylogéographie (antérieures aux années

1980), peu de communication existe alors entre les biologistes qui étudient les processus

génétiques au niveau intraspécifique (microévolution) et ceux qui analysent les profils

génétiques supraspécifiques (macroévolution). Le premier domaine concerne la génétique des

populations qui a pour objectif, selon une approche prospective, d’étudier la variabilité

génétique (ou diversité génétique) présente dans et entre les populations via la mesure des

fréquences alléliques d’un même gène (conséquence des mutations, dérive génétique, flux de

gène, sélection naturelle et sexuelle). Le second constitue la phylogénétique qui étudie les

relations de parenté entre individus d’espèces distinctes. Elle nourrit ainsi la systématique et

les études sur la spéciation qui impliquaient des études sur des individus vivants ou disparus

(fossiles) et ne faisaient que faiblement appel à la génétique des populations avant les travaux

d’Avise. Ainsi, dans la mesure où la phylogéographie étudie essentiellement des individus

7

étroitement apparentés, cette discipline peut être considérée, outre la biogéographie, comme

une branche de la génétique des populations.

(1) Acquisition des données moléculaires

Pour déterminer les relations phylogénétiques inter- ou intra-spécifiques, l’approche

moléculaire présente l’avantage de générer un grand nombre de caractères variables. En outre,

ces caractères sont supposés être indépendants des conditions environnementales, et

l'évolution peut avoir été suffisamment régulière pour qu'il soit possible de calibrer une

"horloge moléculaire" afin de dater les événements de divergence. L’essentiel du

développement de la phylogéographie est consécutive aux nombreuses études portées sur les

données génétiques mitochondriales. En effet, l’ADN mitochondrial (ADNmt) constitue

depuis ces trois dernières décennies une source d’information essentielle en écologie

moléculaire et en phylogéographie. La mitochondrie offre nombre d’opportunités et avantages

pour les études de biologie évolutive.

La biologie de la mitochondrie permet de comprendre en quoi l’ADN mitochondrial est une

molécule singulière pourvue de caractéristiques propres à l’étude de l’histoire évolutive des

espèces (Ballard et al., 2004). Cet organite possède un petit génome – environ 17000 paires

de base chez les métazoaires – circulaire et double brin. On dénombre au total 37 gènes

codant des ARN de transfert (22 gènes), des ARN ribosomiques (2 gènes) et des protéines

impliquées dans la phosphorylation oxydative (13 gènes dont le cytochrome b).

Le génome mitochondrial diffère du génome nucléaire par de nombreux points qui affectent

substantiellement son évolution. Ainsi, d’un part, plusieurs facteurs contribuent à une

évolution rapide de l’ADNmt (mutagenèse) : mécanismes de réparation de l’ADN peu

efficaces au sein de la mitochondrie, exposition à un environnement oxydant (respiration

cellulaire) ou encore absence de protéines d’habillage (histones) de la molécule d’ADN.

L’évolution rapide du génome mitochondrial se traduit par une variation élevée des séquences

nucléotidiques de l’ADNmt, prérequis favorable pour l’analyse phylogéographique, qui

nécessite d’établir les liens de parenté entre individus de la même espèce.

La seconde propriété importante qui distingue l’ADNmt réside dans le mode de transmission

maternel de ce dernier : le cytoplasme du zygote contenant le génome mitochondrial est issu

de la mère. La transmission maternelle de l’ADNmt est analogue à celle du nom de famille

dans les sociétés humaines (Avise, 1998). La progéniture des deux sexes hérite des

mitochondries de la mère mais seulement les filles les transmettront aux générations futures.

8

Cette transmission uniparentale est haploïde et asexuée. Le génotype mitochondrial peut en

cela être considéré comme un haplotype qui diffère d’un autre haplotype par des mutations

particulières accumulées depuis le dernier ancêtre commun partagé. Ainsi, seules les

mutations (le processus de recombinaison homologue étant absent) sont à l’origine de la

diversité génétique du génome mitochondrial. D’autre part, la variation génétique du

marqueur moléculaire ADNmt peut être considérée comme neutre, la majorité des mutations

étant silencieuses et par là même sans effet sur la fitness des individus. Généralement, sous

l’effet de la dérive génétique, l’extinction stochastique d’une lignée mitochondriale au sein

d’une population se produit rapidement. Cependant, au moins une lignée ADNmt est retenue

dans chaque population au cours de l’évolution (Avise et al., 1987). Les scientifiques peuvent

utiliser ces séquences haplotypiques pour estimer l’histoire maternelle des populations.

Finalement, le rapide taux de mutation associé à une héritabilité maternelle sans

recombinaison font de l’ADNmt un marqueur simple-locus idéal pour les analyses

phylogénétiques.

(2) Les marqueurs multi-locus

Cependant, l’histoire d’un marqueur simple-locus ne correspond pas toujours à l’histoire

évolutive des populations. Chaque gène a une histoire évolutive unique déterminée par les

processus de mutation, recombinaison, flux de gènes, dérive et sélection, qui peuvent induire

des différences de généalogie entre gènes issus d’une même population. Par ailleurs, les

caractères strictement neutre et clonal de la mitochondrie sont régulièrement, et à juste titre,

remis en cause (Ballard & Whitlock, 2004 ; Galtier et al. 2009). Les distorteurs méiotiques

par exemple peuvent avoir un impact sur l’évolution du génome mitochondrial. Ainsi, on

observe que les conflits génétiques peuvent moduler les fréquences haplotypiques d’une

population en exerçant une sélection indirecte. Il existe également des effets de sélection

directe du fait de l’importance fonctionnelle de la mitochondrie.

Des avancées importantes en phylogéographie peuvent être réalisées à partir du génome

nucléaire. L’idée est de déterminer les généalogies de gènes issus de multiples loci

indépendants (marqueurs multi-locus) pour établir des concordances généalogiques entre ces

loci et ainsi préciser l’histoire évolutive de chaque espèce. En effet, un avantage évident de

faire des études de plusieurs loci est justement de pouvoir distinguer les effets

démographiques, qui affectent tous les gènes de la même manière, des effets de la sélection,

qui sont différents pour chaque gène.

9

II La phylogéographie selon Avise : une approche qualitative

La phylogéographie développe de nombreuses hypothèses évolutives pour étudier l’histoire

des liens de parentés entre des lignées généalogiques de populations intégrées dans une

dimension spatiale. La plupart des modèles évolutifs attribuent un rôle majeur à la

fragmentation des aires de distribution (vicariance), conséquence notamment des

changements paléo-environnementaux liés aux mouvements tectoniques (Picard et al., 2008)

et aux oscillations climatiques (Comes & Kadereit, 1998). L’isolement est associé à une

rupture du flux génique engendrant une différenciation des populations concernées.

L’expansion de l’aire de distribution d’une population constitue un autre modèle évolutif très

souvent évoqué en phylogéographie. La dispersion peut quant à elle être associée à un effet de

fondation (lié à l’effet bottleneck ou goulot d’étranglement). Enfin, cette discipline étudie en

premier lieu la distribution de la diversité biologique mais peut constituer également une

source d’information sur les événements de spéciation.

Les premières études en phylogéographie s’intéressent à établir de simples inférences

qualitatives de l’histoire démographique des taxons étudiés, par superposition de l’arbre

haplotypique avec la géographie de l’échantillonnage des haplotypes (carte géographique des

haplotypes). Une telle superposition d’arbres haplotypiques sur une carte de distribution

permet en effet de mettre en évidence des unités géographiques et des échanges entre

localités. Cette première approche en phylogéographie est souvent associée à des statistiques

peu développées. A l’échelle intraspécifique, Avise et al. (1987) définissent cinq catégories

phylogéographiques en fonction de l’adéquation entre diversité génétique et distribution

géographique. Chaque catégorie peut être caractérisée par une ou plusieurs interprétations

évolutives. La catégorie V est difficile à distinguer des catégories III et IV car il s’agit en fait

d’un continuum (tableau I).

Une étude réalisée sur le nématode à kyste Globodera pallida dans les Andes péruviennes par

Picard et al. (2007, 2008) permet d’illustrer l’approche qualitative en phylogéographie. Les

auteurs ont reconstruit l’histoire évolutive de cette espèce en déterminant les variations

génétiques d’un marqueur mitochondrial (cytochrome b) et de marqueurs nucléaires

d’individus échantillonnés le long de la Cordillère des Andes. La superposition de la

phylogénie et de la géographie des marqueurs révèle l’existence de cinq clades

monophylétiques, du plus ancestral (I) au Sud, au plus récent (V) au Nord (figure 1). La

phylogéographie de Globodera pallida suggère une expansion de la population du Sud vers le

Nord, probablement médiée par le soulèvement de la Cordillière des Andes.

10

Tableau I : Les cinq catégories phylogéographiques selon Avise et al. (1987)

Distribution

géographique Catégorie Diversité génétique Circonstances évolutives

- Barrière extrinsèque (géographique) à long terme plusieurs

I disjointes - flux génique limité et extinction des clades divergents

haplotypes intermédiaires

- zone de contact récente ou secondaire plusieurs

II - barrière intrinsèque (reproduction) entre espèces sœurs

sympatriques

recouvrantes clades divergents

un seul clade ou des

clades peu divergents

- flux génique limité sans barrière III disjointes

géographique à long terme

un seul clade ou des

clades peu divergents

- flux génique important et absence de IV recouvrantes

barrière géographique à long terme

- flux génique intermédiaire et absence de un seul clade ou des

clades peu divergents V imbriquée

barrière géographique à long terme

Figure 1 : Phylogéographie de Globodera pallida, au niveau des Andes péruviennes, basée sur le marqueur

mitochondrial (a) et les marqueurs nucléaires (b). La carte indique les limites géographiques des cinq clades (I à

V du sud au nord) le long de la Cordillière des Andes. Les astérisques symbolisent les haplotypes

mitochondriaux localisés en dehors de leur clade d’origine (Picard et al., 2007).

11

III Une approche plus statistique : la « Nested Clade Phylogeographic Analysis »

Templeton observe assez rapidement qu’il est nécessaire que les études phylogéographiques

soient combinées à des inférences statistiques (Templeton et al., 1995). L’approche proposée

par Templeton est basée sur une méthode cladistique destinée à analyser un arbre

d’haplotypes obtenu par une étude phylogéographique. D’autres approches reposent quant à

elles sur la théorie de la coalescence et seront développées plus tard dans ce rapport.

Ainsi, l’histoire évolutive des populations peut être appréhendée par une analyse des

groupements imbriqués ou « Nested Clade Phylogeographic Analysis » (NCPA, Templeton,

1998). Cette méthode cherche à discriminer, selon une approche statistique, les processus

historiques qui ont potentiellement influencé la distribution géographique des haplotypes. En

effet, selon Templeton et ses collaborateurs (Templeton et al., 1995), la superposition de

l’arbre des haplotypes et de leur distribution géographique, qui constitue la phylogéographie

intraspécifique de Avise et al. (1987), doit être mise à profit pour déterminer les causes d’une

telle correspondance entre phylogénie et géographie. L’analyse se décompose en trois étapes :

(1) construction d’un arbre d’haplotypes (ou réseau haplotypique) par la méthode de

parcimonie statistique, (2) conversion de cet arbre d’haplotypes en une série de groupements

(clades) emboîtés en suivant un algorithme d’emboîtement (Templeton et al., 1987) et (3) test

de permutation pour évaluer l’hypothèse nulle de non association entre les clades et les

localisations géographiques, celles-ci étant définies en terme de distances entre localités, puis

détermination via une clé d’inférence du scénario évolutif associé. L’analyse des groupements

imbriqués (NCPA) constitue une approche très populaire en phylogéographie pour

reconstituer l’histoire démographique de populations à partir de données génétiques.

Nous avons choisi une étude phylogéographique réalisée par Branco et al. (2000, 2002) sur le

Lapin d’Europe (Oryctolagus cuniculus) en Espagne pour illustrer les étapes méthodologiques

et les objectifs de cette approche. Dans cette étude, les variations génétiques entre les

séquences haplotypiques mitochondriales (cytochrome b), issues des différents points

d’échantillonnage de la péninsule ibérique, sont déterminées par RFLP (Analyse du

polymorphisme de longueur de fragments de restriction).

(1) Construction d’un arbre d’haplotypes

Les arbres d’haplotypes représentent les liens de parentés entre différentes séquences d’ADN

non recombinantes (haplotypes). La construction d’arbres présentant des multifurcations

résulte du fait que les haplotypes ancestraux sont encore présents et qu’ils coexistent avec de

12

nombreux haplotypes dérivés (Posada & Crandall, 2001). Il est important de comprendre

qu’au niveau supraspécifique, les phylogénies peuvent être construites grâce aux méthodes

classiques (phénétiques ou cladistiques) car les différences entre taxons sont généralement

nombreuses et bien définies, tandis qu’au niveau intraspécifique, les variations génétiques

sont peu nombreuses et les méthodes traditionnelles ont alors un faible pouvoir de résolution.

Il est alors judicieux de construire un « arbre des haplotypes », c’est-à-dire un arbre

généalogique reliant les haplotypes les plus proches entre eux, plutôt qu’un arbre

phylogénétique (Crandall & Templeton, 1996).

Les arbres des haplotypes peuvent être construits selon la méthode de parcimonie statistique

(Templeton et al., 1992). Le programme TCS (Clement et al., 2000) calcule le nombre

maximum de mutations autorisé pour que la connexion entre deux séquences haplotypiques

soit considérée comme parcimonieuse avec une probabilité supérieure à 95%. Ainsi, un ou

plusieurs réseaux parcimonieux d’haplotypes sont générés selon qu’il existe ou non des

haplotypes dont la connexion ne peut se faire sans excéder cette valeur seuil. La valeur seuil

peut aussi être définie par l'utilisateur afin de considérer des connexions non parcimonieuses.

L'haplotype ancestral est désigné au moyen d'un algorithme qui affecte à chaque haplotype

une probabilité que celui-ci soit ancestral, en se basant sur trois hypothèses : (1) les

haplotypes intérieurs à l'arbre ont plus de chance d'être ancestraux que les haplotypes situés

en périphérie, (2) la fréquence des haplotypes est un indicateur de leur probabilité d'être

ancestraux, (3) les haplotypes intérieurs à l'arbre ont une probabilité d'autant plus élevée d'être

ancestraux qu'ils sont plus fréquents ou reliés à des haplotypes fréquents (Crandall &

Templeton, 1996). La figure 2 présente (a) l’arbre d’haplotypes obtenu par la méthode de

parcimonie statistique pour le Lapin d’Europe dans la péninsule ibérique ainsi que (b) sa

superposition avec la géographie de l’échantillonnage des haplotypes mitochondriaux (Branco

et al., 2000). Cette étude met en évidence deux lignées ADNmt majeures A et B chez

Oryctolagus cuniculus, associées à une distribution géographique très structurée.

(2) Construction d’une série de clades emboités

Un algorithme d’emboîtement permet de convertir les arbres d’haplotypes en une série de

clades emboités (Templeton et al., 1987). L’objectif de cet emboîtement est de hiérarchiser

des groupes d’haplotypes apparentés. Ainsi, à partir de l’arbre d’haplotypes précédent, Branco

et al. (2002) construisent la série de clade en considérant dans un premier temps chacun des

38 haplotypes comme une unité.

13

Figure 2 : (a) Représentation sous forme d’arbre d’haplotypes des liens de parenté entre 38 séquences haplotypiques mitochondriales (cytochrome b) chez Oryctolagus cuniculus. La taille des cercles est proportionnelle au nombre d’individus et les points noirs symbolisent les haplotypes intermédiaires potentiels. Les 38 haplotypes appartiennent à deux lignées majeures A et B séparées par 14 pas de mutation. (b) Distribution géographique des lignées A et B dans la péninsule ibérique. Cette phylogéographie montre une forte localisation des lignées A et B respectivement au Sud-Ouest et Nord-Est de l’Espagne (Branco et al., 2000).

Figure 3 : Série de clades emboités des haplotypes mitochondriaux trouvées chez Oryctolagus cuniculus. Les « 0 » désignent les haplotypes intermédiaires non détectés. Chaque trait plein correspond à un pas de mutation. Les boîtes représentent les différents niveaux de clades (1-x et 2-x), où x est le numéro assigné au clade. Le trait vertical sépare les clades supérieurs 3-1 et 3-2 correspondant aux lignées A et B (Branco et al., 2002).

14

Les haplotypes qui différent par un seul pas de mutation (une mutation) sont regroupés dans

un clade de niveau supérieur (1-x), eux même constituant les unités du clade supérieur (2-x)

(figure 3). Enfin, la série de boîtes imbriquées est groupée en deux clades 3-1 et 3-2

correspondant aux deux lignées A et B, séparées par 14 pas de mutation. Le cladogramme

obtenu représente les différents clades d’haplotypes interconnectés et imbriqués en fonction

de leur degré d’apparentement.

(3) Hypothèse nulle de non association géographique

Pour chacun des clades regroupant des haplotypes distincts issus de localités distinctes, le

programme Geodis (Posada et al., 2000) teste l’existence d’une association géographique

significative entre les haplotypes qui le composent. Ce programme calcule les distances

géographiques moyennes entre clades constituant le clade analysé (Dn) et entre clade de rang

inférieur eux-mêmes emboîtés dans les clades constituant le clade analysés (Dc), et il évalue

leur significativité. Les résultats significatifs sont ensuite interprétés à l’aide d’une clé

d’inférence pour mettre en évidence d’éventuels événements de fragmentation ou d’expansion

de l’aire de distribution, estimer le rôle des flux de gène et déterminer si l’échantillonnage est

suffisant. La clé d’inférence fournit des indications tel que :

12 Are the Dn values significantly reversed from the Dc values ?

‐ No – contiguous range expansion

‐ Yes – go to step 13

Les résultats de l’étude sur le Lapin d’Europe en Espagne montrent d’une part une forte

association entre clades et localisation géographique (hypothèse nulle rejetée). D’autre part, la

NCPA suggère que la fragmentation des aires de distribution (respectivement clade A au Sud-

Ouest et clade B au Nord-Est) est consécutive à un flux de gène limité, associé à une isolation

géographique. L’inférence ici déterminée supporte l’hypothèse d’une isolation allopatrique à

long terme lors de la dernière glaciation (théorie des refuges) suivie d’une dispersion post-

glaciaire.

15

IV Le coup de grâce de la « Nested Clade Phylogeographic Analysis » (Petit, 2008) ?

Au cours de ces dernières années, cette méthode, qui utilise des clés d’inférence pour

déterminer des événements historiques associés à une distribution géographiques des

populations, devient la cible de nombreuses critiques (Knowles & Maddison, 2002 ; Planchal

& Beaumont, 2007 ; Petit, 2008 ; Nielsen & Beaumont, 2009).

(1) Ambiguïté de la NCPA

Une des premières difficulté rencontrée avec la NCPA est due aux choix méthodologiques

subjectifs que doit faire l’utilisateur au cours des différentes étapes (Nielson & Beaumont,

2009). Ainsi, la présence d’homoplasies potentielles (convergences) entre haplotypes rend la

construction de l’arbre d’haplotypes délicate. En effet, la plupart des séquences haplotypiques

ne donneront pas forcement un unique arbre parcimonieux avec la méthode de parcimonie

statistique. D’autre part, la construction de la série de clades emboîtés est également sujette à

l’interprétation subjective et incertaine de l’utilisateur (Planchal & Beaumont, 2007). Enfin,

l’ambiguïté majeure selon Nielson & Beaumont (2009) réside dans la consultation puis

l’interprétation de la clé d’inférence. Ainsi, les inférences ne prennent pas en compte la

stochasticité des données génétiques résultant de l’échantillonnage et les événements

historiques inférés correspondent uniquement aux données choisies par l’utilisateur.

(2) Faible performance de la NCPA dans des études de simulation

Deux études indépendantes basées sur des données simulées mettent en évidence le problème

des faux-positifs obtenus avec la méthode NCPA. D’une part, Knowles & Maddison (2002)

montrent des erreurs d’inférence obtenues à partir de données simulées (trois populations

subdivisées par deux événements de vicariances séquentiels et issues d’une population

ancestrale commune). Ainsi, bien que la NCPA détecte une association géographique

significative pour les données génétiques fournies, il détermine rarement la cause sous-jacente

correcte de cette distribution, à savoir le scénario de fragmentation allopatrique. D’autre part,

Planchal & Beaumont (2007) ont voulu déterminer la capacité de la méthode NCPA à rejeter

l’hypothèse nulle de non association géographique sur une ensemble de données dépourvues

de structure génétique spatialement distribuées. Les auteurs ont pour ce faire automatisé

l’ensemble du processus d’inférence NCPA (les trois étapes décrites plus haut), palliant ainsi

au problème de subjectivité de la méthode pour leur étude. Les résultats, en accord avec ceux

16

de Knowles & Maddison (2002), montrent que la NCPA conduit très fréquemment à des faux-

positifs. En effet, 75% des données aléatoires fournit au NCPA automatisé ont une inférence

incorrecte pour un événement historique, essentiellement un flux de gène limité associé à une

isolation géographique, ou une expansion démographique contiguë. Il est intéressant de

remarquer que ces deux inférences sont celles qui sont les plus communément rencontrées

dans les travaux publiés utilisant la NCPA à partir de données réelles.

En revanche, les études empiriques réalisées avec la NCPA fournissent souvent des résultats

en accord avec d’autres approches, notamment celles basées sur la théorie de la coalescence.

Il existe deux explications possibles pour comprendre cette contradiction entre résultats sur

données simulées et données empiriques (Nielsen & Beaumont, 2009). D’une part, il est

possible que des données réelles soient plus adaptées pour la NCPA et en cela moins sujettes

à fournir des faux-positifs. Ainsi, par exemple, les histoires démographiques résultant de

bottlenecks séquentiels peuvent conduire à un fort signal au sein de l’arbre d’haplotypes plus

facilement détectable par la NCPA. D’autre part, le caractère subjectif inhérent à cette

méthode peut conduire le chercheur à retrouver des résultats qui coïncident avec d’autres

approches (« effet Barnum »). Il faut remarquer ici que la NCPA n’est pas la seule méthode

sujette à des interprétations subjectives. Cependant, les nombreux débats sur la méthode

NCPA au cours de ces dernières années sont certainement dus à un développement nécessaire

de la phylogéographie et orienté vers un cadre statistique plus rigoureux, tenant compte de la

stochasticité inhérente aux processus évolutifs.

V Phylogéographie statistique : l’apport de la théorie de la coalescence

En phylogéographie conventionnelle, les processus démographiques historiques sont inférés à

partir de la distribution géographique des individus, représentés sous forme d’un arbre

d’haplotypes. Cependant, l’interprétation d’un tel arbre peut être difficile dans la mesure où

un même événement démographique ou géographique peut conduire de manière stochastique

à de multiples généalogies différentes. Ainsi, un même arbre d’haplotypes peut être le fruit de

différentes histoires évolutives. Ce problème conduit à l’émergence de nombreuses méthodes

statistiques pour réaliser des inférences phylogéographiques, basées sur la théorie de la

coalescence. La coalescence apporte un aspect quantitatif aux études phylogéographiques

(estimation de paramètres) alors quasi-inexistant chez Avise ou avec la NCPA de Templeton.

L’approche populaire qui consiste en une analyse des groupements imbriqués ou « Nested

Clade Phylogeographic Analysis » est ainsi concurrencée par ces nouvelles méthodes,

17

essentiellement en raison de la non prise en compte du caractère stochastique des processus

génétiques pour les inférences démographiques.

(1) La théorie de la coalescence

L’approche classique de la génétique des populations est essentiellement prospective et

consiste à essayer de prédire, à l’échelle d’une population entière, l'évolution du

polymorphisme génétique sous l'influence de différentes forces évolutives. Une approche

rétrospective en génétique des populations peut être également envisagée depuis quelques

années suite à l’émergence de la théorie de la coalescence (Kingman, 1982).

La théorie de la coalescence a pour objet l’étude des propriétés de la généalogie d’une série de

copies de gènes (ou haplotypes) échantillonnés au présent en remontant dans le passé jusqu’à

leur ancêtre commun le plus récent MRCA (Most Recent Common Ancestor). Un événement

de coalescence a lieu quand on retrouve, en remontant dans le passé, un individu qui a

transmis au moins deux copies d’un même gène à des descendants distincts. Après chaque

coalescence, le nombre de lignée diminue d’une unité. Il est donc possible de continuer ce

processus jusqu’au moment où il n’existe plus qu’une seule lignée, le MRCA. Le temps qui

s’écoule du présent jusqu’au MRCA est appelé TMRCA (Time to the Most Recent Common

Ancestor). Lorsque n copies de gènes sont échantillonnés, n-1 événements de coalescence ont

lieu. A la fin du processus, un arbre de coalescence est constitué, dont la racine est le MRCA

et les branches terminales sont les gènes échantillonnés.

La généalogie d’un gène sélectivement neutre dépend uniquement de l’histoire

démographique de la population dans laquelle il se trouve et en cela est complètement

indépendant du processus de mutation. L’étude de nombreuses généalogies de gènes neutres

permet donc de faire des inférences sur l’histoire démographique de la population dans

laquelle ils sont échantillonnés. C’est ainsi que l’histoire démographique n’est pas

directement inférée à partir d’un arbre d’haplotypes mais indirectement via la théorie de la

coalescence qui permet de construire des modèles à partir desquels on peut estimer différents

paramètres démographiques. Ces paramètres sont, par exemple, le TMRCA, la taille efficace,

le taux de migration, ou encore le taux d’expansion. Ces modèles offrent un cadre temporel

aux études phylogéographiques en intégrant dans la topologie des arbres une proportionnalité

entre longueur des branches et temps : la théorie de la coalescence nous enseigne par exemple

que le temps de coalescence moyen de deux copies de gène est égal à 2N, N étant l’effectif de

la population. La calibration des longueurs de branches peut se faire grâce à l’horloge

18

moléculaire (on utilise alors le polymorphisme génétique des marqueurs moléculaires étudiés)

mais peut aussi intégrer des informations géologiques (fossiles, mouvements tectoniques,

paléoclimat) et ainsi donner un cadre temporel aux inférences allouées aux mouvements des

populations dans l’espace (Ree & Sanmartin, 2009).

Des méthodes statistiques sont utilisées en phylogéographie pour faire des inférences basées

sur la théorie de la coalescence. Le but de ces méthodes est de pouvoir estimer certains

paramètres démographiques ou génétiques grâce à la théorie de la coalescence et à partir de

l’observation de polymorphisme dans des populations. En effet, la généalogie d’un gène ne

peut jamais être connue directement, mais elle peut être approchée par la phylogénie des

séquences échantillonnées. Deux grandes approches sont utilisées.

(2) L’approche du maximum de vraisemblance

Une première méthode d’inférence consiste à chercher quelles sont les valeurs des différents

paramètres qui maximisent la vraisemblance des données pour un modèle donné. Dans le

cadre d’une étude phylogéographique, les données (notées X) sont les différents haplotypes et

leurs fréquences respectives déterminés au sein de l’échantillon étudié tandis que les

paramètres d’intérêt présentés plus haut sont notés Θ. La théorie de la coalescence est mise à

profit pour obtenir les paramètres démographiques. Mathématiquement, la vraisemblance est

notée p(X I Θ) ou « I » signifie « conditionnellement à », c’est à dire que la probabilité est

calculée en tenant compte des valeurs des paramètres. Les valeurs des paramètres retenus sont

celles qui maximisent la vraisemblance des données (Nielsen & Beaumont, 2009).

Les travaux de Lemmon & Lemmon (2008) sur une espèce de Rainette faux-grillon

(Pseudacris feriarum) en Amérique du Nord nous permettent d’illustrer l’approche du

maximum de vraisemblance en phylogéographie. Cette espèce contient un premier clade

distribué sur la côte Est américaine (Est des Appalaches) et un second clade continental

présent à l’Ouest des Appalaches, tous deux associés au même type d’habitat. L’étude des

changements climatiques au cours de ces 10000 dernières années suggère un déplacement

vers le Nord de l’habitat côtier (et un habitat continental relativement stable). Lemmon &

Lemmon (2008) supposent ainsi une expansion récente spécifique au clade côtier vers le

Nord, le long de la côte Est américaine. Les auteurs développent un modèle stochastique de

migration dans un paysage continu qui présuppose une migration dans des directions et à des

distances aléatoires à chaque génération. Dans ce modèle phylogéographique spatialisé, les

paramètres sont, entre autres, la distance de dispersion Ψ (normalisée par le temps de

génération) et les coordonnées géographiques (latitude et longitude) de l’ancêtre commun du

19

clade. Dans un premier temps, les auteurs suggèrent une distance de dispersion Ψ plus grande

pour le clade côtier (en raison d’une expansion récente médiée par les changements

climatiques). Les valeurs de Ψ qui maximisent la vraisemblance des données sont

respectivement égales à 174,31 mètre (par génération) pour le clade côtier et 113,50 mètre

(par génération) pour le clade continental. Ces résultats semblent confirmer l’hypothèse

d’une distribution plus stable des membres du clade continental que de ceux du clade côtier au

cours de ces 10000 dernières années. Dans un second temps, les auteurs cherchent à localiser

l’ancêtre commun pour chacun de ces deux clades. Ils supposent pour le clade côtier une

position non centrée de l’ancêtre commun sur l’aire de distribution actuelle en raison de la

récente expansion. En effet, dans l’hypothèse d’un tel scénario démographique, les

coordonnées géographiques de l’ancêtre commun sont normalement situées au centre de

l’ancienne aire de distribution du clade, avant que toute expansion n’ait eu lieu. La figure 4

montre les coordonnées de l’ancêtre commun, déterminées par le modèle, qui maximisent la

vraisemblance des données, respectivement pour (a) le clade côtier et (b) le clade continental

de Pseudacris feriarum. On observe que l’ancêtre commun du clade côtier n’est pas localisé

au centre de l’aire de distribution actuelle (P = 0,0060) contrairement aux coordonnées de

l’ancêtre commun du clade continental, qui ne sont pas significativement différentes de C (P

= 0,7194). Ces résultats supportent l’hypothèse d’une expansion récente des membres du

clade côtier en raison d’un déplacement de leur habitat au cours de ces 10000 dernières

années.

(3) L’approche bayésienne

Une deuxième stratégie consiste à calculer la probabilité d’observer telle ou telle valeur de

paramètre conditionnellement aux données. Il s’agit de l’approche bayésienne, qui nécessite,

et c’est une différence fondamentale entre les deux méthodes, l’introduction de probabilités a

priori sur les valeurs des paramètres. L’inférence bayésienne consiste donc à combiner deux

sources d’information : une information apportée par les données (via l’expression d’une

vraisemblance) mais également une information a priori sur les paramètres, afin d’obtenir la

distribution a posteriori des paramètres à estimer (Nielsen & Beaumont, 2009). Les

informations a priori sont les données paléo-environnementales, fossiles ou encore

palynologiques qui fournissent des indications sur les phénomènes historiques qui ont pu

affecter une population (glaciations, orogenèse, perturbation de l’habitat) ainsi que sur

l’époque de ces différents événements (Hickerson et al., 2010).

20

Figure 4 : Estimation par l’approche du maximum de vraisemblance de la localisation géographique de l’ancêtre

commun du clade (a) côtier et (b) continental de Pseudacris feriarum. Les petits cercles vides indiquent les

différents points d’échantillonnage. L’étoile symbolise le maximum de vraisemblance quant à la localisation de

l’ancêtre commun pour chaque clade, et le trait discontinu représente l’enveloppe à 95% de cette position (toute

position en dehors de cette enveloppe a une vraisemblance significativement plus mauvaise que celle de la

position indiquée par l’étoile). C indique le centre actuel de l’aire de distribution des membres de chaque clade

(délimitée par un trait plein). S et T localisent les refuges de la Caroline du Sud et de la Vallée du Tennessee,

respectivement (non traité dans ce rapport) (Lemmon & Lemmon, 2008).

Deux décennies après Avise et al. (1987), la phylogéographie entre dans un nouvel espace

scientifique très prometteur. Ainsi, cette discipline, dans un premier temps très descriptive,

subit actuellement une profonde mutation avec l’apport de la théorie de la coalescence, à

partir de laquelle sont développés des modèles et une inférence subséquente de l’histoire

démographique des populations grâce à des méthodes statistiques. Ces avancées

méthodologiques en phylogéographie sont néanmoins confrontées à de nombreux défis,

consécutifs notamment au nombre déroutant de scénarii démographiques potentiels sous-

jacents aux données génétiques (Hickerson et al., 2010). Ainsi, cette évolution de la

phylogéographie doit être accompagnée d’un développement de la technologie associée

(vitesse de calcul notamment) afin d’obtenir des modèles démographiques de plus en plus

réalistes (Nielsen & Beaumont, 2009).

21

VI Bibliographie

Avise J.C., Arnold J., Ball R.M., Bermingham E., Lamb T., Neigel J.E. et al. (1987) Intraspecific

phylogeography : the mitochondrial DNA bridge between population genetics and systematics. Annual

Review of Ecology, Evolution, and Systematics. 18 : 489-522

Avise J.C. (1998) The history and purview of phylogeography : a personal reflection. Molecular Ecology. 7 :

371-379

Avise J.C. (2009) Phylogeography : retrospect and prospect. Journal of Biogeography. 36 : 3-15

Ballard J.O.W. & Whitlock M.C. (2004) The incomplete natural history of mitochondria. Molecular Ecology.

13 : 729-744

Branco M., Ferrand N. & Monnerot M. (2000) Phylogeography of the European rabbit (Oryctolagus cuniculus)

in the Iberian Peninsula inferred from RFLP analysis of the cytochrome b gene. Heredity. 85 : 307-317

Branco M., Monnerot M., Ferrand N. & Templeton A.R. (2002) Postglacial dispersal of the european rabbit

(Oryctolagus cuniculus) on the iberian peninsula reconstructed from nested clade and mismatch

analyses of mitochondrial DNA genetic variation. Evolution. 56(4) : 792-803

Clement M., Posada D. & Crandall K.A. (2000) TCS : a computer program to estimate gene genealogies.

Molecular Ecology. 9(10) : 1657-1660.

Comes H.P & Kadereit J.W. (1998) The effect of Quaternary climatic changes on plant distribution and

evolution. Trends Plant Science. 3 : 432-438

Crandall K.A. & Templeton A.R. (1996) Applications of intraspecific phylogenetics. In Harvey P.H., Leigh

Brown A.J., Maynard Smith J. & Nee S., Eds. New Uses for New Phylogenies. Oxford University

Press. 81-99

Galtier N., Nabholz B., Glémin S. & Hurst G.D.D. (2009) Mitochondrial DNA as a marker of molecular

diversity : a reappraisal. Molecular Ecology. 18 : 4541-4550

Hickerson M.J., Carstens B.C., Cavender-Bares J., Crandall K.A., Graham C.H., Johnson J.B. et al. (2010)

Phylogeography’s past, present, and future : 10 years after Avise, 2000. Molecular Phylogenetics and

Evolution. 54 : 291-301

Kingman J.F.C. (1982) The coalescent. Stochastic Processes and Their Applications. 13 : 235-248

Knowles L.L. & Maddison W.P. (2002) Statistical phylogeography. Molecular Ecology. 11 : 2623-2635

Lemmon A.R. & Lemmon E.M. (2008) A likelihood framework for estimating phylogeographic history on a

continuous landscape. Systematic Biology. 57(4) : 544-561

Nielsen R. & Beaumont M.A. (2009) Statistical inferences in phylogeography. Molecular Ecology. 18 : 1034-

1047

Petit R.J. (2008) The coup de grâce for the nested clade phylogeographic analysis ? Molecular Ecology. 17 :

516-518

Picard D., Sempere T. & Plantard O. (2007) A northward colonisation of the Andes by the potato cyst nematode

during geological times suggests multiple host-shifts from wild to cultivated potatoes. Molecular

Phylogenetics and Evolution. 42 : 308–316

Picard D., Sempere T. & Plantard O. (2008) Direction and timing of uplift propagation in the Peruvian Andes

deduced from molecular phylogenetics of highland biotaxa. Earth and Planetary Science Letters. 271 :

326-336

22

Planchal M. & Beaumont M.A. (2007) The automation and evaluation of nested clade phylogeographic analysis.

Evolution. 61 : 1466-1480

Posada D., Crandall K.A. & Templeton A.R. (2000) GeoDis: A program for the cladistic nested analysis of the

geographical distribution of genetic haplotypes. Molecular Ecology. 9 (4) : 487-488.

Posada D. & Crandall K.A. (2001) Intraspecific gene genealogies : trees grafting into networks. Trend in

Ecology and Evolution. 16(1) : 37-45

Ree R.H. & Sanmartin I. (2009) Prospects and challenges for parametric models in historical biogeographical

inference. Journal of Biogeography. 36 : 1211-1220

Templeton A.R., Boerwinkle E. & Sing C.F. (1987) A cladistic analysis of phenotypic associations with

haplotypes inferred from restriction endonuclease mapping. I. Basic theory and an analysis of alcohol

dehydrogenase activity in Drosophila. Genetics. 117 : 343-351

Templeton A.R., Crandall K.A. & Sing C.F. (1992) A cladistic analysis of phenotypic associations with

haplotypes inferred from restriction endonuclease mapping and DNA sequence data. III. Cladogram

estimation. Genetics. 132 : 619-633

Templeton A.R., Routman E. & Phillips C.A. (1995) Separating population structure from population history : a

cladistic analysis of the geographical distribution of mitochondrial DNA haplotypes in the tiger

salamander, Ambystoma tigrinurn. Genetics. 140 : 767-782

Templeton A.R. (1998) Nested clade analyses of phylogeographic data : testing hypotheses about gene flow and

population history. Molecular Ecology. 7 : 381-397

23

RESUME

Il y a deux décennies, Avise et ses collaborateurs ont proposé le terme de phylogéographie

pour décrire l’étude des relations phylogénétiques entre divers taxons, notamment au niveau

intraspécifique, intégrée dans une dimension spatiale. Cette nouvelle discipline se place alors

à la jonction entre biogéographie, phylogénie et génétique des populations. Cette approche

qualitative est rapidement complétée par la méthode « Nested Clade Phylogeographic

Analysis » (NCPA) qui apporte un cadre plus statistique aux études phylogéographiques.

Ainsi, une telle évolution permet d’inférer les processus historiques qui ont potentiellement

engendré les correspondances observées entre phylogénie et géographie. Actuellement, la

NCPA est concurrencée par de nouvelles approches statistiques plus rigoureuses (maximum

de vraisemblance, approche bayésienne) basées sur la théorie de la coalescence, qui prennent

en compte la stochasticité des processus génétiques et permettent de faire des inférences

quantitatives de paramètres démographiques. La phylogéographie constitue une des

disciplines les plus intégratives en biologie évolutive et le développement de telles approches

offrent de nombreuses perspectives pour comprendre l’impact du climat, de la géographie et

des intéractions écologiques sur la composition et l’évolution des populations.

ABSTRACT

Two decades ago, Avise and colleagues proposed the term phylogeography to describe the

phylogenetic analysis of organismal data integrated in a geographic context, a new scientific

field that appeared at the junction between biogeography, phylogeny and population genetics.

This qualitative approach was rapidly completed with the « Nested Clade Phylogeographic

Analysis » (NCPA) which provided a statistical framework to phylogeographic studies. Its

aim was to enable researchers to infer the historical processes that had potentially caused the

observed correspondence between phylogeny and geography. Currently, NCPA is challenged

by more rigorous statistical approaches (maximum likelihood, Bayesian approach) based on

the coalescence theory, which takes into account the stochasticity of genetic processes and

allows to make quantitative inferences of demographic parameters. Phylogeography is one of

the most integrative discipline in evolutionnary biology and the development of such

approaches offers many opportunities to understand the impact of climate, geography and

ecological interactions on the composition and evolution of populations.