introduction à l’analyse comparative: concepts et méthodes

Novembre 2004 Analyse Comparative – DEA PPP - p. 1/44

Introduction à l’analyse comparative:Concepts et méthodes.

Julien DutheilCNRS UMR 5171

"Génome, Populations, Interactions, Adaptation", Université Montpellier II, France

[email protected]

Introduction

• Introduction

•En pratique

•Pourquoi les données ne

sont-elles pas

indépendantes ?•Pourquoi les espèces se

ressemblent-elles ?•Modèle brownien

•Evolution le long d’un arbre

•Les données

phylogénétiques• Incertitudes sur la

phylogénie•Les données

taxonomiques

Mesurer le signal

phylogénétique

Prendre en compte le signal

phylogénétique

Le cas des données discrètes

Discussion

Références


Introduction

• Démarche scientifique : Comparer des données pour endéduire des mécanismes.

• Outils ‘naturels’ en biologie : comment les organismesévoluent en réponse à leur environnement ? Comments’adaptent-ils ?

• On fait de l’analyse comparative dès que l’on compare desêtres vivants (ou qui ont été vivants !)

• Pas une mais un ensemble de méthodes, souventcomplémentaires.

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


En pratique

• L’analyse comparative est un problème : non-indépendancedes espèces, on ne peut pas utiliser les méthodesstatistiques classiques (corrélation, modèle linéaire)

• Mais l’analyse comparative est intéressante en soit, ellepermet d’inférer le passé : Approche expérimentale pour phénomènes actuels Impossible pour inférer les aspects historiques, ⇒

approche comparative

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Pourquoi les données ne sont-elles pas indé-pendantes ?

Les corrélations observées peuvent êtres dues à l’histoiredes espèces. Notion d’inertie phylogénétiquea :• Wilson (1975 in Sociobiology) : L’inertie est vue comme

une capacité de résistance à la sélection.

« Phylogenetic inertia[. . . ] consists of the deeper

properties of the population that determine the

extent to which its evolution can be deflected in

one direction or another, as well as the amount

by which its rate can be speeded or slowed. »

• Edwards & Naeem (1993) : L’inertie est la capacité d’untrait à résister au changement.

• Signal phylogénétique (Blomberg 2001). Deux espècesont des caractères d’autant plus similaires que leur ancêtrecommun (leur divergence) est récent(e).aNB : le terme inertie fut utilise par certains partisans de l’orthogenese au sens physique

du terme : une fois une direction prise, le trait evolue toujours dans ce sens

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Pourquoi les espèces se ressemblent-elles ?

• Rémanence phylogénétique• Conservation des niches Grafen [1989]

« When a niche is created, it is likely to be filled

by speciation from a species in a similar niche.

Such a species can survive better initially in a

vacant niche, and evolve sooner to exploit it

fully, than a species in a more distant niche.

The reason for a similarity of the two species

after speciation, and full adaptation to the new

niche, is that the niches are very similar. »

• Sélection : même réponse à une même force sélective.Evolution parallèle, qui est généralement ce qu’on cherche àmettre en évidence. Mais peut être biaisé car des phénotypes

proches vont avoir tendance à donner lieu à des réponsessimilaires. Ainsi les espèces se ressemblent. . . parce qu’elles se

ressemblent !

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Modèle brownien (1/2)

Cas d’un caractère continu : Modèle de ‘marche aléatoire’

Xt+1 =

Xt

Xt + σX

Xt

Xt − σX

0 20 40 60 80 100

−15

−10

−5

05

1015

Cinq simulations d’évolution d’un caractère sous un modèle Brownien

Temps

Val

eur

du c

arac

tère

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Modèle brownien (2/2)

Evolution de la variance d’un caractère avec le temps :Temps=5

Valeur du caractère

Fré

quen

ce

−30 −20 −10 0 10 20 30

0.00

0.10

0.20

Temps=10


Fré

quen

ce

−30 −20 −10 0 10 20 30

0.00

0.10

0.20

Temps=50


Fré

quen

ce

−30 −20 −10 0 10 20 30

0.00

0.10

0.20

Temps=100


Fré

quen

ce

−30 −20 −10 0 10 20 30

0.00

0.10

0.20

V (X) ∝ t × σX

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Evolution le long d’un arbre (1/2)

A1

B1

C1

D1

E1

F1

G1

A2

B2

C2

D2

E2

F2

G2

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Valeurs de X

Val

eurs

de

Y

• Divergence entre les lignées 1 et 2• Peu de divergence au sein de chaque lignée⇒ X et Y apparaissent corrélésCoefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.2539 0.0459 5.530 0.000130 ***X1$leaves 0.8979 0.1540 5.831 8.08e-05 ***

Residual standard error: 0.165 on 12 degrees of freedom

Multiple R-Squared: 0.7391, Adjusted R-squared: 0.7174

F-statistic: 34 on 1 and 12 DF, p-value: 8.075e-05

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Evolution le long d’un arbre (2/2)

A1

B1

C1

D1

E1

F1

G1

A2

B2

C2

D2

E2

F2

G2

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Valeurs de X

Val

eurs

de

Y

• Peu de divergence entre les lignées 1 et 2• Divergence au sein de chaque lignée⇒ X et Y apparaissent indépendantsCoefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.02446 0.07868 -0.311 0.761

X2$leaves 0.21761 0.29856 0.729 0.480

Residual standard error: 0.2915 on 12 degrees of freedom

Multiple R-Squared: 0.04239, Adjusted R-squared: -0.03741

F-statistic: 0.5312 on 1 and 12 DF, p-value: 0.4801

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Les données phylogénétiques

L’information phylogénétique est contenue dans un arbre.

1. Un arbre est un graphe reliant les espèces,2. Les branches peuvent avoir des longueurs représentant

une quantité de ‘différence’ (distance génétique,morphologique, . . . )

3. ou un temps (temps de divergence), dans ce cas l’arbreest ultramétrique.

1) 2) 3)

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Incertitudes sur la phylogénie

• Idéalement l’arbre estcomplètement résolu (en généraluniquement des bifurcations)

• Mais celui-ci peut contenir desmultifurcations (ou polytomies). A strictement parler, les

branches issues de polytomiessont indépendantes : ainsil’arbre étoilé (star tree)correspond à l’indépendancedes espèces.

Néanmoins, les évènements despéciation triple sont rares, pourne pas dire inexistants, aussiles polytomies désignent-ellessouvent une incertitude plutôtqu’une indépendance.

FIG. 1 – Arbre avecmultifurcations

FIG. 2 – Arbre étoilé

Introduction

• Introduction

•En pratique


sont-elles pas




•Les données



taxonomiques

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références


Les données taxonomiques

Family Genus Species V1 V2

Canidae Canis Canis lupus . . . . . .

Canidae Canis Canis latrans . . . . . .

Canidae Canis Canis adustus . . . . . .

Canidae Canis Canis mesomelas . . . . . .

Canidae Lycaon Lycaon pictus . . . . . .

Canidae Vulpes Vulpes vulpes . . . . . .

Canidae Vulpes Vulpes bengalensis . . . . . .

Canidae Vulpes Vulpes chama . . . . . .

Ursidae Ursus Ursus arctos . . . . . .

Ursidae Ursus Ursus americanus . . . . . .

Ursidae Thalarctos Thalarctos maritimus . . . . . .

Ursidae Selenarctos Selenarctos thibetanus . . . . . .

Procyonidae Bassariscus Bassariscus astutus . . . . . .

Procyonidae Polos Polos flavus . . . . . .

Procyonidae Nasua Nasua narica . . . . . .

Ailuridae Ailuropoda Ailuropoda melanoleuca . . . . . .

. . . . . . . . . . . . . . .

Can

isV

ulpe

s

Can

idae

Urs

idae Ursus

Pro

cyon

idae

Ailuridae

• Ensemble de variables qualitatives emboîtées• Equivalent à un arbre sans longueurs de branches avec

multifurcations


Mesurer le signal phylogénétique

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA

hiérarchisée (emboîtée)•ANOVA (suite)

•Données non balancées

•Calcul des effectifs

• Interprétation

•Une autre interprétation

• I de Moran

•Corrélogrammes

•Test d’indépendance

sérielle


phylogénétique


Discussion

Références


Modèle II ANOVA hiérarchisée (emboîtée) –Harvey and Mace [1982]

O Ordre nF = 2

F(σ2F

) Famille 1 nG1 = 2 Famille 2 nG2 = 3

G(σ2G⊂F

) Genre 1 nS11 = 2 Genre 1 nS21 = 2 Genre 2 nS22 = 1

S(σ2S⊂G

) Espèce 1 Espèce 2 Espèce 1 Espèce 2 Espèce 1

σ2

x1111 x1121 x2111 x2121 x2211

x1112 x1122 x2112 x2122 x2212

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

x111n111x112n112

x211n211x212n212

x221n221

xSijk

l x111ln111

l x112ln112

l x211ln211

l x2122n212

l x221ln221

xGij

xG11 =

k

l x11kln11

, avec

n11 =

k n11k

xG21 =k

l x21kln21

, avec

n21 =

k n21k

xG22 =

k

l x22kln22

, avec

n22 =

k n22k

xF i

xF1 =

j

k

l x1jkln1

,

avec n1 =

j

k n1jk

xF2 =

j

k

l x1jkln2

, avec n2 =

j

k n2jk

xO

i

j

k

l xijkln

, avec n =

i

j

k nijk

Modèle :

Yi,j,k,l = µ + Fi + Gj + Sk + εi,j,k,l

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


ANOVA (suite)

SSF =

nF

i

ni ×

xF i − xO

2(1)

SSG =

nF

i

nGi

j

nij

xGij − xF i

2(2)

SSS =

nF

i

nG

j

nS

k

nijk

xSijk − xGij

2(3)

SSr =

nF

i

nG

j

nS

k

n l

xi,j,k,l − xSijk

2(4)

SST = SSF + SSG + SSS + SSr (5)

Table d’ANOVA (données balancées, ∀i nGi = nG, ∀i ∀j nSij = nS

et , ∀i ∀j ∀k nijk = n) :Source de variation df SS MS MS attendus

Entre familles nF − 1 SSFSSF

nF −1σ2 + nσ2

S⊂G+

nnSσ2G⊂F

+

nnSnGσ2F

Entre genres nF (nG − 1) SSGSSG

nF (nG−1)σ2 + nσ2

S⊂G+

nnSσ2G⊂F

Entre espèces nF nG(nS − 1) SSSSSS

nF nG(nS−1)σ2 + nσ2

S⊂G

Au sein des es-pèces

nF nGnS(n − 1) SSrSSr

nF nGnS(n−1)σ2

Total nF nGnSn − 1 SST

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


Données non balancées

• MS attendus :Source de variation : MS attendus pour le modèle II :

Entre familles σ2 + n′′0 σS⊂G + (nSn)′0σ2

G⊂F+ (nGnSn)0σ2

F

Entre genres σ2 + n′0σS⊂G + (nSn)0σ2

G⊂F

Entre espèces σ2 + n0σS⊂G

Au sein des espèces σ2

• On ne peut former les rapports de variance et tester lasignificativité de chaque variance

• On peut cependant estimer les variances en résolvant lesystème :

MSF = σ2 + n′′

0σS⊂G + (nSn)′0σ2

G⊂F + (nGnSn)0σ2

F

MSG = σ2 + n′

0σS⊂G + (nSn)0σ2

G⊂F

MSF = σ2 + n0σS⊂G

MSr = σ2

(Si modèle balancé, n0 = n′

0 = n′′

0 et (nSn)0 = (nSn)′0.)

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


Calcul des effectifs

n′′

0 =

i

j

k nijk2

j

k nijk−

i

j

k nijk2

i

j

k nijk

dfF

(6)

n′

0 =

i

j

k nijk2

k nijk

−

i

j

k nijk2

j

k nijk

dfG

(7)

n0 =

i

j

k(nijk) −

i

j

k nijk2

k nijk

dfS

(8)

(nSn)′0 =

i

j nij2

j nij

−

i

j nij2

i

j nij

dfF

(9)

(nSn)0 =

i

j(nij) −

i

j nij2

j nij

dfG

(10)

(nGnSn)0 =

i(ni) −

i ni2

i ni

dfF

(11)

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


Interprétation

Les pourcentages de variance cumulés sont des coefficientsde corrélation intra-classe :

Masse

adulte

Masse

néonatale

Temps

degestation

Agede

sevrage

Agem

ax. dereprod.

Féconditéannuelle

Prod. biomasse

an.

σ2

S⊂G3 (0.97) 3 (0.97) 2 (0.98) 8 (0.92) 10(0.90) 5 (0.95) 6 (0.94)

σ2

G⊂F7 (0.90) 5 (0.92) 6 (0.92) 11(0.81) 10(0.80) 7 (0.88) 8 (0.86)

σ2

F⊂021(0.69) 27(0.65) 21(0.71) 19(0.62) 12(0.68) 14(0.74) 18(0.68)

σ2

O69(0.00) 65(0.00) 71(0.00) 62(0.00) 68(0.00) 74(0.00) 68(0.00)

O F G S

20

40

60

80

O F G S

20

40

60

80

O F G S

20

40

60

80

O F G S

20

40

60

80

O F G S

20

40

60

80

O F G S

20

40

60

80

O F G S

20

40

60

80

On a une chute de variance autour du niveau famille : lesniveaux inférieurs ne sont pas indépendants.

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


Une autre interprétation : Méthode de sous-traction de Stearns [1983]

• Etant donné les profils de variances, Harvey and Mace[1982] ont moyenné leurs données par famille

• Stearns [1983], par contre, a argüé que l’information‘adaptative’ se trouve dans les données de niveauxinférieurs, et s’est affranchi de la non-indépendance desniveaux supérieurs en retranchant les moyennes desfamilles à chaque valeur

• Chaque méthode utilise l’information délaissée parl’autre. . . Dépend du profil de variance :

O F G S

20

40

60

80

(a) Harvey et Mace : On moyenne par

familles

O F G S

20

40

60

80

(b) Stearns : On retranche la moyenne

des familles

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


I de Moran

• Introduit par Moran (1950) pour tester l’autocorrélationspatiale, adapté par Gittleman and Kot [1990] pour laphylogénie.

• I =n

S0

×

∑n

i=1

∑n

j=1ωij(yi − y)(yj − y)

∑n

i=1(yi − y)2

,

avec S0 =n

∑

i=1

n∑

j=1

ωij

• On normalise la matrice de covariance ω :n

∑

j=1

ωij = 1, ∀i tqn

∑

j=1

ωij 6= 0

• On a : |I| ≤n

S0

×σ

(

∑n

j=1ωij(yi − y)

)

σ(yi − y)Pour comparer différents coefficients, il faut donc diviserpar le maximum, et Irs = I/Imax est alors compris entre -1et 1.

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


Corrélogrammes

• I suit une loi normalea, demoyenne et de variance connues.On peut donc tester I, sous H0 =“indépendance des données”.

• On peut regarder comment Ivarie avec la distance(phylogénétique outaxonomique) : Le graphe de Irs

en fonction du niveau est appeléun corrélogramme.

• Matrices phylogénétiques :classes de distances ; donnéestaxonomiques : distance 0 sidonnées appartiennent au mêmegroupe, 1 sinon.

• Une forte autocorrélation indiqueune faible variance expliquéeasous certaines hypotheses. . .

Rank

I / Im

ax

Genus Family SuperFamily Order

−0.2

0.0

0.2

0.4

0.6

FIG. 3 – Corrélogrammede la masse corporelledes Carnivores.

Introduction

Mesurer le signal

phylogénétique

•Modèle II ANOVA




• Interprétation


• I de Moran

•Corrélogrammes


sérielle


phylogénétique


Discussion

Références


Test d’indépendance sérielle – Abouheif[1999]

• Test utilisé pour testerdes données de série

• Adapté pour laphylogénie enmoyennant sur toutesles représentationspossibles de l’arbre(ou approximation)

• Hypothèse nulletestée parrandomization desdonnées sur l’arbre

(=3006.3) (=1409.5)η =

∑

d2/∑

y2 = 0.469

C Calculé = 1 − η/2 = 0.766

C Critique = 0.587, p < 0.01

53.651.249.247.510.211.113.212.6

yi (yi+1 − yi)2

d2Masse

∑

y2∑

d2

A

B

E

C

D

F

G

5.764.002.89

1391.30.814.410.36


Prendre en compte le signal phylogénétique

Introduction

Mesurer le signal

phylogénétique


phylogénétique

•Petit historique des

différentes méthodes•L’autorédression

•Un modèle issu de la

génétique quantitative•L’ANCOVA hiérarchisée

•Les contrastes

indépendants•Méthode de Felsenstein

(1985)•Quelques variantes...

•Utilisation des Moindres

Carrés Généralisés•PGLS – Méthode de

Grafen•PGLS – Méthode de

Martins•Traitement des

multifurcations


Discussion

Références


Petit historique des différentes méthodes

On remarque une évolution méthodologique au cours dutemps :• Méthodes autorégressives : permettent de décomposer la

variance et d’enlever celle due à la phylogénie. On travailleensuite avec des méthodes classiques (modèle linéaire)sur la part de variance supposée adaptative.

• Méthode des comparaisons indépendantes : les variablessont transformées de manière à ne comparer que despoints indépendants. La transformation implique lareconstruction des états ancestraux et la définition decontrastes. Les données transformées sont ensuiteanalysées par des méthodes classiques.

• Les moindres carrés généralisés (PhylogeneticGeneralized Least Squares – PGLS) permettent d’ajustersimultanément un modèle linéaire et des paramètres liés àla phylogénie. Il a été montré que pour le cas d’arbresparfaitement résolus, ces méthodes sont équivalentes auxcomparaisons indépendantes.

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


L’autorégression – Cheverud et al. [1985]

• La variance est décomposée en variance phylogénétiqueet en variance spécifique.

• La variance spécifique est utilisée pour comparer plusieursvariables (cf. Stearns).

• Modèle linéaire :y = ρWy + e

• W est une matrice de poids fonction des relationstaxonomiques/phylogénétiques entre les espèces.

• ρ est un coefficient d’autorégression, estimé par maximumde vraisemblance. ce n’est pas un coefficientd’autocorrélation : ses extrema sont déterminés par lesvaleurs propres de W , et peuvent être < −1 et > 1.

Ce fait fut à l’origine d’erreurs dans les articles utilisant la

méthode de Cheverud et al. Elle fut corrigée par Rohlf [2001] !

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Un modèle issu de la génétique quantitative –Lynch [1991]

• Caractères c : 1..k, espèces i : 1..n :

zci = µc + aci + eci

avec zci = valeur moyenne pour le caractère c et l’espèce i,µc = trait moyen pour le caractère c, aci = valeur héritableadditive, eci = erreur résiduelle.

• La phylogénie est prise en compte par l’intermédiaire d’unematrice n × n similaire à celle de Cheverud et al.

• Un algorithme itératif est utilisé pour estimer par maximumde vraisemblance les matrices de variance-covariance deseffets additifs et des erreurs.

• Les effets additifs sont utilisés pour étudier les relationsentre plusieurs caractères.

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


L’ANCOVA hiérarchisée – Bell [1989]

• Même principe que l’ANOVA hiérarchisée, mais avec enplus des variables explicatives

• On décompose la covariance (que l’on peut facilementtransformer en corrélation) par niveau taxonomique, lacorrélation par niveau étant obtenue par ‘poolage’ descorrélations au sein de chaque modalité

• Permet de prendre en compte simultanément la taxonomieet les variables explicatives, mais ne résoud quepartiellement le problème : problème des donnéestaxonomiques, donne plus de poids aux taxons à forteffectif

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Les contrastes indépendants – Felsenstein[1985]

• On dispose de : plusieurs variables, une phylogénie

supposée connue, les états ancestraux

aux noeuds

• On peut effectuer

des comparaisonsindépendantes sur

un arbre endéfinissant des

contrastes

• On peut ensuiteanalyser les

contrastes par lestechniques

traditionnelles

Valeurs de x

20 24 30 40

22 35d3

d1 d2

Valeurs de y

7 9 14 20

8 17

d1 d2

d3

d3

d1 d2x1 x2 x3 x4

x5x6

x0

dk =j

cjxj ;

j

cj = 0.

y x

d1 2 4

d2 6 10

d3 9 13

x

y

d1

d2

d3

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Méthode de Felsenstein [1985]

• Suppose unmodèle Browniend’évolution On peut

reconstruire lesétats ancestraux

xk =(1/vi)xi + (1/vj)xj

1/vi + 1/vj

On connaît lesvariances desconstrastes

• Calcul parrécurrence des xk

et des l′k

• Calcul descontrastes :

1

2

34

5

67

8

0

l1

l2

l3

l4

l5

l6

l7

l8

Contrastedk

VarianceVk

x1 − x2 l1 + l2

x4 − x5 l4 + l5

x3 − x6 l3 + l′6

x7 − x8 l′7 + l′8

x6 =l4x5 + l5x4

l4 + l5

x7 =l2x1 + l1x2

l1 + l2

x8 =l′6x3 + l3x6

l3 + l′6

l′

6 = l6 +l4 × l5

l4 + l5

l′

7 = l6 +l2 × l1

l1 + l2

l′

8 = l8 +l′6 × l3

l3 + l′6

Ck =dk

σx × Vk

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Quelques variantes...

La méthode de Felsenstein suppose que les

longueurs de branches sont connues. Plusieursauteurs ont proposé d’autres manières de

spécifier ces longueurs, donc de pondérer lescontrastes :• Pagel and Harvey [1989] : toutes les branches ont

la même longueur l, chaque contraste a donc une

variance 2l.

• Grafen [1989] : A chaque noeud est assignée une ‘hauteur’ : les

feuilles ont 0, et chaque noeud interne à n− 1, oùn est le nombre de feuilles sous-jacentes.

Les hauteurs sont ajustées de telle sorte que cellede la racine soit 1, puis élevées à la puissance ρ.

Les longeurs de branches sont calculées commeles différences entre les hauteurs des noeuds.

ρ est estimé par maximum de vraisemblance, puisles contrastes sont calculés sur les longueurscorrespondantes.

ρ = 1

StruthioniformesTinamiformesCraciformesGalliformesAnseriformesTurniciformesPiciformesGalbuliformesBucerotiformesUpupiformesTrogoniformesCoraciiformesColiiformesCuculiformesPsittaciformesApodiformesTrochiliformesMusophagiformesStrigiformesColumbiformesGruiformesCiconiiformesPasseriformes

ρ = 3


ρ = 0.1


Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Utilisation des Moindres Carrés Généralisés

• Model linéaire :

y = Xβ + e

Théorème 1 (Gauss-Markov) SiH1 E(e|X) = 0 (les erreurs ont une moyenne conditionnelle nulle)

etH2 E(ee′|X) = σ2Ω, avec Ω = In (les erreurs sont indépendantes

et de même variance σ2).alors βOLS = (X ′X)

−1X ′y, de matrice de variance-covariance

V (βOLS) = σ2(X ′X)−1 est le meilleur estimateur non-biaisé de β

(moindres carrés ordinaires OLS)

• si H2 n’est pas vraie et qu’on connaît la matrice de

variance-covariance des erreurs (Ω), alorsβGLS = (X ′Ω−1X)

−1X ′ω−1y, de matrice de variance-covariance

V (βGLS) = σ2(X ′Ω−1X)−1

est le meilleur estimateur non-biaiséde β (moindres carrés généralisés GLS)

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Application des GLS à la phylogénie (PGLS) –Grafen [1989]

• On peut déduire une matrice devariance-covariance d’un arbrephylogénétique : La variance d’un taxon est la somme

des longueurs de branches depuis laracine

La covariance de deux taxons est lasomme des longueurs de branchesentre leur ancêtre commun le plusrécent et la racine

0

1 2 3 4

56

l1 l2 l3 l4

l5l6

La matrice est définie à une constante près, dépendant du

caractère étudié.

• Les longueurs de branches sont calculées comme pour les

contrastes. La matrice Ω(ρ) correspondante est utilisée, leparamètre ρ étant estimé par maximum de vraisemblance en

même temps que les β.

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Application des GLS à la phylogénie (PGLS) –Martins and Hansen [1997]

Martins et Hansen introduisent plusieurs matrices devariance-covariance, dont :

• Ωij = γta, où γ est une constante et ta est la distance entrela racine et l’ancêtre commun le plus récent de i et j. Cettematrice correspond au modèle Brownien d’évolution, et estcelle utilisée par Grafen après avoir transformé leslongueurs de branches.

• Ωij = γe−αtij , où tij est la distance phylogénétique entreles taxons i et j. α est un paramètre de magnitude estiméconjointement aux β.

D’autres matrices ont été proposées. . .

Introduction

Mesurer le signal

phylogénétique


phylogénétique





•Les contrastes







multifurcations


Discussion

Références


Traitement des multifurcations

• Les polytomies sont autorisées avec les PGLS, on peuttoujours définir une matrice de corrélation. Néanmoins,cela revient à traiter les branches issues de multifurcationscomme indépendantes.

• Grafen [1989] a proposé une extension de la méthode descontrastes permettant de tenir compte du fait que lespolytomies sont des incertitudes sur la phylogénie(régression phylogénétique) :

Pour chaque multifurcation, régression ‘locale’ de y enfonction de tous les x,

Utilisation des résidus comme contraste,

Techniques de régression standard sur les contrastes.

• Pagel and Harvey [1989] utilise l’informationphylogénétique contenue dans la variable y.

Introduction

Mesurer le signal

phylogénétique


phylogénétique


•Données discrètes

•Utilisation des GEE

Discussion

Références


Données discrètes

1. Reconstruction des états ancestraux à chaque noeudinterne de l’arbre

2. Pour chaque branche et pour chaque caractère, on noteun changement si l’état ancestral est différent de l’étatdérivé, 0 changement sinon

3. Pour plusieurs caractères, on regarde lesco-changements au sein des branches

Quelques variantes :• On peut tester la directionnalité des corrélations, i.e. si tel

état d’un caractère est responsable de l’apparition de telétat de l’autre caractère Maddison [1990]

• On peut utiliser un modèle statistique pour pondérerchaque changement par les longueurs de branchesPagel and Harvey [1989]

Note : ces techniques sont utilisées pour l’analyse dedonnées moléculaires (séquences) !

Introduction

Mesurer le signal

phylogénétique


phylogénétique


•Données discrètes

•Utilisation des GEE

Discussion

Références


Utilisation des GEE : Generalized EstimatingEquations, Paradis and Claude [2002]

• Extensions du Modèle Linéaire Généralisé (GLM)permettant de prendre en compte la non indépendance etl’hétéroscédasticité des erreurs (cf. GLS et OLS). Pourutiliser les GEE, on a besoin : De connaître la distribution de la variable dépendante, qui doit

appartenir à la famille exponentielle (exponentielle, gamma,

gaussienne, binomiale, . . . ) De disposer d’une fonction de lien De la structure de covariance des mesures

• Permet de prendre en compte à la fois des donnéesdiscrètes et des données continues


Discussion

Introduction

Mesurer le signal

phylogénétique


phylogénétique


Discussion

•Que choisir ?

•Besoin de travaux

théoriques

Références


Discussion – Que choisir ?

Toutes les méthodes ne traitent pas le même type dedonnées :• qualitatives/quantitatives/mixtes,• taxonomiques/phylogénétiques,• résolues/partiellement irrésolues

On peut distinguer deux approches :• Transformer les données pour enlever le signal

phylogénétique : ANOVA, Autorégression, Contrastes.Dans ce cas il est recommandé de vérifier que les donnéestransformées sont bien indépendantes : utilisation de testsd’indépendance : indice de Moran, TFSI

• Prendre en compte la dépendance phylogénétique : PGLS,GEE

Il est souvent intéressant d’effectuer les deux approches etde comparer les résultats, après avoir visualisé comment serépartissait le signal phylogénétique.

Introduction

Mesurer le signal

phylogénétique


phylogénétique


Discussion

•Que choisir ?

•Besoin de travaux

théoriques

Références


Discussion – Besoin de travaux théoriques

• Depuis les années 80, pas mal de méthodes ont vu le jour,inspirées de plusieurs autres domaines (données spatiales,génétique quantitative, méthodes ‘classiques’ adaptées,. . . ), parfois de manière ad hoc. . .

• Quelques simulations ont permis de tester les propriétésstatistiques de ces méthodes

• Mais des travaux théoriques encore récents :Martins and Hansen [1997] font le lien avec des modèlesmicro/macro évolutifs, Rohlf [2001] montre le lien entreAutorégression, Indice de Moran et PGLS.


Références

Introduction

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références

•Méthodes

•Méthodes (suite)

•Générales


Méthodes

P. H. Harvey and G. M. Mace. Comparisons between taxa and adaptative trends :problems of methodology, pages 343–61. Cambridge university Press, king’scollege sociobiology group edition, 1982

S. C. Stearns. The influence of size and phylogeny on patterns of covariationamong life-history traits in the mammals. Oikos, 41(2) :173–187, 1983

J. M. Cheverud, M. M. Dow, and W. Leutenegger. The quantitative assessment ofphylogenetic constraints in comparative analyses - sexual dimorphism inbody-weight among primates. Evolution, 39(6) :1335–1351, 1985

J. Felsenstein. Phylogenies and the comparative method. American Naturalist,125(1) :1–15, 1985

A. Grafen. The phylogenetic regression. Philos Trans R Soc Lond B Biol Sci, 326(1233) :119–57, 1989

G. Bell. A comparative method. American Naturalist, 133(4) :553–571, 1989

W. P. Maddison. A method for testing the correlated evolution of 2 binarycharacters - are gains or losses concentrated on certain branches of aphylogenetic tree. Evolution, 44(3) :539–557, 1990

Introduction

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références

•Méthodes


•Générales


Méthodes (suite)

J. L. Gittleman and M. Kot. Adaptation - statistics and a null model for estimatingphylogenetic effects. Systematic Zoology, 39(3) :227–241, 1990

M. Lynch. Methods for the analysis of comparative data in evolutionary biology.Evolution, 45(5) :1065–1080, 1991

E. P. Martins and T. F. Hansen. Phylogenies and the comparative method : ageneral approach to incorporating phylogenetic information into the analysis ofinterspecific data. American Naturalist, 149(4) :646–667, 1997

E. Abouheif. A method for testing the assumption of phylogenetic independence incomparative data. Evolutionary Ecology Research, 1(8) :895–909, 1999

F. J. Rohlf. Comparative methods for the analysis of continuous variables :geometric interpretations. Evolution, 55(11) :2143–2160, 2001

E. Paradis and J. Claude. Analysis of comparative data using generalizedestimating equations. Journal Of Theoretical Biology, 218(2) :175–85, 2002

Introduction

Mesurer le signal

phylogénétique


phylogénétique


Discussion

Références

•Méthodes


•Générales


Générales

P. H. Harvey and M. D. Pagel. The comparative Method in Evolutionary Biology.Oxford Series in Ecology and Evolution. Oxford University Press, 1991

J. L. Gittleman and H. K. Luh. On comparing comparative methods. AnnualReview Of Ecology And Systematics, 23 :383–404, 1992

R. E. Ricklefs. Phylogeny and ecology. Trends In Ecology & Evolution, 11(6) :229–230, 1996

E. P. Martins. Adaptation and the comparative method. Trends In Ecology &Evolution, 15(7) :296–299, 2000

S. P. Blomberg and T. Garland. Tempo and mode in evolution : phylogeneticinertia, adaptation and comparative methods. Journal of Evolutionary Biology, 15(6) :899–899, 2002

introduction à l’analyse comparative: concepts et méthodes

Documents