introduction à l’analyse comparative: concepts et méthodes
TRANSCRIPT
Novembre 2004 Analyse Comparative – DEA PPP - p. 1/44
Introduction à l’analyse comparative:Concepts et méthodes.
Julien DutheilCNRS UMR 5171
"Génome, Populations, Interactions, Adaptation", Université Montpellier II, France
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 2/44
Introduction
• Démarche scientifique : Comparer des données pour endéduire des mécanismes.
• Outils ‘naturels’ en biologie : comment les organismesévoluent en réponse à leur environnement ? Comments’adaptent-ils ?
• On fait de l’analyse comparative dès que l’on compare desêtres vivants (ou qui ont été vivants !)
• Pas une mais un ensemble de méthodes, souventcomplémentaires.
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 3/44
En pratique
• L’analyse comparative est un problème : non-indépendancedes espèces, on ne peut pas utiliser les méthodesstatistiques classiques (corrélation, modèle linéaire)
• Mais l’analyse comparative est intéressante en soit, ellepermet d’inférer le passé : Approche expérimentale pour phénomènes actuels Impossible pour inférer les aspects historiques, ⇒
approche comparative
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 4/44
Pourquoi les données ne sont-elles pas indé-pendantes ?
Les corrélations observées peuvent êtres dues à l’histoiredes espèces. Notion d’inertie phylogénétiquea :• Wilson (1975 in Sociobiology) : L’inertie est vue comme
une capacité de résistance à la sélection.
« Phylogenetic inertia[. . . ] consists of the deeper
properties of the population that determine the
extent to which its evolution can be deflected in
one direction or another, as well as the amount
by which its rate can be speeded or slowed. »
• Edwards & Naeem (1993) : L’inertie est la capacité d’untrait à résister au changement.
• Signal phylogénétique (Blomberg 2001). Deux espècesont des caractères d’autant plus similaires que leur ancêtrecommun (leur divergence) est récent(e).aNB : le terme inertie fut utilise par certains partisans de l’orthogenese au sens physique
du terme : une fois une direction prise, le trait evolue toujours dans ce sens
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 5/44
Pourquoi les espèces se ressemblent-elles ?
• Rémanence phylogénétique• Conservation des niches Grafen [1989]
« When a niche is created, it is likely to be filled
by speciation from a species in a similar niche.
Such a species can survive better initially in a
vacant niche, and evolve sooner to exploit it
fully, than a species in a more distant niche.
The reason for a similarity of the two species
after speciation, and full adaptation to the new
niche, is that the niches are very similar. »
• Sélection : même réponse à une même force sélective.Evolution parallèle, qui est généralement ce qu’on cherche àmettre en évidence. Mais peut être biaisé car des phénotypes
proches vont avoir tendance à donner lieu à des réponsessimilaires. Ainsi les espèces se ressemblent. . . parce qu’elles se
ressemblent !
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 6/44
Modèle brownien (1/2)
Cas d’un caractère continu : Modèle de ‘marche aléatoire’
Xt+1 =
Xt
Xt + σX
Xt
Xt − σX
0 20 40 60 80 100
−15
−10
−5
05
1015
Cinq simulations d’évolution d’un caractère sous un modèle Brownien
Temps
Val
eur
du c
arac
tère
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 7/44
Modèle brownien (2/2)
Evolution de la variance d’un caractère avec le temps :Temps=5
Valeur du caractère
Fré
quen
ce
−30 −20 −10 0 10 20 30
0.00
0.10
0.20
Temps=10
Valeur du caractère
Fré
quen
ce
−30 −20 −10 0 10 20 30
0.00
0.10
0.20
Temps=50
Valeur du caractère
Fré
quen
ce
−30 −20 −10 0 10 20 30
0.00
0.10
0.20
Temps=100
Valeur du caractère
Fré
quen
ce
−30 −20 −10 0 10 20 30
0.00
0.10
0.20
V (X) ∝ t × σX
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 8/44
Evolution le long d’un arbre (1/2)
A1
B1
C1
D1
E1
F1
G1
A2
B2
C2
D2
E2
F2
G2
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Valeurs de X
Val
eurs
de
Y
• Divergence entre les lignées 1 et 2• Peu de divergence au sein de chaque lignée⇒ X et Y apparaissent corrélésCoefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2539 0.0459 5.530 0.000130 ***X1$leaves 0.8979 0.1540 5.831 8.08e-05 ***
Residual standard error: 0.165 on 12 degrees of freedom
Multiple R-Squared: 0.7391, Adjusted R-squared: 0.7174
F-statistic: 34 on 1 and 12 DF, p-value: 8.075e-05
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 9/44
Evolution le long d’un arbre (2/2)
A1
B1
C1
D1
E1
F1
G1
A2
B2
C2
D2
E2
F2
G2
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Valeurs de X
Val
eurs
de
Y
• Peu de divergence entre les lignées 1 et 2• Divergence au sein de chaque lignée⇒ X et Y apparaissent indépendantsCoefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.02446 0.07868 -0.311 0.761
X2$leaves 0.21761 0.29856 0.729 0.480
Residual standard error: 0.2915 on 12 degrees of freedom
Multiple R-Squared: 0.04239, Adjusted R-squared: -0.03741
F-statistic: 0.5312 on 1 and 12 DF, p-value: 0.4801
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 10/44
Les données phylogénétiques
L’information phylogénétique est contenue dans un arbre.
1. Un arbre est un graphe reliant les espèces,2. Les branches peuvent avoir des longueurs représentant
une quantité de ‘différence’ (distance génétique,morphologique, . . . )
3. ou un temps (temps de divergence), dans ce cas l’arbreest ultramétrique.
1) 2) 3)
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 11/44
Incertitudes sur la phylogénie
• Idéalement l’arbre estcomplètement résolu (en généraluniquement des bifurcations)
• Mais celui-ci peut contenir desmultifurcations (ou polytomies). A strictement parler, les
branches issues de polytomiessont indépendantes : ainsil’arbre étoilé (star tree)correspond à l’indépendancedes espèces.
Néanmoins, les évènements despéciation triple sont rares, pourne pas dire inexistants, aussiles polytomies désignent-ellessouvent une incertitude plutôtqu’une indépendance.
FIG. 1 – Arbre avecmultifurcations
FIG. 2 – Arbre étoilé
Introduction
• Introduction
•En pratique
•Pourquoi les données ne
sont-elles pas
indépendantes ?•Pourquoi les espèces se
ressemblent-elles ?•Modèle brownien
•Evolution le long d’un arbre
•Les données
phylogénétiques• Incertitudes sur la
phylogénie•Les données
taxonomiques
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 12/44
Les données taxonomiques
Family Genus Species V1 V2
Canidae Canis Canis lupus . . . . . .
Canidae Canis Canis latrans . . . . . .
Canidae Canis Canis adustus . . . . . .
Canidae Canis Canis mesomelas . . . . . .
Canidae Lycaon Lycaon pictus . . . . . .
Canidae Vulpes Vulpes vulpes . . . . . .
Canidae Vulpes Vulpes bengalensis . . . . . .
Canidae Vulpes Vulpes chama . . . . . .
Ursidae Ursus Ursus arctos . . . . . .
Ursidae Ursus Ursus americanus . . . . . .
Ursidae Thalarctos Thalarctos maritimus . . . . . .
Ursidae Selenarctos Selenarctos thibetanus . . . . . .
Procyonidae Bassariscus Bassariscus astutus . . . . . .
Procyonidae Polos Polos flavus . . . . . .
Procyonidae Nasua Nasua narica . . . . . .
Ailuridae Ailuropoda Ailuropoda melanoleuca . . . . . .
. . . . . . . . . . . . . . .
Can
isV
ulpe
s
Can
idae
Urs
idae Ursus
Pro
cyon
idae
Ailuridae
• Ensemble de variables qualitatives emboîtées• Equivalent à un arbre sans longueurs de branches avec
multifurcations
Novembre 2004 Analyse Comparative – DEA PPP - p. 13/44
Mesurer le signal phylogénétique
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 14/44
Modèle II ANOVA hiérarchisée (emboîtée) –Harvey and Mace [1982]
O Ordre nF = 2
F(σ2F
) Famille 1 nG1 = 2 Famille 2 nG2 = 3
G(σ2G⊂F
) Genre 1 nS11 = 2 Genre 1 nS21 = 2 Genre 2 nS22 = 1
S(σ2S⊂G
) Espèce 1 Espèce 2 Espèce 1 Espèce 2 Espèce 1
σ2
x1111 x1121 x2111 x2121 x2211
x1112 x1122 x2112 x2122 x2212
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x111n111x112n112
x211n211x212n212
x221n221
xSijk
l x111ln111
l x112ln112
l x211ln211
l x2122n212
l x221ln221
xGij
xG11 =
k
l x11kln11
, avec
n11 =
k n11k
xG21 =k
l x21kln21
, avec
n21 =
k n21k
xG22 =
k
l x22kln22
, avec
n22 =
k n22k
xF i
xF1 =
j
k
l x1jkln1
,
avec n1 =
j
k n1jk
xF2 =
j
k
l x1jkln2
, avec n2 =
j
k n2jk
xO
i
j
k
l xijkln
, avec n =
i
j
k nijk
Modèle :
Yi,j,k,l = µ + Fi + Gj + Sk + εi,j,k,l
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 15/44
ANOVA (suite)
SSF =
nF
i
ni ×
xF i − xO
2(1)
SSG =
nF
i
nGi
j
nij
xGij − xF i
2(2)
SSS =
nF
i
nG
j
nS
k
nijk
xSijk − xGij
2(3)
SSr =
nF
i
nG
j
nS
k
n l
xi,j,k,l − xSijk
2(4)
SST = SSF + SSG + SSS + SSr (5)
Table d’ANOVA (données balancées, ∀i nGi = nG, ∀i ∀j nSij = nS
et , ∀i ∀j ∀k nijk = n) :Source de variation df SS MS MS attendus
Entre familles nF − 1 SSFSSF
nF −1σ2 + nσ2
S⊂G+
nnSσ2G⊂F
+
nnSnGσ2F
Entre genres nF (nG − 1) SSGSSG
nF (nG−1)σ2 + nσ2
S⊂G+
nnSσ2G⊂F
Entre espèces nF nG(nS − 1) SSSSSS
nF nG(nS−1)σ2 + nσ2
S⊂G
Au sein des es-pèces
nF nGnS(n − 1) SSrSSr
nF nGnS(n−1)σ2
Total nF nGnSn − 1 SST
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 16/44
Données non balancées
• MS attendus :Source de variation : MS attendus pour le modèle II :
Entre familles σ2 + n′′0 σS⊂G + (nSn)′0σ2
G⊂F+ (nGnSn)0σ2
F
Entre genres σ2 + n′0σS⊂G + (nSn)0σ2
G⊂F
Entre espèces σ2 + n0σS⊂G
Au sein des espèces σ2
• On ne peut former les rapports de variance et tester lasignificativité de chaque variance
• On peut cependant estimer les variances en résolvant lesystème :
MSF = σ2 + n′′
0σS⊂G + (nSn)′0σ2
G⊂F + (nGnSn)0σ2
F
MSG = σ2 + n′
0σS⊂G + (nSn)0σ2
G⊂F
MSF = σ2 + n0σS⊂G
MSr = σ2
(Si modèle balancé, n0 = n′
0 = n′′
0 et (nSn)0 = (nSn)′0.)
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 17/44
Calcul des effectifs
n′′
0 =
i
j
k nijk2
j
k nijk−
i
j
k nijk2
i
j
k nijk
dfF
(6)
n′
0 =
i
j
k nijk2
k nijk
−
i
j
k nijk2
j
k nijk
dfG
(7)
n0 =
i
j
k(nijk) −
i
j
k nijk2
k nijk
dfS
(8)
(nSn)′0 =
i
j nij2
j nij
−
i
j nij2
i
j nij
dfF
(9)
(nSn)0 =
i
j(nij) −
i
j nij2
j nij
dfG
(10)
(nGnSn)0 =
i(ni) −
i ni2
i ni
dfF
(11)
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 18/44
Interprétation
Les pourcentages de variance cumulés sont des coefficientsde corrélation intra-classe :
Masse
adulte
Masse
néonatale
Temps
degestation
Agede
sevrage
Agem
ax. dereprod.
Féconditéannuelle
Prod. biomasse
an.
σ2
S⊂G3 (0.97) 3 (0.97) 2 (0.98) 8 (0.92) 10(0.90) 5 (0.95) 6 (0.94)
σ2
G⊂F7 (0.90) 5 (0.92) 6 (0.92) 11(0.81) 10(0.80) 7 (0.88) 8 (0.86)
σ2
F⊂021(0.69) 27(0.65) 21(0.71) 19(0.62) 12(0.68) 14(0.74) 18(0.68)
σ2
O69(0.00) 65(0.00) 71(0.00) 62(0.00) 68(0.00) 74(0.00) 68(0.00)
O F G S
20
40
60
80
O F G S
20
40
60
80
O F G S
20
40
60
80
O F G S
20
40
60
80
O F G S
20
40
60
80
O F G S
20
40
60
80
O F G S
20
40
60
80
On a une chute de variance autour du niveau famille : lesniveaux inférieurs ne sont pas indépendants.
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 19/44
Une autre interprétation : Méthode de sous-traction de Stearns [1983]
• Etant donné les profils de variances, Harvey and Mace[1982] ont moyenné leurs données par famille
• Stearns [1983], par contre, a argüé que l’information‘adaptative’ se trouve dans les données de niveauxinférieurs, et s’est affranchi de la non-indépendance desniveaux supérieurs en retranchant les moyennes desfamilles à chaque valeur
• Chaque méthode utilise l’information délaissée parl’autre. . . Dépend du profil de variance :
O F G S
20
40
60
80
(a) Harvey et Mace : On moyenne par
familles
O F G S
20
40
60
80
(b) Stearns : On retranche la moyenne
des familles
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 20/44
I de Moran
• Introduit par Moran (1950) pour tester l’autocorrélationspatiale, adapté par Gittleman and Kot [1990] pour laphylogénie.
• I =n
S0
×
∑n
i=1
∑n
j=1ωij(yi − y)(yj − y)
∑n
i=1(yi − y)2
,
avec S0 =n
∑
i=1
n∑
j=1
ωij
• On normalise la matrice de covariance ω :n
∑
j=1
ωij = 1, ∀i tqn
∑
j=1
ωij 6= 0
• On a : |I| ≤n
S0
×σ
(
∑n
j=1ωij(yi − y)
)
σ(yi − y)Pour comparer différents coefficients, il faut donc diviserpar le maximum, et Irs = I/Imax est alors compris entre -1et 1.
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 21/44
Corrélogrammes
• I suit une loi normalea, demoyenne et de variance connues.On peut donc tester I, sous H0 =“indépendance des données”.
• On peut regarder comment Ivarie avec la distance(phylogénétique outaxonomique) : Le graphe de Irs
en fonction du niveau est appeléun corrélogramme.
• Matrices phylogénétiques :classes de distances ; donnéestaxonomiques : distance 0 sidonnées appartiennent au mêmegroupe, 1 sinon.
• Une forte autocorrélation indiqueune faible variance expliquéeasous certaines hypotheses. . .
Rank
I / Im
ax
Genus Family SuperFamily Order
−0.2
0.0
0.2
0.4
0.6
FIG. 3 – Corrélogrammede la masse corporelledes Carnivores.
Introduction
Mesurer le signal
phylogénétique
•Modèle II ANOVA
hiérarchisée (emboîtée)•ANOVA (suite)
•Données non balancées
•Calcul des effectifs
• Interprétation
•Une autre interprétation
• I de Moran
•Corrélogrammes
•Test d’indépendance
sérielle
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 22/44
Test d’indépendance sérielle – Abouheif[1999]
• Test utilisé pour testerdes données de série
• Adapté pour laphylogénie enmoyennant sur toutesles représentationspossibles de l’arbre(ou approximation)
• Hypothèse nulletestée parrandomization desdonnées sur l’arbre
(=3006.3) (=1409.5)η =
∑
d2/∑
y2 = 0.469
C Calculé = 1 − η/2 = 0.766
C Critique = 0.587, p < 0.01
53.651.249.247.510.211.113.212.6
yi (yi+1 − yi)2
d2Masse
∑
y2∑
d2
A
B
E
C
D
F
G
5.764.002.89
1391.30.814.410.36
Novembre 2004 Analyse Comparative – DEA PPP - p. 23/44
Prendre en compte le signal phylogénétique
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 24/44
Petit historique des différentes méthodes
On remarque une évolution méthodologique au cours dutemps :• Méthodes autorégressives : permettent de décomposer la
variance et d’enlever celle due à la phylogénie. On travailleensuite avec des méthodes classiques (modèle linéaire)sur la part de variance supposée adaptative.
• Méthode des comparaisons indépendantes : les variablessont transformées de manière à ne comparer que despoints indépendants. La transformation implique lareconstruction des états ancestraux et la définition decontrastes. Les données transformées sont ensuiteanalysées par des méthodes classiques.
• Les moindres carrés généralisés (PhylogeneticGeneralized Least Squares – PGLS) permettent d’ajustersimultanément un modèle linéaire et des paramètres liés àla phylogénie. Il a été montré que pour le cas d’arbresparfaitement résolus, ces méthodes sont équivalentes auxcomparaisons indépendantes.
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 25/44
L’autorégression – Cheverud et al. [1985]
• La variance est décomposée en variance phylogénétiqueet en variance spécifique.
• La variance spécifique est utilisée pour comparer plusieursvariables (cf. Stearns).
• Modèle linéaire :y = ρWy + e
• W est une matrice de poids fonction des relationstaxonomiques/phylogénétiques entre les espèces.
• ρ est un coefficient d’autorégression, estimé par maximumde vraisemblance. ce n’est pas un coefficientd’autocorrélation : ses extrema sont déterminés par lesvaleurs propres de W , et peuvent être < −1 et > 1.
Ce fait fut à l’origine d’erreurs dans les articles utilisant la
méthode de Cheverud et al. Elle fut corrigée par Rohlf [2001] !
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 26/44
Un modèle issu de la génétique quantitative –Lynch [1991]
• Caractères c : 1..k, espèces i : 1..n :
zci = µc + aci + eci
avec zci = valeur moyenne pour le caractère c et l’espèce i,µc = trait moyen pour le caractère c, aci = valeur héritableadditive, eci = erreur résiduelle.
• La phylogénie est prise en compte par l’intermédiaire d’unematrice n × n similaire à celle de Cheverud et al.
• Un algorithme itératif est utilisé pour estimer par maximumde vraisemblance les matrices de variance-covariance deseffets additifs et des erreurs.
• Les effets additifs sont utilisés pour étudier les relationsentre plusieurs caractères.
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 27/44
L’ANCOVA hiérarchisée – Bell [1989]
• Même principe que l’ANOVA hiérarchisée, mais avec enplus des variables explicatives
• On décompose la covariance (que l’on peut facilementtransformer en corrélation) par niveau taxonomique, lacorrélation par niveau étant obtenue par ‘poolage’ descorrélations au sein de chaque modalité
• Permet de prendre en compte simultanément la taxonomieet les variables explicatives, mais ne résoud quepartiellement le problème : problème des donnéestaxonomiques, donne plus de poids aux taxons à forteffectif
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 28/44
Les contrastes indépendants – Felsenstein[1985]
• On dispose de : plusieurs variables, une phylogénie
supposée connue, les états ancestraux
aux noeuds
• On peut effectuer
des comparaisonsindépendantes sur
un arbre endéfinissant des
contrastes
• On peut ensuiteanalyser les
contrastes par lestechniques
traditionnelles
Valeurs de x
20 24 30 40
22 35d3
d1 d2
Valeurs de y
7 9 14 20
8 17
d1 d2
d3
d3
d1 d2x1 x2 x3 x4
x5x6
x0
dk =j
cjxj ;
j
cj = 0.
y x
d1 2 4
d2 6 10
d3 9 13
x
y
d1
d2
d3
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 29/44
Méthode de Felsenstein [1985]
• Suppose unmodèle Browniend’évolution On peut
reconstruire lesétats ancestraux
xk =(1/vi)xi + (1/vj)xj
1/vi + 1/vj
On connaît lesvariances desconstrastes
• Calcul parrécurrence des xk
et des l′k
• Calcul descontrastes :
1
2
34
5
67
8
0
l1
l2
l3
l4
l5
l6
l7
l8
Contrastedk
VarianceVk
x1 − x2 l1 + l2
x4 − x5 l4 + l5
x3 − x6 l3 + l′6
x7 − x8 l′7 + l′8
x6 =l4x5 + l5x4
l4 + l5
x7 =l2x1 + l1x2
l1 + l2
x8 =l′6x3 + l3x6
l3 + l′6
l′
6 = l6 +l4 × l5
l4 + l5
l′
7 = l6 +l2 × l1
l1 + l2
l′
8 = l8 +l′6 × l3
l3 + l′6
Ck =dk
σx × Vk
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 30/44
Quelques variantes...
La méthode de Felsenstein suppose que les
longueurs de branches sont connues. Plusieursauteurs ont proposé d’autres manières de
spécifier ces longueurs, donc de pondérer lescontrastes :• Pagel and Harvey [1989] : toutes les branches ont
la même longueur l, chaque contraste a donc une
variance 2l.
• Grafen [1989] : A chaque noeud est assignée une ‘hauteur’ : les
feuilles ont 0, et chaque noeud interne à n− 1, oùn est le nombre de feuilles sous-jacentes.
Les hauteurs sont ajustées de telle sorte que cellede la racine soit 1, puis élevées à la puissance ρ.
Les longeurs de branches sont calculées commeles différences entre les hauteurs des noeuds.
ρ est estimé par maximum de vraisemblance, puisles contrastes sont calculés sur les longueurscorrespondantes.
ρ = 1
StruthioniformesTinamiformesCraciformesGalliformesAnseriformesTurniciformesPiciformesGalbuliformesBucerotiformesUpupiformesTrogoniformesCoraciiformesColiiformesCuculiformesPsittaciformesApodiformesTrochiliformesMusophagiformesStrigiformesColumbiformesGruiformesCiconiiformesPasseriformes
ρ = 3
StruthioniformesTinamiformesCraciformesGalliformesAnseriformesTurniciformesPiciformesGalbuliformesBucerotiformesUpupiformesTrogoniformesCoraciiformesColiiformesCuculiformesPsittaciformesApodiformesTrochiliformesMusophagiformesStrigiformesColumbiformesGruiformesCiconiiformesPasseriformes
ρ = 0.1
StruthioniformesTinamiformesCraciformesGalliformesAnseriformesTurniciformesPiciformesGalbuliformesBucerotiformesUpupiformesTrogoniformesCoraciiformesColiiformesCuculiformesPsittaciformesApodiformesTrochiliformesMusophagiformesStrigiformesColumbiformesGruiformesCiconiiformesPasseriformes
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 31/44
Utilisation des Moindres Carrés Généralisés
• Model linéaire :
y = Xβ + e
Théorème 1 (Gauss-Markov) SiH1 E(e|X) = 0 (les erreurs ont une moyenne conditionnelle nulle)
etH2 E(ee′|X) = σ2Ω, avec Ω = In (les erreurs sont indépendantes
et de même variance σ2).alors βOLS = (X ′X)
−1X ′y, de matrice de variance-covariance
V (βOLS) = σ2(X ′X)−1 est le meilleur estimateur non-biaisé de β
(moindres carrés ordinaires OLS)
• si H2 n’est pas vraie et qu’on connaît la matrice de
variance-covariance des erreurs (Ω), alorsβGLS = (X ′Ω−1X)
−1X ′ω−1y, de matrice de variance-covariance
V (βGLS) = σ2(X ′Ω−1X)−1
est le meilleur estimateur non-biaiséde β (moindres carrés généralisés GLS)
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 32/44
Application des GLS à la phylogénie (PGLS) –Grafen [1989]
• On peut déduire une matrice devariance-covariance d’un arbrephylogénétique : La variance d’un taxon est la somme
des longueurs de branches depuis laracine
La covariance de deux taxons est lasomme des longueurs de branchesentre leur ancêtre commun le plusrécent et la racine
0
1 2 3 4
56
l1 l2 l3 l4
l5l6
La matrice est définie à une constante près, dépendant du
caractère étudié.
• Les longueurs de branches sont calculées comme pour les
contrastes. La matrice Ω(ρ) correspondante est utilisée, leparamètre ρ étant estimé par maximum de vraisemblance en
même temps que les β.
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 33/44
Application des GLS à la phylogénie (PGLS) –Martins and Hansen [1997]
Martins et Hansen introduisent plusieurs matrices devariance-covariance, dont :
• Ωij = γta, où γ est une constante et ta est la distance entrela racine et l’ancêtre commun le plus récent de i et j. Cettematrice correspond au modèle Brownien d’évolution, et estcelle utilisée par Grafen après avoir transformé leslongueurs de branches.
• Ωij = γe−αtij , où tij est la distance phylogénétique entreles taxons i et j. α est un paramètre de magnitude estiméconjointement aux β.
D’autres matrices ont été proposées. . .
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
•Petit historique des
différentes méthodes•L’autorédression
•Un modèle issu de la
génétique quantitative•L’ANCOVA hiérarchisée
•Les contrastes
indépendants•Méthode de Felsenstein
(1985)•Quelques variantes...
•Utilisation des Moindres
Carrés Généralisés•PGLS – Méthode de
Grafen•PGLS – Méthode de
Martins•Traitement des
multifurcations
Le cas des données discrètes
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 34/44
Traitement des multifurcations
• Les polytomies sont autorisées avec les PGLS, on peuttoujours définir une matrice de corrélation. Néanmoins,cela revient à traiter les branches issues de multifurcationscomme indépendantes.
• Grafen [1989] a proposé une extension de la méthode descontrastes permettant de tenir compte du fait que lespolytomies sont des incertitudes sur la phylogénie(régression phylogénétique) :
Pour chaque multifurcation, régression ‘locale’ de y enfonction de tous les x,
Utilisation des résidus comme contraste,
Techniques de régression standard sur les contrastes.
• Pagel and Harvey [1989] utilise l’informationphylogénétique contenue dans la variable y.
Novembre 2004 Analyse Comparative – DEA PPP - p. 35/44
Le cas des données discrètes
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
•Données discrètes
•Utilisation des GEE
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 36/44
Données discrètes
1. Reconstruction des états ancestraux à chaque noeudinterne de l’arbre
2. Pour chaque branche et pour chaque caractère, on noteun changement si l’état ancestral est différent de l’étatdérivé, 0 changement sinon
3. Pour plusieurs caractères, on regarde lesco-changements au sein des branches
Quelques variantes :• On peut tester la directionnalité des corrélations, i.e. si tel
état d’un caractère est responsable de l’apparition de telétat de l’autre caractère Maddison [1990]
• On peut utiliser un modèle statistique pour pondérerchaque changement par les longueurs de branchesPagel and Harvey [1989]
Note : ces techniques sont utilisées pour l’analyse dedonnées moléculaires (séquences) !
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
•Données discrètes
•Utilisation des GEE
Discussion
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 37/44
Utilisation des GEE : Generalized EstimatingEquations, Paradis and Claude [2002]
• Extensions du Modèle Linéaire Généralisé (GLM)permettant de prendre en compte la non indépendance etl’hétéroscédasticité des erreurs (cf. GLS et OLS). Pourutiliser les GEE, on a besoin : De connaître la distribution de la variable dépendante, qui doit
appartenir à la famille exponentielle (exponentielle, gamma,
gaussienne, binomiale, . . . ) De disposer d’une fonction de lien De la structure de covariance des mesures
• Permet de prendre en compte à la fois des donnéesdiscrètes et des données continues
Novembre 2004 Analyse Comparative – DEA PPP - p. 38/44
Discussion
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
•Que choisir ?
•Besoin de travaux
théoriques
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 39/44
Discussion – Que choisir ?
Toutes les méthodes ne traitent pas le même type dedonnées :• qualitatives/quantitatives/mixtes,• taxonomiques/phylogénétiques,• résolues/partiellement irrésolues
On peut distinguer deux approches :• Transformer les données pour enlever le signal
phylogénétique : ANOVA, Autorégression, Contrastes.Dans ce cas il est recommandé de vérifier que les donnéestransformées sont bien indépendantes : utilisation de testsd’indépendance : indice de Moran, TFSI
• Prendre en compte la dépendance phylogénétique : PGLS,GEE
Il est souvent intéressant d’effectuer les deux approches etde comparer les résultats, après avoir visualisé comment serépartissait le signal phylogénétique.
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
•Que choisir ?
•Besoin de travaux
théoriques
Références
Novembre 2004 Analyse Comparative – DEA PPP - p. 40/44
Discussion – Besoin de travaux théoriques
• Depuis les années 80, pas mal de méthodes ont vu le jour,inspirées de plusieurs autres domaines (données spatiales,génétique quantitative, méthodes ‘classiques’ adaptées,. . . ), parfois de manière ad hoc. . .
• Quelques simulations ont permis de tester les propriétésstatistiques de ces méthodes
• Mais des travaux théoriques encore récents :Martins and Hansen [1997] font le lien avec des modèlesmicro/macro évolutifs, Rohlf [2001] montre le lien entreAutorégression, Indice de Moran et PGLS.
Novembre 2004 Analyse Comparative – DEA PPP - p. 41/44
Références
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
•Méthodes
•Méthodes (suite)
•Générales
Novembre 2004 Analyse Comparative – DEA PPP - p. 42/44
Méthodes
P. H. Harvey and G. M. Mace. Comparisons between taxa and adaptative trends :problems of methodology, pages 343–61. Cambridge university Press, king’scollege sociobiology group edition, 1982
S. C. Stearns. The influence of size and phylogeny on patterns of covariationamong life-history traits in the mammals. Oikos, 41(2) :173–187, 1983
J. M. Cheverud, M. M. Dow, and W. Leutenegger. The quantitative assessment ofphylogenetic constraints in comparative analyses - sexual dimorphism inbody-weight among primates. Evolution, 39(6) :1335–1351, 1985
J. Felsenstein. Phylogenies and the comparative method. American Naturalist,125(1) :1–15, 1985
A. Grafen. The phylogenetic regression. Philos Trans R Soc Lond B Biol Sci, 326(1233) :119–57, 1989
G. Bell. A comparative method. American Naturalist, 133(4) :553–571, 1989
W. P. Maddison. A method for testing the correlated evolution of 2 binarycharacters - are gains or losses concentrated on certain branches of aphylogenetic tree. Evolution, 44(3) :539–557, 1990
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
•Méthodes
•Méthodes (suite)
•Générales
Novembre 2004 Analyse Comparative – DEA PPP - p. 43/44
Méthodes (suite)
J. L. Gittleman and M. Kot. Adaptation - statistics and a null model for estimatingphylogenetic effects. Systematic Zoology, 39(3) :227–241, 1990
M. Lynch. Methods for the analysis of comparative data in evolutionary biology.Evolution, 45(5) :1065–1080, 1991
E. P. Martins and T. F. Hansen. Phylogenies and the comparative method : ageneral approach to incorporating phylogenetic information into the analysis ofinterspecific data. American Naturalist, 149(4) :646–667, 1997
E. Abouheif. A method for testing the assumption of phylogenetic independence incomparative data. Evolutionary Ecology Research, 1(8) :895–909, 1999
F. J. Rohlf. Comparative methods for the analysis of continuous variables :geometric interpretations. Evolution, 55(11) :2143–2160, 2001
E. Paradis and J. Claude. Analysis of comparative data using generalizedestimating equations. Journal Of Theoretical Biology, 218(2) :175–85, 2002
Introduction
Mesurer le signal
phylogénétique
Prendre en compte le signal
phylogénétique
Le cas des données discrètes
Discussion
Références
•Méthodes
•Méthodes (suite)
•Générales
Novembre 2004 Analyse Comparative – DEA PPP - p. 44/44
Générales
P. H. Harvey and M. D. Pagel. The comparative Method in Evolutionary Biology.Oxford Series in Ecology and Evolution. Oxford University Press, 1991
J. L. Gittleman and H. K. Luh. On comparing comparative methods. AnnualReview Of Ecology And Systematics, 23 :383–404, 1992
R. E. Ricklefs. Phylogeny and ecology. Trends In Ecology & Evolution, 11(6) :229–230, 1996
E. P. Martins. Adaptation and the comparative method. Trends In Ecology &Evolution, 15(7) :296–299, 2000
S. P. Blomberg and T. Garland. Tempo and mode in evolution : phylogeneticinertia, adaptation and comparative methods. Journal of Evolutionary Biology, 15(6) :899–899, 2002