le test de mantel est-il utile pour l’analyse spatiale...

Post on 05-Aug-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Le test de Mantel est-il utile pour l’analyse spatiale en écologie

et en génétique?

Pierre Legendre Département de sciences biologiques

Université de Montréal

Fédération de Recherche Agrobiosciences, Toulouse, 21 mai 2015

UMR MARBEC, Université de Montpellier, 18 juin 2015

Plan de la présentation   1. Le test de Mantel

  2. L’hypothèse nulle du test de Mantel

  3. Deux types de R2

  4. Deux types de SS – Un exemple écologique simple

  5. Suppostions de base du test de Mantel

  6. Test de Mantel versus MEM: Données spatialisées

  7. Test de Mantel versus MEM: Communautés spatialisées

8. Une étude réelle en génétique des populations

  9. Conclusion

1. Le test de Mantel

Legendre & Legendre 2012, Fig. 10.19

D matrix computedfrom

a first data table1 2 3 … n

123

.

.

.

n

D matrix computedfrom

a second data tableUnfold the D matrices

Compute cross product

Mantel statistic (zM or rM)

1 2 3 … n123

.

.

.

n

etc. etc.

DY DX

Le test a été proposé par Nathan Mantel (National Cancer Institute, NIH, USA) pour des études épidémiologiques:

« ... identifying clustering by establishing a relationship between the temporal and the spatial separations for the n(n – l)/2 possible pairs which can be formed from the n observed cases of disease … to determine whether the cases of the disease are occurring independently or if they seem to be related. »

=> Mantel s’intéressait à la relation entre les distances géographiques et les distances temporelles des cas de maladies à développement épidémique, par exemple la leucémie.

Référence –

Mantel, N. 1967. The detection of disease clustering and a generalized regression approach. Cancer Research 27: 209-220.

2. L’hypothèse nulle du test de Mantel L’hypothèse nulle du test de Mantel diffère de celle d’un test de la corrélation entre deux variables –

Le test de Mantel teste l’absence de relation (H0) entre les valeurs de dissimilarité provenant de deux matrices de dissimilarité (ou distance).

Il ne s’agit pas d’un test de l’indépendance (H0) de deux variables ou de deux tableaux de données multivariables.

3. Deux types de R2

La statistique RM2 du test de Mantel diffère du R2 de la corrélation, de

la régression et de l’analyse canonique. Démonstration:

R2 de la régression multiple et RDA :

Son dénominateur est

!! = SS(!)SS(!)!

SS Y( ) y ij y j–( )2

j 1=

p

∑i 1=

n

∑ 1n--- Dhi

2

i h 1+=

n

∑h 1=

n 1–

∑= =

* Dhi est la distance euclidienne. Preuve de cette égalité dans Legendre & Fortin 2010, Appendix 1

*

3. Deux types de R2

La statistique RM2 du test de Mantel diffère du R2 de la corrélation, de

la régression et de l’analyse canonique (RDA). Démonstration:

R2 de la régression multiple et RDA :

Son dénominateur est

Le RM2 du test de Mantel est le carré de la corrélation de Mantel (rM).

Son dénominateur est SS(D) et non SS(Y):

Ces deux statistiques sont irréductibles l’une à l’autre.

!! = SS(!)SS(!)!

SS Y( ) y ij y j–( )2

j 1=

p

∑i 1=

n

∑ 1n--- Dhi

2

i h 1+=

n

∑h 1=

n 1–

∑= =

Est-ce que cela a de l’importance en pratique ? Considérons les nombres 1 to 10. La somme des carrés des écarts à leur moyenne est : SS(Y) = 82.5

Calculons la matrice des distances euclidiennes D entre ces nombres. La somme des carrés des écarts à la moyenne des distances, dans le triangle supérieur [ou inférieur] de D, est SS(D) = 220

82.5 ≠ 220

Exemple 1 : Fréquences d’une espèce (y) à 15 sites sur une carte.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

LongitudeLatitude

Exemple 1 : Fréquences d’une espèce (y) à 15 sites sur une carte.

Q – Quelle portion de la variation d’abondance entre les sites peut-on expliquer par la variation des conditions environnementales ? lm() R2 = 0.570 R2

adj = 0.453 p = 0.022 * mantel() R2

M = 0.068 (n’existe pas) p = 0.073 (NS)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

LongitudeLatitude

Exemple 1 : Fréquences d’une espèce (y) à 15 sites sur une carte.

Q – Quelle portion de la variation d’abondance entre les sites peut-on expliquer par la variation des conditions environnementales ? lm() R2 = 0.570 R2

adj = 0.453 p = 0.022 * mantel() R2

M = 0.068 (n’existe pas) p = 0.073 (NS) => Quel R2 correspond le mieux à cette question ?

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

LongitudeLatitude

Exemple 2 : Analyse de la variation d’un tableau sites x espèces à l’aide de variables explicatives.

Q – Peut-on expliquer la variation entre les sites par la variation des variables explicatives?

=> Quel R2 correspond le mieux à cette question ?

Y X2X1Sites

Espèces Envir. Spatial

Species

Sites

=> αi= N0, H1, N2, ...1

23...

n

Sums => γ = N0, H1, N2, ...

=>

1 2 3 . . . p

β = variation inspecies compositionamong sites

Diversity levels

Y = communitycomposition

data

Legendre & Legendre Numerical ecology (2012, Fig. 6.3).

Note – La variance totale du tableau de communauté est une mesure de la diversité bêta : BDTotal = Var(Y) = SS(Y)/(n–1).

Considérons une matrice de présence-absence d’espèces contenant quatre sites. Il y a de la variation entre les sites (diversité bêta).

Sp.1 Sp.2 Sp.3 Sp.4 Sp.5Site 1Site 2Site 3Site 4

1111

1000

0100

0010

0001

Site 1 Site 2 Site 3 Site 4Site 1Site 2Site 3Site 4

00.6670.6670.667

0.6670

0.6670.667

0.6670.667

00.667

0.6670.6670.667

0

D = [1 – Jaccard similarity]Data

Total SS of raw data = 3.000

Total SS of Jaccard-transformed data

1n--- Dhi

2

i h 1+=

n

∑h 1=

n 1–

∑ 0.667==

Total SS of distances in theupper triangle = 0

SS(Y) des données = 3.000 SS(D) dans le triangle supérieur = 0.000 SS(à partir des D de Jaccard) = 6*(0.6672)/4 = 0.667

La variation des distances de la matrice D n’apporte aucune information sur la variation qui se trouve dans les données Y.

4. Deux types de SS – Exemple écologique

Y

5. Suppositions de base du test de Mantel : Respectées dans les analyses spatiales ?

1. CorrélationMantel : hypothèse de linéarité (ou du moins de relation monotone) de la dispersion des points dans le graphique D–D.

2. Lorsque D1 est faible, D2 est faible; lorsque D1 est grand, D2 est grand. La distribution des valeurs dans le graphique D–D est homoscédastique.

0.0 0.2 0.4 0.6 0.8 1.0 1.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Geographic D

Res

pons

e D

5. Suppositions de base du test de Mantel : Respectées dans les analyses spatiales ?

1. CorrélationMantel : hypothèse de linéarité (ou du moins de relation monotone) de la dispersion des distances dans le graphique D–D.

2. Lorsque D1 est faible, D2 est faible; lorsque D1 est grand, D2 est grand. La distribution des valeurs dans le graphique D–D est homoscédastique.

Ces suppositions se vérifient-elles pour les données sur lesquelles les écologistes et les généticiens font de l’analyse spatiale?

⇒ Examinons des données simulées, spatialement autocorrélées (SA).

⇒ Avantage des données simulées: nous connaissons parfaitement la portée de l’autocorrélation spatiale.

Legendre, Fortin & Borcard 2015, Fig. 1 rM = 0.071. Cercles bleus=moyennes, carrés noirs=médianes

0 5 10 15 20

05

1015

20

Map of response surface, Range=10

(a)

5 10 15 20 25

01

23

Mean response.D vs geo.D classes

Central indices of geographic D classes

Mea

n of

resp

onse

D

(c)

Legendre, Fortin & Borcard 2015

0 10 20 30 40 50

010

2030

4050

Response surface, Range=0

Mantel r = 0.0037, p = 0.265

(a)

0 5 10 15 20 250.0

0.5

1.0

1.5

2.0

2.5

3.0

Mean response.D vs geo.D classes

Central indices of geographic D classes

MeanofresponseD

(b)

Legendre, Fortin & Borcard 2015

0 10 20 30 40 50

010

2030

4050

Response surface, Range=10

Mantel r = 0.040, p = 0.001

(e)

0 5 10 15 20 250.0

0.5

1.0

1.5

2.0

2.5

3.0

Mean response.D vs geo.D classes

Central indices of geographic D classes

MeanofresponseD

(f)

Legendre, Fortin & Borcard 2015

0 10 20 30 40 50

010

2030

4050

Response surface, Range=30

Mantel r = 0.05, p = 0.001

(i)

0 10 20 30 400.00.51.01.52.02.53.03.5

Mean response.D vs geo.D classes

Central indices of geographic D classes

MeanofresponseD

(j)

Legendre, Fortin & Borcard 2015

0 10 20 30 40 50

010

2030

4050

Response surface, Range=60

Mantel r = 0.26, p = 0.001

(o)

0 10 20 30 40 50 60 700.0

0.5

1.0

1.5

2.0

2.5

Mean response.D vs geo.D classes

Central indices of geographic D classes

MeanofresponseD

(p)

Legendre, Fortin & Borcard 2015

0 10 20 30 40 50

010

2030

4050

Response surface, Range=70

Mantel r = 0.45, p = 0.001

(q)

0 10 20 30 40 50 60 700.0

0.5

1.0

1.5

2.0

2.5

3.0

Mean response.D vs geo.D classes

Central indices of geographic D classes

MeanofresponseD

(r)

• La relation D1–D2 est rarement linéaire.

La relation devient à peu près linéaire lorsque la portée de l’autocorrélation spatiale dépasse la taille de la région étudiée.

• La relation n’est jamais homoscédastique. C’est l’une des causes de la faible puissance du test de Mantel.

6. Test de la méthode Mantel versus vecteurs propres de Moran (MEM) : Simulation de données spatialisées

Nous avons simulé des données spatialement corrélées en utilisant différentes représentations des relations géographiques.

Une notion nécessaire: la méthode d’analyse par vecteurs propres spatiaux (MEM). (Je peux présenter un autre séminaire sur ce sujet.)

Borcard, Gillet & Legendre 2011

Legendre & Legendre 2012, Fig. 14.2

Première série de simulations –

• Grille de 56 x 56 pixels.

• Variable réponse y avec autocorrélation spatiale (AS). Portée des variogrammes générant l’AS : {0, 5, 10, 15, 20, 25, 30, 35, 40} unités.

• 100 points échantillonnés formant une grille régulière 10 x 10.

• Régression multiple : lm(y ~ MEM) => R2, R2adj, probabilité.

• Test de Mantel : mantel(D(y), D.geo) => R2M, probabilité

et mantel(D(y), sqrt(D.geo)) => R2M, probabilité.

• 1000 simulations indépendantes pour chaque valeur d’AS.

=> Taux de rejet de H0 (α = 0.05) : nombre de rejets de H0 /1000.

=> Moyenne des R2 pour chaque méthode et R2adj pour la régression.

Legendre, Fortin & Borcard 2015, Fig. 2

0 5 10 15 20 25 30 35 40

0.0

0.2

0.4

0.6

0.8

1.0

Rejection rates across simulations

Autocorrelation in data (range of variogram)R

ejec

tion

rate

Regression-MEMMantel, sqrt(geo.D)Mantel, geoD

(a)

alpha=0.05

0 5 10 15 20 25 30 35 40

0.0

0.2

0.4

0.6

0.8

1.0

R-square across simulations

Autocorrelation in data (range of variogram)

R-square

Regression-MEM R2Regression-MEM R2.adjMantel R2, sqrt(geo.D)Mantel R2, geo.D

(b)

D’autres simulations ont été faites avec des matrices de distances tronquées et des triangulations de Delaunay pour les analyses Mantel. Ces formes de matrices de distance modifiées reflètent les pratiques en écologie du paysage.

Les résultats sont les mêmes que ceux de la figure précédente. Voir l’article pour plus de détails.

Résultats –

La puissance du test de Mantel était toujours inférieure à celle de l’analyse spatiale par vecteurs propres de Moran (analyse MEM). Les simulations montrent aussi que le R2 de Mantel était toujours beaucoup plus faible que le R2 produit par l’analyse MEM. R2

Mantel ne représente pas la proportion de la variance de Y qui est expliquée par les variables X. Il ne doit donc pas être interprété comme tel.

7. Test de la méthode Mantel versus analyse canonique (RDA) :

Simulation de communautés spatialisées

Legendre, Borcard & Peres-Neto 2005

Dans un article de 2005, nous avons simulé des données multivariables spatialement corrélées représentant des communautés d’espèces. Nous avons comparé les résultats de l’analyse spatiale par RDA au test de Mantel en utilisant d’autres représentations des relations géographiques :

• Pour l’analyse canonique : les coordonnées des points (XY), un polynôme cubique des coordonnées XY et des fonctions spatiales MEM (ancien acronyme : PCNM).

• Pour le test de Mantel : D(XY), D(polynôme) et loge(D(XY)).

Comparaison de deux méthodes de partitionnement — Nous avons réalisé des simulations numériques pour comparer empiriquement deux méthodes qui prétendent interpréter la diversité bêta (c’est-à-dire la variation de la composition des communautés entre les sites), soit le partitionnement par RDA et par tests de Mantel partiels.

Génération des données possédant les propriétés suivantes: (1)_Les données multivariables de communauté devaient contenir des patrons spatiaux non-aléatoires ayant des propriétés connues. (2)_Certains tableaux d’espèces devaient dépendre de variables environnementales ayant des caractéristiques spatiales connues. (3)_Les tableaux de communautés devaient ressembler à des données réelles de présence-absence ou d’abondance d’espèces. (4)_Certains tableaux de variables environnementales devaient contenir des patrons spatiaux ayant des propriétés connues.

Détails sur l’étude par simulations — Modèle : Sij = βjEik + SASij + εSij  Surface: grille de 100 × 100 cellules (10000 points). Échantillon : 10 × 10 (100 points) formant une grille régulière. 10 espèces, 5 variables environmentales. Les 5 premières espèces étaient autocorrélées (portée du variogramme : 15) et non corrélées aux variables environnementales. Les 5 espèces suivantes étaient aussi autocorrélées et, dans certains cas, reliées chacune à une var. environnementale par un paramètre de transfert β ayant l’une des valeurs suivantes : {0.0, 0.25, 0.5}. Dans certaines simulations, un gradient spatial déterministe fut ajouté aux variables environnementales. Deux séries de 1000 jeux de données furent générées pour chaque simulation: des données de présence-absence et des données d’abondance d’espèces. Tests de signification par permutation, 999 permutations aléatoires.

Fig. B1. Five environmental variables at 100 sampling sites on the 10 x 10 regular grid positioned in a 100 x 100 field (arbitrary units). Each variable was generated independently of the others; it contains a deterministic structure (gradient), spatial autocorrelation, and random “innovation” at each site. Dark circles: positive values; empty circles: negative values.

Environmental variables

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Variable 1

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Variable 2

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Variable 4

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Variable 3

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Variable 5

Fig. B3a. Species presence-absence data. These species are only spatially structured by autocorrelation (variogram with a range of 15 pixels).

Species 1-5, presence-absenceSpecies 1

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

Species 3

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

Species 2

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

Species 4

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Species 5

Fig. B3b. Species presence-absence data. These species are structured by autocorrelation (variogram with a range of 15 pixels), plus the effect of the environmental variables (gradient + spatial autocorrelation).

Species 6

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

Species 8

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

Species 7

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

Species 9

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00

0.00 0.00

27.50

27.50

55.00

55.00

82.50

82.50

110.00

110.00Species 10

Species 6-10, presence-absence

Table 1. Simulation results: rates of rejection of the null hypothesis (H0: the fraction is 0) at the α = 5% level after 1000 simulations. XY = geographic coordinates of the sites. Range = range parameter of the variogram for generation of autocorrelation; the simulation field was 100 x 100.

[a] [b] [c]

Environment Space

[d]

Legendre, Borcard & Peres-Neto 2005

Table 1. Simulation results: rates of rejection of the null hypothesis (H0: trace of the fraction is 0) at the α = 5% level after 1000 simulations. XY = geographic coordinates of the sites. Range = range parameter of the variogram for generation of autocorrelation; the simulation field was 100 x 100.

[a] [b] [c]

Environment Space

[d]

Legendre, Borcard & Peres-Neto 2005

• Comme pour les résultats précédents, ces nouvelles simulations montrent que la puissance du test de Mantel est toujours inférieure à celle de l’analyse canonique (RDA).

• Nos résultats montrent également que la variation spatiale est très mal estimée, dans les meilleurs cas, par la régression d’une matrice D réponse sur une matrice D géographique. • Aucune des transformations des distances que nous avons utilisées n’améliore la performance du test de Mantel.

• Du côté de la RDA, la représentation des relations spatiales entre les sites par les vecteurs propres de Moran (MEM) produit un test beaucoup plus puissant que l’utilisation des coordonnées géographiques simples ou sous forme de polynôme.

8. Une étude réelle en génétique des populations

3: 2075-2088 (2013)

Les barrières spatiales (routes) peuvent être représentées par des variables binaires en analyse canonique.

9. Conclusion Certains chercheurs aiment le test de Mantel parce qu’il est simple à utiliser. Il suffit de taper: mantel(D1, D2) pour obtenir la probabilité associée à H0 du test.

1. Le test de Mantel n’est pas approprié pour tester la présence de structures spatiale dans des données brutes pour plusieurs raisons.

1.1. L’hypothèse nulle (H0) du test de la corrélation dans des données brutes diffère du H0 d’un test portant sur des matrices de distance. 1.2. Les statistiques utilisées dans ces deux tests sont différentes et irréductibles l’une à l’autre.

1.3. La corrélation de Mantel suppose que, dans un graphique D–D, la relation entre les points est linéaire et homoscédastique. Ce n’est pas le cas pour des données spatialisées, excepté lorsque la portée de la corrélation spatiale s’étend sur toute la surface à l’étude ou plus loin encore.

9. Conclusion 2. Si on applique quand même le test de Mantel à des données spatialisées, sa puissance est toujours inférieure à celle de l’analyse RDA par vecteurs propres de Moran (analyse MEM).

Nos simulations montrent que le R2 de Mantel est toujours beaucoup plus faible que le R2 produit par l’analyse MEM. Il ne doit pas être interprété comme la proportion de variance de Y expliquée par X.

=> L’analyse par vecteurs propres spatiaux (MEM, AEM) produit des sorties plus riches en information qu’une simple probabilité (p-value). En particulier, les graphiques d’ordination montrent les relations entre les sites, les espèces et les MEM, et offrent la possibilité de cartographier les valeurs ajustées pour différentes échelles spatiales. 3. Le test de Mantel est inapproprié pour tester la corrélation entre des variables (données brutes), que ces variables soient spatialisées ou non. La statistique de Mantel est inappropriée, le test manque de puissance. Voir les simulations dans Legendre et Fortin (2010).

9. Conclusion 4. Notre conclusion principale est que le test de Mantel ne devrait être utilisé que pour répondre à des questions qui, dans le domaine d’application, concernent clairement et uniquement les relations entre distances. De telles questions sont rares en écologie et en génétique.

Il ne devrait pas être utilisé pour répondre à des questions qui sont dérivées de questions qui, à l’origine, concernaient les données brutes à partir desquelles on a calculé des dissimilarités.

9. Conclusion 4. Notre conclusion principale est que le test de Mantel ne devrait être utilisé que pour répondre à des questions qui, dans le domaine d’application, concernent clairement et uniquement les relations entre distances. De telles questions sont rares en écologie et en génétique.

Il ne devrait pas être utilisé pour répondre à des questions qui sont dérivées de questions qui, à l’origine, concernaient les données brutes à partir desquelles on a calculé des dissimilarités. 5. Qui préfère utiliser un test qui a une puissance faible (c’est-à-dire une faible capacité de détecter un effet) plutôt qu’un test qui a une puissance élevée?

Références Legendre, P. 2000. Comparison of permutation methods for the partial correlation and partial Mantel tests. Journal of Statistical Computation and Simulation 67: 37–73.

Legendre, P., D. Borcard and P. R. Peres-Neto. 2005. Analyzing beta diversity: partitioning the spatial variation of community composition data. Ecological Monographs 75: 435–450.

Legendre, P. and M.-J. Fortin. 2010. Comparison of the Mantel test and alternative approaches for detecting complex multivariate relationships in the spatial analysis of genetic data. Molecular Ecology Resources 10: 831–844.

Legendre, P., M.-J. Fortin and D. Borcard. 2015. Should the Mantel test be used in spatial analysis? Methods in Ecology and Evolution 6: 1239–1247. Pdf disponible auprès des auteurs.

Avez-vous des questions?

top related