mesures de la biodiversitÉ · 2010-09-28 · 6 notions de diversitÉ objet de l’étude le terme...

Eric Marcon

28/09/2010

MESURES

DE LA BIODIVERSITÉ

Les opinions émises par les auteurs sont personnelles et n’engagent pas l’UMR

EcoFoG ou ses tutelles.

3

MESURES DE LA BIODIVERSITE

Sommaire

Notations .................................................................................................... 5

Notions de diversité ................................................................................... 6

Objet de l’étude ..................................................................................................................... 6

Composantes ......................................................................................................................... 6

Richesse ................................................................................................................................................6

Équitabilité ..........................................................................................................................................7

Niveaux de l’étude ................................................................................................................. 7

Diversité , et ................................................................................................................................8

Décomposition ......................................................................................................................................9

Mesures classiques de la diversité .......................................................... 11

Richesse spécifique .............................................................................................................. 11

Estimation par extrapolation de la courbe aire-espèces ................................................................ 11

Estimation par ajustement de la fréquence de répartition des espèces ....................................... 14

Estimation non paramétrique ......................................................................................................... 14

Prédiction de la richesse d’un nouvel échantillon .......................................................................... 18

Influence de la structure spatiale.................................................................................................... 19

Indice de Fisher ............................................................................................................... 20

Indice de Simpson ............................................................................................................... 22

Définition .......................................................................................................................................... 22

Biais d’échantillonnage .................................................................................................................... 22

Indice de Shannon ............................................................................................................... 23

Définition .......................................................................................................................................... 23

Biais d’échantillonnage .................................................................................................................... 24

Équitabilité. ........................................................................................................................ 25

Entropie ............................................................................................................................... 25

Définition de l’entropie ..................................................................................................................... 25

Distance entre distributions ............................................................................................................ 26

Entropie et biodiversité : historique................................................................................................ 27

Synthèse ............................................................................................................................................ 28

4

Décomposition ......................................................................................................................29

Notations ........................................................................................................................................... 29

Règle générale ................................................................................................................................... 30

Application : Décomposition de l’indice de Shannon ...................................................................... 31

Test de significativité ....................................................................................................................... 34

Exemples ........................................................................................................................................... 35

Décomposition de l’indice de Gini-Simpson .................................................................................... 37

Hypothèse nulle et tests ......................................................................................................38

Le partitionnement de la diversité selon Pélissier et Couteron .........................................40

Cadre ................................................................................................................................................. 40

Décomposition ................................................................................................................................... 41

Indice de Rao ........................................................................................... 42

Préalables ............................................................................................................................42

Dissimilarité ..................................................................................................................................... 42

Cas étudiés ........................................................................................................................................ 42

Principe ................................................................................................................................43

Formalisation .................................................................................................................................... 43

Discussion ......................................................................................................................................... 43

Calcul sous R .......................................................................................................................44

Préalables .......................................................................................................................................... 44

Création de la matrice de distances ................................................................................................ 45

Tableau des fréquences .................................................................................................................... 47

Indice de Rao ..................................................................................................................................... 48

Maximum théorique ............................................................................................................49

Décomposition ......................................................................................................................49

Principe ............................................................................................................................................. 49

Calcul sous R ..................................................................................................................................... 50

La double analyse en coordonnées principales ............................................................................... 51

Calcul sous R ..................................................................................................................................... 51

Bibliographie ........................................................................................... 54

5

NOTATIONS

Les notations peuvent différer de celles de la littérature citée pour l’homogénéité de

ce document. Souvent, la littérature écologique n’est pas très rigoureuse sur la dis-

tinction de ce qui est un paramètre, une variable aléatoire ou son estimation. Par

exemple, le nombre d’arbres échantillonnés (choisi) devrait être noté n. Un nombre

d’arbres aléatoire (résultat d’un processus stochastique) devrait être noté et son

estimateur . La confusion est fréquente dans la formulation des mesures de diver-

sité et leurs estimateurs. Dans la mesure du possible, des notations plus rigou-

reuses que les originales sont utilisées ici.

: l’aire d’étude, et, selon le contexte, sa surface.

( ) : l’espérance de la variable aléatoire .

: le nombre (aléatoire) d’individus se trouvant dans l’aire d’étude, estimé par le

nombre observé . est la même variable aléatoire, mais restreinte aux individus

de l’espèce . Attention, dans un contexte différent, est aussi la notation des

nombres de Hill.

: le nombre d’individus échantillonnés, paramètre choisi dans le cadre du proto-

cole d’échantillonnage.

: la probabilité qu’un individu tiré au hasard appartienne à l’espèce i. Son estima-

teur, est la fréquence observée.

* + : la distribution des probabilités .

: le nombre d’espèces, considéré comme une variable aléatoire, estimé par .

: le nombre d’espèces, considéré comme une variable aléatoire, détectées dans

l’échantillonnage. L’exposant est le nombre de fois où l’espèce est détectée : par

exemple ou . L’exposant est la taille de l’échantillon : pour la surface ou

pour un échantillon de individus. est le nombre d’espèces non rencontrées

dans la surface . Pour alléger les notations, s’il n’y a pas d’ambiguïté, l’exposant

est omis pour les espèces présentes : est noté . Si l’indice n’est pas noté,

l’échantillon n’est pas précisé et peut être aussi bien un nombre d’individus qu’une

surface.

: le nombre d’individus de l’espèce dans la placette .

6

NOTIONS DE DIVERSITÉ

Objet de l’étude

Le terme biodiversité concerne le plus souvent la diversité en termes d’espèces d’un

écosystème. On peut bien évidemment s’intéresser à d’autres niveaux et d’autres

objets, par exemple la diversité génétique (en termes d’allèles différents pour cer-

tains gènes ou marqueurs) à l’intérieur d’une population.

Figure 1 : Emboîtement des objets d'étude de la biodiversité

On gardera toujours à l’esprit que la prise en compte de la diversité spécifique n’est

pas la seule approche.

Composantes

Richesse

La richesse est le nombre (ou une fonction croissante du nombre) de catégories dif-

férentes présentes dans le système étudié, par exemple le nombre d’espèces d’arbres

dans une forêt.

Un certain nombre d’hypothèses sont assumées plus ou moins explicitement :

7

Les catégories sont bien connues : compter le nombre d’espèces a peu de sens

si la phylogénie n’est pas bien établie. C’est parfois une difficulté majeure

quand on travaille sur les microorganismes.

Les catégories sont équidistantes : la richesse augmente d’une unité quand on

rajoute une espèce, que cette espèce soit proche des précédentes ou extrême-

ment originale.

L’indice de richesse le plus simple et le plus utilisé est tout simplement le nombre

d’espèces ou son logarithme .

Figure 2 : Importances de la richesse (en haut) et de l’équitabilité (en bas) pour la définition de la diversité

Équitabilité

La régularité de la distribution des espèces (équitabilité en Français, evenness en

Anglais) est un élément important de la diversité. Une espèce représentée abon-

damment ou par un individu n’apporte pas la même contribution à l’écosystème. A

nombre d’espèces égal, la présence d’espèces très dominantes entraîne mathémati-

quement la rareté de certaines autres : on comprend donc assez intuitivement que

le maximum de diversité sera atteint quand les espèces auront une répartition très

régulière.

Un indice d’équitabilité est indépendant du nombre d’espèces (donc de la richesse).

La plupart des indices courants, comme ceux de Simpson ou de Shannon, évaluent à

la fois la richesse et l’équitabilité.

Niveaux de l’étude

La diversité est classiquement estimée à plusieurs niveaux emboîtés, nommés ,

et par Whittaker (1960, p. 320), qui a nommé la diversité locale qu’il mesurait

avec l’indice alpha de Fisher (voir page 20) et a utilisé les lettres suivantes selon ses

besoins.

8

Diversité , et

La diversité est la diversité locale, mesurée à l’intérieur d’un système délimité.

Plus précisément, il s’agit de la diversité dans un habitat uniforme de taille fixe.

Figure 3 : Diversité , évaluée par la richesse spécifique.

L’habitat B possède la plus grande richesse (figure issue de Morin et Findlay, 2001).

De façon générale, la richesse spécifique diminue avec la latitude (la diversité est

plus grande dans les zones tropicales, et au sein de celles-ci, quand on se rapproche

de l’équateur).

Figure 4 : Nombre d'espèces de coraux dans les récifs (figure issue de Morin et Findlay, 2001)

La richesse diminue avec l’altitude. Elle est généralement plus faible sur les îles, où

elle décroît avec la distance au continent, source de migrations.

9

La diversité est le taux de remplacement des espèces le long d’un gradient (topo-

graphique ou d’habitats par exemple).

Figure 5 : Diversité , évaluée par la richesse spécifique (figure issue de Morin et Findlay, 2001).

Enfin, la diversité est similaire à la diversité , prise en compte sur l’ensemble du

système étudié.

Décomposition

La décomposabilité de la diversité est une propriété essentielle parce qu’elle permet

les changements d’échelle.

La distinction entre les diversités et dépend de la finesse de la définition de

l’habitat. La distinction de nombreux habitats diminue la diversité au profit de la

. Il est donc important de définir une mesure qui ne dépende pas de ce découpage,

donc une mesure additive décrivant la diversité totale, décomposable en la somme

(ou le produit) convenablement pondérée de toutes les diversités des habitats (di-

versité intra) et de la diversité inter-habitat.

Jurasinski et al. (2009) distinguent plusieurs types de mesures de diversité :

La diversité d’inventaire (inventory diversity), qui traite des données récol-

tées sur une unité spatiale,

La diversité de différentiation (differentiation diversity), qui mesure à quel

point les unités spatiales sont différentes, ce qui correspond à la définition de

la diversité donnée plus haut

La diversité proportionnelle (proportional diversity), diversité qui se cons-

truit par différence ou rapport des diversités et .

Marcon et al. (in prep) montrent que la diversité de Shannon (page 22) peut être

définie et décomposée (page 31) de façon à recouvrir ces trois concepts.

10

Une revue détaillée de la notion de décomposabilité est fournie par Tuomisto (2010).

11

MESURES CLASSIQUES DE LA DIVERSITÉ

Richesse spécifique

La richesse spécifique est apparemment un indice de diversité extrêmement simple.

En pratique, il pose le problème du choix de la surface d’échantillonnage.

L’aire minimum est la surface nécessaire à échantillonner pour rencontrer toutes

les espèces présentes dans l’habitat considéré. En forêt tempérée, on considère

qu’elle est inférieure à l’hectare.

En forêt tropicale, il existe de nombreuses espèces rares, au sens où la probabilité

de ne pas les rencontrer à l’occasion d’un échantillonnage d’une certaine taille n’est

pas négligeable. L’expérience montre que l’augmentation de l’aire d’échantillonnage

n’est pas la solution adaptée, puisqu’on rencontre toujours de nouvelles espèces,

même en échantillonnant des surfaces considérables (50 hectares pour la Figure 7)

Il s’agit bien de mesurer la diversité , à l’intérieur du même habitat, et non

d’augmenter la surface échantillonnée le long d’un gradient d’habitats (diversité ).

Le problème est donc bien la prise en compte des espèces rares.

Trois approches sont possibles :

Extrapoler la courbe aire-espèces observée dans les échantillons. La méthode

consiste à formaliser la relation ( ) (où est le nombre d’espèces dé-

tectées dans la surface et un vecteur de paramètres) à partir d’un certain

nombre d’hypothèses puis à ajuster les paramètres à partir des données.

L’exemple le plus connu est celui de la loi de puissance, où , et

étant deux paramètres.

Utiliser les fréquences des espèces observées pour en déduire le nombre

d’espèces non observées. Deux méthodes sont alors en concurrence :

o Formaliser la distribution des fréquences des espèces par une loi con-

nue et en estimer les paramètres à partir de l’échantillonnage. Un mo-

dèle connu est le broken stick (Pielou, 1977 p. 285) dans lequel les fré-

quences sont distribuées selon une loi exponentielle.

o Ne pas faire de supposition sur la forme de la loi de distribution et uti-

liser des méthodes d’estimation non paramétriques. Les estimateurs

les plus connus sont ceux de Chao (1984 pour Chao1) et le jackknife

(Burnham et Overton, 1979).

Estimation par extrapolation de la courbe aire-espèces

Arrhenius (1921) a établi le modèle de base, dit loi de puissance : , où est

le nombre d’espèces dans , la surface, et des paramètres. May (1975), en sup-

posant que la fréquence des espèces suivait une loi log-normale, a établi que la puis-

sance devait valoir 0,25, confirmant les résultats empiriques. Le seul paramètre

12

de la loi de puissance reste donc , un facteur d’échelle dépendant de la richesse de

l’habitat.

Plotkin et al. (2000) ont eu accès à de grands échantillons (5 placettes de 50 hec-

tares dans l’ensemble du monde tropical, Figure 6, toutes déterminées correctement

sur le plan botanique et dans lesquels chaque arbre est positionné). Ils montrent

que le modèle log-normal rend mal compte de la réalité (Figure 7a).

Figure 6 : Les cinq dispositifs de Plotkin et al. (2000). Chaque dispositif mesure 50 ha et toutes les tiges de dia-

mètre supérieur à 1 cm sont cartographiées et déterminées.

Harte et al. (1999) ont montré que la loi de puissance était équivalente au modèle

d’auto-similarité, dérivé de la théorie des fractales. On considère un rectangle

dont le rapport longueur sur largeur vaut √ . On obtient le rectangle en pla-

çant deux rectangles côte à côte (et donc le rectangle en coupant en deux).

est le nombre d’espèces rencontrées dans . On définit enfin ⁄ le fac-

teur de diminution du nombre d’espèces (dit paramètre de persistance) lié à la divi-

sion par 2 de la taille du rectangle. S’il s’agit d’une constante, , indépendante de la

taille du rectangle, l’habitat est dit auto-similaire : l’augmentation du nombre

d’espèces ne dépend pas de l’échelle d’observation. Si cette condition est respectée,

le nombre d’espèces suit la loi de puissance, et . Pour la valeur classique de

, . La Figure 7b présente la valeur de en fonction de la surface

échantillonnée. Elle augmente avec la surface, ce qui infirme le modèle d’auto-

similarité.

13

Figure 7 : Courbes aire-espèces (a) et Paramètre de persistance en fonction de la surface (b) dans 5 forêts tropi-

cales (Plotkin et al., 2000). La loi log-normale est représentée par le trapèze sur la figure a, pour une gamme de

valeurs de la constante. Elle implique que la relation aire-espèces représentée en logarithmes soit une droite, ce

qui n’est visiblement pas le cas.

Plotkin et al. (2000) ne supposent pas constant et lui imposent simplement d’être

une fonction de la surface, choisie arbitrairement pour permettre les calculs ulté-

rieurs, et dont la forme correspond aux observations de la Figure 7b. Après calculs,

la relation aire-espèces est ( ). ( ) est un polynôme de degré de ,

sans constante. Les monômes sont d’autant moins importants que leur degré est

élevé. L’approximation de degré 0 est la loi de puissance. Celle de degré 1 est rete-

nue par les auteurs pour estimer le nombre d’espèces rencontrées sur la surface :

(1)

Ce modèle contient un paramètre k en plus de la loi de puissance. Les auteurs ont

établi que les paramètres et étaient très proches pour les cinq forêts, et que leur

estimation sur une forêt permettait de prédire avec une très bonne précision la ri-

chesse des autres, à partir d’un échantillon d’un hectare nécessaire pour obtenir le

paramètre . La Figure 8 compare les performances de cette méthode (persistence

method) et de la loi de puissance 0,25 (loi log-normale).

14

Figure 8 : Performance du modèle de Plotkin et al. (2000) face au modèle log-normal. Le modèle alpha de Fisher

est présenté plus bas (page 20). Le modèle Broken stick n’est pas détaillé dans le texte. La courbe représente le

nombre d’espèces rencontrées à Pasoh sur des surfaces de 0 à 50 ha. Les données observées sont des tirages

aléatoires d’échantillons de la surface souhaitée. L’écart-type est représenté (l’intervalle de fluctuation à 95% est

de l’ordre de 2 écart-types). Les valeurs issues du modèle ont été obtenues par un paramétrage de et sur

25ha, supposé valide également sur les autres forêts. Le paramétrage de c est obtenu par un échantillon d’un

hectare, répété 1000 fois pour obtenir un intervalle de confiance. L’intervalle de fluctuation à 95% est ici encore

de l’ordre de deux écart-types.

Estimation par ajustement de la fréquence de répartition des

espèces

Fisher et al (1943) ont ouvert la voie à une abondante littérature. Pour une revue,

voir Chao (2004). Parmi les plus connus, Fisher et al ont supposé la fréquence de

distribution des espèces suivait une loi gamma, Pielou (1977) a utilisé une loi expo-

nentielle.

On sait écrire la probabilité qu’une espèce soit observée fois dans un échantillon

en fonction de la fréquence de distribution. Les paramètres de la loi sont estimés

par la méthode du maximum de vraisemblance à partir des données observées.

Ces méthodes présentent l’inconvénient, outre celui des calculs compliqués, de four-

nir des estimations très dépendantes de la loi choisie, qui est difficile à justifier.

Estimation non paramétrique

Dans le cadre d’un échantillonnage de individus, on observe espèces différentes

parmi les existantes. Chaque individu a une probabilité d’appartenir à l’espèce

.

On ne sait rien sur la loi des , contrairement à la méthode précédente. On sait

seulement, comme les individus sont tirés indépendamment les uns des autres, que

le nombre d’individus de l’espèce observée dans l’échantillon suit une loi bino-

miale dont l’espérance est . La loi a une forme en cloche assez prononcée qui fait

15

que la probabilité de rencontrer individus d’une espèce est maximum pour ,

reste assez grande quand varie de et devient rapidement très faible quand

s’éloigne de (Figure 9). Enfin, on connaît l’espérance du nombre d’espèces non

observées : ( ) ∑

.

Figure 9 : Densité de probabilité de la loi de binomiale, pour différentes espèces plus ou moins rares (valeurs de

). En abscisse, le nombre d’observations dans l’échantillon, en ordonnée la probabilité.

Pour les espèces fréquentes, est grand, et les espèces sont observées systémati-

quement (Figure 9 : pour , la probabilité de ne pas rencontrer l’espèce est de

l’ordre de 1%). La difficulté est due aux espèces pour lesquelles , l’espérance du

nombre d’observations, est petit. La probabilité de les observer est donnée par la loi

de binomiale : si est proche de 0, la probabilité d’observer un individu est faible

(Figure 9 : pour , la probabilité de rencontrer l’espèce une fois est de l’ordre

de 10%, et pratiquement nulle pour des observations multiples).

Chao1 et Chao2

Chao (1984) estime le nombre d’espèces non observées à partir de celles observées 1

ou 2 fois. Il s’agit d’un estimateur minimum, valide à condition que les singletons et

doubletons représentent une part importante de l’information. L’estimateur est

( )

(2)

est le nombre d’espèces différentes observé, le nombre d’espèces observées

fois. L’échantillon peut être une surface ou un nombre d’individus.

Si aucune espèce n’est observée deux fois, l’estimateur est remplacé par

( )

(Chao, 2004).

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 1 2 3 4 5 6 7 8 9 10

r

P(n

i)=r

Npi=0,1

Npi=0,5

Npi=1,0

Npi=2,0

Npi=5,0

16

Chao (1987) utilise une méthode différente pour obtenir un estimateur du nombre

minimum d’espèces tenant compte du nombre d’individus échantillonnés.

L’estimateur suppose que est grand, et que la probabilité d’observation de chaque

espèce est petite.

( )( )

(3)

Si aucune espèce n’est observée deux fois, l’estimateur est remplacé par

( ) (

)

.

L’estimateur ACE

Good (1953) définit le taux de couverture de l’échantillonnage (sample coverage)

comme la proportion des espèces découvertes ∑ ( ) où est la fonc-

tion indicatrice. Son estimateur est

.

Chao et Lee (1992) développent l’estimateur ACE (Abundance-based coverage esti-

mator) à travers l’estimation de . L’estimateur ACE utilise toutes les valeurs de

correspondant aux espèces rares : concrètement, la valeur limite de , notée est

fixée arbitrairement, généralement à 10.

L’estimateur prend en compte le coefficient de variation de la distribution des fré-

quences ( ) : plus les probabilités sont hétérogènes, plus le nombre d’espèces non

observées sera grand. Finalement :

(4)

est le nombre d’espèces dites abondantes, observées plus de fois,

le

nombre d’espèces dites rares, observées fois ou moins. est le taux de couver-

ture ne prenant en compte que les espèces rares.

L’estimateur du coefficient de variation est :

(

∑ ( )

(∑

)(∑

) )

Lorsque l’hétérogénéité est très forte, un autre estimateur est plus performant :

(

( ( )∑ ( )

(∑

)) )

Chao et Shen (2003-2005) conseillent d’utiliser le deuxième estimateur dès que

dépasse 0,8. L’estimateur ACE donne normalement une valeur plus grande

que Chao1. Si ce n’est pas le cas, la limite des espèces rares doit être augmentée.

L’estimateur jackknife

La méthode jackknife a pour objectif de réduire le biais d’un estimateur en considé-

rant des jeux de données dans lesquels on a supprimé un certain nombre

17

d’observations (ce nombre est l’ordre de la méthode). Burnham et Overton (1979)

ont utilisé cette technique pour obtenir des estimateurs du nombre d’espèces, appe-

lés jackknife à l’ordre , prenant en compte les valeurs de à

. Les estimateurs

du premier et du deuxième ordre sont les seuls utilisés en pratique :

( )

( )

( )

( )

(5)

Chao (1984) a montré que les estimateurs jackknife pouvaient être retrouvés par

approximation de l’indice Chao1.

Calcul

Ces estimateurs peuvent être calculés de façon relativement simple à l’aide du logi-

ciel SPADE (Chao et Shen, 2003-2005) disponible sur internet (voir la référence bi-

bliographique). Le guide de l’utilisateur présente quelques estimateurs supplémen-

taires et des directives pour choisir. Il est conseillé d’utiliser Chao1 pour une esti-

mation minimale, et ACE pour une estimation non biaisée de la richesse.

Les intervalles de confiance de chaque estimateur sont calculés par bootstrap :

même quand la variance d’un estimateur est connue, sa loi ne l’est généralement

pas, et le calcul analytique de l’intervalle de confiance n’est pas possible.

Les estimateurs et leurs intervalles de confiance peuvent également être calculés

sous R. Le package vegan dispose pour cela de deux fonctions specpool() et estima-

teR().

specpool() est basé sur les incidences des espèces dans un ensemble de sites

d’observation et donne une estimation unique de la richesse selon les méthodes

Chao2, jackknife (ordre 1 et 2) et bootstrap. Un intervalle de confiance est égale-

ment fourni par la fonction, sauf pour l’estimateur jackknife d’ordre 2.

estimateR() est basé sur les abondances des espèces et retourne un estimateur de la

richesse spécififique par site et non global comme specpool.

Exemple :

On utilise les données de Barro Colorado Island (BCI). La parcelle a été divisée en

carrés de 20 m x 20 m. Le tableau d’entrée est un dataframe contenant, pour chaque

espèce ( ≥ 1 cm), ses effectifs par carré.

On charge le tableau de données :

> data(BCI)

On utilise la fonction estimateR pour calculer la richesse des 5 premiers carrés :

> estimateR(BCI[1:5,])

1 2 3 4 5

S.obs 93.000000 84.000000 90.000000 94.000000 101.000000

18

S.chao1 117.516620 117.293367 141.340237 111.583750 136.055556

se.chao1 12.578970 17.841763 26.075747 9.647692 16.882684

S.ACE 122.848959 117.317307 134.669844 118.729941 137.114088

se.ACE 5.736054 5.571998 6.191618 5.367571 5.848474

Krishnamani et al. (2004) : estimation à partir de placettes.

Krishnamani et al. développent une méthode permettant l’extrapolation de la ri-

chesse mesurée sur de petites surfaces (48 placettes de 0,25 ha) à de très grandes

zones (60 000 km², la taille des Western Ghats en Indes).

Partant de la relation d’Arrhenius (1921) vue précédemment, le nombre d’espèces

dans une surface est

( ⁄ )

(6)

c'est-à-dire le nombre d’espèces dans la surface plus petite multipliée par le rap-

port des surfaces à la puissance . La valeur de est constante pour des variations

de surface limitées. L’idée est donc de procéder par étapes, en partant du nombre

d’espèces mesuré sur les petites placettes, et extrapolant vers une surface plus

grande. Cette surface est ensuite prise pour référence pour une nouvelle extrapola-

tion avec une nouvelle valeur de . En indiçant les surfaces de 0 à , on obtient :

( ⁄ ) ( ⁄ ) ( ⁄ )

(7)

Il reste à évaluer les différentes valeurs de . A l’intérieur de chaque placette,

l’équation (6) est suffisante. A plus grande distance, les auteurs utilisent l’indice de

Sørensen, c'est-à-dire deux fois la fraction d’espèces communes entre deux pla-

cettes : ( ) ( )⁄ . L’indice dépend principalement de la surface des

placettes et de leur éloignement . Pour certaines plages de distances , -

vérifiant ⁄ (placettes éloignées), est proportionnel à ( ⁄ ) . La valeur

de peut donc être calculée en comptant le nombre d’espèces communes entre

chaque paire de placettes, et ajustant à ( ⁄ ) sur des plages de distances

convenables pour que reste constant, et donc que la relation soit linéaire.

Cette méthode permet l’extrapolation à de très grandes surfaces de mesures de ri-

chesse faites sur de petites placettes à condition qu’elles soient assez nombreuses et

éloignées les unes des autres.

Prédiction de la richesse d’un nouvel échantillon

La prédiction du nombre d’espèces découvert dans une nouvelle placette d’un ha-

bitat dans lequel on a déjà échantillonné est une question importante, par exemple

pour évaluer le nombre d’espèces préservées dans le cadre d’une mise en réserve, ou

évaluer le nombre d’espèces perdues en réduisant la surface d’une forêt.

19

Figure 10 : Courbes Espèces-Nombre d’individus simulées pour

illustrer l’importance des paramètres (concentration spa-

tiale) et (nombre total d’espèces) dans le modèle de Fisher.

est fixé à 100 pour toutes les courbes. (a) et (b) : la concentra-

tion spatiale ( ) change drastiquement le nombre d’espèces

attendu. En pratique, seuls S et N ( et dans nos notations)

sont observés. Si c est supposé égal à 1 par erreur, est sous-

estimé. (a) et (c) : le nombre d’espèces n’est évidemment pas

infini, ce qui change fortement la forme de la courbe. Si le

nombre d’observations est grand, sera aussi très sous-estimé.

(in Schulte et al., 2005)

Shen et al. (2003) proposent un estimateur et le confrontent avec succès à des esti-

mateurs antérieurs. On note l’estimateur du nombre d’espèces non observées

dans le premier échantillon, et l’estimateur de son taux de couverture.

L’estimateur du nombre d’espèces du nouvel échantillon de individus est :

[ (

)

] (8)

peut être obtenu par Chao1 (

(

)

) ou ACE, ou un autre estimateur : dans

tous les cas

.

Le calcul de est disponible dans SPADE.

Influence de la structure spatiale

Les modèles classiques de courbes aire-espèces supposent un tirage indépendant

des individus. Sur le terrain, l’échantillonnage est continu : s’il existe une structure

spatiale, par exemple des agrégats, la probabilité que l’arbre suivant soit d’une es-

pèce donnée dépend de ses voisins, donc de l’arbre précédent. Intuitivement, on

comprend bien que le nouvel arbre de la même espèce apporte moins d’information,

ce qui revient à surestimer la

taille de l’échantillon ou sous-

estimer la richesse pour une taille

d’échantillon fixée.

Plotkin et al.(2000) traitent un

problème un peu différent : con-

naissant le nombre total d’espèces

dans les dispositifs de la Figure 6,

ils tracent la courbe aire-espèces

théorique issue du modèle de Co-

leman (1981) qui considère sim-

plement que la probabilité de ne

pas rencontrer une espèce suit une

loi binomiale, les tirages étant in-

dépendants. Ce modèle surestime

largement la diversité pour les

petites surfaces : la probabilité de

ne pas rencontrer une espèce

agrégative est sous-estimée. Le

biais diminue quand la surface

d’échantillonnage augmente, parce

que la taille relative des agrégats

diminue.

Les effets de l’agrégation peuvent

donc être opposés selon la question posée. Dans tous les cas, il suffit de considérer

20

Figure 11 : Comparaison entre le modèle

de Fisher et le modèle étendu dans trois

parcelles forestières connues. Les mo-

dèles sont ajustés aux données observées

par Condit et al. (1996). Les courbes lé-

gendées Equation 4 correspondent au

modèle de Fisher étendu équation (10)

alors que l’Equation 4 est le modèle in-

termédiaire, supposant le nombre total

d’espèces infini. (in Schulte et al., 2005)

qu’un agrégat surestime le nombre d’arbres de son

espèce qui devrait être pris en compte dans le

cadre d’un modèle à tirages indépendants.

Plotkin et al.(2000) proposent une méthode per-

mettant de prendre en compte la structure spa-

tiale pour fournir des modèles de courbes aire-

espèces fiables, dans un cadre particulier où le

nombre total d’espèces et leur structure spatiale

sont connus. La méthode nécessite une carte des

arbres. Le semis de point est considéré comme le

résultat d’un processus de Neyman-Scott (1958) :

des centres d’agrégats sont tirés de façon complè-

tement aléatoire et les arbres sont répartis autour

des centres selon une loi normale en deux dimen-

sions. Les paramètres du processus sont estimés à

partir du semis de points, puis la courbe aire-

espèces est obtenue par simulation du processus.

Malheureusement, aucune méthode permettant

de prendre en compte la structure spatiale n’est

disponible pour corriger les estimateurs clas-

siques. Dans le cas de Chao1, une forte structure

agrégative peut diminuer le nombre de singletons

et doubletons, et donc entraîner une sous-

estimation de la richesse.

Indice de Fisher

Fisher et al (1943) ont relié le nombre d’espèces

au nombre d’individus à partir du modèle

suivant :

Les individus sont distribués indépendam-

ment les uns des autres, selon une loi de

Poisson de paramètre , dépendant de

l’espèce.

Les paramètres sont eux-mêmes distribués selon une loi gamma de para-

mètre . est inversement lié à la variance de . Il est choisi par Fisher

comme tendant vers 0, ce qui signifie que le nombre d’espèces est supposé in-

fini, avec une distribution de m pouvant prendre toutes les valeurs.

Le modèle est donc applicable pour un grand nombre d’observations et un grand

nombre d’espèces, dont les individus sont distribués indépendamment. Alors :

( ⁄ ) (9)

21

est estimé à partir des données. C’est un indicateur de la biodiversité qui peut

être interprété comme le nombre d’espèces nouvelles découvertes quand le nombre

d’individus échantillonnés est multiplié par : c’est en effet la pente de la courbe de

en fonction de , qui se stabilise à partir d’une valeur de suffisante. Kempton

(Kempton et Taylor, 1976 ; Kempton et Wedderburn, 1978) a montré qu’il était

identique à sa statistique .

La distribution des espèces est un cas particulier de la celles prévues par le modèle

neutre, dans le cas où le taux de migration est égal à 1. Alors, est égal à , le

nombre fondamental de la biodiversité de Hubbel (2001).

Dans R, la librairie untb contient la fonction optimal.theta pour calculer par ajus-

tement aux données. Elle peut être utilisée de préférence à la simple résolution de

l’équation (9) pour évaluer , comme dans l’exemple ci-dessous, appliqué aux don-

nées de BCI.

> library(untb)

> data(BCI)

> N <- colSums(BCI)

> # N est un vecteur contenant les effectifs de chaque espèce.

> (alpha <- optimal.theta(N))

[1] 80.95173

Schulte et al. (2005) ont étendu le modèle de Fisher pour prendre en compte un

nombre d’espèces fini et une distribution non indépendante des individus, prise

en compte par un paramètre d’agrégation spatiale c valable pour toutes les espèces.

(

( ) ⁄)

où ⁄

( ) ⁄

(10)

Si et , l’équation (10) se simplifie pour retrouver l’équation (9).

Leurs résultats montrent que la non prise en compte de ces deux paramètres abou-

tit à une sous-estimation systématique de , différente selon les sites, ce qui inva-

lide les comparaisons inter-sites.

Appliqué à des données réelles, le modèle de Fisher étendu s’ajuste forcément mieux

(il possède trois paramètres au lieu d’un). L’approximation du nombre d’espèces in-

fini paraît être la plus pénalisante parce qu’elle exclut l’inflexion de la courbe pour

les grandes valeurs de , même si ces valeurs sont rarement atteinte dans les faits

( ).

Enfin, l’indice repose lourdement sur l’hypothèse que la distribution réelle des es-

pèces est conforme au modèle. Jost (2007) montre par un exemple que des interpré-

tations absurdes de l’indice peuvent être faites si l’hypothèse n’est pas respectée.

22

Indice de Simpson

Définition

On note la probabilité qu’un individu tiré au hasard appartienne à l’espèce .

L’indice de Simpson (1949), ou Gini-Simpson, est :

∑

(11)

Il peut être interprété comme la probabilité que deux individus tirés au hasard

soient d’espèces différentes. Il est compris dans l’intervalle , ,. Sa valeur diminue

avec la régularité de la distribution : si une seule espèce a une probabilité de

1, ⁄ si les espèces ont la même probabilité ⁄ . La valeur 1 est at-

teinte pour un nombre infini d’espèces, de probabilités nulles.

Il est parfois interprété comme un indice d’équitabilité (Morin et Findlay, 2001 par

exemple), mais le nombre d’espèces intervient clairement dans sa valeur : pour une

régularité identique, l’indice augmente avec le nombre d’espèces.

Deux autres formes de l’indice sont utilisées. Tout d’abord, la probabilité que deux

individus soient de la même espèce :

∑

(12)

Enfin, une forme dite « réciproque », plus rare :

⁄

(13)

L’indice est un cas particulier de l’indice de Rao, étudié en détail plus loin.

L’estimateur du maximum de vraisemblance de l’indice est :

∑

(14)

Le calcul de l’indice de Simpson peut se faire avec la fonction diversity – syntaxe :

diversity(x, index = "simpson") – disponible en chargeant la librairie vegan de R.

Biais d’échantillonnage

L’estimateur est légèrement biaisé parce que toutes les espèces n’ont pas été

échantillonnées. Un estimateur non biaisé est (Good, 1953 ; Lande, 1996) :

23

.

/( ∑

) (15)

La correction par

tend rapidement vers 1 quand la taille de l’échantillon aug-

mente : l’estimateur est très peu biaisé.

Indice de Shannon

Définition

L’indice de Shannon (Shannon, 1948 ; Shannon et Weaver, 1963), aussi appelé in-

dice de Shannon-Weaver ou Shannon-Wiener, est dérivé de la théorie de

l’information.

∑

(16)

Considérons une placette forestière contenant espèces végétales différentes. La

probabilité qu’une plante choisie au hasard appartienne à l’espèce est notée . On

prélève plantes, et on enregistre la liste ordonnée des espèces des plantes. Si

est suffisamment grand, le nombre de plantes de l’espèce est . On note le

nombre de listes respectant ces conditions :

∏ ( )

(17)

Démonstration :

Le nombre de positions possibles dans la liste pour les individus de la

première espèce est . Le nombre de positions pour la deuxième es-

pèce est

. Pour la ième espèce, le nombre est

Les produits de combinaisons se simplifient pour donner l’équation

(17).

On peut maintenant écrire le logarithme de : ∑ . On utilise

l’approximation de Stirling, , pour obtenir après simplifications :

∑

(18)

24

Il est possible d’obtenir des listes de plantes ne respectant pas les probabilités indi-

viduelles, mais comme on suppose assez grand, leur probabilité d’occurrence est

faible (loi des grands nombres) et elles peuvent être négligées.

⁄ est l'indice de Shannon. À l’origine, Shannon a utilisé un logarithme de

base 2 pour que soit le nombre moyen de questions binaires (réponse oui ou non)

nécessaire pour identifier l’espèce d’une plante.

La formule (18) est celle de l’indice de Theil (1967), présenté en détail par Conceição

et Ferreira (2000), à l’origine utilisé pour mesurer les inégalités de revenu puis pour

caractériser les structures spatiales en économie. L’indice est proportionnel au

nombre de plantes choisies, on peut donc le diviser par n et on obtient l’indice de

biodiversité de Shannon. Ces indices ont été définis en choisissant des lettres au

hasard pour former des chaînes de caractères. Leur valeur est le nombre de chaînes

de caractères différentes que l’on peut obtenir avec l’ensemble des lettres dispo-

nibles, c'est-à-dire la quantité d’information contenue dans l’ensemble des lettres.

L’indice de Shannon donne une mesure de la biodiversité en tant que quantité

d’information.

L’estimateur du maximum de vraisemblance de l’indice est :

∑

(19)

Le calcul de l’indice de Simpson peut se faire avec la fonction diversity – syntaxe :

diversity(x, index = "shannon") – disponible en chargeant la librairie vegan de R.

Biais d’échantillonnage

Basharin (1959) a montré que l’estimateur de l’indice de Shannon était biaisé parce

que des espèces ne sont pas échantillonnées. Si est le nombre d’espèces réel et le

nombre d’individus échantillonnés, le biais est :

( )

( ) (20)

( ) est un terme négligeable. La valeur estimée à partir des données est donc

trop faible, d’autant plus que le nombre d’espèces total est grand mais d’autant

moins que l’échantillonnage est important.

Comme le nombre d’espèces n’et pas observable, le biais réel est inconnu. Chao et

Shen (2003) établissent un estimateur non biaisé à partir du taux de couverture de

l’échantillonnage (vu page 16), estimé par

:

∑ ( )

( )

(21)

25

Le taux de couverture diminue quand le nombre d’espèces observées une fois est

grand, d’autant plus que le nombre d’individus échantillonnés est petit. Le terme au

dénominateur tend très vite vers 1 quand la taille de l’échantillon augmente. Une

approximation raisonnable de cet estimateur est donc obtenue en remplaçant dans

l’estimateur biaisé les probabilités par .

Équitabilité.

La régularité d’une distribution est une notion intuitivement assez simple : la fai-

blesse de l’écart entre la distribution réelle et une distribution parfaitement régu-

lière, vérifiant ⁄ .

Une expression de l’équitabilité est souvent donnée à partir de l’indice de Shannon.

La valeur maximale de l’indice de Shannon est obtenue quand la distribution est

parfaitement régulière. Alors : . On a donc défini l’indice :

(22)

est compris entre 0 (une seule espèce a une probabilité de 1) et 1 (toutes les es-

pèces ont la même probabilité).

Entropie

Définition de l’entropie

Les textes fondateurs sont Davis (1941) et surtout Theil (1967) en économétrie, et

Shannon (1948 ; 1963) pour la mesure de la diversité. Une revue est fournie par

Maasoumi (1993).

Considérons une expérience dont les résultats possibles sont * +. La proba-

bilité d’obtenir est , et * +. Les probabilités sont connues a priori.

Tout ce qui suit est vrai aussi pour des valeurs de continues, dont on connaîtrait

la densité de probabilité.

On considère maintenant un échantillon de valeurs de . La présence de dans

l’échantillon est peu étonnante si est grande : elle apporte peu d’information sup-

plémentaire par rapport à la simple connaissance des probabilités. En revanche, si

est petite, la présence de apporte beaucoup d’information. On définit donc une

fonction d’information, ( ), décroissante quand la probabilité augmente, de

( ) (ou éventuellement une valeur strictement positive finie) à ( ) .

Chaque valeur observée dans l’échantillon apporte une certaine quantité

d’information, dont la somme est l’information de l’échantillon.

26

La quantité d’information attendue de l’expérience est ∑ ( ) ( ) . Si on

choisit ( ) ( ), ( ) est l’indice de Shannon, mais bien d’autres formes de

( ) sont possibles. ( ) est appelée entropie. C’est une mesure de l’incertitude (de

la volatilité) du résultat de l’expérience. Si le résultat est certain, l’entropie est

nulle. L’entropie est maximale quand les résultats sont équiprobables.

Si est la distribution des probabilité des espèces dans une communauté, Patil et

Taillie (1982) montrent que :

Si ( )

, alors ( ) est le nombre d’espèces ,

Si ( ) ( ), alors ( ) est l’indice de Shannon,

Si ( ) , alors ( ) est l’indice de Simpson.

Distance entre distributions

Considérons maintenant les probabilités formant l’ensemble obtenues par la

réalisation de l’expérience. Elles sont différentes des probabilités , par exemple

parce que l’expérience ne s’est pas déroulée exactement comme prévu. On définit le

gain d’information ( ) comme la quantité d’information supplémentaire fournie

par l’expérience, connaissant les probabilités a priori. Ce gain d’information peut

être vu comme une distance entre la distribution a priori et la distribution a poste-

riori. Il est possible que les distributions et soit identiques, que le gain

d’information soit donc nul, mais les estimateurs empiriques n’étant pas exacte-

ment égaux entre eux, des tests de significativité de la valeur de ( ) seront né-

cessaires.

Quelques formes possibles de ( ) sont :

La divergence de Kullback-Leibler (Kullback et Leibler, 1951) connue par les

économistes comme l’indice de dissimilarité de Theil (1967) :

∑

(23)

Sa proche parente, appelée parfois deuxième mesure de Theil (Conceição et

Ferreira, 2000, p. 34), qui inverse simplement les rôles de et :

∑

(24)

L’entropie généralisée (Maasoumi, 1993), d’ordre :

( )

( )[∑ (

)

] (25)

On peut montrer que et

27

Entropie et biodiversité : historique

Les premiers travaux consistant à généraliser l’indice de Shannon sont dus à Rényi

(1961). L’entropie d’ordre de Rényi est :

∑

(26)

Rényi pose également les axiomes pour une mesure d’entropie ( ), où

* + :

La symétrie : les espèces doivent être interchangeables, aucune n’a de rôle

particulier et leur ordre est indifférent,

La mesure doit être continue par rapport aux probabilités,

La valeur maximale (fixée à 1) est atteinte si toutes les probabilités sont

égales,

Il montre que respecte les 3 axiomes.

Patil et Taillie (1982) ont montré de plus que :

L’introduction d’une espèce dans une communauté augmente sa diversité

(conséquence de la décroissance de ( )), Le remplacement d’un individu d’une espèce fréquente par un individu d’une

espèce plus rare augmente l’entropie à condition que ( ) soit concave. Dans

la littérature économique sur les inégalités, cette propriété est connue sous le

nom de Pigou-Dalton (Dalton, 1920).

Hill (1973) transforme l’entropie de Rényi en « nombres de Hill », qui en sont

simplement l’exponentielle :

(∑

)

(27)

Le souci de Hill est de rendre les indices de diversité intelligibles après l’article re-

marqué de Hurlbert (1971) intitulé « le non-concept de diversité spécifique ».

Hurlbert reprochait à la littérature sur la diversité sa trop grande abstraction et

son éloignement des réalités biologiques, notamment en fournissant des exemples

dans lesquels l’ordre des communautés n’est pas le même selon l’indice de diversité

choisi. Les nombres de Hill sont le nombre d’espèces équiprobables donnant la

même valeur de diversité que la distribution observée. Ils sont des transformations

simples des indices classiques :

est le nombre d’espèces,

, l’exponentielle de l’indice de Shannon,

, l’inverse d’une des formes de l’indice de Simpson.

Ces résultats avaient déjà été obtenus avec une autre approche par MacArthur

(1965) et repris par Adelman (1969) dans la littérature économique.

Lande (1996) précise le concept de décomposabilité en postulant que les mesures de

diversités doivent être concaves : la diversité d’un jeu de données regroupant

28

plusieurs communautés doit être supérieure ou égale à la somme pondérée des

diversités dans chaque communauté. De cette façon, il est possible de définir une

diversité totale égale à la somme pondérée des diversités (intra-communautés) et

(inter-communautés), toutes les diversités étant positives ou nulles. Il note que

« la partition serait plus facilement interprétable si les différentes composantes de

la diversité pouvaient être exprimés au moyen de la même formule ».

Lande rejette l’utilisation des nombres de Hill parce que n’est pas concave : dans

certains cas, la diversité totale est inférieure à la somme des diversités intra.

Tsallis (1988) propose une classe de mesures appelée entropie généralisée et définie

par :

( ∑

) (28)

Tsallis a montré que les indices de Simpson et de Shannon étaient des cas particu-

liers d’entropie généralisée. Ces résultats ont été complétés par d’autres et repris en

écologie par Keylock (2005) et Jost (2006; 2007). Nous en retiendrons que, à une

normalisation éventuelle près :

Le nombre d’espèces est

L’indice de Shannon est

L’indice de Gini-Simpson est

Synthèse

Les différentes approches et généralisations ne donnent lieu finalement qu’à trois

mesures, le nombre d’espèce, l’indice de Shannon et celui de Gini-Simpson. Les en-

tropies généralisées d’ordres plus élevés ou négatifs n’ont pas trouvé d’application,

de même que l’entropie de Rényi d’ordre différent de 1. L’intérêt de ces approches

est d’avoir mis en évidence la différence entre les trois mesures :

Le nombre d’espèces est la mesure qui donne le plus d’importance aux es-

pèces rares : toutes les espèces ont la même importance, quel que soit leur ef-

fectif en termes d’individus. Il est bien adapté à une approche patrimoniale,

celle du collectionneur qui considère que l’existence d’une espèce supplémen-

taire a un intérêt en soi, par exemple parce qu’elle peut contenir une molé-

cule valorisable. Comme les espèces rares sont difficiles à échantillonner, le

biais d’échantillonnage est très important, et sa résolution a généré une litté-

rature en soi (voir page 11 et suivantes).

L’indice de Shannon donne la même importance à tous les individus. Il est

adapté à une approche d’écologue, intéressé par les interactions possibles : le

nombre de combinaisons d’espèces en est une approche satisfaisante. Le biais

d’échantillonnage est sensible (voir page 22).

L’indice de Gini-Simpson donne moins d’importance aux espèces rares. Il

comptabilise les interactions possibles entre paires d’individus : les espèces

rares interviennent dans peu de paires, et influent peu sur l’indice. En consé-

quence, le biais d’échantillonnage est très petit (page 24).

29

Les nombres de Hill, ou « nombres d’espèces équivalentes » ou « nombres d’espèces

efficaces » permettent une appréhension plus intuitive de la notion de biodiversité

(Jost, 2006).

Décomposition

Notations

L’objectif est de décomposer la diversité totale, notée en une composante inter-

groupes, notée et une composante intra-groupes notée .

Whittaker (1960; 1972) est l’auteur de ce concept. Il a posé le principe que la

diversité devait être le produit des diversités et . Les méthodes de

décomposition habituelles, comme l’analyse de la variance, sont additives. Un débat

assez stérile est découlé de l’opposition entre les deux approches, simplement dû à

la transformation logarithmique (Jost, 2006).

Bourguignon (1979) définit une mesure d’inégalité décomposable comme respectant

les propriétés suivantes :

La population totale étant partitionnée, chaque partition recevant un poids

, la composante intra-groupe de la mesure est égale à la somme pondé-

rée des mesures dans chaque-groupe ∑ .

La composante intergroupe est la mesure d’inégalité entre les groupes.

La mesure totale est la somme des mesures intra et intergroupes.

Bourguignon a montré de façon rigoureuse que la seule mesure d’entropie décompo-

sable, homogène de degré 0 est l’indice de Theil.

Nous nous placerons dans ce cadre additif, avec les notations suivantes :

Forêt Total

Parcelle

Parcelle

Placette

Placette

Placette

…

Famille

Genre Espèce

… Espèce

… Genre

Espèce

…

Total

30

Le tableau sera appelé par la suite : « tableau espèces-placettes ». On note :

le nombre d’arbres de l’espèce dans la placette , est le nombre

d’arbres de la placette , toutes espèces confondues. est le nombre d’arbres

total de l’espèce .

* + l’ensemble des placettes, et * + celui des espèces.

n’est pas une variable aléatoire ici, on suppose que toutes les espèces sont

connues.

* + { } { } l’ensemble des

placettes appartenant à la parcelle et l’ensemble des espèces du genre .

est le nombre de parcelles, est l’indice de la dernière placette de la parcelle

et donc .

* + * + * + l’ensemble

des parcelles appartenant à la forêt et l’ensemble des genres de la fa-

mille .

Le tableau peut être présenté autrement, en termes de probabilités. Dans la distri-

bution observée,

⁄ . Les mesures de biodiversité ont pour référence

l’équirépartition des espèces :

⁄ . Dans le cas le plus simple où il n’y a

qu’une seule placette, ⁄

Forêt … Total

Parcelle …

Placette …

Famille Genre Espèce

⁄

⁄

⁄

⁄

… … …

Total

⁄ 1

Règle générale

Soit l’indice défini sur un ensemble de valeurs individuelles, par exemple

l’ensemble des cellules du tableau ci-dessus : ∑

∑ . N’importe

quel groupement des valeurs est possible : soit un groupe, , alors la contribu-

tion du groupe ( ) à l’entropie totale est égale à la somme de son entropie après

regroupement, qu’on appellera entropie gamma ( ), et de la valeur pondérée de

son entropie entre individus ( ).

La somme des entropies individuelles des éléments du groupe est :

31

∑

(29)

L’entropie gamma de est celle de la cellule unique obtenue après regroupement :

(∑

) ∑

∑ (30)

La probabilité a priori ( ) ou a posteriori ( ) qu’un individu appar-

tienne au groupe sont les sommes des probabilités de tous les éléments

du groupe.

L’entropie inter-individus de est :

∑

∑

∑

∑

(∑

)

*∑

(∑

) ∑

∑ + (31)

À l’intérieur du groupe, la somme des probabilités vaut 1. Les probabi-

lités intra-groupe sont égales aux probabilités de départ divisées par la

probabilité totale du groupe.

Au total, la contribution de tous les éléments du groupe est bien égale à la somme

de l’entropie gamma et de l’entropie inter-individus :

(∑

) (32)

Application : Décomposition de l’indice de Shannon

Ce résultat est valable quelle que soit la façon de regrouper. Pour décomposer la

biodiversité de la parcelle , dont les placettes sont { }, le regroupe-

ment se fait espèce par espèce :

Les équations (30), (31) et (32) sont appliquées directement à ce regroupement.

32

Parcelle Parcelle

Placette

… Placette

… Placette regroupée

… →

Espèce

⁄

⁄

→

∑

⁄

∑

⁄

… →

La contribution à l’entropie totale de l’espèce dans la parcelle est (zone gris clair

à gauche du tableau) :

∑

∑

(

)

(33)

L’entropie gamma de l’espèce dans la parcelle est (zone grisée encadrée en poin-

tillés) :

∑

(

∑

∑

)

(34)

L’entropie inter-individus de l’espèce dans la parcelle est :

(∑

)

(∑

) ∑

∑

∑

∑

∑

∑

∑

(35)

On sait (32) que

.∑

/

Chacun de ces trois termes peut maintenant être sommé sur toutes les espèces pour

faire apparaître les mesures de biodiversité :

∑

∑

∑

∑

∑

∑

∑

(36)

33

La diversité est la somme pondérée des diversités de chaque pla-

cette. Dans chacune de ces placettes, la diversité estimée par ne

prend en compte que les fréquences relatives des espèces

à

l’intérieur de la placette, sans référence aux données hors de la pla-

cette.

∑

∑

∑∑

∑

∑

∑

(37)

∑(∑

)

∑ ∑

∑

∑

∑

∑

∑

∑

∑

(38)

La diversité est la somme pondérée des diversités de chaque pla-

cette. Dans chacune de ces placettes, la diversité estimée par

est

une divergence de Kullback-Leibler. La fréquence attendue pour

chaque espèce est celle observée dans le groupe (ici la parcelle), ∑

∑

,

alors que la fréquence observée est celle de la placette :

.

En combinant les équations (36), (37) et (38), la décomposition de la biodiversité est

établie pour les estimateurs. Comme ces estimateurs sont consistants, l’égalité vaut

pour les variables aléatoires :

(39)

En passant par les nombres de Hill, Jost (2007) montre que l’indice de Shannon est

le seul pouvant être décomposé de cette façon. Mais il n’explicite pas , seulement

obtenu par la différence . La forme de avait été établie par Ricotta et

Avena (2003), sans la relier celle de et . Enfin, l’idée de la décomposition de la

divergence de Kullback-Leibler, mais avec une approche différente, sans rappro-

chement avec l’indice de Shannon, a été publiée par Ludovisi et Taticchi (2006).

La décomposition ci-dessus explicite les valeurs des différents niveaux de diversité

et montre que la forme est bien la même dans tous les cas : une divergence de

Kullback-Leibler entre une distribution observée et une distribution attendue.

34

Le cas particulier dans lequel seulement deux niveaux existent, par exemple

parcelles et forêt, fournit une expression plus simple des formules : ∑ , la

somme des nombre d’individus dans les parcelles est égal au nombre d’individus

dans la forêt, d’où les équations du tableau suivant :

Indice Distribution observée Distribution attendue

Formule

Fréquence des espèces dans la

placette

Fréquences égales,

hors formule

∑

∑


placette

Fréquence des

espèces dans la

parcelle

∑

∑


parcelle

Fréquences égales,

hors formule ∑

Les parcelles peuvent à leur tour être regroupées en forêts, la diversité de la

parcelle devenant diversité pour la forêt. La décomposition ou le regroupement

peuvent être effectués sur unn nombre quelconque de niveaux.

Test de significativité

L’objectif est de tester si deux placettes ne sont pas simplement deux échantillons

d’une même communauté, dont les différences ne sont que des fluctuations dues au

hasard. Sous l’hypothèse nulle, les observations sont des réalisations des mêmes

probabilités .

Le test est réalisé de la façon suivante :

Chaque valeur est tirée dans une loi binomiale (

⁄ ) et est calcu-

lé,

La simulation est répétée un grand nombre de fois, par exemple 10 000, et les

valeurs extrêmes sont éliminées. Au seuil de risque , les 251ème et

9750ème valeurs simulées définissent les bornes de l’intervalle de confiance de

l’hypothèse nulle.

L’hypothèse nulle est rejetée si la valeur observée de n’est pas dans cet inter-

valle, en général au-delà de la borne supérieure. Il peut arriver que les deux pla-

cettes soient plus semblables que sous l’hypothèse nulle, c'est-à-dire que les fré-

quences varient moins que dans le tirage d’une loi binomiale, si deux placettes ont

été plantées avec le même nombre d’arbres de chaque espèce par exemple.

35

Exemples

Données simulées

Figure 12: Densités de probabilité de obtenues à partir de 1 000 simulations du modèle présenté dans le texte.

Deux placettes forestières sont tirées dans la même communauté. n’est pas nul à cause des différences sto-

chastiques entre les tirages. Les barres verticales sont les 5ème et 95ème centiles. La première colonne correspond

à des placettes de 500 arbres environ, la seconde de 5 000 arbres, la première ligne à 20 espèces, la seconde à 40.

Toutes choses égales par ailleurs, décroît avec le nombre d’arbres et croît avec le nombre d’espèces.

Des exemples théoriques sont utiles pour comprendre les déterminants de , no-

tamment la richesse de la communauté et l’effort d’échantillonnage. Deux distribu-

tions de fréquences sont tirées au hasard, de respectivement 20 et 40 espèces. Les

fréquences de chaque espèce sont tirées dans la même loi uniforme et normalisées

pour que leur somme soit égale à 1. Une paire de placettes est ensuite tirée 1 000

fois selon ces fréquences, avec une espérance de 500 ou 5 000 points.

est calculé pour chaque paire de placettes et les résultats sont affichés sous la

forme d’un histogramme des fréquences, lissé pour obtenir une densité de probabili-

té.

0.000 0.005 0.010 0.015 0.020

02

04

06

08

01

00

12

01

40

Red: Expected ; Green: 95% CI ; Blue: Observed

Beta Diversity

De

nsity

0.0000 0.0005 0.0010 0.0015 0.0020

05

00

10

00

15

00


Beta Diversity

De

nsity

0.005 0.010 0.015 0.020 0.025 0.030 0.035 0.040

02

04

06

08

0


Beta Diversity

De

nsity

0.001 0.002 0.003 0.004

02

00

40

06

00

80

0


Beta Diversity

De

nsity

36

Les résultats se trouvent en Figure 12.

La valeur de calculée entre deux placettes ne change pas si les effectifs sont mul-

tipliés par 10 sans changer les fréquences. Mais l’hypothèse nulle du test est que les

deux placettes sont issues de la même communauté : quand plus d’individus sont

échantillonnés, les fréquences observées convergent vers leur probabilité à cause de

la loi des grands nombres. Une valeur observée de montre une différence

significative entre deux placettes de 5 000 arbres (Figure 12, en haut à droite), mais

si les placettes ne contiennent que 500 individus (en haut à gauche), cette valeur est

en dessous de la borne inférieure de l’intervalle de confiance et indique que les pla-

cettes sont probablement trop similaires pour que ce soit simplement le résultat du

hasard.

tend à augmenter avec le nombre d’espèces. La borne supérieure de l’intervalle

de confiance avec 20 espèces (en haut) correspond approximativement à la borne

inférieure avec 40 espèces (en bas).

Données réelles

Le test est appliqué à des données réelles, 4 placettes de 1 ha de forêt tropicale sur

les dispositifs forestiers de Paracou (Gourlet-Fleury et al., 2004) et des Nouragues

(Bongers et al., 2001), en Guyane française. Pour la clarté du raisonnement, nous

admettrons que ces placettes représentent des environnements contrastés et consti-

tuent ensemble un échantillon représentatif de chaque forêt.

Les caractéristiques de chaque placette sont résumées dans le Tableau 1.

Placette NH20 NL11 P006 P018 Total

Nombre d’arbres 558 515 643 481 2197

Nombre d’espèces 203 182 147 149 425

4,74 4,63 4,19 4,42 5,29

Nombre de Hill 114 103 66 83 199 Tableau 1 : Résumé des quatre placettes de 1 hectare.

Les deux premières sont situées aux Nouragues, les deux dernières à Paracou. est la diversité de Shannon.

Le premier résultat est que les placettes des Nouragues sont plus diverses que

celles de Paracou. Les nombres de Hill donnent une représentation intuitive du ni-

veau de diversité : par exemple, la placette NH20 est aussi diverse que le serait une

placette de taille identique avec 114 espèces de fréquence égale, alors que la pla-

cette P006 l’est à peu près deux fois moins.

Le Tableau 2 montre comment la diversité peut être décomposée entre les forêts

puis entre les placettes ou regroupée dans l’autre sens. Les valeurs de peuvent

être testées contre l’hypothèse nulle d’absence de différence entre les placettes ou

les forêts. Par exemple, la diversité entre les deux placettes des Nouragues atten-

due sous l’hypothèse nulle est 0,144, ce qui correspond à un nombre de Hill de 1,16

(Figure 13).

37

Placette NH20 NL11 P006 P018

pondéré 2,46 2,22 2,40 1,89

0,42 (N=1,52) 0,45 (N=1.56)

5,11 (N=165) 4.74 (N=114)

pondéré 2,49 2.42

0,38 (N=1,46)

5,29 (N=199) Tableau 2 : Regroupement successif des placettes des Nouragues et de Paracou.

La première ligne contient la diversité des placettes, pondérée par le nombre d’arbres. La deuxième ligne

contient les valeurs de diversité entre les placettes. La somme des deux donne la diversité de la forêt (ligne

3). À son tour, celle-ci peut être considérée comme la diversité au niveau de regroupement supérieur. Sa va-

leur pondérée (ligne 4) est ajoutée à celle de la diversité entre forêts (ligne 5) pour donner la diversité totale

(ligne 6).

Figure 13: Densités de probabilité de sous l’hypothèse nulle pour les placettes des Nouragues.

Les traits verticaux sont les bornes de l’intervalle de confiance.

La plage possible des nombres de Hill va de 1 (distribution des fréquences exacte-

ment identique) à 2 (nombre d’arbres identiques sans aucune espèce en commun).

Les valeurs inférieures à 0,1 (N=1,10) ou supérieures à 0,2 (N=1,22) ont une proba-

bilité si faible qu’elles peuvent être considérées comme jamais atteintes si les deux

placettes proviennent de la même communauté. La valeur réelle observée aux Nou-

ragues est 0,42, très au-dessus de l’intervalle de confiance. Toutes les valeurs de

diversité du tableau sont hautement significatives (au-delà de 99,99%). On peut

observer que la diversité à l’intérieur des forêts est similaire à celle entre les forêts

(tous les nombres de Hill autour de 1,5). Les placettes auraient pu être groupées

directement. Dans ce cas, la diversité entre placettes aurait été de 0,81 (significa-

0.10 0.12 0.14 0.16 0.18

01

02

03

0


Beta Diversity

De

nsi

ty

38

tive au-delà de 99,99%). Le nombre de Hill correspondant est 2,25, ce qui signifie

que les 4 placettes sont aussi différentes que 2,25 placettes de même effectif sans

espèces communes.

Décomposition de l’indice de Gini-Simpson

Jost (2006) montre que la diversité n’est pas la somme pondérée des diversités des

placettes mais :

∑

( )

∑

(40)

La diversité définie de cette façon peut être supérieure à la diversité , ce qui li-

mite fortement l’intérêt de l’indice. Ce résultat est en contradiction avec Pélissier et

Couteron (2007) et est à vérifier.

Hypothèse nulle et tests

Les mesures classiques de la biodiversité ne sont pas définies par rapport à un mo-

dèle de fréquence des espèces, ce sont des mesures absolues au sens de Brülhart et

Traeger (2005). L’utilisation de la divergence de Kullback-Leibler permet de définir

un modèle nul définissant les probabilités a priori. Si le modèle nul prévoit que les

espèces ont la même probabilité d’occurrence, l’indice défini est celui du paragraphe

précédent, l’indice de Theil très proche de l’indice de Shannon.

Une approche naturelle consiste à attendre que la probabilité soit proportion-

nelle à la taille de la placette et au poids de l’espèce :

⁄ . Cette valeur

n’est qu’un estimateur de la probabilité parce que , et sont des estimateurs

des tailles inconnues de la placette, de l’espèce et la communauté, obtenus en som-

mant les , tirages de variables aléatoires dépendant de ces tailles.

C’est l’hypothèse nulle des modèles cherchant à caractériser la concentration spa-

tiale (Ellison et Glaeser, 1997) :

39

Forêt … Total

Parcelle …

Placette …

Famille Genre Espèce

⁄

⁄

⁄

… … …

Total

⁄ 1

La valeur de l’indice est dans ce cas la mesure de la divergence entre la distribution

réelle des fréquences et ce qu’elle serait si les individus étaient distribués propor-

tionnellement à la taille des placettes (mesurée par leur effectif total) et à l’effectif

des espèces. Il s’agit d’un indice relatif.

Brülhart et Traeger définissent enfin les mesures topographiques comme étant

celles qui ont pour hypothèse nulle une distribution proportionelle à la surface des

placettes.

Dans tous les cas, la question de la significativité de l’écart entre les distributions

attendue et observée peut être posée. Dans le cadre du modèle nul, le nombre

d’individus est le résultat du tirage d’une loi binomiale de probabilité et

d’effectif . Un certain écart entre les distributions en résulte, simplement en raison

des fluctuations aléatoires de la loi binomiale. La valeur extrême ,

correspondant à une égalité stricte pour toutes les espèces et toutes les

placettes ne peut être due qu’à un processus forçant l’égalité ( ne peut pas être

négatif, la preuve est appelée inégalité de Gibbs). A l’inverse, un écart important

entre les distributions, amenant à une grande valeur de , permet également de

rejeter le modèle nul. L’intervalle de confiance du modèle nul peut être obtenu par

la méthode de Monte-Carlo :

Tirer toutes les valeurs de dans des lois binomiales ( ), puis calculer

∑ ∑

Répéter l’opération un grand nombre de fois (par exemple ) puis

éliminer les valeurs extrêmes : au seuil de risque choisi (par exemple ), les ⁄ (=250) plus grandes et plus petites valeurs sont hors de

l’intervalle de confiance du modèle nul.

Il est donc possible de mettre en évidence que la distribution réelle est plus ou

moins proche de la distribution attendue que dans le cadre du modèle nul.

Lorsque le nombre d’individus augmente, tend vers une loi de , qui mesure la

somme des écarts ( ) . La méthode de Monte-Carlo est préférable ici aux

tests asymptotiques parce qu’elle permet de s’affranchir de l’hypothèse de conver-

gence (il n’est jamais certain que soit assez grand) et de tester n’importe quelle

hypothèse sur une partie des données, par exemple la conformité au modèle nul de

la distribution d’une seule espèce (sa distribution spatiale est-elle proportionnelle à

40

la taille des placettes ou non ?) ou d’une seule placette (son niveau de biodiversité

est-il exceptionnellement haut ou bas ?).

mesure l’écart entre la valeur maximale possible de l’indice de diversité de Shan-

non et sa valeur réelle. C’est une mesure de spécialisation, dans le sens couram-

ment utilisé par les économistes : plus est grand, moins la placette est diverse. Le

test de rejet du modèle nul permet donc de distinguer des placettes particulière-

ment diverses ( plus petit que la borne inférieure de l’intervalle de confiance du

modèle nul) ou particulièrement peu diverses, les deux pouvant avoir un intérêt en

termes de conservation.

Le partitionnement de la diversité selon Pélissier et

Couteron

Cadre

Un cadre général de partitionnement de la diversité, applicable aux trois indices

classiques, est proposé par Pélissier et Couteron (2007), en conclusion d’une série

d’articles (Pélissier et al., 2003 ; Couteron et Pélissier, 2004).

Les données sont désagrégées jusqu’au niveau de l’individu. Suivant les notations

précédentes, les placettes sont considérées comme le regroupement d’arbres, indicés

par .

Le tableau est appelé tableau d’occurrence des espèces. Il ne contient que des 0 et

des 1. Chaque arbre (colonne) a une seule valeur 1 dans la cellule correspondant à

son espèce.

Forêt … Total

Parcelle …

Placette …

Arbre …

Famille

Genre

Espèce si l’arbre appartient à l’espèce , si-

non.

⁄

… … …

Total 1

Un arbre moyen s’il pouvait exister appartiendrait partiellement à chaque espèce,

proportionnellement à son effectif. Chaque arbre apporte une quantité

d’information égale à la somme sur toutes les espèces des écarts quadratiques entre

la valeur , indicatrice de son appartenance à l’espèce , et la valeur correspon-

dant à l’arbre moyen : ∑ ( )

. La somme peut être pondérée pour donner une

41

importance plus ou moins grande des espèces selon leur fréquence : ∑ ( )

.

La mesure totale, sommée sur tous les arbres, est notée :

∑ ∑( )

(41)

Si le poids vaut toujours 1, ⁄ est l’indice de Simpson.

Si ( ⁄ ) ⁄ , on obtient l’indice de Shannon, et ⁄ donne le

nombre d’espèces moins 1.

Décomposition

L’intérêt de la méthode est de permettre l’utilisation de modèles linéaires et des ou-

tils informatiques associés classiques pour décomposer la diversité de différentes

manières (Pélissier et Couteron, 2007). Nous nous intéresserons ici à la décomposi-

tion de la diversité totale en diversités et . Dans ce cadre, la diversité est la

partie expliquée par le modèle (les différentes placettes sont les paramètres explica-

tifs), notée , alors que la diversité est résiduelle, notée .

La diversité totale est ⁄ . La diversité est calculée de la même manière, en

prenant pour référence la fréquence des espèces à l’intérieur de chaque placette.

Dans la placette :

∑ ∑( ∑

)

(42)

La diversité est calculée de façon similaire par la différence entre les fréquences

des espèces dans chaque placette ∑

et leur fréquence après regroupement .

Le problème est que le poids attribué à chaque espèce, , dépend de la distribution

totale des espèces. n’est donc pas une diversité puisque sa valeur dépend de

données extérieures à la placette.

Le poids pour toutes les espèces règle le problème. Le modèle est alors celui

de la décomposition de la variance.

42

INDICE DE RAO

Préalables

Dissimilarité

Une similarité ou dissimilarité est toute application à valeurs numériques qui per-

met de mesurer le lien entre les individus d’un même ensemble ou entre les va-

riables. Pour une similarité le lien est d’autant plus fort que sa valeur est grande.

Un indice de dissimilarité (on peut dire une dissimilarité) vérifie ( et sont deux

individus) :

La dissimilarité d’un individu avec lui-même est nulle : ( ) .

La dissimilarité entre deux individus différents est positive : ( ) .

La dissimilarité est symétrique : ( ) ( )

Une distance vérifie en plus :

La distance entre deux individus différents est strictement positive : ( ) .

L’inégalité triangulaire : ( ) ( ) ( ). De nombreux indices de

dissimilarité ne vérifient pas cette propriété.

Une distance est euclidienne si elle peut être représentée par des figures géomé-

triques. On peut rendre toute distance euclidienne par ajout d’une constante

(Cailliez, 1983). Utiliser is.euclid() pour vérifier qu’une distance est euclidienne, et

cailliez() pour la transformation.

Enfin, une distance est ultramétrique si ( ) ( ( ) ( )). Les distances

obtenues en mesurant les longueurs des branches d’un arbre résultant d’une classi-

fication hiérarchique sont ultramétriques.

Cas étudiés

Pour fixer plus clairement les idées, on s’intéresse ici à la question de la mesure de

la biodiversité dans une forêt, dans laquelle on a échantillonné un certain nombre

de placettes (indicées ). On a relevé dans chaque placette l’ensemble des arbres et

noté leur espèce (indicée ou ) dans un tableau de fréquences.

43

Principe

À partir de relevés fournissant la fréquence de chaque espèce par placette et d’une

matrice de dissimilarité entre paires d’espèces, l’indice de Rao (1982) donne la dis-

similarité moyenne entre deux arbres choisis au hasard.

L’indice de Rao est souvent appelé entropie quadratique en raison de sa forme ma-

thématique.

Formalisation

On note la matrice de dissimilarité dont les éléments sont , la dissimilarité

entre l’espèce et l’espèce . est le vecteur des fréquences des espèces dans la pla-

cette ; est la fréquence de l’espèce dans la placette .

L’indice de Rao est : ( ) ∑ ∑

Les propriétés nécessaires de font que la matrice √ doit être euclidienne. On

utilisera donc plutôt en pratique des distances euclidiennes définies par √ .

Finalement, on utilisera la formulation suivante de l’indice :

( ) ∑∑

( )

(43)

Discussion

La définition de la distance est essentielle :

en fixant (donc √ ) si deux espèces sont différentes, on obtient

l’indice de Gini-Simpson (Gini 1912 ; Simpson, 1949). Sa valeur peut être in-

terprétée comme la probabilité qu’une paire d’arbres choisie au hasard soit de

deux espèces différentes.

Dans un espace unidimensionnel où la valeur associée à l’espèce est une

variable quantitative , choisir ( ) rend l’indice de Rao égal à la

variance de .

Pavoine et al. (2004b) ont montré que l’utilisation de distances ordinaires fait que la

valeur maximale de l’entropie quadratique pour un effectif donné est obtenue en

éliminant les espèces intermédiaires en ne retenant que les espèces extrêmes (le

résultat est évident en une dimension : la variance est maximale en ne retenant que

les valeurs extrêmes d’un échantillon). Ce résultat est contraire aux propriétés at-

tendues d’un indice de diversité. Les auteurs ont établi que l’utilisation de distances

ultramétriques corrige ce défaut. L’indice atteint alors son maximum pour des fré-

quences d’autant plus grandes que l’espèce est originale (Pavoine et al., 2005).

L’estimation empirique de l’indice se fait simplement en estimant les probabilités

par les fréquences. Le biais d’estimation n’a pas été étudié, mais il est probablement

44

très faible, par analogie avec l’estimateur de l’indice de Simpson : les espèces rares

interviennent peu.

Calcul sous R

Le fichier data.txt contient une espèce par ligne, identifiée par le champ Code, et un

certain nombre de valeurs de traits en colonnes.

Préalables

Charger la librairie ADE4 et lire les données.

> # Librairie ADE 4 indispensable

> library(ade4)

> # Lecture des données : traits pour 34 espèces

> traits <- read.table("data.txt", dec=",", h=T, row.names = 1)

Le résultat est un data frame nommé traits :

> str(traits)

`data.frame': 34 obs. of 11 variables:

$ Nodules : int 0 0 0 0 0 0 0 0 0 0 ...

$ X15Nmean : num 3.830 -0.696 1.286 3.740 2.623 ...

$ X15Nrange: num 1.82 1.44 1.08 1.23 2.93 ...

$ N : num 1.05 1.04 2.03 1.56 1.15 ...

$ CvsN : num 46.6 46.9 25.3 29.8 40.8 ...

$ Am : num 30.9 45.0 52.0 63.5 68.0 ...

$ Gm : num 0.611 0.762 1.343 1.494 1.306 ...

$ SLA : num 9.33 10.20 13.20 14.27 10.71 ...

$ Thick : num 232 241 162 228 261 ...

$ RS : num 1.413 0.874 0.440 0.579 2.089 ...

$ RGRmax : num 6.87 3.65 3.66 13.86 5.44 ...

Seuls les traits foliaires sont retenus pour cet exemple :

> # Extraction des traits foliaires

> traitsf <- traits[, c(8,6,7, 4,5,9)]

> names(traitsf)

[1] "SLA" "Am" "Gm" "N" "CvsN" "Thick"

Seules 8 espèces sont communes entre ce tableau et celui des fréquences utilisé plus

loin. Un filtrage est donc nécessaire :

> # Vecteur contenant 8 espèces...

> g8 <- c("Ess","Me","S1","Sr","Vm","Bg","Ef","Dg")

45

> traitsgf<-traitsf[g8,]

On obtient finalement un tableau de traits à 8 lignes et 6 colonnes :

> traitsgf

SLA Am Gm N CvsN Thick

Ess 10.10341 97.88627 1.454455 1.562488 31.58311 278.7083

Me 14.27473 63.52255 1.493502 1.563000 29.81062 228.0000

S1 13.71211 73.57748 1.963457 1.533000 29.26462 285.0000

Sr 10.71081 68.03988 1.305796 1.154712 40.79157 260.8750

Vm 18.28391 115.20844 2.555049 2.108333 22.15826 136.6667

Bg 25.56344 288.01449 5.141831 2.491791 18.95989 113.6400

Ef 14.35332 114.11952 1.455639 2.322000 20.90798 143.3333

Dg 18.84601 132.31515 2.224275 1.977861 24.54214 194.8889

Création de la matrice de distances

La matrice de distances est créée par classification automatique hiérarchique.

Figure 14 : ACP sur les traits foliaires

Première étape : ACP et classification

> # ACP sur les traits foliaires

> pcaf <- dudi.pca(traitsgf, scale=T, scannf=FALSE, nf=2)

d = 2

Ess

Me

S1

Sr

Vm

Bg

Ef

Dg

SLA

Am

Gm

N

CvsN

Thick

46

> scatter(pcaf)

pcaf est une liste qui contient les résultats de l’ACP, à utiliser pour la classifica-

tion :

> # CAH Ward des traits foliaires

> hf <- hclust(dist(pcaf$tab), "ward")

> # Affichage de l'arbre

> plot(hf, h=-1)

Figure 15 : Classification automatique des espèces

Changement de format

Le résultat de la classification est un objet hclust qui doit être transformé en phylog

pour la suite de l’analyse :

> # Transformation de l'arbre du format hclust au format phylog

> phyf <- hclust2phylog(hf)

> # Affichage avec poids des variables

> table.phylog(pcaf$tab[names(phyf$leaves),], phyf)

La matrice des distances est phyf$Wdist.

> phyf$Wdist

Sr Ess Me S1 Bg Ef Vm

Sr

Ess

Me

S1

Bg Ef

Vm

Dg

02

46

81

0

Cluster Dendrogram

hclust (*, "ward")dist(pcaf$tab)

He

igh

t

47

Ess 2.219726

Me 2.219726 1.564548

S1 2.219726 1.564548 1.416670

Bg 4.411477 4.411477 4.411477 4.411477

Ef 4.411477 4.411477 4.411477 4.411477 3.362426

Vm 4.411477 4.411477 4.411477 4.411477 3.362426 1.840872

Dg 4.411477 4.411477 4.411477 4.411477 3.362426 1.840872 1.484229

Figure 16 : Classification automatique des espèces, représentée par table.phylog

Discussion

La classification est possible par d’autres méthodes, par exemple UPGMA. La seule

contrainte est que la matrice des distances soit euclidienne. La matrice utilisée pour

le calcul de l’entropie quadratique contient en effet les éléments de l’équation

(43). En absence de matrice de distance, la fonction calcule l’indice de Simpson en

fixant √ .

La limite des distances ultramétriques est leur tendance à déformer le jeu de points.

Dans cet exemple, les deux premiers axes de l’ACP rendent compte de presque toute

l’inertie. Le nuage de points est pratiquement contenu dans un plan. Sa représenta-

tion en distance ultramétrique est une hypersphère en 7 dimensions (voir Pavoine

et al., 2004b).

Tableau des fréquences

Le tableau des fréquences est contenu dans le fichier tabg8.txt. Un filtrage est donc

nécessaire pour ne retenir que les espèces de l’analyse :

> # Vecteur contenant 8 espèces...

Sr

Ess

Me

S1

Bg

Ef

Vm

Dg

SL

A

Am

Gm

N

CvsN

Th

ick

-1.5 -0.5 0.5 1.5 2.5

48

> g8 <- c("Ess","Me","S1","Sr","Vm","Bg","Ef","Dg")

> # ... présentes dans le tableau des abondances, filtré.

> tabg8 <- read.table("tabg8.txt", h=T, row.names=1)[g8,]

Indice de Rao

L’entropie quadratique est calculée par la fonction divc :

> divc(tabg8[names(phyf$leaves), ], phyf$Wdist,T)

diversity

X1 0.4670566

…

X15 0.9707025

Le premier paramètre est le tableau des fréquences, le deuxième la matrice des dis-

tances. Les deux doivent être classés dans le même ordre, d’où l’utilisation des noms

des feuilles de la classification pour réordonner le tableau des fréquences.

Le dernier paramètre permet de normaliser les valeurs de l’indice par son maxi-

mum, obtenu par une distribution théorique dépendant de la matrice des distances

seulement (voir ci-dessous).

Figure 17 : Originalité des espèces

Le résultat est une liste de valeurs, donnant l’indice de Rao dans chaque placette.

-1 0 1 2 3

QEbased

49

Maximum théorique

Pavoine et al. (2005) ont défini l’originalité d’une espèce comme sa fréquence maxi-

misant l’entropie quadratique, sachant la matrice de distances entre espèces. Les

espèces les plus originales sont celles ayant le moins d’espèces proches dans la clas-

sification.

Le calcul sous R utilise la fonction originality :

> dotchart.phylog(phyf, originality(phyf, 5))

La fonction a pour paramètres l’objet phylog contenant la classification et le numéro

de la méthode de calcul à utiliser, 5 pour l’entropie quadratique. Sa représentation

graphique est faite par dotchart.phylog :

Décomposition

L’entropie quadratique est décomposable: la diversité totale de la forêt est égale à la

somme des diversités intra de toutes les placettes et de la diversité inter-placettes.

Principe

Le coefficient de dissimilarité entre deux communautés

On considère deux placettes et . Leur coefficient de dissimilarité, défini par Rao

(1982), est la différence entre l’entropie quadratique du mélange des deux placettes

et celles des deux placettes prises individuellement :

( ) (

) ( ) ( ) (44)

Cette dissimilarité peut être utilisée pour calculer un indice de diversité entre pla-

cettes d’une forêt, de la même façon qu’on calcule la diversité entre espèces d’une

placette.

La décomposition de l’indice

Il reste à définir le poids de la placette (la somme des poids vaut 1) et ∑

le vecteur des fréquences des espèces dans la forêt entière, obtenu par la somme

pondérée des fréquences dans les placettes. La diversité de la forêt, ( ) peut être

décomposée en une somme (pondérée) de diversités intra et une diversité inter

(Pavoine et al., 2004a) :

( ) ∑ ( )

∑∑ ( )

(45)

50

La décomposition peut être faite sur plusieurs niveaux imbriqués (forêt – parcelles

– placettes par exemple). Pavoine et al. (2004a) montrent par exemple que la dé-

composition de l’indice de Rao appliquée à une variable en une seule dimension est

une ANOVA.

La diversité inter est un indice de Rao : les poids des placettes sont équivalents aux

tableaux de fréquences et les dissimilarités entre placettes sont équivalentes aux

dissimilarités entre espèces.

Calcul sous R

La fonction disc ne calcule pas les valeurs de ( ) mais les distances corres-

pondantes, √ ( ) :

> disc(tabg8[names(phyf$leaves), ], phyf$Wdist)

m1 m2 m3

m2 3.3624264

m3 3.3624264 1.8408721

m4 4.4114773 4.4114773 4.4114773

Sa syntaxe est très proche de celle de divc. Un paramètre supplémentaire permet

les analyses imbriquées (voir la documentation dans R).

Pour obtenir tous les éléments de l’équation (45) :

( ) : diversité totale. Calculer en sommant les placettes. Calculer en-

suite l’entropie quadratique avec divc :

> tabF<-apply(tabg8[names(phyf$leaves), ],MARGIN=1,sum)

> tabF

Sr Ess Me S1 Bg Ef Vm Dg

840 840 840 840 840 840 840 840

> divc(as.data.frame(tabF), phyf$Wdist)

diversity

tabF 5.874383

( ) : diversité de chaque placette, fournie par divc. Si les poids des pla-

cettes sont égaux, la variabilité intra est la moyenne de celle des placettes :

> mean(divc(tabg8[names(phyf$leaves), ], phyf$Wdist))

diversity

2.809538

51

La variabilité interplacettes peut être calculée par divc en utilisant la dis-

tance fournie par disc, en définissant la matrice des poids (il y a 28 placettes

dans l’exemple) :

> divc(as.data.frame(matrix(1,28)),disc(tabg8[names(phyf$leaves), ],

phyf$Wdist))

diversity

V1 3.064845

La double analyse en coordonnées principales

La DPCoA développée par Pavoine et al. (2004a) permet de représenter dans un es-

pace unique la décomposition de la diversité sur deux niveaux.

L’exemple utilisé jusqu’ici peut être traité mais ne présente pas de résultats inté-

ressants parce qu’il s’agit de placettes de plantations, dont les espèces ont été choi-

sies arbitrairement. On utilisera donc l’exemple fourni dans ADE4.

Les données sont 56 haplotypes du génome humain (équivalents des espèces) dont

on a relevé la fréquence dans 10 populations (équivalents des placettes). La Figure

17 montre, en bas à gauche, la variabilité des populations (le centre de gravité du

nuage est l’origine du repère). En bas à droite, les indices de diversité de chaque

population sont représentés. L’espace de projection est défini par les premiers axes

de l’analyse, représentés en haut à gauche. La figure en haut à droite représente en

plus des populations la position de chaque haplotype, représenté par un point, et les

intervalles de confiance à 90% de la position des populations.

L’inertie totale du nuage de points (espèces, haplotypes) est décomposée en deux

parties : l’inertie des haplotypes autour de chaque population (diversité intra) et

l’inertie des populations (diversité inter). La DPCoA réalise en une opération la dé-

composition et sa représentation graphique.

Calcul sous R

La fonction dpcoa a pour arguments le tableau des fréquences et la matrice des dis-

tances, comme les fonctions vues précédemment. Le graphique est appelé par plot.

> data(humDNAm)

> dpcoahum <- dpcoa(humDNAm$samples, sqrt(humDNAm$distances), scan =

FALSE, nf = 2)

> dpcoahum

double principal coordinate analysis

class: dpcoa

$call: dpcoa(df = humDNAm$samples, dis = sqrt(humDNAm$distances),

scannf = FALSE, nf = 2)

52

Figure 18 : DPCoA

$nf: 2 axis-components saved

eigen values: 0.1018 0.01035 0.006281 0.005602 0.003179 ...

vector length mode content

1 $w1 56 numeric weights of species

2 $w2 10 numeric weights of communities

3 $eig 9 numeric eigen values

4 $RaoDiv 10 numeric diversity coefficients within communities

dist Size content

1 $RaoDis 10 dissimilarities among communities

data.frame nrow ncol content

1 $RaoDecodiv 3 1 decomposition of diversity

2 $l1 56 2 coordinates of the species

3 $l2 10 2 coordinates of the species

4 $c1 34 2 scores of the principal axes of the species

x1

A1

A2

A3

A4

A5

A6

A7

A8

A9

A10 A11

A12 A13 A14 A15 A16 A17 A18 A19

A20 A21

A22 A23 A24 A25

A26 A27

A28 A29

A30 A31

A32 A33

A34

Base d = 0.5

oriental

tharu

w olof peul pima maya f innish

sicilian

israelij

israelia

d = 0.2

oriental

tharu

w olof peul pima maya

f innish

sicilian

israelij

israelia

d = 0.2 Rao Divcs

0.1 0.3 0.5 0.7

53

> plot(dpcoahum, csize = 1.5)

> dpcoahum$RaoDecodiv

Diversity

Between-samples diversity 0.1302423

Within-samples diversity 0.4705318

Total diversity 0.6007742

L’élément $RaoDiv du résultat de la DPCoA contient les diversités intra (divc) et

$RaoDecodiv contient les valeurs de la décomposition, identiques à celles calculées

manuellement au paragraphe précédent.

54

BIBLIOGRAPHIE

Adelman, M. A. (1969). Comment on the "H" Concentration Measure as a

Numbers-Equivalent. The Review of Economics and Statistics 51(1): 99-101.

Arrhenius, O. (1921). Species and Area. Journal of Ecology 9: 95–99.

Basharin, G. P. (1959). On a Statistical Estimate for the Entropy of a Sequence of

Independent Random Variables. Theory of Probability and its Applications

4(3): 333-336.

Bongers, F., Charles-Dominique, P., Forget, P.-M. et Théry, M., Eds. (2001).

Nouragues: dynamics and plant-animal interactions in a neotropical rainforest.

Biological Monographs Series. Dordrecht, The Netherlands, Kluwer Academic

Publisher.

Bourguignon, F. (1979). Decomposable Income Inequality Measures.

Econometrica 47(4): 901-920.

Brülhart, M. et Traeger, R. (2005). An Account of Geographic Concentration

Patterns in Europe. Regional Science and Urban Economics 35(6): 597-624.

Burnham, K. P. et Overton, W. S. (1979). Robust Estimation of Population Size

When Capture Probabilities Vary Among Animals. Ecology 60(5): 927–936.

Cailliez, F. (1983). The analytical solution of the additive constant problem.

Psychometrika 48: 305-310.

Chao, A. (1984). Nonparametric estimation of the number of classes in a

population. Scandinavian Journal of Statistics 11: 265-270.

Chao, A. (1987). Estimating the population size for capture-recapture data with

unequal catchability. Biometrics 43: 783-791.

Chao, A. (2004). Species richness estimation. in N. Balakrishnan, C. B. Read et B.

Vidakovic, (Eds), Encyclopedia of Statistical Sciences. Wiley, New York.

Chao, A. et Lee, S.-M. (1992). Estimating the Number of Classes Via Sample

Coverage. Journal of the American Statistical Association 87(417): 210-217.

Chao, A. et Shen, T.-J. (2003-2005). Program SPADE (Species Prediction And

Diversity Estimation). Program and User’s Guide published at

http://chao.stat.nthu.edu.tw.

Chao, A. et Shen, T. J. (2003). Nonparametric estimation of Shannon's index of

diversity when there are unseen species in sample. Environmental and

Ecological Statistics 10(4): 429-443.

Coleman, B. D. (1981). Random placement and species-area relations.

Mathematical Biosciences 54: 191-215.

http://chao.stat.nthu.edu.tw/

55

Conceição, P. et Ferreira, P. (2000). The Young Person’s Guide to the Theil

Index: Suggesting Intuitive Interpretations and Exploring Analytical

Applications. UTIP Working Paper, 14, Austin, Texas: 54 p.

Condit, R., Hubbell, S. P., Lafrankie, J. V., Sukumar, R., Manokaran, N.,

Foster, R. B. et Ashton, P. S. (1996). Species-Area and Species-Individual

Relationships for Tropical Trees: A Comparison of Three 50-ha Plots. Journal

of Ecology 84(4): 549-562.

Couteron, P. et Pélissier, R. (2004). Additive apportioning of species diversity:

towards more sophisticated models and analyses. Oikos 107(1): 215-221.

Dalton, H. (1920). The measurement of the inequality of incomes. The Economic

Journal 30(119): 348-361.

Davis, H. T. (1941). The theory of econometrics. The Principia Press, Bloomington,

Indiana

Ellison, G. et Glaeser, E. L. (1997). Geographic Concentration in U.S.

Manufacturing Industries: A Dartboard Approach. Journal of Political

Economy 105(5): 889-927.

Fisher, R. A., Corbet, A. S. et Williams, C. B. (1943). The relation between the

number of species and the number of individuals in a random sample of an

animal population. Journal of Animal Ecology 12: 42-58.

Gini , C. (1912). Variabilità e mutabilità. Studi economico-giuridici. Università di

Cagliari.

Good, I. J. (1953). On the Population Frequency of Species and the Estimation of

Population Parameters. Biometrika 40: 237-264.

Gourlet-Fleury, S., Guehl, J. M. et Laroussinie, O., Eds. (2004). Ecology &

management of a neotropical rainforest. Lessons drawn from Paracou, a long-

term experimental research site in French Guiana. Paris, Elsevier.

Harte, J., Kinzig, A. et Green, J. (1999). Self-similarity in the distribution and

abundance of species. Science 284(5412): 334-336.

Hill, M. O. (1973). Diversity and Evenness: A Unifying Notation and Its

Consequences. Ecology 54(2): 427-432.

Hubbell, S. P. (2001). The unified neutral theory of biodiversity and biogeography.

Princeton University Press

Hurlbert, S. H. (1971). The Nonconcept of Species Diversity: A Critique and

Alternative Parameters. Ecology 52(4): 577-586.

Jost, L. (2006). Entropy and diversity. Oikos 113(2): 363-375.

Jost, L. (2007). Partitioning diversity into independent alpha and beta

components. Ecology 88(10): 2427-2439.

56

Jurasinski, G., Retzer, V. et Beierkuhnlein, C. (2009). Inventory,

differentiation, and proportional diversity: a consistent terminology for

quantifying species diversity. Oecologia 159(1): 15-26.

Kempton, R. A. et Taylor, L. R. (1976). Models and statistics for species

diversity. Nature 262(5571): 818-820.

Kempton, R. A. et Wedderburn, R. W. M. (1978). A comparison of three

measures of species diversity. Biometrics 34: 25-37.

Keylock, C. J. (2005). Simpson diversity and the Shannon-Wiener index as special

cases of a generalized entropy. Oikos 109(1): 203-207.

Krishnamani, R., Kumar, A. et Harte, J. (2004). Estimating species richness at

large spatial scales using data from small discrete plots. Ecography 27(5): 637-

642.

Kullback, S. et Leibler, R. A. (1951). On Information and Sufficiency. The Annals

of Mathematical Statistics 22(1): 79-86.

Lande, R. (1996). Statistics and partitioning of species diversity, and similarity

among multiple communities. Oïkos 76: 5-13.

Ludovisi, A. et Taticchi, M. I. (2006). Investigating beta diversity by Kullback-

Leibler information measures. Ecological Modelling 192(1-2): 299-313.

Maasoumi, E. (1993). A compendium to information theory in economics and

econometrics. Econometric Reviews 12(2): 137-181.

MacArthur, R. H. (1965). Patterns of species diversity. Biological Reviews 40(4):

510-533.

Marcon, E., Hérault, B., Baraloto, C. et Lang, G. (in prep). The Decomposition

of Shannon's Entropy and a Test for Beta Diversity.

May, R. M. (1975). Patterns of species abundance and diversity. in M. L. Cody et J.

M. Diamond, (Eds), Ecology and Evolution of Communities. Harvard

University Press: 81-120.

Morin, A. et Findlay, S. (2001). Biodiversité : tendances et processus.

http://simulium.bio.uottawa.ca/bio3515/pdf/presentations/02-Biodiversite.pdf.

Neyman, J. et Scott, E. L. (1958). Statistical Approach to Problems of Cosmology.

Journal of the Royal Statistical Society B 20(1): 1-43.

Patil, G. P. et Taillie, C. (1982). Diversity as a concept and its measurement.

Journal of the American Statistical Association 77(379): 548-561.

Pavoine, S., Dufour, A.-B. et Chessel, D. (2004a). From dissimilarities among

species to dissimilarities among communities: a double principal coordinate

analysis. Journal of Theoretical Biology 228: 523–537.

Pavoine, S., Ollier, S. et Dufour, A.-B. (2005). Is the originality of a species

measurable? Ecology Letters 8: 579–586.

http://simulium.bio.uottawa.ca/bio3515/pdf/presentations/02-Biodiversite.pdf

57

Pavoine, S., Ollier, S. et Pontier, D. (2004b). Measuring diversity from

dissimilarities with Rao’s quadratic entropy: are any dissimilarities suitable?

Pélissier, R. et Couteron, P. (2007). An operational, additive framework for

species diversity partitioning and beta-diversity analysis. Journal of Ecology

95(2): 294-300.

Pélissier, R., Couteron, P., Dray, S. et Sabatier, D. (2003). Consistency

between ordination techniques and diversity measurements: Two strategies for

species occurrence data. Ecology 84(1): 242-251.

Pielou, E. C. (1977). Mathematical Ecology. Wiley, New York

Plotkin, J. B., Potts, M. D., Yu, D. W., Bunyavejchewin, S., Condit, R.,

Foster, R. B., Hubbell, S. P., LaFrankie, J., Manokaran, N., Lee, H.-S.,

Sukumar, R., Nowak, M. A. et Ashton, P. S. (2000). Predicting species

diversity in tropical forests. Proceedings of the National Academy of Sciences of

the United States of America 97(20): 10850-10854.

Rao, C. R. (1982). Diversity and dissimilarity coefficients: a unified approach.

Theoretical Population Biology 21(24-43).

Rényi, A. (1961). On Measures of Entropy and Information. 4th Berkeley

Symposium on Mathematical Statistics and Probability, Berkeley, USA,

University of California Press.

Ricotta, C. et Avena, G. (2003). An information-theoretical measure of -

diversity. Plant Biosystems 137(1): 57 - 61.

Schulte, R. P. O., Lantinga, E. A. et Hawkins, M. J. (2005). A new family of

Fisher-curves estimates Fisher's alpha more accurately. Journal of Theoretical

Biology 232(3): 305-313.

Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell

System Technical Journal 27: 379–423, 623–656.

Shannon, C. E. et Weaver, W. (1963). The Mathematical Theory of

Communication. University of Illinois Press

Shen, T.-J., Chao, A. et Lin, C.-F. (2003). Predicting the number of new species

in a further taxonomic sampling. Ecology 84: 798-804.

Simpson, E. H. (1949). Measurement of diversity. Nature 163(4148): 688.

Theil, H. (1967). Economics and Information Theory. Rand McNally and Company,

Chicago

Tsallis, C. (1988). Possible generalization of Boltzmann-Gibbs statistics. Journal of

Statistical Physics 52(1): 479-487.

Tuomisto, H. (2010). A diversity of beta diversities: straightening up a concept

gone awry. Part 1. Defining beta diversity as a function of alpha and gamma

diversity. Ecography 33(1): 2-22.

58

Whittaker, R. H. (1960). Vegetation of the Siskiyou Mountains, Oregon and

California. Ecological Monographs 30(3): 279-338.

Whittaker, R. H. (1972). Evolution and Measurement of Species Diversity. Taxon

21(2/3): 213-251.

mesures de la biodiversitÉ · 2010-09-28 · 6 notions de diversitÉ objet de l’étude le terme...

Documents