mesures de la biodiversitÉ · 2010-09-28 · 6 notions de diversitÉ objet de l’étude le terme...
TRANSCRIPT
Eric Marcon
28/09/2010
MESURES
DE LA BIODIVERSITÉ
Les opinions émises par les auteurs sont personnelles et n’engagent pas l’UMR
EcoFoG ou ses tutelles.
3
MESURES DE LA BIODIVERSITE
Sommaire
Notations .................................................................................................... 5
Notions de diversité ................................................................................... 6
Objet de l’étude ..................................................................................................................... 6
Composantes ......................................................................................................................... 6
Richesse ................................................................................................................................................6
Équitabilité ..........................................................................................................................................7
Niveaux de l’étude ................................................................................................................. 7
Diversité , et ................................................................................................................................8
Décomposition ......................................................................................................................................9
Mesures classiques de la diversité .......................................................... 11
Richesse spécifique .............................................................................................................. 11
Estimation par extrapolation de la courbe aire-espèces ................................................................ 11
Estimation par ajustement de la fréquence de répartition des espèces ....................................... 14
Estimation non paramétrique ......................................................................................................... 14
Prédiction de la richesse d’un nouvel échantillon .......................................................................... 18
Influence de la structure spatiale.................................................................................................... 19
Indice de Fisher ............................................................................................................... 20
Indice de Simpson ............................................................................................................... 22
Définition .......................................................................................................................................... 22
Biais d’échantillonnage .................................................................................................................... 22
Indice de Shannon ............................................................................................................... 23
Définition .......................................................................................................................................... 23
Biais d’échantillonnage .................................................................................................................... 24
Équitabilité. ........................................................................................................................ 25
Entropie ............................................................................................................................... 25
Définition de l’entropie ..................................................................................................................... 25
Distance entre distributions ............................................................................................................ 26
Entropie et biodiversité : historique................................................................................................ 27
Synthèse ............................................................................................................................................ 28
4
Décomposition ......................................................................................................................29
Notations ........................................................................................................................................... 29
Règle générale ................................................................................................................................... 30
Application : Décomposition de l’indice de Shannon ...................................................................... 31
Test de significativité ....................................................................................................................... 34
Exemples ........................................................................................................................................... 35
Décomposition de l’indice de Gini-Simpson .................................................................................... 37
Hypothèse nulle et tests ......................................................................................................38
Le partitionnement de la diversité selon Pélissier et Couteron .........................................40
Cadre ................................................................................................................................................. 40
Décomposition ................................................................................................................................... 41
Indice de Rao ........................................................................................... 42
Préalables ............................................................................................................................42
Dissimilarité ..................................................................................................................................... 42
Cas étudiés ........................................................................................................................................ 42
Principe ................................................................................................................................43
Formalisation .................................................................................................................................... 43
Discussion ......................................................................................................................................... 43
Calcul sous R .......................................................................................................................44
Préalables .......................................................................................................................................... 44
Création de la matrice de distances ................................................................................................ 45
Tableau des fréquences .................................................................................................................... 47
Indice de Rao ..................................................................................................................................... 48
Maximum théorique ............................................................................................................49
Décomposition ......................................................................................................................49
Principe ............................................................................................................................................. 49
Calcul sous R ..................................................................................................................................... 50
La double analyse en coordonnées principales ............................................................................... 51
Calcul sous R ..................................................................................................................................... 51
Bibliographie ........................................................................................... 54
5
NOTATIONS
Les notations peuvent différer de celles de la littérature citée pour l’homogénéité de
ce document. Souvent, la littérature écologique n’est pas très rigoureuse sur la dis-
tinction de ce qui est un paramètre, une variable aléatoire ou son estimation. Par
exemple, le nombre d’arbres échantillonnés (choisi) devrait être noté n. Un nombre
d’arbres aléatoire (résultat d’un processus stochastique) devrait être noté et son
estimateur . La confusion est fréquente dans la formulation des mesures de diver-
sité et leurs estimateurs. Dans la mesure du possible, des notations plus rigou-
reuses que les originales sont utilisées ici.
: l’aire d’étude, et, selon le contexte, sa surface.
( ) : l’espérance de la variable aléatoire .
: le nombre (aléatoire) d’individus se trouvant dans l’aire d’étude, estimé par le
nombre observé . est la même variable aléatoire, mais restreinte aux individus
de l’espèce . Attention, dans un contexte différent, est aussi la notation des
nombres de Hill.
: le nombre d’individus échantillonnés, paramètre choisi dans le cadre du proto-
cole d’échantillonnage.
: la probabilité qu’un individu tiré au hasard appartienne à l’espèce i. Son estima-
teur, est la fréquence observée.
* + : la distribution des probabilités .
: le nombre d’espèces, considéré comme une variable aléatoire, estimé par .
: le nombre d’espèces, considéré comme une variable aléatoire, détectées dans
l’échantillonnage. L’exposant est le nombre de fois où l’espèce est détectée : par
exemple ou . L’exposant est la taille de l’échantillon : pour la surface ou
pour un échantillon de individus. est le nombre d’espèces non rencontrées
dans la surface . Pour alléger les notations, s’il n’y a pas d’ambiguïté, l’exposant
est omis pour les espèces présentes : est noté . Si l’indice n’est pas noté,
l’échantillon n’est pas précisé et peut être aussi bien un nombre d’individus qu’une
surface.
: le nombre d’individus de l’espèce dans la placette .
6
NOTIONS DE DIVERSITÉ
Objet de l’étude
Le terme biodiversité concerne le plus souvent la diversité en termes d’espèces d’un
écosystème. On peut bien évidemment s’intéresser à d’autres niveaux et d’autres
objets, par exemple la diversité génétique (en termes d’allèles différents pour cer-
tains gènes ou marqueurs) à l’intérieur d’une population.
Figure 1 : Emboîtement des objets d'étude de la biodiversité
On gardera toujours à l’esprit que la prise en compte de la diversité spécifique n’est
pas la seule approche.
Composantes
Richesse
La richesse est le nombre (ou une fonction croissante du nombre) de catégories dif-
férentes présentes dans le système étudié, par exemple le nombre d’espèces d’arbres
dans une forêt.
Un certain nombre d’hypothèses sont assumées plus ou moins explicitement :
7
Les catégories sont bien connues : compter le nombre d’espèces a peu de sens
si la phylogénie n’est pas bien établie. C’est parfois une difficulté majeure
quand on travaille sur les microorganismes.
Les catégories sont équidistantes : la richesse augmente d’une unité quand on
rajoute une espèce, que cette espèce soit proche des précédentes ou extrême-
ment originale.
L’indice de richesse le plus simple et le plus utilisé est tout simplement le nombre
d’espèces ou son logarithme .
Figure 2 : Importances de la richesse (en haut) et de l’équitabilité (en bas) pour la définition de la diversité
Équitabilité
La régularité de la distribution des espèces (équitabilité en Français, evenness en
Anglais) est un élément important de la diversité. Une espèce représentée abon-
damment ou par un individu n’apporte pas la même contribution à l’écosystème. A
nombre d’espèces égal, la présence d’espèces très dominantes entraîne mathémati-
quement la rareté de certaines autres : on comprend donc assez intuitivement que
le maximum de diversité sera atteint quand les espèces auront une répartition très
régulière.
Un indice d’équitabilité est indépendant du nombre d’espèces (donc de la richesse).
La plupart des indices courants, comme ceux de Simpson ou de Shannon, évaluent à
la fois la richesse et l’équitabilité.
Niveaux de l’étude
La diversité est classiquement estimée à plusieurs niveaux emboîtés, nommés ,
et par Whittaker (1960, p. 320), qui a nommé la diversité locale qu’il mesurait
avec l’indice alpha de Fisher (voir page 20) et a utilisé les lettres suivantes selon ses
besoins.
8
Diversité , et
La diversité est la diversité locale, mesurée à l’intérieur d’un système délimité.
Plus précisément, il s’agit de la diversité dans un habitat uniforme de taille fixe.
Figure 3 : Diversité , évaluée par la richesse spécifique.
L’habitat B possède la plus grande richesse (figure issue de Morin et Findlay, 2001).
De façon générale, la richesse spécifique diminue avec la latitude (la diversité est
plus grande dans les zones tropicales, et au sein de celles-ci, quand on se rapproche
de l’équateur).
Figure 4 : Nombre d'espèces de coraux dans les récifs (figure issue de Morin et Findlay, 2001)
La richesse diminue avec l’altitude. Elle est généralement plus faible sur les îles, où
elle décroît avec la distance au continent, source de migrations.
9
La diversité est le taux de remplacement des espèces le long d’un gradient (topo-
graphique ou d’habitats par exemple).
Figure 5 : Diversité , évaluée par la richesse spécifique (figure issue de Morin et Findlay, 2001).
Enfin, la diversité est similaire à la diversité , prise en compte sur l’ensemble du
système étudié.
Décomposition
La décomposabilité de la diversité est une propriété essentielle parce qu’elle permet
les changements d’échelle.
La distinction entre les diversités et dépend de la finesse de la définition de
l’habitat. La distinction de nombreux habitats diminue la diversité au profit de la
. Il est donc important de définir une mesure qui ne dépende pas de ce découpage,
donc une mesure additive décrivant la diversité totale, décomposable en la somme
(ou le produit) convenablement pondérée de toutes les diversités des habitats (di-
versité intra) et de la diversité inter-habitat.
Jurasinski et al. (2009) distinguent plusieurs types de mesures de diversité :
La diversité d’inventaire (inventory diversity), qui traite des données récol-
tées sur une unité spatiale,
La diversité de différentiation (differentiation diversity), qui mesure à quel
point les unités spatiales sont différentes, ce qui correspond à la définition de
la diversité donnée plus haut
La diversité proportionnelle (proportional diversity), diversité qui se cons-
truit par différence ou rapport des diversités et .
Marcon et al. (in prep) montrent que la diversité de Shannon (page 22) peut être
définie et décomposée (page 31) de façon à recouvrir ces trois concepts.
10
Une revue détaillée de la notion de décomposabilité est fournie par Tuomisto (2010).
11
MESURES CLASSIQUES DE LA DIVERSITÉ
Richesse spécifique
La richesse spécifique est apparemment un indice de diversité extrêmement simple.
En pratique, il pose le problème du choix de la surface d’échantillonnage.
L’aire minimum est la surface nécessaire à échantillonner pour rencontrer toutes
les espèces présentes dans l’habitat considéré. En forêt tempérée, on considère
qu’elle est inférieure à l’hectare.
En forêt tropicale, il existe de nombreuses espèces rares, au sens où la probabilité
de ne pas les rencontrer à l’occasion d’un échantillonnage d’une certaine taille n’est
pas négligeable. L’expérience montre que l’augmentation de l’aire d’échantillonnage
n’est pas la solution adaptée, puisqu’on rencontre toujours de nouvelles espèces,
même en échantillonnant des surfaces considérables (50 hectares pour la Figure 7)
Il s’agit bien de mesurer la diversité , à l’intérieur du même habitat, et non
d’augmenter la surface échantillonnée le long d’un gradient d’habitats (diversité ).
Le problème est donc bien la prise en compte des espèces rares.
Trois approches sont possibles :
Extrapoler la courbe aire-espèces observée dans les échantillons. La méthode
consiste à formaliser la relation ( ) (où est le nombre d’espèces dé-
tectées dans la surface et un vecteur de paramètres) à partir d’un certain
nombre d’hypothèses puis à ajuster les paramètres à partir des données.
L’exemple le plus connu est celui de la loi de puissance, où , et
étant deux paramètres.
Utiliser les fréquences des espèces observées pour en déduire le nombre
d’espèces non observées. Deux méthodes sont alors en concurrence :
o Formaliser la distribution des fréquences des espèces par une loi con-
nue et en estimer les paramètres à partir de l’échantillonnage. Un mo-
dèle connu est le broken stick (Pielou, 1977 p. 285) dans lequel les fré-
quences sont distribuées selon une loi exponentielle.
o Ne pas faire de supposition sur la forme de la loi de distribution et uti-
liser des méthodes d’estimation non paramétriques. Les estimateurs
les plus connus sont ceux de Chao (1984 pour Chao1) et le jackknife
(Burnham et Overton, 1979).
Estimation par extrapolation de la courbe aire-espèces
Arrhenius (1921) a établi le modèle de base, dit loi de puissance : , où est
le nombre d’espèces dans , la surface, et des paramètres. May (1975), en sup-
posant que la fréquence des espèces suivait une loi log-normale, a établi que la puis-
sance devait valoir 0,25, confirmant les résultats empiriques. Le seul paramètre
12
de la loi de puissance reste donc , un facteur d’échelle dépendant de la richesse de
l’habitat.
Plotkin et al. (2000) ont eu accès à de grands échantillons (5 placettes de 50 hec-
tares dans l’ensemble du monde tropical, Figure 6, toutes déterminées correctement
sur le plan botanique et dans lesquels chaque arbre est positionné). Ils montrent
que le modèle log-normal rend mal compte de la réalité (Figure 7a).
Figure 6 : Les cinq dispositifs de Plotkin et al. (2000). Chaque dispositif mesure 50 ha et toutes les tiges de dia-
mètre supérieur à 1 cm sont cartographiées et déterminées.
Harte et al. (1999) ont montré que la loi de puissance était équivalente au modèle
d’auto-similarité, dérivé de la théorie des fractales. On considère un rectangle
dont le rapport longueur sur largeur vaut √ . On obtient le rectangle en pla-
çant deux rectangles côte à côte (et donc le rectangle en coupant en deux).
est le nombre d’espèces rencontrées dans . On définit enfin ⁄ le fac-
teur de diminution du nombre d’espèces (dit paramètre de persistance) lié à la divi-
sion par 2 de la taille du rectangle. S’il s’agit d’une constante, , indépendante de la
taille du rectangle, l’habitat est dit auto-similaire : l’augmentation du nombre
d’espèces ne dépend pas de l’échelle d’observation. Si cette condition est respectée,
le nombre d’espèces suit la loi de puissance, et . Pour la valeur classique de
, . La Figure 7b présente la valeur de en fonction de la surface
échantillonnée. Elle augmente avec la surface, ce qui infirme le modèle d’auto-
similarité.
13
Figure 7 : Courbes aire-espèces (a) et Paramètre de persistance en fonction de la surface (b) dans 5 forêts tropi-
cales (Plotkin et al., 2000). La loi log-normale est représentée par le trapèze sur la figure a, pour une gamme de
valeurs de la constante. Elle implique que la relation aire-espèces représentée en logarithmes soit une droite, ce
qui n’est visiblement pas le cas.
Plotkin et al. (2000) ne supposent pas constant et lui imposent simplement d’être
une fonction de la surface, choisie arbitrairement pour permettre les calculs ulté-
rieurs, et dont la forme correspond aux observations de la Figure 7b. Après calculs,
la relation aire-espèces est ( ). ( ) est un polynôme de degré de ,
sans constante. Les monômes sont d’autant moins importants que leur degré est
élevé. L’approximation de degré 0 est la loi de puissance. Celle de degré 1 est rete-
nue par les auteurs pour estimer le nombre d’espèces rencontrées sur la surface :
(1)
Ce modèle contient un paramètre k en plus de la loi de puissance. Les auteurs ont
établi que les paramètres et étaient très proches pour les cinq forêts, et que leur
estimation sur une forêt permettait de prédire avec une très bonne précision la ri-
chesse des autres, à partir d’un échantillon d’un hectare nécessaire pour obtenir le
paramètre . La Figure 8 compare les performances de cette méthode (persistence
method) et de la loi de puissance 0,25 (loi log-normale).
14
Figure 8 : Performance du modèle de Plotkin et al. (2000) face au modèle log-normal. Le modèle alpha de Fisher
est présenté plus bas (page 20). Le modèle Broken stick n’est pas détaillé dans le texte. La courbe représente le
nombre d’espèces rencontrées à Pasoh sur des surfaces de 0 à 50 ha. Les données observées sont des tirages
aléatoires d’échantillons de la surface souhaitée. L’écart-type est représenté (l’intervalle de fluctuation à 95% est
de l’ordre de 2 écart-types). Les valeurs issues du modèle ont été obtenues par un paramétrage de et sur
25ha, supposé valide également sur les autres forêts. Le paramétrage de c est obtenu par un échantillon d’un
hectare, répété 1000 fois pour obtenir un intervalle de confiance. L’intervalle de fluctuation à 95% est ici encore
de l’ordre de deux écart-types.
Estimation par ajustement de la fréquence de répartition des
espèces
Fisher et al (1943) ont ouvert la voie à une abondante littérature. Pour une revue,
voir Chao (2004). Parmi les plus connus, Fisher et al ont supposé la fréquence de
distribution des espèces suivait une loi gamma, Pielou (1977) a utilisé une loi expo-
nentielle.
On sait écrire la probabilité qu’une espèce soit observée fois dans un échantillon
en fonction de la fréquence de distribution. Les paramètres de la loi sont estimés
par la méthode du maximum de vraisemblance à partir des données observées.
Ces méthodes présentent l’inconvénient, outre celui des calculs compliqués, de four-
nir des estimations très dépendantes de la loi choisie, qui est difficile à justifier.
Estimation non paramétrique
Dans le cadre d’un échantillonnage de individus, on observe espèces différentes
parmi les existantes. Chaque individu a une probabilité d’appartenir à l’espèce
.
On ne sait rien sur la loi des , contrairement à la méthode précédente. On sait
seulement, comme les individus sont tirés indépendamment les uns des autres, que
le nombre d’individus de l’espèce observée dans l’échantillon suit une loi bino-
miale dont l’espérance est . La loi a une forme en cloche assez prononcée qui fait
15
que la probabilité de rencontrer individus d’une espèce est maximum pour ,
reste assez grande quand varie de et devient rapidement très faible quand
s’éloigne de (Figure 9). Enfin, on connaît l’espérance du nombre d’espèces non
observées : ( ) ∑
.
Figure 9 : Densité de probabilité de la loi de binomiale, pour différentes espèces plus ou moins rares (valeurs de
). En abscisse, le nombre d’observations dans l’échantillon, en ordonnée la probabilité.
Pour les espèces fréquentes, est grand, et les espèces sont observées systémati-
quement (Figure 9 : pour , la probabilité de ne pas rencontrer l’espèce est de
l’ordre de 1%). La difficulté est due aux espèces pour lesquelles , l’espérance du
nombre d’observations, est petit. La probabilité de les observer est donnée par la loi
de binomiale : si est proche de 0, la probabilité d’observer un individu est faible
(Figure 9 : pour , la probabilité de rencontrer l’espèce une fois est de l’ordre
de 10%, et pratiquement nulle pour des observations multiples).
Chao1 et Chao2
Chao (1984) estime le nombre d’espèces non observées à partir de celles observées 1
ou 2 fois. Il s’agit d’un estimateur minimum, valide à condition que les singletons et
doubletons représentent une part importante de l’information. L’estimateur est
( )
(2)
est le nombre d’espèces différentes observé, le nombre d’espèces observées
fois. L’échantillon peut être une surface ou un nombre d’individus.
Si aucune espèce n’est observée deux fois, l’estimateur est remplacé par
( )
(Chao, 2004).
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 1 2 3 4 5 6 7 8 9 10
r
P(n
i)=r
Npi=0,1
Npi=0,5
Npi=1,0
Npi=2,0
Npi=5,0
16
Chao (1987) utilise une méthode différente pour obtenir un estimateur du nombre
minimum d’espèces tenant compte du nombre d’individus échantillonnés.
L’estimateur suppose que est grand, et que la probabilité d’observation de chaque
espèce est petite.
( )( )
(3)
Si aucune espèce n’est observée deux fois, l’estimateur est remplacé par
( ) (
)
.
L’estimateur ACE
Good (1953) définit le taux de couverture de l’échantillonnage (sample coverage)
comme la proportion des espèces découvertes ∑ ( ) où est la fonc-
tion indicatrice. Son estimateur est
.
Chao et Lee (1992) développent l’estimateur ACE (Abundance-based coverage esti-
mator) à travers l’estimation de . L’estimateur ACE utilise toutes les valeurs de
correspondant aux espèces rares : concrètement, la valeur limite de , notée est
fixée arbitrairement, généralement à 10.
L’estimateur prend en compte le coefficient de variation de la distribution des fré-
quences ( ) : plus les probabilités sont hétérogènes, plus le nombre d’espèces non
observées sera grand. Finalement :
(4)
est le nombre d’espèces dites abondantes, observées plus de fois,
le
nombre d’espèces dites rares, observées fois ou moins. est le taux de couver-
ture ne prenant en compte que les espèces rares.
L’estimateur du coefficient de variation est :
(
∑ ( )
(∑
)(∑
) )
Lorsque l’hétérogénéité est très forte, un autre estimateur est plus performant :
(
( ( )∑ ( )
(∑
)) )
Chao et Shen (2003-2005) conseillent d’utiliser le deuxième estimateur dès que
dépasse 0,8. L’estimateur ACE donne normalement une valeur plus grande
que Chao1. Si ce n’est pas le cas, la limite des espèces rares doit être augmentée.
L’estimateur jackknife
La méthode jackknife a pour objectif de réduire le biais d’un estimateur en considé-
rant des jeux de données dans lesquels on a supprimé un certain nombre
17
d’observations (ce nombre est l’ordre de la méthode). Burnham et Overton (1979)
ont utilisé cette technique pour obtenir des estimateurs du nombre d’espèces, appe-
lés jackknife à l’ordre , prenant en compte les valeurs de à
. Les estimateurs
du premier et du deuxième ordre sont les seuls utilisés en pratique :
( )
( )
( )
( )
(5)
Chao (1984) a montré que les estimateurs jackknife pouvaient être retrouvés par
approximation de l’indice Chao1.
Calcul
Ces estimateurs peuvent être calculés de façon relativement simple à l’aide du logi-
ciel SPADE (Chao et Shen, 2003-2005) disponible sur internet (voir la référence bi-
bliographique). Le guide de l’utilisateur présente quelques estimateurs supplémen-
taires et des directives pour choisir. Il est conseillé d’utiliser Chao1 pour une esti-
mation minimale, et ACE pour une estimation non biaisée de la richesse.
Les intervalles de confiance de chaque estimateur sont calculés par bootstrap :
même quand la variance d’un estimateur est connue, sa loi ne l’est généralement
pas, et le calcul analytique de l’intervalle de confiance n’est pas possible.
Les estimateurs et leurs intervalles de confiance peuvent également être calculés
sous R. Le package vegan dispose pour cela de deux fonctions specpool() et estima-
teR().
specpool() est basé sur les incidences des espèces dans un ensemble de sites
d’observation et donne une estimation unique de la richesse selon les méthodes
Chao2, jackknife (ordre 1 et 2) et bootstrap. Un intervalle de confiance est égale-
ment fourni par la fonction, sauf pour l’estimateur jackknife d’ordre 2.
estimateR() est basé sur les abondances des espèces et retourne un estimateur de la
richesse spécififique par site et non global comme specpool.
Exemple :
On utilise les données de Barro Colorado Island (BCI). La parcelle a été divisée en
carrés de 20 m x 20 m. Le tableau d’entrée est un dataframe contenant, pour chaque
espèce ( ≥ 1 cm), ses effectifs par carré.
On charge le tableau de données :
> data(BCI)
On utilise la fonction estimateR pour calculer la richesse des 5 premiers carrés :
> estimateR(BCI[1:5,])
1 2 3 4 5
S.obs 93.000000 84.000000 90.000000 94.000000 101.000000
18
S.chao1 117.516620 117.293367 141.340237 111.583750 136.055556
se.chao1 12.578970 17.841763 26.075747 9.647692 16.882684
S.ACE 122.848959 117.317307 134.669844 118.729941 137.114088
se.ACE 5.736054 5.571998 6.191618 5.367571 5.848474
Krishnamani et al. (2004) : estimation à partir de placettes.
Krishnamani et al. développent une méthode permettant l’extrapolation de la ri-
chesse mesurée sur de petites surfaces (48 placettes de 0,25 ha) à de très grandes
zones (60 000 km², la taille des Western Ghats en Indes).
Partant de la relation d’Arrhenius (1921) vue précédemment, le nombre d’espèces
dans une surface est
( ⁄ )
(6)
c'est-à-dire le nombre d’espèces dans la surface plus petite multipliée par le rap-
port des surfaces à la puissance . La valeur de est constante pour des variations
de surface limitées. L’idée est donc de procéder par étapes, en partant du nombre
d’espèces mesuré sur les petites placettes, et extrapolant vers une surface plus
grande. Cette surface est ensuite prise pour référence pour une nouvelle extrapola-
tion avec une nouvelle valeur de . En indiçant les surfaces de 0 à , on obtient :
( ⁄ ) ( ⁄ ) ( ⁄ )
(7)
Il reste à évaluer les différentes valeurs de . A l’intérieur de chaque placette,
l’équation (6) est suffisante. A plus grande distance, les auteurs utilisent l’indice de
Sørensen, c'est-à-dire deux fois la fraction d’espèces communes entre deux pla-
cettes : ( ) ( )⁄ . L’indice dépend principalement de la surface des
placettes et de leur éloignement . Pour certaines plages de distances , -
vérifiant ⁄ (placettes éloignées), est proportionnel à ( ⁄ ) . La valeur
de peut donc être calculée en comptant le nombre d’espèces communes entre
chaque paire de placettes, et ajustant à ( ⁄ ) sur des plages de distances
convenables pour que reste constant, et donc que la relation soit linéaire.
Cette méthode permet l’extrapolation à de très grandes surfaces de mesures de ri-
chesse faites sur de petites placettes à condition qu’elles soient assez nombreuses et
éloignées les unes des autres.
Prédiction de la richesse d’un nouvel échantillon
La prédiction du nombre d’espèces découvert dans une nouvelle placette d’un ha-
bitat dans lequel on a déjà échantillonné est une question importante, par exemple
pour évaluer le nombre d’espèces préservées dans le cadre d’une mise en réserve, ou
évaluer le nombre d’espèces perdues en réduisant la surface d’une forêt.
19
Figure 10 : Courbes Espèces-Nombre d’individus simulées pour
illustrer l’importance des paramètres (concentration spa-
tiale) et (nombre total d’espèces) dans le modèle de Fisher.
est fixé à 100 pour toutes les courbes. (a) et (b) : la concentra-
tion spatiale ( ) change drastiquement le nombre d’espèces
attendu. En pratique, seuls S et N ( et dans nos notations)
sont observés. Si c est supposé égal à 1 par erreur, est sous-
estimé. (a) et (c) : le nombre d’espèces n’est évidemment pas
infini, ce qui change fortement la forme de la courbe. Si le
nombre d’observations est grand, sera aussi très sous-estimé.
(in Schulte et al., 2005)
Shen et al. (2003) proposent un estimateur et le confrontent avec succès à des esti-
mateurs antérieurs. On note l’estimateur du nombre d’espèces non observées
dans le premier échantillon, et l’estimateur de son taux de couverture.
L’estimateur du nombre d’espèces du nouvel échantillon de individus est :
[ (
)
] (8)
peut être obtenu par Chao1 (
(
)
) ou ACE, ou un autre estimateur : dans
tous les cas
.
Le calcul de est disponible dans SPADE.
Influence de la structure spatiale
Les modèles classiques de courbes aire-espèces supposent un tirage indépendant
des individus. Sur le terrain, l’échantillonnage est continu : s’il existe une structure
spatiale, par exemple des agrégats, la probabilité que l’arbre suivant soit d’une es-
pèce donnée dépend de ses voisins, donc de l’arbre précédent. Intuitivement, on
comprend bien que le nouvel arbre de la même espèce apporte moins d’information,
ce qui revient à surestimer la
taille de l’échantillon ou sous-
estimer la richesse pour une taille
d’échantillon fixée.
Plotkin et al.(2000) traitent un
problème un peu différent : con-
naissant le nombre total d’espèces
dans les dispositifs de la Figure 6,
ils tracent la courbe aire-espèces
théorique issue du modèle de Co-
leman (1981) qui considère sim-
plement que la probabilité de ne
pas rencontrer une espèce suit une
loi binomiale, les tirages étant in-
dépendants. Ce modèle surestime
largement la diversité pour les
petites surfaces : la probabilité de
ne pas rencontrer une espèce
agrégative est sous-estimée. Le
biais diminue quand la surface
d’échantillonnage augmente, parce
que la taille relative des agrégats
diminue.
Les effets de l’agrégation peuvent
donc être opposés selon la question posée. Dans tous les cas, il suffit de considérer
20
Figure 11 : Comparaison entre le modèle
de Fisher et le modèle étendu dans trois
parcelles forestières connues. Les mo-
dèles sont ajustés aux données observées
par Condit et al. (1996). Les courbes lé-
gendées Equation 4 correspondent au
modèle de Fisher étendu équation (10)
alors que l’Equation 4 est le modèle in-
termédiaire, supposant le nombre total
d’espèces infini. (in Schulte et al., 2005)
qu’un agrégat surestime le nombre d’arbres de son
espèce qui devrait être pris en compte dans le
cadre d’un modèle à tirages indépendants.
Plotkin et al.(2000) proposent une méthode per-
mettant de prendre en compte la structure spa-
tiale pour fournir des modèles de courbes aire-
espèces fiables, dans un cadre particulier où le
nombre total d’espèces et leur structure spatiale
sont connus. La méthode nécessite une carte des
arbres. Le semis de point est considéré comme le
résultat d’un processus de Neyman-Scott (1958) :
des centres d’agrégats sont tirés de façon complè-
tement aléatoire et les arbres sont répartis autour
des centres selon une loi normale en deux dimen-
sions. Les paramètres du processus sont estimés à
partir du semis de points, puis la courbe aire-
espèces est obtenue par simulation du processus.
Malheureusement, aucune méthode permettant
de prendre en compte la structure spatiale n’est
disponible pour corriger les estimateurs clas-
siques. Dans le cas de Chao1, une forte structure
agrégative peut diminuer le nombre de singletons
et doubletons, et donc entraîner une sous-
estimation de la richesse.
Indice de Fisher
Fisher et al (1943) ont relié le nombre d’espèces
au nombre d’individus à partir du modèle
suivant :
Les individus sont distribués indépendam-
ment les uns des autres, selon une loi de
Poisson de paramètre , dépendant de
l’espèce.
Les paramètres sont eux-mêmes distribués selon une loi gamma de para-
mètre . est inversement lié à la variance de . Il est choisi par Fisher
comme tendant vers 0, ce qui signifie que le nombre d’espèces est supposé in-
fini, avec une distribution de m pouvant prendre toutes les valeurs.
Le modèle est donc applicable pour un grand nombre d’observations et un grand
nombre d’espèces, dont les individus sont distribués indépendamment. Alors :
( ⁄ ) (9)
21
est estimé à partir des données. C’est un indicateur de la biodiversité qui peut
être interprété comme le nombre d’espèces nouvelles découvertes quand le nombre
d’individus échantillonnés est multiplié par : c’est en effet la pente de la courbe de
en fonction de , qui se stabilise à partir d’une valeur de suffisante. Kempton
(Kempton et Taylor, 1976 ; Kempton et Wedderburn, 1978) a montré qu’il était
identique à sa statistique .
La distribution des espèces est un cas particulier de la celles prévues par le modèle
neutre, dans le cas où le taux de migration est égal à 1. Alors, est égal à , le
nombre fondamental de la biodiversité de Hubbel (2001).
Dans R, la librairie untb contient la fonction optimal.theta pour calculer par ajus-
tement aux données. Elle peut être utilisée de préférence à la simple résolution de
l’équation (9) pour évaluer , comme dans l’exemple ci-dessous, appliqué aux don-
nées de BCI.
> library(untb)
> data(BCI)
> N <- colSums(BCI)
> # N est un vecteur contenant les effectifs de chaque espèce.
> (alpha <- optimal.theta(N))
[1] 80.95173
Schulte et al. (2005) ont étendu le modèle de Fisher pour prendre en compte un
nombre d’espèces fini et une distribution non indépendante des individus, prise
en compte par un paramètre d’agrégation spatiale c valable pour toutes les espèces.
(
( ) ⁄)
où ⁄
( ) ⁄
(10)
Si et , l’équation (10) se simplifie pour retrouver l’équation (9).
Leurs résultats montrent que la non prise en compte de ces deux paramètres abou-
tit à une sous-estimation systématique de , différente selon les sites, ce qui inva-
lide les comparaisons inter-sites.
Appliqué à des données réelles, le modèle de Fisher étendu s’ajuste forcément mieux
(il possède trois paramètres au lieu d’un). L’approximation du nombre d’espèces in-
fini paraît être la plus pénalisante parce qu’elle exclut l’inflexion de la courbe pour
les grandes valeurs de , même si ces valeurs sont rarement atteinte dans les faits
( ).
Enfin, l’indice repose lourdement sur l’hypothèse que la distribution réelle des es-
pèces est conforme au modèle. Jost (2007) montre par un exemple que des interpré-
tations absurdes de l’indice peuvent être faites si l’hypothèse n’est pas respectée.
22
Indice de Simpson
Définition
On note la probabilité qu’un individu tiré au hasard appartienne à l’espèce .
L’indice de Simpson (1949), ou Gini-Simpson, est :
∑
(11)
Il peut être interprété comme la probabilité que deux individus tirés au hasard
soient d’espèces différentes. Il est compris dans l’intervalle , ,. Sa valeur diminue
avec la régularité de la distribution : si une seule espèce a une probabilité de
1, ⁄ si les espèces ont la même probabilité ⁄ . La valeur 1 est at-
teinte pour un nombre infini d’espèces, de probabilités nulles.
Il est parfois interprété comme un indice d’équitabilité (Morin et Findlay, 2001 par
exemple), mais le nombre d’espèces intervient clairement dans sa valeur : pour une
régularité identique, l’indice augmente avec le nombre d’espèces.
Deux autres formes de l’indice sont utilisées. Tout d’abord, la probabilité que deux
individus soient de la même espèce :
∑
(12)
Enfin, une forme dite « réciproque », plus rare :
⁄
(13)
L’indice est un cas particulier de l’indice de Rao, étudié en détail plus loin.
L’estimateur du maximum de vraisemblance de l’indice est :
∑
(14)
Le calcul de l’indice de Simpson peut se faire avec la fonction diversity – syntaxe :
diversity(x, index = "simpson") – disponible en chargeant la librairie vegan de R.
Biais d’échantillonnage
L’estimateur est légèrement biaisé parce que toutes les espèces n’ont pas été
échantillonnées. Un estimateur non biaisé est (Good, 1953 ; Lande, 1996) :
23
.
/( ∑
) (15)
La correction par
tend rapidement vers 1 quand la taille de l’échantillon aug-
mente : l’estimateur est très peu biaisé.
Indice de Shannon
Définition
L’indice de Shannon (Shannon, 1948 ; Shannon et Weaver, 1963), aussi appelé in-
dice de Shannon-Weaver ou Shannon-Wiener, est dérivé de la théorie de
l’information.
∑
(16)
Considérons une placette forestière contenant espèces végétales différentes. La
probabilité qu’une plante choisie au hasard appartienne à l’espèce est notée . On
prélève plantes, et on enregistre la liste ordonnée des espèces des plantes. Si
est suffisamment grand, le nombre de plantes de l’espèce est . On note le
nombre de listes respectant ces conditions :
∏ ( )
(17)
Démonstration :
Le nombre de positions possibles dans la liste pour les individus de la
première espèce est . Le nombre de positions pour la deuxième es-
pèce est
. Pour la ième espèce, le nombre est
Les produits de combinaisons se simplifient pour donner l’équation
(17).
On peut maintenant écrire le logarithme de : ∑ . On utilise
l’approximation de Stirling, , pour obtenir après simplifications :
∑
(18)
24
Il est possible d’obtenir des listes de plantes ne respectant pas les probabilités indi-
viduelles, mais comme on suppose assez grand, leur probabilité d’occurrence est
faible (loi des grands nombres) et elles peuvent être négligées.
⁄ est l'indice de Shannon. À l’origine, Shannon a utilisé un logarithme de
base 2 pour que soit le nombre moyen de questions binaires (réponse oui ou non)
nécessaire pour identifier l’espèce d’une plante.
La formule (18) est celle de l’indice de Theil (1967), présenté en détail par Conceição
et Ferreira (2000), à l’origine utilisé pour mesurer les inégalités de revenu puis pour
caractériser les structures spatiales en économie. L’indice est proportionnel au
nombre de plantes choisies, on peut donc le diviser par n et on obtient l’indice de
biodiversité de Shannon. Ces indices ont été définis en choisissant des lettres au
hasard pour former des chaînes de caractères. Leur valeur est le nombre de chaînes
de caractères différentes que l’on peut obtenir avec l’ensemble des lettres dispo-
nibles, c'est-à-dire la quantité d’information contenue dans l’ensemble des lettres.
L’indice de Shannon donne une mesure de la biodiversité en tant que quantité
d’information.
L’estimateur du maximum de vraisemblance de l’indice est :
∑
(19)
Le calcul de l’indice de Simpson peut se faire avec la fonction diversity – syntaxe :
diversity(x, index = "shannon") – disponible en chargeant la librairie vegan de R.
Biais d’échantillonnage
Basharin (1959) a montré que l’estimateur de l’indice de Shannon était biaisé parce
que des espèces ne sont pas échantillonnées. Si est le nombre d’espèces réel et le
nombre d’individus échantillonnés, le biais est :
( )
( ) (20)
( ) est un terme négligeable. La valeur estimée à partir des données est donc
trop faible, d’autant plus que le nombre d’espèces total est grand mais d’autant
moins que l’échantillonnage est important.
Comme le nombre d’espèces n’et pas observable, le biais réel est inconnu. Chao et
Shen (2003) établissent un estimateur non biaisé à partir du taux de couverture de
l’échantillonnage (vu page 16), estimé par
:
∑ ( )
( )
(21)
25
Le taux de couverture diminue quand le nombre d’espèces observées une fois est
grand, d’autant plus que le nombre d’individus échantillonnés est petit. Le terme au
dénominateur tend très vite vers 1 quand la taille de l’échantillon augmente. Une
approximation raisonnable de cet estimateur est donc obtenue en remplaçant dans
l’estimateur biaisé les probabilités par .
Équitabilité.
La régularité d’une distribution est une notion intuitivement assez simple : la fai-
blesse de l’écart entre la distribution réelle et une distribution parfaitement régu-
lière, vérifiant ⁄ .
Une expression de l’équitabilité est souvent donnée à partir de l’indice de Shannon.
La valeur maximale de l’indice de Shannon est obtenue quand la distribution est
parfaitement régulière. Alors : . On a donc défini l’indice :
(22)
est compris entre 0 (une seule espèce a une probabilité de 1) et 1 (toutes les es-
pèces ont la même probabilité).
Entropie
Définition de l’entropie
Les textes fondateurs sont Davis (1941) et surtout Theil (1967) en économétrie, et
Shannon (1948 ; 1963) pour la mesure de la diversité. Une revue est fournie par
Maasoumi (1993).
Considérons une expérience dont les résultats possibles sont * +. La proba-
bilité d’obtenir est , et * +. Les probabilités sont connues a priori.
Tout ce qui suit est vrai aussi pour des valeurs de continues, dont on connaîtrait
la densité de probabilité.
On considère maintenant un échantillon de valeurs de . La présence de dans
l’échantillon est peu étonnante si est grande : elle apporte peu d’information sup-
plémentaire par rapport à la simple connaissance des probabilités. En revanche, si
est petite, la présence de apporte beaucoup d’information. On définit donc une
fonction d’information, ( ), décroissante quand la probabilité augmente, de
( ) (ou éventuellement une valeur strictement positive finie) à ( ) .
Chaque valeur observée dans l’échantillon apporte une certaine quantité
d’information, dont la somme est l’information de l’échantillon.
26
La quantité d’information attendue de l’expérience est ∑ ( ) ( ) . Si on
choisit ( ) ( ), ( ) est l’indice de Shannon, mais bien d’autres formes de
( ) sont possibles. ( ) est appelée entropie. C’est une mesure de l’incertitude (de
la volatilité) du résultat de l’expérience. Si le résultat est certain, l’entropie est
nulle. L’entropie est maximale quand les résultats sont équiprobables.
Si est la distribution des probabilité des espèces dans une communauté, Patil et
Taillie (1982) montrent que :
Si ( )
, alors ( ) est le nombre d’espèces ,
Si ( ) ( ), alors ( ) est l’indice de Shannon,
Si ( ) , alors ( ) est l’indice de Simpson.
Distance entre distributions
Considérons maintenant les probabilités formant l’ensemble obtenues par la
réalisation de l’expérience. Elles sont différentes des probabilités , par exemple
parce que l’expérience ne s’est pas déroulée exactement comme prévu. On définit le
gain d’information ( ) comme la quantité d’information supplémentaire fournie
par l’expérience, connaissant les probabilités a priori. Ce gain d’information peut
être vu comme une distance entre la distribution a priori et la distribution a poste-
riori. Il est possible que les distributions et soit identiques, que le gain
d’information soit donc nul, mais les estimateurs empiriques n’étant pas exacte-
ment égaux entre eux, des tests de significativité de la valeur de ( ) seront né-
cessaires.
Quelques formes possibles de ( ) sont :
La divergence de Kullback-Leibler (Kullback et Leibler, 1951) connue par les
économistes comme l’indice de dissimilarité de Theil (1967) :
∑
(23)
Sa proche parente, appelée parfois deuxième mesure de Theil (Conceição et
Ferreira, 2000, p. 34), qui inverse simplement les rôles de et :
∑
(24)
L’entropie généralisée (Maasoumi, 1993), d’ordre :
( )
( )[∑ (
)
] (25)
On peut montrer que et
27
Entropie et biodiversité : historique
Les premiers travaux consistant à généraliser l’indice de Shannon sont dus à Rényi
(1961). L’entropie d’ordre de Rényi est :
∑
(26)
Rényi pose également les axiomes pour une mesure d’entropie ( ), où
* + :
La symétrie : les espèces doivent être interchangeables, aucune n’a de rôle
particulier et leur ordre est indifférent,
La mesure doit être continue par rapport aux probabilités,
La valeur maximale (fixée à 1) est atteinte si toutes les probabilités sont
égales,
Il montre que respecte les 3 axiomes.
Patil et Taillie (1982) ont montré de plus que :
L’introduction d’une espèce dans une communauté augmente sa diversité
(conséquence de la décroissance de ( )), Le remplacement d’un individu d’une espèce fréquente par un individu d’une
espèce plus rare augmente l’entropie à condition que ( ) soit concave. Dans
la littérature économique sur les inégalités, cette propriété est connue sous le
nom de Pigou-Dalton (Dalton, 1920).
Hill (1973) transforme l’entropie de Rényi en « nombres de Hill », qui en sont
simplement l’exponentielle :
(∑
)
(27)
Le souci de Hill est de rendre les indices de diversité intelligibles après l’article re-
marqué de Hurlbert (1971) intitulé « le non-concept de diversité spécifique ».
Hurlbert reprochait à la littérature sur la diversité sa trop grande abstraction et
son éloignement des réalités biologiques, notamment en fournissant des exemples
dans lesquels l’ordre des communautés n’est pas le même selon l’indice de diversité
choisi. Les nombres de Hill sont le nombre d’espèces équiprobables donnant la
même valeur de diversité que la distribution observée. Ils sont des transformations
simples des indices classiques :
est le nombre d’espèces,
, l’exponentielle de l’indice de Shannon,
, l’inverse d’une des formes de l’indice de Simpson.
Ces résultats avaient déjà été obtenus avec une autre approche par MacArthur
(1965) et repris par Adelman (1969) dans la littérature économique.
Lande (1996) précise le concept de décomposabilité en postulant que les mesures de
diversités doivent être concaves : la diversité d’un jeu de données regroupant
28
plusieurs communautés doit être supérieure ou égale à la somme pondérée des
diversités dans chaque communauté. De cette façon, il est possible de définir une
diversité totale égale à la somme pondérée des diversités (intra-communautés) et
(inter-communautés), toutes les diversités étant positives ou nulles. Il note que
« la partition serait plus facilement interprétable si les différentes composantes de
la diversité pouvaient être exprimés au moyen de la même formule ».
Lande rejette l’utilisation des nombres de Hill parce que n’est pas concave : dans
certains cas, la diversité totale est inférieure à la somme des diversités intra.
Tsallis (1988) propose une classe de mesures appelée entropie généralisée et définie
par :
( ∑
) (28)
Tsallis a montré que les indices de Simpson et de Shannon étaient des cas particu-
liers d’entropie généralisée. Ces résultats ont été complétés par d’autres et repris en
écologie par Keylock (2005) et Jost (2006; 2007). Nous en retiendrons que, à une
normalisation éventuelle près :
Le nombre d’espèces est
L’indice de Shannon est
L’indice de Gini-Simpson est
Synthèse
Les différentes approches et généralisations ne donnent lieu finalement qu’à trois
mesures, le nombre d’espèce, l’indice de Shannon et celui de Gini-Simpson. Les en-
tropies généralisées d’ordres plus élevés ou négatifs n’ont pas trouvé d’application,
de même que l’entropie de Rényi d’ordre différent de 1. L’intérêt de ces approches
est d’avoir mis en évidence la différence entre les trois mesures :
Le nombre d’espèces est la mesure qui donne le plus d’importance aux es-
pèces rares : toutes les espèces ont la même importance, quel que soit leur ef-
fectif en termes d’individus. Il est bien adapté à une approche patrimoniale,
celle du collectionneur qui considère que l’existence d’une espèce supplémen-
taire a un intérêt en soi, par exemple parce qu’elle peut contenir une molé-
cule valorisable. Comme les espèces rares sont difficiles à échantillonner, le
biais d’échantillonnage est très important, et sa résolution a généré une litté-
rature en soi (voir page 11 et suivantes).
L’indice de Shannon donne la même importance à tous les individus. Il est
adapté à une approche d’écologue, intéressé par les interactions possibles : le
nombre de combinaisons d’espèces en est une approche satisfaisante. Le biais
d’échantillonnage est sensible (voir page 22).
L’indice de Gini-Simpson donne moins d’importance aux espèces rares. Il
comptabilise les interactions possibles entre paires d’individus : les espèces
rares interviennent dans peu de paires, et influent peu sur l’indice. En consé-
quence, le biais d’échantillonnage est très petit (page 24).
29
Les nombres de Hill, ou « nombres d’espèces équivalentes » ou « nombres d’espèces
efficaces » permettent une appréhension plus intuitive de la notion de biodiversité
(Jost, 2006).
Décomposition
Notations
L’objectif est de décomposer la diversité totale, notée en une composante inter-
groupes, notée et une composante intra-groupes notée .
Whittaker (1960; 1972) est l’auteur de ce concept. Il a posé le principe que la
diversité devait être le produit des diversités et . Les méthodes de
décomposition habituelles, comme l’analyse de la variance, sont additives. Un débat
assez stérile est découlé de l’opposition entre les deux approches, simplement dû à
la transformation logarithmique (Jost, 2006).
Bourguignon (1979) définit une mesure d’inégalité décomposable comme respectant
les propriétés suivantes :
La population totale étant partitionnée, chaque partition recevant un poids
, la composante intra-groupe de la mesure est égale à la somme pondé-
rée des mesures dans chaque-groupe ∑ .
La composante intergroupe est la mesure d’inégalité entre les groupes.
La mesure totale est la somme des mesures intra et intergroupes.
Bourguignon a montré de façon rigoureuse que la seule mesure d’entropie décompo-
sable, homogène de degré 0 est l’indice de Theil.
Nous nous placerons dans ce cadre additif, avec les notations suivantes :
Forêt Total
Parcelle
Parcelle
Placette
Placette
Placette
…
Famille
Genre Espèce
… Espèce
… Genre
Espèce
…
Total
30
Le tableau sera appelé par la suite : « tableau espèces-placettes ». On note :
le nombre d’arbres de l’espèce dans la placette , est le nombre
d’arbres de la placette , toutes espèces confondues. est le nombre d’arbres
total de l’espèce .
* + l’ensemble des placettes, et * + celui des espèces.
n’est pas une variable aléatoire ici, on suppose que toutes les espèces sont
connues.
* + { } { } l’ensemble des
placettes appartenant à la parcelle et l’ensemble des espèces du genre .
est le nombre de parcelles, est l’indice de la dernière placette de la parcelle
et donc .
* + * + * + l’ensemble
des parcelles appartenant à la forêt et l’ensemble des genres de la fa-
mille .
Le tableau peut être présenté autrement, en termes de probabilités. Dans la distri-
bution observée,
⁄ . Les mesures de biodiversité ont pour référence
l’équirépartition des espèces :
⁄ . Dans le cas le plus simple où il n’y a
qu’une seule placette, ⁄
Forêt … Total
Parcelle …
Placette …
Famille Genre Espèce
⁄
⁄
⁄
⁄
… … …
Total
⁄ 1
Règle générale
Soit l’indice défini sur un ensemble de valeurs individuelles, par exemple
l’ensemble des cellules du tableau ci-dessus : ∑
∑ . N’importe
quel groupement des valeurs est possible : soit un groupe, , alors la contribu-
tion du groupe ( ) à l’entropie totale est égale à la somme de son entropie après
regroupement, qu’on appellera entropie gamma ( ), et de la valeur pondérée de
son entropie entre individus ( ).
La somme des entropies individuelles des éléments du groupe est :
31
∑
(29)
L’entropie gamma de est celle de la cellule unique obtenue après regroupement :
(∑
) ∑
∑ (30)
La probabilité a priori ( ) ou a posteriori ( ) qu’un individu appar-
tienne au groupe sont les sommes des probabilités de tous les éléments
du groupe.
L’entropie inter-individus de est :
∑
∑
∑
∑
(∑
)
*∑
(∑
) ∑
∑ + (31)
À l’intérieur du groupe, la somme des probabilités vaut 1. Les probabi-
lités intra-groupe sont égales aux probabilités de départ divisées par la
probabilité totale du groupe.
Au total, la contribution de tous les éléments du groupe est bien égale à la somme
de l’entropie gamma et de l’entropie inter-individus :
(∑
) (32)
Application : Décomposition de l’indice de Shannon
Ce résultat est valable quelle que soit la façon de regrouper. Pour décomposer la
biodiversité de la parcelle , dont les placettes sont { }, le regroupe-
ment se fait espèce par espèce :
Les équations (30), (31) et (32) sont appliquées directement à ce regroupement.
32
Parcelle Parcelle
Placette
… Placette
… Placette regroupée
… →
Espèce
⁄
⁄
→
∑
⁄
∑
⁄
… →
La contribution à l’entropie totale de l’espèce dans la parcelle est (zone gris clair
à gauche du tableau) :
∑
∑
(
)
(33)
L’entropie gamma de l’espèce dans la parcelle est (zone grisée encadrée en poin-
tillés) :
∑
(
∑
∑
)
(34)
L’entropie inter-individus de l’espèce dans la parcelle est :
(∑
)
(∑
) ∑
∑
∑
∑
∑
∑
∑
(35)
On sait (32) que
.∑
/
Chacun de ces trois termes peut maintenant être sommé sur toutes les espèces pour
faire apparaître les mesures de biodiversité :
∑
∑
∑
∑
∑
∑
∑
(36)
33
La diversité est la somme pondérée des diversités de chaque pla-
cette. Dans chacune de ces placettes, la diversité estimée par ne
prend en compte que les fréquences relatives des espèces
à
l’intérieur de la placette, sans référence aux données hors de la pla-
cette.
∑
∑
∑∑
∑
∑
∑
(37)
∑(∑
)
∑ ∑
∑
∑
∑
∑
∑
∑
∑
(38)
La diversité est la somme pondérée des diversités de chaque pla-
cette. Dans chacune de ces placettes, la diversité estimée par
est
une divergence de Kullback-Leibler. La fréquence attendue pour
chaque espèce est celle observée dans le groupe (ici la parcelle), ∑
∑
,
alors que la fréquence observée est celle de la placette :
.
En combinant les équations (36), (37) et (38), la décomposition de la biodiversité est
établie pour les estimateurs. Comme ces estimateurs sont consistants, l’égalité vaut
pour les variables aléatoires :
(39)
En passant par les nombres de Hill, Jost (2007) montre que l’indice de Shannon est
le seul pouvant être décomposé de cette façon. Mais il n’explicite pas , seulement
obtenu par la différence . La forme de avait été établie par Ricotta et
Avena (2003), sans la relier celle de et . Enfin, l’idée de la décomposition de la
divergence de Kullback-Leibler, mais avec une approche différente, sans rappro-
chement avec l’indice de Shannon, a été publiée par Ludovisi et Taticchi (2006).
La décomposition ci-dessus explicite les valeurs des différents niveaux de diversité
et montre que la forme est bien la même dans tous les cas : une divergence de
Kullback-Leibler entre une distribution observée et une distribution attendue.
34
Le cas particulier dans lequel seulement deux niveaux existent, par exemple
parcelles et forêt, fournit une expression plus simple des formules : ∑ , la
somme des nombre d’individus dans les parcelles est égal au nombre d’individus
dans la forêt, d’où les équations du tableau suivant :
Indice Distribution observée Distribution attendue
Formule
Fréquence des espèces dans la
placette
Fréquences égales,
hors formule
∑
∑
Fréquence des espèces dans la
placette
Fréquence des
espèces dans la
parcelle
∑
∑
Fréquence des espèces dans la
parcelle
Fréquences égales,
hors formule ∑
Les parcelles peuvent à leur tour être regroupées en forêts, la diversité de la
parcelle devenant diversité pour la forêt. La décomposition ou le regroupement
peuvent être effectués sur unn nombre quelconque de niveaux.
Test de significativité
L’objectif est de tester si deux placettes ne sont pas simplement deux échantillons
d’une même communauté, dont les différences ne sont que des fluctuations dues au
hasard. Sous l’hypothèse nulle, les observations sont des réalisations des mêmes
probabilités .
Le test est réalisé de la façon suivante :
Chaque valeur est tirée dans une loi binomiale (
⁄ ) et est calcu-
lé,
La simulation est répétée un grand nombre de fois, par exemple 10 000, et les
valeurs extrêmes sont éliminées. Au seuil de risque , les 251ème et
9750ème valeurs simulées définissent les bornes de l’intervalle de confiance de
l’hypothèse nulle.
L’hypothèse nulle est rejetée si la valeur observée de n’est pas dans cet inter-
valle, en général au-delà de la borne supérieure. Il peut arriver que les deux pla-
cettes soient plus semblables que sous l’hypothèse nulle, c'est-à-dire que les fré-
quences varient moins que dans le tirage d’une loi binomiale, si deux placettes ont
été plantées avec le même nombre d’arbres de chaque espèce par exemple.
35
Exemples
Données simulées
Figure 12: Densités de probabilité de obtenues à partir de 1 000 simulations du modèle présenté dans le texte.
Deux placettes forestières sont tirées dans la même communauté. n’est pas nul à cause des différences sto-
chastiques entre les tirages. Les barres verticales sont les 5ème et 95ème centiles. La première colonne correspond
à des placettes de 500 arbres environ, la seconde de 5 000 arbres, la première ligne à 20 espèces, la seconde à 40.
Toutes choses égales par ailleurs, décroît avec le nombre d’arbres et croît avec le nombre d’espèces.
Des exemples théoriques sont utiles pour comprendre les déterminants de , no-
tamment la richesse de la communauté et l’effort d’échantillonnage. Deux distribu-
tions de fréquences sont tirées au hasard, de respectivement 20 et 40 espèces. Les
fréquences de chaque espèce sont tirées dans la même loi uniforme et normalisées
pour que leur somme soit égale à 1. Une paire de placettes est ensuite tirée 1 000
fois selon ces fréquences, avec une espérance de 500 ou 5 000 points.
est calculé pour chaque paire de placettes et les résultats sont affichés sous la
forme d’un histogramme des fréquences, lissé pour obtenir une densité de probabili-
té.
0.000 0.005 0.010 0.015 0.020
02
04
06
08
01
00
12
01
40
Red: Expected ; Green: 95% CI ; Blue: Observed
Beta Diversity
De
nsity
0.0000 0.0005 0.0010 0.0015 0.0020
05
00
10
00
15
00
Red: Expected ; Green: 95% CI ; Blue: Observed
Beta Diversity
De
nsity
0.005 0.010 0.015 0.020 0.025 0.030 0.035 0.040
02
04
06
08
0
Red: Expected ; Green: 95% CI ; Blue: Observed
Beta Diversity
De
nsity
0.001 0.002 0.003 0.004
02
00
40
06
00
80
0
Red: Expected ; Green: 95% CI ; Blue: Observed
Beta Diversity
De
nsity
36
Les résultats se trouvent en Figure 12.
La valeur de calculée entre deux placettes ne change pas si les effectifs sont mul-
tipliés par 10 sans changer les fréquences. Mais l’hypothèse nulle du test est que les
deux placettes sont issues de la même communauté : quand plus d’individus sont
échantillonnés, les fréquences observées convergent vers leur probabilité à cause de
la loi des grands nombres. Une valeur observée de montre une différence
significative entre deux placettes de 5 000 arbres (Figure 12, en haut à droite), mais
si les placettes ne contiennent que 500 individus (en haut à gauche), cette valeur est
en dessous de la borne inférieure de l’intervalle de confiance et indique que les pla-
cettes sont probablement trop similaires pour que ce soit simplement le résultat du
hasard.
tend à augmenter avec le nombre d’espèces. La borne supérieure de l’intervalle
de confiance avec 20 espèces (en haut) correspond approximativement à la borne
inférieure avec 40 espèces (en bas).
Données réelles
Le test est appliqué à des données réelles, 4 placettes de 1 ha de forêt tropicale sur
les dispositifs forestiers de Paracou (Gourlet-Fleury et al., 2004) et des Nouragues
(Bongers et al., 2001), en Guyane française. Pour la clarté du raisonnement, nous
admettrons que ces placettes représentent des environnements contrastés et consti-
tuent ensemble un échantillon représentatif de chaque forêt.
Les caractéristiques de chaque placette sont résumées dans le Tableau 1.
Placette NH20 NL11 P006 P018 Total
Nombre d’arbres 558 515 643 481 2197
Nombre d’espèces 203 182 147 149 425
4,74 4,63 4,19 4,42 5,29
Nombre de Hill 114 103 66 83 199 Tableau 1 : Résumé des quatre placettes de 1 hectare.
Les deux premières sont situées aux Nouragues, les deux dernières à Paracou. est la diversité de Shannon.
Le premier résultat est que les placettes des Nouragues sont plus diverses que
celles de Paracou. Les nombres de Hill donnent une représentation intuitive du ni-
veau de diversité : par exemple, la placette NH20 est aussi diverse que le serait une
placette de taille identique avec 114 espèces de fréquence égale, alors que la pla-
cette P006 l’est à peu près deux fois moins.
Le Tableau 2 montre comment la diversité peut être décomposée entre les forêts
puis entre les placettes ou regroupée dans l’autre sens. Les valeurs de peuvent
être testées contre l’hypothèse nulle d’absence de différence entre les placettes ou
les forêts. Par exemple, la diversité entre les deux placettes des Nouragues atten-
due sous l’hypothèse nulle est 0,144, ce qui correspond à un nombre de Hill de 1,16
(Figure 13).
37
Placette NH20 NL11 P006 P018
pondéré 2,46 2,22 2,40 1,89
0,42 (N=1,52) 0,45 (N=1.56)
5,11 (N=165) 4.74 (N=114)
pondéré 2,49 2.42
0,38 (N=1,46)
5,29 (N=199) Tableau 2 : Regroupement successif des placettes des Nouragues et de Paracou.
La première ligne contient la diversité des placettes, pondérée par le nombre d’arbres. La deuxième ligne
contient les valeurs de diversité entre les placettes. La somme des deux donne la diversité de la forêt (ligne
3). À son tour, celle-ci peut être considérée comme la diversité au niveau de regroupement supérieur. Sa va-
leur pondérée (ligne 4) est ajoutée à celle de la diversité entre forêts (ligne 5) pour donner la diversité totale
(ligne 6).
Figure 13: Densités de probabilité de sous l’hypothèse nulle pour les placettes des Nouragues.
Les traits verticaux sont les bornes de l’intervalle de confiance.
La plage possible des nombres de Hill va de 1 (distribution des fréquences exacte-
ment identique) à 2 (nombre d’arbres identiques sans aucune espèce en commun).
Les valeurs inférieures à 0,1 (N=1,10) ou supérieures à 0,2 (N=1,22) ont une proba-
bilité si faible qu’elles peuvent être considérées comme jamais atteintes si les deux
placettes proviennent de la même communauté. La valeur réelle observée aux Nou-
ragues est 0,42, très au-dessus de l’intervalle de confiance. Toutes les valeurs de
diversité du tableau sont hautement significatives (au-delà de 99,99%). On peut
observer que la diversité à l’intérieur des forêts est similaire à celle entre les forêts
(tous les nombres de Hill autour de 1,5). Les placettes auraient pu être groupées
directement. Dans ce cas, la diversité entre placettes aurait été de 0,81 (significa-
0.10 0.12 0.14 0.16 0.18
01
02
03
0
Red: Expected ; Green: 95% CI ; Blue: Observed
Beta Diversity
De
nsi
ty
38
tive au-delà de 99,99%). Le nombre de Hill correspondant est 2,25, ce qui signifie
que les 4 placettes sont aussi différentes que 2,25 placettes de même effectif sans
espèces communes.
Décomposition de l’indice de Gini-Simpson
Jost (2006) montre que la diversité n’est pas la somme pondérée des diversités des
placettes mais :
∑
( )
∑
(40)
La diversité définie de cette façon peut être supérieure à la diversité , ce qui li-
mite fortement l’intérêt de l’indice. Ce résultat est en contradiction avec Pélissier et
Couteron (2007) et est à vérifier.
Hypothèse nulle et tests
Les mesures classiques de la biodiversité ne sont pas définies par rapport à un mo-
dèle de fréquence des espèces, ce sont des mesures absolues au sens de Brülhart et
Traeger (2005). L’utilisation de la divergence de Kullback-Leibler permet de définir
un modèle nul définissant les probabilités a priori. Si le modèle nul prévoit que les
espèces ont la même probabilité d’occurrence, l’indice défini est celui du paragraphe
précédent, l’indice de Theil très proche de l’indice de Shannon.
Une approche naturelle consiste à attendre que la probabilité soit proportion-
nelle à la taille de la placette et au poids de l’espèce :
⁄ . Cette valeur
n’est qu’un estimateur de la probabilité parce que , et sont des estimateurs
des tailles inconnues de la placette, de l’espèce et la communauté, obtenus en som-
mant les , tirages de variables aléatoires dépendant de ces tailles.
C’est l’hypothèse nulle des modèles cherchant à caractériser la concentration spa-
tiale (Ellison et Glaeser, 1997) :
39
Forêt … Total
Parcelle …
Placette …
Famille Genre Espèce
⁄
⁄
⁄
… … …
Total
⁄ 1
La valeur de l’indice est dans ce cas la mesure de la divergence entre la distribution
réelle des fréquences et ce qu’elle serait si les individus étaient distribués propor-
tionnellement à la taille des placettes (mesurée par leur effectif total) et à l’effectif
des espèces. Il s’agit d’un indice relatif.
Brülhart et Traeger définissent enfin les mesures topographiques comme étant
celles qui ont pour hypothèse nulle une distribution proportionelle à la surface des
placettes.
Dans tous les cas, la question de la significativité de l’écart entre les distributions
attendue et observée peut être posée. Dans le cadre du modèle nul, le nombre
d’individus est le résultat du tirage d’une loi binomiale de probabilité et
d’effectif . Un certain écart entre les distributions en résulte, simplement en raison
des fluctuations aléatoires de la loi binomiale. La valeur extrême ,
correspondant à une égalité stricte pour toutes les espèces et toutes les
placettes ne peut être due qu’à un processus forçant l’égalité ( ne peut pas être
négatif, la preuve est appelée inégalité de Gibbs). A l’inverse, un écart important
entre les distributions, amenant à une grande valeur de , permet également de
rejeter le modèle nul. L’intervalle de confiance du modèle nul peut être obtenu par
la méthode de Monte-Carlo :
Tirer toutes les valeurs de dans des lois binomiales ( ), puis calculer
∑ ∑
Répéter l’opération un grand nombre de fois (par exemple ) puis
éliminer les valeurs extrêmes : au seuil de risque choisi (par exemple ), les ⁄ (=250) plus grandes et plus petites valeurs sont hors de
l’intervalle de confiance du modèle nul.
Il est donc possible de mettre en évidence que la distribution réelle est plus ou
moins proche de la distribution attendue que dans le cadre du modèle nul.
Lorsque le nombre d’individus augmente, tend vers une loi de , qui mesure la
somme des écarts ( ) . La méthode de Monte-Carlo est préférable ici aux
tests asymptotiques parce qu’elle permet de s’affranchir de l’hypothèse de conver-
gence (il n’est jamais certain que soit assez grand) et de tester n’importe quelle
hypothèse sur une partie des données, par exemple la conformité au modèle nul de
la distribution d’une seule espèce (sa distribution spatiale est-elle proportionnelle à
40
la taille des placettes ou non ?) ou d’une seule placette (son niveau de biodiversité
est-il exceptionnellement haut ou bas ?).
mesure l’écart entre la valeur maximale possible de l’indice de diversité de Shan-
non et sa valeur réelle. C’est une mesure de spécialisation, dans le sens couram-
ment utilisé par les économistes : plus est grand, moins la placette est diverse. Le
test de rejet du modèle nul permet donc de distinguer des placettes particulière-
ment diverses ( plus petit que la borne inférieure de l’intervalle de confiance du
modèle nul) ou particulièrement peu diverses, les deux pouvant avoir un intérêt en
termes de conservation.
Le partitionnement de la diversité selon Pélissier et
Couteron
Cadre
Un cadre général de partitionnement de la diversité, applicable aux trois indices
classiques, est proposé par Pélissier et Couteron (2007), en conclusion d’une série
d’articles (Pélissier et al., 2003 ; Couteron et Pélissier, 2004).
Les données sont désagrégées jusqu’au niveau de l’individu. Suivant les notations
précédentes, les placettes sont considérées comme le regroupement d’arbres, indicés
par .
Le tableau est appelé tableau d’occurrence des espèces. Il ne contient que des 0 et
des 1. Chaque arbre (colonne) a une seule valeur 1 dans la cellule correspondant à
son espèce.
Forêt … Total
Parcelle …
Placette …
Arbre …
Famille
Genre
Espèce si l’arbre appartient à l’espèce , si-
non.
⁄
… … …
Total 1
Un arbre moyen s’il pouvait exister appartiendrait partiellement à chaque espèce,
proportionnellement à son effectif. Chaque arbre apporte une quantité
d’information égale à la somme sur toutes les espèces des écarts quadratiques entre
la valeur , indicatrice de son appartenance à l’espèce , et la valeur correspon-
dant à l’arbre moyen : ∑ ( )
. La somme peut être pondérée pour donner une
41
importance plus ou moins grande des espèces selon leur fréquence : ∑ ( )
.
La mesure totale, sommée sur tous les arbres, est notée :
∑ ∑( )
(41)
Si le poids vaut toujours 1, ⁄ est l’indice de Simpson.
Si ( ⁄ ) ⁄ , on obtient l’indice de Shannon, et ⁄ donne le
nombre d’espèces moins 1.
Décomposition
L’intérêt de la méthode est de permettre l’utilisation de modèles linéaires et des ou-
tils informatiques associés classiques pour décomposer la diversité de différentes
manières (Pélissier et Couteron, 2007). Nous nous intéresserons ici à la décomposi-
tion de la diversité totale en diversités et . Dans ce cadre, la diversité est la
partie expliquée par le modèle (les différentes placettes sont les paramètres explica-
tifs), notée , alors que la diversité est résiduelle, notée .
La diversité totale est ⁄ . La diversité est calculée de la même manière, en
prenant pour référence la fréquence des espèces à l’intérieur de chaque placette.
Dans la placette :
∑ ∑( ∑
)
(42)
La diversité est calculée de façon similaire par la différence entre les fréquences
des espèces dans chaque placette ∑
et leur fréquence après regroupement .
Le problème est que le poids attribué à chaque espèce, , dépend de la distribution
totale des espèces. n’est donc pas une diversité puisque sa valeur dépend de
données extérieures à la placette.
Le poids pour toutes les espèces règle le problème. Le modèle est alors celui
de la décomposition de la variance.
42
INDICE DE RAO
Préalables
Dissimilarité
Une similarité ou dissimilarité est toute application à valeurs numériques qui per-
met de mesurer le lien entre les individus d’un même ensemble ou entre les va-
riables. Pour une similarité le lien est d’autant plus fort que sa valeur est grande.
Un indice de dissimilarité (on peut dire une dissimilarité) vérifie ( et sont deux
individus) :
La dissimilarité d’un individu avec lui-même est nulle : ( ) .
La dissimilarité entre deux individus différents est positive : ( ) .
La dissimilarité est symétrique : ( ) ( )
Une distance vérifie en plus :
La distance entre deux individus différents est strictement positive : ( ) .
L’inégalité triangulaire : ( ) ( ) ( ). De nombreux indices de
dissimilarité ne vérifient pas cette propriété.
Une distance est euclidienne si elle peut être représentée par des figures géomé-
triques. On peut rendre toute distance euclidienne par ajout d’une constante
(Cailliez, 1983). Utiliser is.euclid() pour vérifier qu’une distance est euclidienne, et
cailliez() pour la transformation.
Enfin, une distance est ultramétrique si ( ) ( ( ) ( )). Les distances
obtenues en mesurant les longueurs des branches d’un arbre résultant d’une classi-
fication hiérarchique sont ultramétriques.
Cas étudiés
Pour fixer plus clairement les idées, on s’intéresse ici à la question de la mesure de
la biodiversité dans une forêt, dans laquelle on a échantillonné un certain nombre
de placettes (indicées ). On a relevé dans chaque placette l’ensemble des arbres et
noté leur espèce (indicée ou ) dans un tableau de fréquences.
43
Principe
À partir de relevés fournissant la fréquence de chaque espèce par placette et d’une
matrice de dissimilarité entre paires d’espèces, l’indice de Rao (1982) donne la dis-
similarité moyenne entre deux arbres choisis au hasard.
L’indice de Rao est souvent appelé entropie quadratique en raison de sa forme ma-
thématique.
Formalisation
On note la matrice de dissimilarité dont les éléments sont , la dissimilarité
entre l’espèce et l’espèce . est le vecteur des fréquences des espèces dans la pla-
cette ; est la fréquence de l’espèce dans la placette .
L’indice de Rao est : ( ) ∑ ∑
Les propriétés nécessaires de font que la matrice √ doit être euclidienne. On
utilisera donc plutôt en pratique des distances euclidiennes définies par √ .
Finalement, on utilisera la formulation suivante de l’indice :
( ) ∑∑
( )
(43)
Discussion
La définition de la distance est essentielle :
en fixant (donc √ ) si deux espèces sont différentes, on obtient
l’indice de Gini-Simpson (Gini 1912 ; Simpson, 1949). Sa valeur peut être in-
terprétée comme la probabilité qu’une paire d’arbres choisie au hasard soit de
deux espèces différentes.
Dans un espace unidimensionnel où la valeur associée à l’espèce est une
variable quantitative , choisir ( ) rend l’indice de Rao égal à la
variance de .
Pavoine et al. (2004b) ont montré que l’utilisation de distances ordinaires fait que la
valeur maximale de l’entropie quadratique pour un effectif donné est obtenue en
éliminant les espèces intermédiaires en ne retenant que les espèces extrêmes (le
résultat est évident en une dimension : la variance est maximale en ne retenant que
les valeurs extrêmes d’un échantillon). Ce résultat est contraire aux propriétés at-
tendues d’un indice de diversité. Les auteurs ont établi que l’utilisation de distances
ultramétriques corrige ce défaut. L’indice atteint alors son maximum pour des fré-
quences d’autant plus grandes que l’espèce est originale (Pavoine et al., 2005).
L’estimation empirique de l’indice se fait simplement en estimant les probabilités
par les fréquences. Le biais d’estimation n’a pas été étudié, mais il est probablement
44
très faible, par analogie avec l’estimateur de l’indice de Simpson : les espèces rares
interviennent peu.
Calcul sous R
Le fichier data.txt contient une espèce par ligne, identifiée par le champ Code, et un
certain nombre de valeurs de traits en colonnes.
Préalables
Charger la librairie ADE4 et lire les données.
> # Librairie ADE 4 indispensable
> library(ade4)
> # Lecture des données : traits pour 34 espèces
> traits <- read.table("data.txt", dec=",", h=T, row.names = 1)
Le résultat est un data frame nommé traits :
> str(traits)
`data.frame': 34 obs. of 11 variables:
$ Nodules : int 0 0 0 0 0 0 0 0 0 0 ...
$ X15Nmean : num 3.830 -0.696 1.286 3.740 2.623 ...
$ X15Nrange: num 1.82 1.44 1.08 1.23 2.93 ...
$ N : num 1.05 1.04 2.03 1.56 1.15 ...
$ CvsN : num 46.6 46.9 25.3 29.8 40.8 ...
$ Am : num 30.9 45.0 52.0 63.5 68.0 ...
$ Gm : num 0.611 0.762 1.343 1.494 1.306 ...
$ SLA : num 9.33 10.20 13.20 14.27 10.71 ...
$ Thick : num 232 241 162 228 261 ...
$ RS : num 1.413 0.874 0.440 0.579 2.089 ...
$ RGRmax : num 6.87 3.65 3.66 13.86 5.44 ...
Seuls les traits foliaires sont retenus pour cet exemple :
> # Extraction des traits foliaires
> traitsf <- traits[, c(8,6,7, 4,5,9)]
> names(traitsf)
[1] "SLA" "Am" "Gm" "N" "CvsN" "Thick"
Seules 8 espèces sont communes entre ce tableau et celui des fréquences utilisé plus
loin. Un filtrage est donc nécessaire :
> # Vecteur contenant 8 espèces...
> g8 <- c("Ess","Me","S1","Sr","Vm","Bg","Ef","Dg")
45
> traitsgf<-traitsf[g8,]
On obtient finalement un tableau de traits à 8 lignes et 6 colonnes :
> traitsgf
SLA Am Gm N CvsN Thick
Ess 10.10341 97.88627 1.454455 1.562488 31.58311 278.7083
Me 14.27473 63.52255 1.493502 1.563000 29.81062 228.0000
S1 13.71211 73.57748 1.963457 1.533000 29.26462 285.0000
Sr 10.71081 68.03988 1.305796 1.154712 40.79157 260.8750
Vm 18.28391 115.20844 2.555049 2.108333 22.15826 136.6667
Bg 25.56344 288.01449 5.141831 2.491791 18.95989 113.6400
Ef 14.35332 114.11952 1.455639 2.322000 20.90798 143.3333
Dg 18.84601 132.31515 2.224275 1.977861 24.54214 194.8889
Création de la matrice de distances
La matrice de distances est créée par classification automatique hiérarchique.
Figure 14 : ACP sur les traits foliaires
Première étape : ACP et classification
> # ACP sur les traits foliaires
> pcaf <- dudi.pca(traitsgf, scale=T, scannf=FALSE, nf=2)
d = 2
Ess
Me
S1
Sr
Vm
Bg
Ef
Dg
SLA
Am
Gm
N
CvsN
Thick
46
> scatter(pcaf)
pcaf est une liste qui contient les résultats de l’ACP, à utiliser pour la classifica-
tion :
> # CAH Ward des traits foliaires
> hf <- hclust(dist(pcaf$tab), "ward")
> # Affichage de l'arbre
> plot(hf, h=-1)
Figure 15 : Classification automatique des espèces
Changement de format
Le résultat de la classification est un objet hclust qui doit être transformé en phylog
pour la suite de l’analyse :
> # Transformation de l'arbre du format hclust au format phylog
> phyf <- hclust2phylog(hf)
> # Affichage avec poids des variables
> table.phylog(pcaf$tab[names(phyf$leaves),], phyf)
La matrice des distances est phyf$Wdist.
> phyf$Wdist
Sr Ess Me S1 Bg Ef Vm
Sr
Ess
Me
S1
Bg Ef
Vm
Dg
02
46
81
0
Cluster Dendrogram
hclust (*, "ward")dist(pcaf$tab)
He
igh
t
47
Ess 2.219726
Me 2.219726 1.564548
S1 2.219726 1.564548 1.416670
Bg 4.411477 4.411477 4.411477 4.411477
Ef 4.411477 4.411477 4.411477 4.411477 3.362426
Vm 4.411477 4.411477 4.411477 4.411477 3.362426 1.840872
Dg 4.411477 4.411477 4.411477 4.411477 3.362426 1.840872 1.484229
Figure 16 : Classification automatique des espèces, représentée par table.phylog
Discussion
La classification est possible par d’autres méthodes, par exemple UPGMA. La seule
contrainte est que la matrice des distances soit euclidienne. La matrice utilisée pour
le calcul de l’entropie quadratique contient en effet les éléments de l’équation
(43). En absence de matrice de distance, la fonction calcule l’indice de Simpson en
fixant √ .
La limite des distances ultramétriques est leur tendance à déformer le jeu de points.
Dans cet exemple, les deux premiers axes de l’ACP rendent compte de presque toute
l’inertie. Le nuage de points est pratiquement contenu dans un plan. Sa représenta-
tion en distance ultramétrique est une hypersphère en 7 dimensions (voir Pavoine
et al., 2004b).
Tableau des fréquences
Le tableau des fréquences est contenu dans le fichier tabg8.txt. Un filtrage est donc
nécessaire pour ne retenir que les espèces de l’analyse :
> # Vecteur contenant 8 espèces...
Sr
Ess
Me
S1
Bg
Ef
Vm
Dg
SL
A
Am
Gm
N
CvsN
Th
ick
-1.5 -0.5 0.5 1.5 2.5
48
> g8 <- c("Ess","Me","S1","Sr","Vm","Bg","Ef","Dg")
> # ... présentes dans le tableau des abondances, filtré.
> tabg8 <- read.table("tabg8.txt", h=T, row.names=1)[g8,]
Indice de Rao
L’entropie quadratique est calculée par la fonction divc :
> divc(tabg8[names(phyf$leaves), ], phyf$Wdist,T)
diversity
X1 0.4670566
…
X15 0.9707025
Le premier paramètre est le tableau des fréquences, le deuxième la matrice des dis-
tances. Les deux doivent être classés dans le même ordre, d’où l’utilisation des noms
des feuilles de la classification pour réordonner le tableau des fréquences.
Le dernier paramètre permet de normaliser les valeurs de l’indice par son maxi-
mum, obtenu par une distribution théorique dépendant de la matrice des distances
seulement (voir ci-dessous).
Figure 17 : Originalité des espèces
Le résultat est une liste de valeurs, donnant l’indice de Rao dans chaque placette.
-1 0 1 2 3
QEbased
49
Maximum théorique
Pavoine et al. (2005) ont défini l’originalité d’une espèce comme sa fréquence maxi-
misant l’entropie quadratique, sachant la matrice de distances entre espèces. Les
espèces les plus originales sont celles ayant le moins d’espèces proches dans la clas-
sification.
Le calcul sous R utilise la fonction originality :
> dotchart.phylog(phyf, originality(phyf, 5))
La fonction a pour paramètres l’objet phylog contenant la classification et le numéro
de la méthode de calcul à utiliser, 5 pour l’entropie quadratique. Sa représentation
graphique est faite par dotchart.phylog :
Décomposition
L’entropie quadratique est décomposable: la diversité totale de la forêt est égale à la
somme des diversités intra de toutes les placettes et de la diversité inter-placettes.
Principe
Le coefficient de dissimilarité entre deux communautés
On considère deux placettes et . Leur coefficient de dissimilarité, défini par Rao
(1982), est la différence entre l’entropie quadratique du mélange des deux placettes
et celles des deux placettes prises individuellement :
( ) (
) ( ) ( ) (44)
Cette dissimilarité peut être utilisée pour calculer un indice de diversité entre pla-
cettes d’une forêt, de la même façon qu’on calcule la diversité entre espèces d’une
placette.
La décomposition de l’indice
Il reste à définir le poids de la placette (la somme des poids vaut 1) et ∑
le vecteur des fréquences des espèces dans la forêt entière, obtenu par la somme
pondérée des fréquences dans les placettes. La diversité de la forêt, ( ) peut être
décomposée en une somme (pondérée) de diversités intra et une diversité inter
(Pavoine et al., 2004a) :
( ) ∑ ( )
∑∑ ( )
(45)
50
La décomposition peut être faite sur plusieurs niveaux imbriqués (forêt – parcelles
– placettes par exemple). Pavoine et al. (2004a) montrent par exemple que la dé-
composition de l’indice de Rao appliquée à une variable en une seule dimension est
une ANOVA.
La diversité inter est un indice de Rao : les poids des placettes sont équivalents aux
tableaux de fréquences et les dissimilarités entre placettes sont équivalentes aux
dissimilarités entre espèces.
Calcul sous R
La fonction disc ne calcule pas les valeurs de ( ) mais les distances corres-
pondantes, √ ( ) :
> disc(tabg8[names(phyf$leaves), ], phyf$Wdist)
m1 m2 m3
m2 3.3624264
m3 3.3624264 1.8408721
m4 4.4114773 4.4114773 4.4114773
Sa syntaxe est très proche de celle de divc. Un paramètre supplémentaire permet
les analyses imbriquées (voir la documentation dans R).
Pour obtenir tous les éléments de l’équation (45) :
( ) : diversité totale. Calculer en sommant les placettes. Calculer en-
suite l’entropie quadratique avec divc :
> tabF<-apply(tabg8[names(phyf$leaves), ],MARGIN=1,sum)
> tabF
Sr Ess Me S1 Bg Ef Vm Dg
840 840 840 840 840 840 840 840
> divc(as.data.frame(tabF), phyf$Wdist)
diversity
tabF 5.874383
( ) : diversité de chaque placette, fournie par divc. Si les poids des pla-
cettes sont égaux, la variabilité intra est la moyenne de celle des placettes :
> mean(divc(tabg8[names(phyf$leaves), ], phyf$Wdist))
diversity
2.809538
51
La variabilité interplacettes peut être calculée par divc en utilisant la dis-
tance fournie par disc, en définissant la matrice des poids (il y a 28 placettes
dans l’exemple) :
> divc(as.data.frame(matrix(1,28)),disc(tabg8[names(phyf$leaves), ],
phyf$Wdist))
diversity
V1 3.064845
La double analyse en coordonnées principales
La DPCoA développée par Pavoine et al. (2004a) permet de représenter dans un es-
pace unique la décomposition de la diversité sur deux niveaux.
L’exemple utilisé jusqu’ici peut être traité mais ne présente pas de résultats inté-
ressants parce qu’il s’agit de placettes de plantations, dont les espèces ont été choi-
sies arbitrairement. On utilisera donc l’exemple fourni dans ADE4.
Les données sont 56 haplotypes du génome humain (équivalents des espèces) dont
on a relevé la fréquence dans 10 populations (équivalents des placettes). La Figure
17 montre, en bas à gauche, la variabilité des populations (le centre de gravité du
nuage est l’origine du repère). En bas à droite, les indices de diversité de chaque
population sont représentés. L’espace de projection est défini par les premiers axes
de l’analyse, représentés en haut à gauche. La figure en haut à droite représente en
plus des populations la position de chaque haplotype, représenté par un point, et les
intervalles de confiance à 90% de la position des populations.
L’inertie totale du nuage de points (espèces, haplotypes) est décomposée en deux
parties : l’inertie des haplotypes autour de chaque population (diversité intra) et
l’inertie des populations (diversité inter). La DPCoA réalise en une opération la dé-
composition et sa représentation graphique.
Calcul sous R
La fonction dpcoa a pour arguments le tableau des fréquences et la matrice des dis-
tances, comme les fonctions vues précédemment. Le graphique est appelé par plot.
> data(humDNAm)
> dpcoahum <- dpcoa(humDNAm$samples, sqrt(humDNAm$distances), scan =
FALSE, nf = 2)
> dpcoahum
double principal coordinate analysis
class: dpcoa
$call: dpcoa(df = humDNAm$samples, dis = sqrt(humDNAm$distances),
scannf = FALSE, nf = 2)
52
Figure 18 : DPCoA
$nf: 2 axis-components saved
eigen values: 0.1018 0.01035 0.006281 0.005602 0.003179 ...
vector length mode content
1 $w1 56 numeric weights of species
2 $w2 10 numeric weights of communities
3 $eig 9 numeric eigen values
4 $RaoDiv 10 numeric diversity coefficients within communities
dist Size content
1 $RaoDis 10 dissimilarities among communities
data.frame nrow ncol content
1 $RaoDecodiv 3 1 decomposition of diversity
2 $l1 56 2 coordinates of the species
3 $l2 10 2 coordinates of the species
4 $c1 34 2 scores of the principal axes of the species
x1
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10 A11
A12 A13 A14 A15 A16 A17 A18 A19
A20 A21
A22 A23 A24 A25
A26 A27
A28 A29
A30 A31
A32 A33
A34
Base d = 0.5
oriental
tharu
w olof peul pima maya f innish
sicilian
israelij
israelia
d = 0.2
oriental
tharu
w olof peul pima maya
f innish
sicilian
israelij
israelia
d = 0.2 Rao Divcs
0.1 0.3 0.5 0.7
53
> plot(dpcoahum, csize = 1.5)
> dpcoahum$RaoDecodiv
Diversity
Between-samples diversity 0.1302423
Within-samples diversity 0.4705318
Total diversity 0.6007742
L’élément $RaoDiv du résultat de la DPCoA contient les diversités intra (divc) et
$RaoDecodiv contient les valeurs de la décomposition, identiques à celles calculées
manuellement au paragraphe précédent.
54
BIBLIOGRAPHIE
Adelman, M. A. (1969). Comment on the "H" Concentration Measure as a
Numbers-Equivalent. The Review of Economics and Statistics 51(1): 99-101.
Arrhenius, O. (1921). Species and Area. Journal of Ecology 9: 95–99.
Basharin, G. P. (1959). On a Statistical Estimate for the Entropy of a Sequence of
Independent Random Variables. Theory of Probability and its Applications
4(3): 333-336.
Bongers, F., Charles-Dominique, P., Forget, P.-M. et Théry, M., Eds. (2001).
Nouragues: dynamics and plant-animal interactions in a neotropical rainforest.
Biological Monographs Series. Dordrecht, The Netherlands, Kluwer Academic
Publisher.
Bourguignon, F. (1979). Decomposable Income Inequality Measures.
Econometrica 47(4): 901-920.
Brülhart, M. et Traeger, R. (2005). An Account of Geographic Concentration
Patterns in Europe. Regional Science and Urban Economics 35(6): 597-624.
Burnham, K. P. et Overton, W. S. (1979). Robust Estimation of Population Size
When Capture Probabilities Vary Among Animals. Ecology 60(5): 927–936.
Cailliez, F. (1983). The analytical solution of the additive constant problem.
Psychometrika 48: 305-310.
Chao, A. (1984). Nonparametric estimation of the number of classes in a
population. Scandinavian Journal of Statistics 11: 265-270.
Chao, A. (1987). Estimating the population size for capture-recapture data with
unequal catchability. Biometrics 43: 783-791.
Chao, A. (2004). Species richness estimation. in N. Balakrishnan, C. B. Read et B.
Vidakovic, (Eds), Encyclopedia of Statistical Sciences. Wiley, New York.
Chao, A. et Lee, S.-M. (1992). Estimating the Number of Classes Via Sample
Coverage. Journal of the American Statistical Association 87(417): 210-217.
Chao, A. et Shen, T.-J. (2003-2005). Program SPADE (Species Prediction And
Diversity Estimation). Program and User’s Guide published at
http://chao.stat.nthu.edu.tw.
Chao, A. et Shen, T. J. (2003). Nonparametric estimation of Shannon's index of
diversity when there are unseen species in sample. Environmental and
Ecological Statistics 10(4): 429-443.
Coleman, B. D. (1981). Random placement and species-area relations.
Mathematical Biosciences 54: 191-215.
55
Conceição, P. et Ferreira, P. (2000). The Young Person’s Guide to the Theil
Index: Suggesting Intuitive Interpretations and Exploring Analytical
Applications. UTIP Working Paper, 14, Austin, Texas: 54 p.
Condit, R., Hubbell, S. P., Lafrankie, J. V., Sukumar, R., Manokaran, N.,
Foster, R. B. et Ashton, P. S. (1996). Species-Area and Species-Individual
Relationships for Tropical Trees: A Comparison of Three 50-ha Plots. Journal
of Ecology 84(4): 549-562.
Couteron, P. et Pélissier, R. (2004). Additive apportioning of species diversity:
towards more sophisticated models and analyses. Oikos 107(1): 215-221.
Dalton, H. (1920). The measurement of the inequality of incomes. The Economic
Journal 30(119): 348-361.
Davis, H. T. (1941). The theory of econometrics. The Principia Press, Bloomington,
Indiana
Ellison, G. et Glaeser, E. L. (1997). Geographic Concentration in U.S.
Manufacturing Industries: A Dartboard Approach. Journal of Political
Economy 105(5): 889-927.
Fisher, R. A., Corbet, A. S. et Williams, C. B. (1943). The relation between the
number of species and the number of individuals in a random sample of an
animal population. Journal of Animal Ecology 12: 42-58.
Gini , C. (1912). Variabilità e mutabilità. Studi economico-giuridici. Università di
Cagliari.
Good, I. J. (1953). On the Population Frequency of Species and the Estimation of
Population Parameters. Biometrika 40: 237-264.
Gourlet-Fleury, S., Guehl, J. M. et Laroussinie, O., Eds. (2004). Ecology &
management of a neotropical rainforest. Lessons drawn from Paracou, a long-
term experimental research site in French Guiana. Paris, Elsevier.
Harte, J., Kinzig, A. et Green, J. (1999). Self-similarity in the distribution and
abundance of species. Science 284(5412): 334-336.
Hill, M. O. (1973). Diversity and Evenness: A Unifying Notation and Its
Consequences. Ecology 54(2): 427-432.
Hubbell, S. P. (2001). The unified neutral theory of biodiversity and biogeography.
Princeton University Press
Hurlbert, S. H. (1971). The Nonconcept of Species Diversity: A Critique and
Alternative Parameters. Ecology 52(4): 577-586.
Jost, L. (2006). Entropy and diversity. Oikos 113(2): 363-375.
Jost, L. (2007). Partitioning diversity into independent alpha and beta
components. Ecology 88(10): 2427-2439.
56
Jurasinski, G., Retzer, V. et Beierkuhnlein, C. (2009). Inventory,
differentiation, and proportional diversity: a consistent terminology for
quantifying species diversity. Oecologia 159(1): 15-26.
Kempton, R. A. et Taylor, L. R. (1976). Models and statistics for species
diversity. Nature 262(5571): 818-820.
Kempton, R. A. et Wedderburn, R. W. M. (1978). A comparison of three
measures of species diversity. Biometrics 34: 25-37.
Keylock, C. J. (2005). Simpson diversity and the Shannon-Wiener index as special
cases of a generalized entropy. Oikos 109(1): 203-207.
Krishnamani, R., Kumar, A. et Harte, J. (2004). Estimating species richness at
large spatial scales using data from small discrete plots. Ecography 27(5): 637-
642.
Kullback, S. et Leibler, R. A. (1951). On Information and Sufficiency. The Annals
of Mathematical Statistics 22(1): 79-86.
Lande, R. (1996). Statistics and partitioning of species diversity, and similarity
among multiple communities. Oïkos 76: 5-13.
Ludovisi, A. et Taticchi, M. I. (2006). Investigating beta diversity by Kullback-
Leibler information measures. Ecological Modelling 192(1-2): 299-313.
Maasoumi, E. (1993). A compendium to information theory in economics and
econometrics. Econometric Reviews 12(2): 137-181.
MacArthur, R. H. (1965). Patterns of species diversity. Biological Reviews 40(4):
510-533.
Marcon, E., Hérault, B., Baraloto, C. et Lang, G. (in prep). The Decomposition
of Shannon's Entropy and a Test for Beta Diversity.
May, R. M. (1975). Patterns of species abundance and diversity. in M. L. Cody et J.
M. Diamond, (Eds), Ecology and Evolution of Communities. Harvard
University Press: 81-120.
Morin, A. et Findlay, S. (2001). Biodiversité : tendances et processus.
http://simulium.bio.uottawa.ca/bio3515/pdf/presentations/02-Biodiversite.pdf.
Neyman, J. et Scott, E. L. (1958). Statistical Approach to Problems of Cosmology.
Journal of the Royal Statistical Society B 20(1): 1-43.
Patil, G. P. et Taillie, C. (1982). Diversity as a concept and its measurement.
Journal of the American Statistical Association 77(379): 548-561.
Pavoine, S., Dufour, A.-B. et Chessel, D. (2004a). From dissimilarities among
species to dissimilarities among communities: a double principal coordinate
analysis. Journal of Theoretical Biology 228: 523–537.
Pavoine, S., Ollier, S. et Dufour, A.-B. (2005). Is the originality of a species
measurable? Ecology Letters 8: 579–586.
57
Pavoine, S., Ollier, S. et Pontier, D. (2004b). Measuring diversity from
dissimilarities with Rao’s quadratic entropy: are any dissimilarities suitable?
Pélissier, R. et Couteron, P. (2007). An operational, additive framework for
species diversity partitioning and beta-diversity analysis. Journal of Ecology
95(2): 294-300.
Pélissier, R., Couteron, P., Dray, S. et Sabatier, D. (2003). Consistency
between ordination techniques and diversity measurements: Two strategies for
species occurrence data. Ecology 84(1): 242-251.
Pielou, E. C. (1977). Mathematical Ecology. Wiley, New York
Plotkin, J. B., Potts, M. D., Yu, D. W., Bunyavejchewin, S., Condit, R.,
Foster, R. B., Hubbell, S. P., LaFrankie, J., Manokaran, N., Lee, H.-S.,
Sukumar, R., Nowak, M. A. et Ashton, P. S. (2000). Predicting species
diversity in tropical forests. Proceedings of the National Academy of Sciences of
the United States of America 97(20): 10850-10854.
Rao, C. R. (1982). Diversity and dissimilarity coefficients: a unified approach.
Theoretical Population Biology 21(24-43).
Rényi, A. (1961). On Measures of Entropy and Information. 4th Berkeley
Symposium on Mathematical Statistics and Probability, Berkeley, USA,
University of California Press.
Ricotta, C. et Avena, G. (2003). An information-theoretical measure of -
diversity. Plant Biosystems 137(1): 57 - 61.
Schulte, R. P. O., Lantinga, E. A. et Hawkins, M. J. (2005). A new family of
Fisher-curves estimates Fisher's alpha more accurately. Journal of Theoretical
Biology 232(3): 305-313.
Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell
System Technical Journal 27: 379–423, 623–656.
Shannon, C. E. et Weaver, W. (1963). The Mathematical Theory of
Communication. University of Illinois Press
Shen, T.-J., Chao, A. et Lin, C.-F. (2003). Predicting the number of new species
in a further taxonomic sampling. Ecology 84: 798-804.
Simpson, E. H. (1949). Measurement of diversity. Nature 163(4148): 688.
Theil, H. (1967). Economics and Information Theory. Rand McNally and Company,
Chicago
Tsallis, C. (1988). Possible generalization of Boltzmann-Gibbs statistics. Journal of
Statistical Physics 52(1): 479-487.
Tuomisto, H. (2010). A diversity of beta diversities: straightening up a concept
gone awry. Part 1. Defining beta diversity as a function of alpha and gamma
diversity. Ecography 33(1): 2-22.
58
Whittaker, R. H. (1960). Vegetation of the Siskiyou Mountains, Oregon and
California. Ecological Monographs 30(3): 279-338.
Whittaker, R. H. (1972). Evolution and Measurement of Species Diversity. Taxon
21(2/3): 213-251.