valentina cima - patrinat.mnhn.frpatrinat.mnhn.fr/.../rapportstagemodelisation_cima_2016.pdf · - i...

- i - - i -

Service du Patrimoine Naturel

Rapport de stage M2 Master TGAE

Septembre 2016

Valentina CIMA

Direction de la Recherche, de l’Expertise et de la Valorisation

Direction Déléguée au Développement Durable, à la Conservation de la Nature et à l’Expertise

Modélisation de la distribution géographique d’espèces

d’intérêt patrimonial

ii

Le Service du Patrimoine Naturel (SPN)

Inventorier - Gérer - Analyser - Diffuser

Au sein de la direction de la recherche, de l’expertise et de la valorisation (DIREV), le Service du Patrimoine Naturel développe la mission d'expertise confiée au Muséum national d'Histoire naturelle pour la connaissance et la conservation de la nature. Il a vocation à couvrir l'ensemble de la thématique biodiversité (faune/flore/habitat) et géodiversité au niveau français (terrestre, marine, métropolitaine et ultra-marine). Il est chargé de la mutualisation et de l'optimisation de la collecte, de la synthèse et de la diffusion d'informations sur le patrimoine naturel.

Placé à l'interface entre la recherche scientifique et les décideurs, il travaille de façon partenariale avec l'ensemble des acteurs de la biodiversité afin de pouvoir répondre à sa mission de coordination scientifique de l’Inventaire National du Patrimoine Naturel (code de l'environnement : L411-5).

Un objectif : contribuer à la conservation de la Nature en mettant les meilleures connaissances à disposition et en développant l'expertise.

En savoir plus : http://www.spn.mnhn.fr

Directeur : Jean-Philippe SIBLET Adjoint au directeur en charge des programmes de connaissance : Laurent PONCET Adjoint au directeur en charge des programmes de conservation : Julien TOUROULT

Porté par le SPN, cet inventaire est l'aboutissement d'une démarche qui associe scientifiques, collectivités territoriales, naturalistes et associations de protection de la nature en vue d'établir une synthèse sur le patrimoine naturel en France. Les données fournies par les partenaires sont organisées, gérées, validées et diffusées par le MNHN. Ce système est un dispositif clé du SINP et de l'Observatoire National de la Biodiversité.

Afin de gérer cette importante source d'informations, le Muséum a construit une base de données permettant d'unifier les données à l’aide de référentiels taxonomiques, géographiques et administratifs. Il est ainsi possible d'accéder à des listes d'espèces par commune, par espace protégé ou par maille de 10x10 km. Grâce à ces systèmes de référence, il est possible de produire des synthèses quelle que soit la source d'information.

Ce système d'information permet de mutualiser au niveau national ce qui était jusqu'à présent éparpillé à la fois en métropole comme en outre-mer et aussi bien pour la partie terrestre que pour la partie marine. C’est une contribution majeure pour la connaissance, l'expertise et l'élaboration de stratégies de conservation efficaces du patrimoine naturel.

En savoir plus : http://inpn.mnhn.fr

http://www.spn.mnhn.fr/

http://inpn.mnhn.fr/accueil/index

iii

Stage M2 TGAE - Télédétection et Géomatique appliquées à l’Environnement Paris 7 Diderot – Paris 6 Pierre et Marie Curie Auteur : Valentina Cima Relecture : Isabelle Witté, Boris Leroy Responsables : Isabelle Witté, Julien Touroult

iv

Remerciements

Je tiens à̀ remercier toutes les personnes qui m’ont permis de réaliser ce stage.

En premier lieu, je remercie le SPN pour m’avoir donné́ l’opportunité́ d’entreprendre ce projet

enthousiasmant.

Je remercie Julien Touroult de m’avoir accueillie au sein du SPN.

Ce stage ne serait rien sans l’aide incroyable et la passion d’Isabelle Witté, merci pour l’écoute, les

enseignements, les riches échanges en modélisation et en Ecologie, l’accueil chaleureux et les conseils

précieux. Mais aussi pour sa disponibilité́, pour les repas en compagnie, l’encouragement et pour avoir

corrigé mon rapport.

Je remercie chaleureusement Boris Leroy. Merci pour tous ses conseils avisés, pour m’avoir transmis sa

connaissance en modélisation, pour avoir corrigé mon rapport et pour son aide technique inestimable

Merci à tous les agents SPN, les experts que j’ai pu consulter et les autres pour les pauses cafés, les superbes

gâteaux et les conversations.

Je remercie vivement le travail de tous ces agents, qui permet aussi d'alimenter la grande base de données

INPN. Ce travail a été possible grâce à la quantité et la qualité de ces données d'inventaire

Je tiens à remercier Pascal Dupont, Lilian Leonard, Jacques Comolet, Patrick Haffner, Jean-Christophe de

Massary, Arnaud Horellou, Geneviève Barnaud, Jessica Thevenot et Paul Rouveyrol du SPN, Quentin

Rome, Renaud Puissauve et Jean-Louis Chapuis du MNHN pour la disponibilité, l’aide et les riches

échanges sur l’écologie et la biogéographie des espèces.

De même un grand merci à Guillaume Grech pour tous les conseils techniques.

Je remercie Jean-Marc Allart pour accourir à chaque souci informatique.

Merci également à tous ceux qu’ont aimablement répondu à mes questions par mail.

Je tiens à remercier encore Isabelle et Lilian pour les inoubliables conversations sur quel goût aurait la

viande humaine. La question reste toujours ouverte…

Enfin, je remercie Matt pour la patience, l’amour inconditionnel et le soutien, ce que j’ai réalisé cette année

je le dois aussi à lui. Et merci à mes parents pour être toujours à mes côtés.

v

Glossaire

CLC : Corine Land Cover

DHFF : Directive « Habitat-Faune-Flore »

EVAL : Evaluation de l'état de conservation à l'échelle des régions biogéographiques (DHFF article 17)

GAM : Modèle Additif Généralisé

GBIF : Système Mondial d’Information sur la Biodiversité

GBM : Boosting d’Arbres de Décision

GLM : Modèle Linéaire Généralisé

HR : Haute Résolution

INPN : Inventaire National du Patrimoine Naturel

MARS : Modèle de Régression Multivariée par Spline Adaptative

MAXENT : Entropie Maximale

MNHN : Muséum National d’Histoire Naturelle

OS : Occupation du Sol

PAs : pseudo - absences

RAN : stratégie de génération de pseudo-absences aléatoire

RF : Forêt d'Arbres Décisionnels

SDM : Modèle de Distribution d’Espèce

SIG : Systèmes d’Information Géographique

SPN : Service National du Patrimoine Naturel

SRE : Stratégie de génération de pseudo-absences à exclusion environnementale

TSS : « True Skill Statistic »

1

Table des matières I. Introduction ................................................................................................................................................ 2

II. Matériels et Méthodes ................................................................................................................................ 5

1. Préparation des données .......................................................................................................................... 5

1. La grille 10x10 km .......................................................................................................................... 5

2. Base de données INPN .................................................................................................................... 5

3. Autres données ................................................................................................................................ 6

4. Catalogue de couches environnementales ....................................................................................... 7

5. Traitement des couches ................................................................................................................... 8

6. Homogénéisation des données....................................................................................................... 15

2. Modélisation ......................................................................................................................................... 15

1. Calibrations et génération de pseudo-absences ............................................................................. 16

2. Modèle d’ensemble ........................................................................................................................ 16

3. Courbes de réponse ........................................................................................................................ 17

4. Sélection des variables ................................................................................................................... 17

5. Logiciels ........................................................................................................................................ 18

III. Résultats ................................................................................................................................................ 18

3. Sélection des modèles ........................................................................................................................... 18

1. Sélection des variables ................................................................................................................... 18

2. Évaluation des modèles ................................................................................................................. 19

4. Analyse des répartitions modélisées ..................................................................................................... 22

1. Courbes de réponse ........................................................................................................................ 22

2. Cartes des projections géographiques............................................................................................ 22

IV. Discussion ............................................................................................................................................. 30

5. Les distributions géographiques ........................................................................................................... 30

6. Sélection des variables .......................................................................................................................... 33

7. Stratégie de génération des pseudo-absences ....................................................................................... 35

8. Les données en entrée ........................................................................................................................... 38

9. Perspectives et recommendations ......................................................................................................... 39

10. Conclusion ......................................................................................................................................... 40

Références ........................................................................................................................................................ 41

Annexes............................................................................................................................................................ 47

2

I. INTRODUCTION

L’évaluation de l’état de la biodiversité et des écosystèmes pour l’élaboration de politiques de

conservation appropriées nécessite de connaître la distribution géographique des espèces (Ferrier, 2002).

Décrire la distribution géographique de la biodiversité repose sur la compréhension des relations entre les

espèces et leur environnement (Guisan et Thuiller, 2005). Depuis les années 70 les données sur la

biodiversité sont de plus en plus abondantes (Witté, 2016, communication personnelle), grâce à la mise en

place de programmes nationaux d’inventaire et de sciences participatives. D’autre part, les développements

en informatique ont permis de mettre en œuvre des techniques pour modéliser la distribution des espèces.

Les structures telles que le Museum National d’Histoire Naturel (MNHN) et au sein du MNHN, le Service

du Patrimoine Naturel (SPN) sont chargées en France de fournir un appui scientifique pour la collecte et la

synthèse d’une grande quantité de données sur la distribution de la biodiversité. Ces données, récoltées par

un ensemble de partenaires, spécialistes de la nature, sont validées par des experts et versées à l’Inventaire

National du Patrimoine Naturel (INPN) (Touroult et Jolivet, 2012). Les données sont organisées à l’aide de

référentiels taxonomiques, géographiques et administratifs et diffusées sur le site https://inpn.mnhn.fr. Ce

système d’information permet de réunir l’information sur la biodiversité marine et terrestre au niveau

national (France métropolitaine et outre-mer) et a pour objectif de contribuer à la connaissance, aux

rapportages nationaux et internationaux et à la mise en place de stratégies de conservation de la nature.

Les inventaires nationaux représentent une source d’information importante sur la distribution

géographique des espèces. Cependant, cette information reste souvent incomplète. D’une part, certains

taxons, surtout chez les invertébrés, sont sous-représentés par rapport à d’autres (Cardoso et al., 2011).

D’autre part, les données d’inventaire peuvent présenter des biais spatiaux, temporels, ou bien taxonomiques

et environnementaux (Leroy, 2012; Robertson et al., 2010). Dans ce cadre, la modélisation statistique peut

représenter un instrument efficace pour combler les lacunes des inventaires.

Les modèles de distribution géographique (en anglais SDM : Species Distribution Modeling) sont des

modèles empiriques corrélatifs (Guisan et Zimmermann, 2000) utiles à décrire la relation entre la présence

de l’espèce (i.e. la variable réponse) et les facteurs environnementaux influençant la physiologie, et donc la

géographie de l’espèce (i.e. les variables explicatives). A partir des données d’occurrence et d’une série de

variables environnementales, les modèles cherchent à prédire la probabilité de présence de l’espèce dans

l’espace ou dans le temps, lorsque des variables de scénarios futures sont disponibles. Les variables

environnementales nécessaires à la modélisation peuvent être trouvées parmi la grande quantité d’images

3

satellites et de tous les produits dérivés. Ces produits permettent l’accès libre à une autre grande source

d’information sur le climat, le paysage et l’environnement, y compris sur les futures scénarios climatiques.

Combinée aux outils des Systèmes d’Information Géographique (SIG), la modélisation peut être utilisée

pour estimer les distributions géographiques des espèces et prédire leur évolution.

Les modèles de distribution d’espèce ont plusieurs applications, résumées et cataloguées par Guisan

et Thuiller, (2005). Les plus fréquentes comprennent l’estimation de la niche écologique des espèces (Austin

et al., 1990), l’évaluation de l’impact d’invasions biologiques (Peterson, 2003) ou de changements

environnementaux (Thuiller, 2004), la suggestion de nouvelles zones d’échantillonnage pour les espèces

rares (Engler et al., 2004) ou pour la planification de réserves biologiques (Ferrier, 2002). Les étapes

principales de la modélisation sont : la conceptualisation (e.g. quelle espèces? quelle stratégie?), la

préparation des données (occurrences, variables et traitements), la calibration des modèles, l’évaluation des

modèles (ont-ils correctement prédit la présence/absence de l’espèce?), les prédictions spatiales et

l’estimation de l’applicabilité du modèle (Guisan et Thuiller, 2005)

Les modèles de distribution géographique ne cherchent pas à décrire un processus réaliste de “cause-

effet” entre les variables prédictives et la présence de l’espèce (Guisan et Zimmermann, 2000). Ils sont

plutôt une description approximative de la niche écologique d’une espèce dans l’espace des variables

analysées (Phillips et al., 2006). La niche a été décrite par Hutchinson, 1957 comme un hypervolume à

l’intérieur duquel une espèce peut survivre et se reproduire et dont les dimensions représentent les facteurs

environnementaux discriminants. Ces facteurs peuvent être indirects ou directs (Austin, 2002) et peuvent

influencer la distribution spatiale des espèces à trois niveaux : (1) les facteurs limitants, qui contrôlent

l’écophysiologie de l’espèce, (2) les perturbations (naturelles ou artificielles, par exemple les pressions

anthropiques), (3) les ressources (nourriture, eau) (Guisan et Thuiller, 2005). La niche de Hutchinson est

représentée comme une grande enveloppe, la niche fondamentale (définie par l'ensemble de conditions

favorables pour l’espèce), et un sous-ensemble, la niche réalisée, qui représente l’espace des valeurs de

variables réellement occupé par l’espèce. Les interactions biotiques telles que la compétition, la pression

humaine et les barrières à la dispersion empêchent généralement l’espèce d’occuper toute sa niche

potentielle (Pulliam, 2000). La distribution dans l’espace géographique peut être donc considérée comme

une représentation de la niche réalisée de l’espèce et le modèle, une approximation de cette niche réalisée

(Phillips et al., 2006). D’autre part, selon une autre approche conceptuelle, les modèles sont susceptibles

d’estimer la niche fondamentale de l’espèce, parce qu’ils n'intègrent pas l’information sur les contraintes

biotiques et les barrières géographiques (Soberon & Peterson, 2005). Néanmoins, les données de présence

disponibles capturent seulement l’information sur les endroits réellement occupés par l’espèce, et donc sa

niche réalisée. Dans tous les cas, puisque les modèles sont censés être des approximations de la réalité, il est

toujours préférable de parler de “distribution potentielle”.

4

Dans la plupart des modèles de niche la variable réponse acceptée est une variable binaire (présence-

absence). L’information sur l’absence d’une espèce est généralement plus incomplète que celle sur sa

présence : les zones de non-présence indiquent les endroits où l’espèce n’a pas été observée, mais

n’indiquent pas que l’espèce est réellement absente de ces endroits. Obtenir des absences confirmées

demanderait un très grand effort d’échantillonnage (Mackenzie et Royle, 2005). Pour cette raison, certains

modèles de niche utilisent les seules présences. Cependant, les modèles de présence-absence sont beaucoup

plus nombreux et semblent être les plus performants (Elith et al., 2006). Une alternative valide bien que non

équivalente à l’utilisation de vraies absences consiste à simuler artificiellement l’absence de l’espèce avec de

pseudo-absences (Chefaoui et Lobo, 2008). Les modèles basés sur les pseudo-absences, bien que robustes,

présentent toujours des limites (Wisz et Guisan, 2009). De plus, des études récentes ont démontré que

différentes techniques de modélisation peuvent conduire à des résultats très divergents (Araújo et New,

2007; Pearson et al., 2006) sans impliquer pour autant qu’un modèle ne soit plus vrai qu’un autre. Cela

dérive plutôt du fait que les modèles corrélatifs sont sensibles aux données disponibles et aux fonctions

mathématiques utilisées (Araújo et New, 2007). Pour remédier à ce problème méthodologique, la dernière

génération de modèles de niche se base sur le concept de “modèle d’ensemble”, couramment utilisé dans les

domaines de la physique. Un modèle d’ensemble consiste à combiner les prédictions de plusieurs prévisions

qui sont générées en utilisant différentes paramétrisations, différentes conditions initiales et/ou différentes

fonctions mathématiques (Araújo et New, 2007). Cette approche permet de choisir la tendance moyenne de

toutes les projections individuelles au lieu de ne prendre que le "meilleur” modèle (Araújo et New, 2007).

Le travail présenté ici s’inscrit dans ce contexte et vise à explorer l’applicabilité des modèles de niche

aux données de l’INPN. Nous avons traitées 17 espèces d'intérêt patrimonial et communautaire figurant dans

la Directive “Habitat-Flore-Faune” de Natura 2000. Cinq sur les 17 espèces modélisées ont été retenues pour

la présentation des résultats les plus significatifs. Ces espèces ont été sélectionnées parce qu’elles sont

représentatives de différents taxons, quantité et qualité de données de présence en entrée et type de

répartition.

Cette mission consistait en quatre objectifs fondamentaux: (1) faire une révision de techniques de

modélisation existantes et déterminer les plus appropriées et efficaces pour la description de la distribution

géographique d’espèces méconnues d'intérêt communautaire; (2) réaliser un catalogue des couches

environnementales disponibles et utiles à la modélisation de niche écologique (3) définir une liste d’espèces

de priorité élevée, à l’aide d’experts naturalistes, pour l’intégration dans les modèles (4) mettre en œuvre les

méthodes de modélisation adaptées. À partir de ce travail, nous avons élaboré des recommandations

préliminaires pour appliquer les modèles de prédiction de répartition aux données du SPN.

5

II. MATERIELS ET METHODES

1. Préparation des données

1. La grille 10x10 km

Le SPN a adopté une grille standard de référence nationale pour la représentation cartographique des

données d’inventaire. Cette grille est définie sur le système de projection Lambert-93 et sert à synthétiser et

harmoniser les données récoltées avec des méthodologies différentes, et des origines ou des résolutions

spatiales diverses. Les données sont associées à des mailles de 10x10 km et sont validées par les experts

pendant ce processus de synthèse. Les principales caractéristiques de la grille sont les suivantes :

Nom de la couche L93_10X10

Version 2011

Système de projection Lambert 93

Surface couverte par le lot de données France métropolitaine continentale et maritime

Nombre de mailles 9546 (dont 5875 continentales)

Attributs CD_SIG : code de la maille et identifiant

CODE10KM : code maille court, pour utilisation courante

2. Base de données INPN

Les données d’occurrence utilisées pour cette étude proviennent principalement de la base de

données de l’INPN et sont basées sur un maillage national de 10x10 km. Une série de critères sont établis

pour trier les données d’origine et pour définir une liste d’espèces à intégrer dans le travail de modélisation.

En premier lieu, l’étude est limitée au milieu terrestre et à la France métropolitaine. En second lieu, les

données plus anciennes, récoltées avant 1950, sont retirées puisqu’elles sont considérées comme moins

fiables du fait de l’évolution des paysages pendant la phase de ré-industrialisation et le développement des

zones urbaines après la guerre qui ont largement affecté la distribution de la biodiversité. D’autre part, le

développement des programmes d’inventaires nationaux à partir des années 1970 a apporté à l’INPN de

grandes quantités de données permettant de concentrer les études sur des données plus récentes (Witté, 2016,

communication personnelle). Les espèces présentant moins de 25 mailles d’occurrence ne sont pas

considérées, afin de garantir des tailles d’échantillon suffisantes pour la modélisation. Pour réduire le

nombre d’espèces à présenter aux experts pour la sélection finale, seules les espèces introduites et/ou

envahissantes et les espèces qui figurent à l’annexe II de la Directive Habitats-Faune-Flore (DHFF,

« espèces animales et végétales d’intérêt communautaire dont la conservation nécessite la désignation de

zones spéciales de conservation »), sont retenues. Cela permet de réduire la base de données de l’INPN à

6

212 espèces DHFF – annexe II et 509 introduites. Cette liste est ensuite présentée aux experts de différents

taxons en leur demandant d’établir un ordre de priorité. Les critères principaux de sélection soumis aux

experts sont basés sur l’état de connaissance actuelle de l’espèce (i.e. une répartition ou une écologie

méconnue, justifiant l’intérêt de la démarche de modélisation) et sur son statut (i.e. un fort intérêt

patrimonial ou la nécessité de surveiller le potentiel d’invasion de l’espèce). La liste finale compte 15

espèces DHFF – annexe II et 7 espèces introduites (Tableau 1). Suite aux discussions avec les experts, deux

espèces ne figurant pas dans l’annexe II sont ajoutée : Muscardinus avellanarius (Linnaeus, 1758), présente

dans l’annexe IV de la directive, et Sanguisorba officinalis (Linnaeus, 1753), utilisée en tant que prédicteur

pour modéliser la présence de l’espèce Maculinea teleius (Bergsträsser, 1779) (Tableau 1).

3. Autres données

Afin de comparer les modèles issus de jeux de données différents, les occurrences de l’espèce Myotis

blythii (Tomes, 1857) ont été extraites d’une deuxième base de données, la base EVAL. Cette base dérive

d’une évaluation de l'état de conservation des espèces et habitats listés dans la DHFF. L’article 17 de la

DHFF requiert que cette évaluation soit réalisée tous les 6 ans par tous les états membres de l’UE. En France

elle est gérée par le SPN. Toutes les données disponibles sur les espèces et les habitats de la directive

(distribution, effectifs, surface, etc.) sont mobilisées et compilées dans une base qui est transmise à la

Commission Européenne. Les données proviennent de l’INPN et de programmes partenaires, groupes

d’experts, etc. (Gazay, 2016, communication personnelle). La base de données EVAL utilisée lors de cette

étude correspond aux données synthétisées pour le dernier rapportage 2013 (évaluation 20007-2012). Les

données EVAL pour Myotis blythii sont plus nombreuses (256 occurrences) par rapport aux données INPN

(156 occurrences), et plus récentes : elles n’incluent pas les occurrences en Corse qui ont été supprimées

suite à une erreur d’identification (Haffner, 2016, communication personnelle. Ces données erronées sont

encore présentes dans la base INPN.

Le Global Biodiversity Information Facility (GBIF, http://www.gbif.org) est une base internationale

de données en libre accès, financée par les gouvernements. Elle permet d’accéder aux occurrences mondiales

concernant plus d’un million d’espèces. Les données GBIF ont été téléchargées pour la modélisation des

espèces introduites (Tableau 1) dans le logiciel R, à travers la fonction gbif du package dismo (Hijmans et

al., 2011). Ces données sont très hétérogènes et partiellement validées. Après avoir retiré toutes les

occurrences non confirmées, les données restantes ne sont pas suffisantes pour modéliser les espèces

introduites à l’échelle mondiale. Pour avoir une estimation précise de la niche d’espèces introduites dans

l’aire d’introduction, il est fortement conseillé de les modéliser à partir de leur distribution d’origine

(Peterson, 2003). Pour cette raison et du fait de l’absence de données validées en dehors de la France, la

modélisation d’espèces introduites n’a pas été réalisée.

http://www.gbif.org/

7

Tableau 1 Liste d’espèces sélectionnées pour être intégrées au travail de modélisation, grâce à l’aide des agents SPN et d’autre

experts externes. Pour établir un ordre de priorité et définir cette liste, deux critères principaux ont été soumis aux experts : (1) une

répartition et/ou une écologie méconnue (2) le fort intérêt patrimonial ou la nécessité de surveiller le potentiel invasif de l’espèce.

Nom de l’espèce Taxon

Mailles

10x10

km

DHFF

Annexe II

Anisus vorticulus (Troschel, 1834) Gastéropodes 44

Cerambyx cerdo (Linnaeus, 1758) Coléoptères 707

Circaetus gallicus (Gmelin, 1788) Oiseaux 2822

Elona quimperiana (Blainville, 1821) Gastéropodes 139

Euphydryas aurinia (Rottemburg, 1775) Lépidoptères 543

Gomphus graslinii (Rambur, 1842) Odonates 26

Lynx lynx (Linnaeus, 1758) Mammifères 91

Maculinea nausithous (Bergsträsser, 1779) Lépidoptères 28

Maculinea teleius (Bergsträsser, 1779) Lépidoptères 63

Myotis blythii (Tomes, 1857) Chiroptères 156

Myotis capaccinii (Bonaparte, 1837) Chiroptères 58

Picus canus (Gmelin, 1788) Oiseaux 2099

Rhinolophus euryale (Blasius, 1853) Chiroptères 165

Rosalia alpina (Linnaeus, 1758) Oiseaux 325

Vertigo angustior (Jeffreys, 1830) Gastéropodes 149

Introduites /

envahissantes

Egeria densa (Planch., 1849) Angiospermes 126

Isodontia mexicana (Saussure, 1867) Hyménoptères 117

Leptoglossus occidentalis (Heidemann, 1910) Hémiptères 36

Lithobates catesbeianus (Shaw, 1802) Amphibiens 96

Podarcis siculus (Rafinesque-Schmaltz, 1810) Reptiles 128

Procyon lotor (Linnaeus, 1758) Mammifères 48

Silurus glanis (Linnaeus, 1758) Poissons 699

Autres Sanguisorba officinalis (Linnaeus, 1753) Angiospermes 1063

Muscardinus avellanarius (Linnaeus, 1758) Mammifères 1463

4. Catalogue de couches environnementales

Un des objectifs de cette mission consiste à répertorier les couches environnementales permettant de

décrire la niche écologique de plusieurs taxons et qui permettent donc de construire les modèles. Le

catalogue est réalisé sous forme de tableau Excel non codifié, contenant une liste de variables en format

raster ou vecteur, de différents types (climat, occupation du sol, etc.), systèmes de projections,

résolutions/échelles, étendues spatiales (Monde, Europe, France) et diverses modalités d’accessibilité

8

(couche gratuite, payante, disponible sur demande, non disponible). Ce catalogue est en cours de mise à jour

et sera codifié, converti en base de données et mis à disposition des agents SPN.

5. Traitement des couches

Pour le travail de modélisation, les variables considérées sont essentiellement des variables

climatiques et d’occupation du sol. La résolution soulève un problème dans le choix des déterminants

écologiques. Nous avons considéré ces variables parce que à la résolution considérée dans cette étude, celles

qui sont considérées comme discriminantes sont principalement le climat, la topographie et l’occupation du

sol (Pearson et Dawson, 2003).

Toutes les couches environnementales sont re-projetées en Lambert-93 et croisées avec le maillage

10x10 km de la France continentale pour que chaque pixel corresponde à une maille de la grille et que

chaque maille soit associée à une valeur de la variable. Le but étant d’obtenir pour chaque variable

environnementale une matrice à la même résolution et sur la même étendue que les données d’occurrence.

Les données d’occurrence sont aussi rastérisées.

Bioclim. Est constitué de 19 variables bioclimatiques en WGS84, à la résolution de 30 arc-seconds

(~1 km), appartenant à l’ensemble de couches Worldclim version 1.4 (Hijmans et al., 2005) et

représentatives du climat actuel (période 1960-1990). Ces données sont téléchargeables via le portail

http://worldclim.org/, qui met également à disposition des projections climatiques futures et passées, idéales

pour modéliser l’évolution des distributions géographiques dans le temps. Les données Bioclim sont issues

de la synthèse de séries de valeurs mensuelles de température et de précipitations Ces indicateurs sont

développés afin de représenter des variables climatiques significative en biologie (amplitude thermique,

précipitations du mois le plus froid…) et sont donc idéales pour la modélisation de la distribution d’espèces.

Ces données sont disponibles en format raster, couvrent le globe entier et représentent des tendances

annuelles et saisonnières, ainsi que des valeurs extrêmes considérées comme des facteurs potentiellement

limitant pour les organismes biologiques. Les 19 couches Bioclim ont été découpées et projetées grâce à une

interpolation bilinéaire, sur le maillage 10x10 km (Figure 1).

Figure 1 Traitement des couches Bioclim pour l’adaptation à l’étendue

de la France à une résolution 10x10 km.. Les données raster sont

projetées avec interpolation bilinéaire sur le maillage 10x10 km en

Lambert-93. De cette façon, à chaque maille est associée une valeur

climatique. Ce traitement est appliqué aux 19 couches Bioclim et aux

couches Corine Land Cover d’imperméabilité des sols et de taux de

couvert arboré.

http://worldclim.org/

9

Corine Land Cover 2006 (CLC2006). Couche vectorielle européenne d’occupation du sol (OS) à

l’échelle 1 : 100 000 et en projection ETRS89 - LAEA, consistant en un inventaire de 44 classes (European

Environment Agency, 2007). Ces couches sont développées dans le cadre d’un programme de l’Union

Européenne, géré par l'Agence européenne de l'environnement (AEE, http://www.eea.europa.eu). Le

traitement de cette couche pour le travail de modélisation a pour objectif de projeter la proportion de chaque

type d’OS dans les mailles dans une matrice raster correspondant au maillage 10x10 km. De cette manière

on obtient une couche raster par type d’OS (Figure 2a) à la même résolution que les données d’occurrence et

de climat précédemment traitées. Ce traitement implique l’automatisation d’une longue chaine de traitement,

visant à produire 44 couches, une pour chaque classe + 20 classes supplémentaires produites en agrégeant

certaines couches élémentaires (Figure 2a et 2b).

La couche européenne CLC2006 (CLC06_EU) est d’abord intersectée avec celle de la grille de la

France continentale (10k_FR) et ré-projetée en Lambert-93. Les polygones sont ensuite fusionnés selon le

code de la maille (CD_SIG) et par classe d’OS (code_06) (Figure 2b). La proportion de la surface de chaque

maille occupée par chaque type d’OS est donc calculée (valeurs entre 0 et 1). Un code Arcpy a permis

d’automatiser l’extraction des 44 couches raster :

• Sélection et extraction par attributs (CODE_06) : 44 couches vecteur d’OS

• Jointure au shapefile de la maille via CD_SIG : 44 grilles vecteur dont chaque polygone correspond à

une maille à laquelle une valeur de proportion de surface est associée.

• Rastérisation de la grille.

• Les « No data » produits lorsqu’un type d’OS n’est pas présent dans la maille, sont convertis en 0

(e.g. 0% de la surface de la maille occupée par la forêt)

La calculatrice raster est ensuite utilisée pour agréger plusieurs variables (e.g. les classes 311 : forêts

de feuilles, 312 : forêts de conifères, 313 : forêts mélangées sont agrégées en une seule classes 351 : forêts).

La chaine de traitement des données Corine Land Cover est schématisée dans la Figure 2.

Couches paneuropéenne à haute résolution (HRL). Distribuées par le programme Copernicus,

http://land.copernicus.eu/, en collaboration avec l’AAE. Ces données en format raster et projection ETRS89

- LAEA décrivent l’occupation du sol avec une précision de 20m et sont compatibles avec Corine Land

Cover. Les couches HRL utilisées pour ce travail sont les suivantes :

Imperméabilité 2006 (IMP_06). Décrit le dégrée d’imperméabilité (0-100%) du sol causé par la

présence de surfaces artificialisées. Cette couche est projetée sur le maillage 10x10 km et la valeur des pixels

recalculée par interpolation bilinéaire. À chaque pixel (maille 10x10 km) est associée une valeur entre 0 et

100.

http://www.eea.europa.eu/

http://land.copernicus.eu/

10

Figure 2 (a) Principe d’extraction de plusieurs couches raster à partir d’un vecteur (CLC2006). Chaque raster correspond à un

élément de l’attribut (code_06) du vecteur (i.e. une couche par type d’OS). (b) Schéma de la chaine de traitement réalisée pour la

création des couches d’OS.

Type de couvert arboré 2012 (FTY_1 ; FTY_2). À chaque pixel de 20x20 m est associé un type de

couvert arboré dominant : forêts feuillues ou conifères. Les pixels appartenant aux deux classes sont extraits

dans deux couches raster séparées par classe de forêt. Pour chacune des deux couches, la proportion de

couvert arboré par maille est calculé en multipliant le nombre de pixels dans une maille 10x10 km par l’aire

des pixels et divisant par 100 (nombre de pixels x (0.02km x 0.02 km) /100). Les valeurs des mailles sont

comprises entre 0 et 1. Les deux rasters correspondent à ceux issus du traitement de CLC2006 (R_CLC311

et 312 dans la Figure 5 et FTY_1 et 2 dans la Figure 6). Cependant, alors que la variable est la même, elle

(a)

(b)

11

n’est pas calculée de la même façon : la différence réside dans la résolution initiale. Les couches à haute

résolution permettent de calculer une valeur plus précise, la largeur du plus petit objet observé étant de 20m.

La résolution plus fine de CLC2006 est de 100m.

Milieux humides 2012 (WET_12). Produit binaire, indiquant la présence/absence de milieux humides

dans un pixel de 20x20 m. La proportion de surfaces humides est calculée en comptant le nombre de pixels

dans une maille 10x10 km multiplié par l’aire des pixels et divisé par 100 (nombre de pixels x (0.02km x

0.02 km) /100). Les valeurs sont comprises entre 0 et 1.

Taux de couvert arboré 2012 (TCD_1 ; TCD_2). Cette couche représente le taux de couvert arboré

(0-100%) par pixel de 20x20 m. Les pixels de forêts feuillues et de forêts de conifères sont d’abord séparés

en croisant la couche du taux de couvert arboré avec les deux couches de type de couvert arboré. Le taux de

couvert arboré par maille 10x10 km est recalculée par interpolation bilinéaire en ré-projetant la couche sur la

grille 10x10 km. À chaque maille est associée une valeur entre 0 et 100 (Figure 3).

Figure 3 Traitement de la couche taux de couvert arboré 2012 (TCD_12). Séparation des pixels appartenant aux deux classes et

interpolation bilinéaire.

Les résultats des traitements de couches sont résumés dans le Tableau 2 et les cartes des variables

extrapolées sont visibles dans les Figure 4 à Figure 6).

Tableau 2 Couches géographiques utilisées et résultat des traitements.

Nom couche Nb de couches

initiales

résolution/échelle

initiale

Résolution

finale

Nb de couches

finales Valeur finale par maille

Bioclim 1960-1990 19 30 arc-sec (~1km) 10 km 19 valeur bioclimatique interpolée

Corine Land Cover 2006 1 1: 100 000 10 km 64 pourcentage de surface occupée par type

d’OS (0-1)

Imperméabilité HR 2006 1 20 m 10 km 1 taux d’imperméabilisation (0-100)

Type de forêt HR 2012 1 20 m 10 km 2 pourcentage de surface occupée par type

de forêt (0-1)

Milieux humides HR

2012 1 20 m 10 km 1 pourcentage de surface humide (0-1)

Taux de couvert arboré

HR 2012 1 20 m 10 km 2 taux de couvert arboré (0-100)

12

Figure 4 Couches Bioclim. Voir Tableau 2 pour la description des variables.

13

Figure 5 Couches Corine Land Cover 2006. Du haut en bas; de droite à gauche : milieux anthropiques sauf espaces verts

artificialisés, espaces verts artificialisés, territoires agricoles sauf prairies, prairies, forêts de feuillus, forêts de conifères, tous types

de forêt, végétation arbustive et sclérophylle, landes et pelouses, roches nues et végétation clairsemée.

14

Figure 6 Couches Corine Land HR et carte consensus du modèle sur Sanguisorba officinalis. Du haut en bas, de droite à gauche:

taux d’imperméabilité, milieux humides, taux de couvert arboré –feuillues, taux de couvert arboré – conifères, forêts de feuilles,

forêts de conifères, probabilité de présence de Sanguisorba officinalis.

15

6. Homogénéisation des données

La fonction « synchroniseNA » du package R virtualspecies (Leroy et al., 2016) est utilisée pour

rendre toutes les couches homogènes en gérant les mailles sans information (NAs). La fonction permet

d’assurer que les NAs soient les même partout (Leroy et al., 2016). Les couches d’occurrences sont aussi

synchronisées (i.e. si les variables environnementales présentent des NAs pour certaines mailles, les mailles

de présence sont également retirées).

2. Modélisation

Pour les différentes étapes de modélisation, de la préparation des données à la projections des

probabilités de présence dans l’espace géographique, nous avons suivi le protocole conseillé par Boris Leroy

(2016, communication personnelle; Bellard et al., 2016; Leroy et al., 2014, 2013) basé sur l’utilisation du

package biomod2 (version 3.3-7, version à jour du package BIOMOD, Thuiller et al., 2009). Dans ce

rapport, nous présentons les résultats des modélisations sur cinq espèces (autres résultats en Annexes Figure

A.1-Figure A.4) : Rosalia alpina, Cerambyx cerdo, Elona quimperiana, Maculinea teleius, Myotis blythii,

Muscardinus avellanarius. Ces espèces sont sélectionnées parce qu’elles sont représentatives de différents

taxons, quantité et qualité de données de présence en entrée et type de répartition. Un modèle de distribution

géographique est construit sur les données d’occurrence de l’espèce Sanguisorba officinalis (Linnaeus,

1753) (Figure 6), plante hôte du papillon Maculinea teleius (Dupont, 2016, communication personnelle).

Selon l’opinion générale, les effets des interactions biotiques sur les distributions d’espèces et leur capacité

d’invasion ne sont pas observables à une échelle macro-écologique (Milbau et al., 2009; Pearson et

Dawson, 2003) ; néanmoins plusieurs auteurs ont mis en évidence une amélioration du pouvoir explicatif et

prédictif des modèles de distribution géographiques sur des macro-échelles (Araújo et Luoto, 2007;

Leathwick et Austin, 2001). Ces études utilisent généralement la variable biotique (compétiteur, plante hôte

ou ressource) sous forme de présence-absence. Pour ce travail, nous avons testé une approche différente, en

utilisant la variable « sanguisorbe » sous forme de probabilité de présence de la plante hôte. Le modèle

appliqué à Sanguisorba officinalis est basé sur le protocole décrit en page 16. Cette approche est choisie,

d’une part puisque certaines méthodes de modélisation utilisées ici n’acceptent pas des variables explicatives

en format binaire de type présence-absence (l’utilisation d’une variable quantitative telle que la probabilité

de présence permet d’éviter ce problème), d’autre part parce que les données d’occurrence ne fournissent pas

l’information sur les vraies absences de l’espèce. Une variable de distribution potentielle de la plante hôte, si

elle est bien construite, pourrait donc combler cette lacune de connaissance et mieux prédire la distribution

potentielle du papillon associé.

16

7. Calibrations et génération de pseudo-absences

Six méthodes de modélisation différentes sont appliquées : 3 méthodes de régression : un modèle

linéaire généralisé (GLM, McCullagh and Nelder, 1989), un modèle additif généralisé (GAM, Hastie and

Tibshirani, 1987), une régression multivariée par spline adaptative (MARS, Friedman, 1991) et 3 méthodes

d’apprentissage automatique : le boosting d’arbres de décision ou « generalized boosted regression models»

(GBM, Ridgeway, 1999), la forêt d'arbres décisionnels ou « random forests » (RF, Breiman, 2001), et

l’entropie maximale (MaxEnt, Phillips, Anderson, and Schapire 2006; Elith et al. 2011). Tous les modèles

utilisés, fonctionnent avec des données de présence-absence, ce qui a rendu nécessaire la génération de

pseudo-absences (PAs). Deux stratégies de sélection de pseudo-absences sont testées : la stratégie

« random » (RAN) : les PAs sont échantillonnées de manière aléatoire sur toute l’étendue spatiale, avec un

nombre défini par l’utilisateur. La stratégie «surface range envelope» (SRE, Thuiller et al. 2009) construit un

modèle sur les présences seules et les variables environnementales générant une enveloppe bioclimatique à

l’extérieur de laquelle les pseudo-absences sont échantillonnées (Thuiller et al. 2016). Pour chacune des

stratégies de génération des PAs, 5 jeux de PAs sont relancé à chaque calibration. Pour chaque relance, afin

d’avoir un nombre de PAs suffisant, 1000 PAs sont générées pour les espèces dont le nombre de mailles de

présence est inférieure à 1000. Pour les espèces dont le nombre de mailles est supérieur ou égale à 1000, un

nombre de PAs équivalent au nombre de mailles de présence est généré (Barbet-Massin et al., 2012). En

l’absence de jeux de données indépendants pour la validation, les calibrations des modèles sont appliqués sur

70% des données d’occurrence et les 30% de données restantes sont utilisées pour évaluer la qualité du

modèle (i.e. sa capacité à prédire correctement la présence de l’espèce pour les points de présences pour

lesquelles le modèle n’a pas été calibré). Cette opération est itérée 4 fois pour chaque méthode de

modélisation et chaque jeu de PAs. La métrique d’évaluation utilisée est la « true skill statistic » (TSS,

Allouche et al., 2006). Cette métrique compare le nombre de prévisions correctes, moins celles attribuables

au hasard, à un ensemble hypothétique de prévisions parfaites. Elle prend en compte les erreurs de fausses

présences et fausses absences en même temps (Allouche et al., 2006). La moyenne des évaluations est

calculée pour chaque méthode de modélisation (TSS moyen). En tout, 120 calibrations individuelles sont

effectuées (5 jeux de PAs x 4 relance de données en entrée x 6 méthodes = 120) Figure A.5) Les

distributions de probabilité sont ensuite projetées dans l’espace géographique. Enfin, le test non-

paramétrique de Wilcoxon-Mann-Whitney est utilisé pour comparer la performance des modèles.

8. Modèle d’ensemble

L’approche de modélisation d’ensemble (Araújo et New, 2007; Thuiller et al., 2009) est appliquée

pour obtenir une projection « consensus » de la distribution: au lieu de prendre le « meilleur » des modèles

17

calibrés (i.e. celui avec la TSS le plus élevé), l’approche d’ensemble permet d’estimer la tendance moyenne

des distributions obtenues avec les calibrations individuelles. Le but est des garder les aires de répartition où

les probabilités des calibrations individuelles convergent, en écartant les zones d’incertitude. Le modèle

d’ensemble est construit en intégrant seulement les modèles individuels dont la TSS est supérieure à un seuil

fixé à 0.6 (i.e. bonne qualité du modèle) et en calculant la moyenne. Le résultat est une carte « consensus »

de distribution de la probabilité de présence de l’espèce en valeurs continues.

9. Courbes de réponse

Les courbes de réponse de chaque espèce aux variables environnementales considérées sont

construites grâce à la méthode développée par Elith et al. (2005) et utilisée par Leroy et al. (2013). La courbe

de réponse à une variable est obtenue en fixant les autres variables à leur moyenne parmi les mailles de

présence en laissant osciller la variable d’intérêt entre son minimum et maximum. La variation de probabilité

de présence avec la variable est donc calculée pour chaque relance et méthode de modélisation, et un GAM

est ensuite utilisé pour estimer la courbe de réponse moyenne.

10. Sélection des variables

Les modèles calibrés sur un petit nombre de variables, notamment celles qui sont réputées avoir un

effet sur les espèces traitées, sont généralement plus performants que ceux intégrant toutes les variables

disponibles (Austin, 2007; Jimenez-Valverde et al., 2008). Pour éviter de partir d’un trop grand nombre de

variables, les experts du SPN ont été consultés, afin d’effectuer une première sélection de prédicteurs

considérés comme écologiquement pertinents pour l’espèce. Cette connaissance concerne surtout le type

d’habitat et de paysage où les espèces sont régulièrement observées. Cela a permis de faire un premier tri des

variables d’OS. L’écophysiologie des espèces est souvent moins connue, et établir à priori les facteurs

climatiques agissants sur les espèces peut être difficile. Nous avons appliqué un protocole de sélection

automatique des variables qui permet de déterminer les variables les plus significatives pour chaque espèce

traitée. Le protocole consiste en une série de calibrations intermédiaires pour l’exclusion de la multi-

colinéarité et la sélection des variables les plus importantes (Leroy, 2016, communication personnelle ; voir

Leroy et al., 2014 - Annexe S2 pour la description détaillée du protocole). Les étapes sont les suivantes :

• Etape 1 : les groupes de variables corrélées sont identifiés grâce à une classification hiérarchique

avec une métrique de distance basée sur le coefficient de corrélation de Pearson (Figure A.6)

• Etape 2 : chaque groupe de variables colinéaires est testé sur chaque espèce avec la procédure

décrite en page16. La variable la plus significative (i.e. celle qui prédit le mieux la distribution de l’espèce)

est conservée pour les calibrations successives. L’importance est déterminée en recalculant la variation de

18

probabilité de présence lorsque la variable est réé-échantillonnée de manière aléatoire (ce tirage est effectué

10 fois) : si la probabilité reste la même, la variable n’a pas d’effet sur l’espèce ; au contraire, si la

probabilité varie, la variable a un effet sur la présence de l’espèce. Cela est appliqué à chaque variable en

fixant les autres. L’importance est calculée selon le dégrée de variation de la probabilité de présence et la

variable la plus importante est conservée pour les calibrations successives.

• Etape 3 : les variables sélectionnées à l’étape 2 (une pour chaque groupe de variables colinéaires)

et toutes les autres variables non corrélées sont testées sur chaque espèce en appliquant la procédure décrite

en page 16. Les variables sont ordonnées selon leur importance et le choix final dépend ensuite de

l’utilisateur. Nous avons fixé un seuil à 5% d’importance pour la sélection finale. Ce seuil a été choisi pour

optimiser le nombre de variables retenues pour chaque espèce : d’une part, pour tester un nombre de

variables suffisant à décrire la niche de l’espèce; d’autre part, pour limiter le temps de calcul et faciliter

l’interprétation des modèles (Austin, 2007).

11. Logiciels

La gestion des couches environnementales est réalisée principalement grâce au logiciel ArcMap.

Avec l’extension Spatial Analyst pour les traitements raster et du package ArcPy pour l’automatisation des

taches du traitement de CLC2006.

La gestion des bases de données d’occurrence, la préparation des données pour la modélisation, les

analyses statistiques et les graphiques sont effectuées grâce au logiciel R (R Core Developement Team,

2016) et notamment aux packages biomod2 (Thuiller, 2003; Thuiller et al., 2016) virtualspecies (Leroy et

al., 2016), raster (Hijmans et van Etten, 2014), rgdal (Roger et al., 2016), , sp (Hijmans et al., 2016), car

(Fox et Weisberg, 2010), ggplot2 (Wickham, 2009). Les cartes de distribution d’espèces sont également

réalisées sous R.

III. RESULTATS

3. Sélection des modèles


À la suite d’un protocole de sélection automatique, complété d’un tri au cas par cas, les variables les

plus importantes ont été sélectionnées et testées dans les modèles finaux. La liste de variables testées et

retenues pour chaque espèce avec le protocole de sélection est visible dans le Tableau 1 Les variables

retenues ont été sélectionnées avec un seuil de 5% d’importance, en enlevant ensuite les variables ayant des

19

courbes de réponse plate et en fixant arbitrairement à un maximum de 6 le nombre total de variables à tester.

Pour Rosalia alpina et Muscardinus avellanarius, aucune variable d’occupation du sol n’a été retenue.

Tableau 3 Variables testées (▪) et sélectionnées (×) dans les derniers modèles pour chaque espèce.

Elona quimperiana

Rosalia alpina

Maculinea teleius

Myotis blythii

Muscardinus avellanarius

bio1 Température moyenne annuelle

bio2 Amplitude quotidienne moyenne (moyenne (max – min de la période) ▪ ▪ ▪ × ×

bio3 Isothermalité bio2/bio7 ▪ × × × ▪ bio4 Saisonnalité de la température × × × × × bio5 Température maximale de la période la plus chaude ▪ bio6 Température minimale de la période la plus froide ▪ × × × bio7 Amplitude annuelle de la température (bio5-bio6) bio8 Température moyenne du trimestre le plus humide ▪ ▪ ▪ ▪ ▪ bio9 Température moyenne du trimestre le plus sec × ▪ × ▪ × bio10 Température moyenne du trimestre le plus chaud × × × ▪ bio11 Température moyenne du trimestre le plus froid × bio12 Précipitations annuelles × bio13 Précipitations de la période la plus humide × ▪ bio14 Précipitations de la période la plus sèche ▪ ▪ bio15 Saisonnalité des précipitations (C.V.) ▪ ▪ ▪ ▪ ▪ bio16 Amplitude annuelle de la température (5-6) ▪ bio17 Précipitations du trimestre le plus sec ▪ × bio18 Précipitations du trimestre le plus chaud ▪ bio19 Précipitations du trimestre le plus froid × R_CLC100 Milieux anthropiques sauf espaces verts artificialisés ▪ ▪ R_CLC140 Espaces verts artificialisés ▪ ▪ ▪ ▪ ▪ R_CLC200 Territoires agricoles sauf prairies × R_CLC230 Prairies × ▪ R_CLC311 Forêts de feuillus × R_CLC312 Forêts de conifères R_CLC351 Tous types de forêt ▪ R_CLC352 Végétation arbustive et sclérophylle ▪ R_CLC353 Landes et pelouses ▪ R_CLC354 Roches nues et végétation clairsemée × imp_06 Taux d’imperméabilité (HR) ▪ ▪

wet_12 Milieux humides ▪ ▪ ▪ ▪

tcd_1 Taux de couvert arboré –feuillues (HR) ▪ ▪ ▪

tcd_2 Taux de couvert arboré – conifères (HR) ▪ ▪ ▪

fty_1 Forêts de feuilles (HR) ▪ ▪ ▪ ▪

fty_2 Forêts de conifères (HR) ▪ × ▪ ▪

sanguiEM Probabilité de présence de Sanguisorba officinalis ×

13. Évaluation des modèles

La performance des modèles a été affectée par la stratégie de génération des pseudo-absences (PAs).

L’approche aléatoire (« RAN») a produit des évaluations (TSS) moyennes inférieures au seuil fixé à 0.60

pour Muscardinus avellanarius, proches ou inférieurs à 0.60 pour Rosalia alpina entre 0.60 et 0.80 pour

Myotis blythii (données INPN) et Maculinea teleius (Figure 7). Les modèles de type «RAN» les plus

20

performants concernent Elona quimperiana (l’escargot de Quimper), avec des évaluations moyennes

supérieures 0.90 (Figure 7). Pour cette espèce, la qualité des modèles utilisant la stratégie « SRE » est

également élevée, montrant des évaluations moyennes supérieures à 0.90, qui ne sont pas significativement

différentes de celles des modèles à stratégie « RAN », à l’exception des GLMs (Tableau 4). Au contraire,

pour toutes les autres espèces, la stratégie « SRE » a donné lieu à des évaluations nettement supérieures à

celles des modèles à stratégie « RAN » (Figure 7). La distribution consensus est obtenue en calculant la

moyenne des prédictions des modèles individuels ayant obtenu une TSS > 0.60. Pour Muscardinus

avellanarius, aucune calibration individuelle avec pseudo-absences de type « RAN » n’a été validée et la

distribution consensus n’a pas été calculée dans un premier temps. Pour obtenir cette carte, le seuil de

tolérance a été baissé à 0, et toutes les calibrations ont été prises pour faire un modèle d’ensemble.

Le choix des modèles, accompagné par l’analyse qualitative des experts du SPN, n’a pas été fait sur

la base des évaluations. Ce qui a été privilégié ce sont les cartes consensus (i.e. projection dans l’espace

géographique du modèle d’ensemble) qui semblent avoir plus de sens d’un point de vue biologique et dont

les aires prédites semblent plus proches des distributions réelles. Ces modèles ne sont pas nécessairement les

meilleurs d’un point de vu statistique. Pour Elona quimperiana, à parité d’aire de répartition prédite, le

modèle issue de l’approche « RAN » a été retenu puisque plus parcimonieux. Les modèles retenus sont ceux

basés sur la stratégie « RAN » pour Rosalia alpina et Maculinea teleius et « SRE » pour Muscardinus

avellanarius. Pour Myotis blythii le modèle « RAN » a été conservé et un autre modèle d’ensemble a été

produit à partir des données EVAL pour comparer les cartes résultantes des deux jeux de données différents.

21

Figure 7 Boites à moustache des évaluations (TSS), pour chacune des 6

techniques de modélisation. En rouge : stratégie de génération de

pseudo-absences (PAs) « SRE » ; en bleu : stratégie de génération de

pseudo-absences (PAs) « RAN ». Chaque boite à moustache représente

l’ensemble des TSS calculés sur les calibrations individuelles, soit 5

relance de PAs x 4 échantillonnages de données en entrée = 20

calibrations par méthode et 120 calibrations totales par stratégie de

génération de PAs. Les modèles issus de la stratégie « SRE » (Surface

Range Envelope, PAs sélectionnées par exclusion environnementale)

ont obtenu en générale des métriques plus élevées par rapport aux

modèles « RAN » (random, PAs prises au hasard).

22

Tableau 4 Résultats du test non paramétrique de Wilcoxon-Mann-Whitney sur la comparaison entre les modèles « RAN » et

« SRE » par espèce et méthode de modélisation. W est la statistique du test. La significativité est fixé à 0.05. En gras, les tests non

significatifs.

GAM GBM GLM MARS MAXENT RF

Elona

quimperiana

W = 184.5

p-value = 0.68

W = 161

p-value = 0.29

W = 109.5

p-value = 0.01*

W = 135.5

p-value = 0.08

W = 167

p-value = 0.37

W = 168.5

p-value = 0.40

Maculinea teleius W = 124

p-value <0.001***

W = 7

p-value <0.001***

W = 10

p-value <0.001***

W = 35

p-value <0.001***

W = 110

p-value <0.001***

W = 7

p-value <0.001***

Muscardinus

avellanarius

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

Myotis blythii W =16.5

p-value <0.001***

W =9.5

p-value <0.001***

W =1

p-value <0.001***

W =0

p-value <0.001***

W =3

p-value <0.001***

W =6

p-value <0.001***

Rosalia alpina W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

W = 0

p-value <0.001***

4. Analyse des répartitions modélisées

14. Courbes de réponse

Les 5 espèces ont montré trois types de réponses aux variables environnementales sélectionnées

(Figure 8). Une influence forte de type « seuil », avec la probabilité de réponse qui diminue de manière

brusque à partir d’une certaine valeur (e.g. réponse de Myotis blythii à la variation de bio3 : isothermalité,

avec une probabilité de présence qui tombe au-dessus de ~0.035) ; une influence forte de type « plateau »,

où la probabilité de présence reste constante entre deux valeurs (e.g. réponse de Muscardinus avellanarius à

bio2 : variation journalière moyenne de la température, avec une probabilité proche de 1 entre 7 et 10 °C);

une influence faible (e.g. relation quasi-linéaire légèrement négative entre R_CLC311 - forêt de feuille et

présence d’Elona quimperiana, avec une probabilité qui diminue lentement à partir de 20% de surface

occupée par la forêt).

15. Cartes des projections géographiques

La projection des modèles d’ensemble (tendance moyenne des calibrations individuelles) dans l’espace

géographique (i.e. carte consensus) a aussi montré des différences entre les deux stratégies de sélection de

PAs. Pour la plupart des espèces traitées, l’approche « RAN » a donné lieu à des distributions circonscrites

autour des mailles de présence, alors que l’approche « SRE» a montré une tendance à prédire des aires de

présence potentielles plus étendues (Figure A.1).

23

Figure 8 Courbes de réponse des espèces aux variables environnementales

testées. La ligne bleue représente la fonction GAM calculée sur les courbes

de réponse des 120 calibrations individuelles. La partie grise autour de la

ligne représente l’intervalle de confiance (95%).

24

Le cas le plus évident concerne l’espèce Muscardinus avellanarius : la carte consensus produite

montre une évidente sous-représentation de son aire de répartition (Figure 9). Au contraire, la carte

consensus issue du modèle « SRE » attribue au muscardin une distribution potentielle clairement plus vaste

dans la moitié ouest de la France. Cette différence n’est pas détectable sur les cartes de distribution d’Elona

quimperiana, pour lesquelles les deux stratégies ont produit des résultats presque équivalents. Les deux

modèles d’ensemble ont prédit la présence d’Elona quimperiana au nord-ouest et au sud-ouest de la France

(Figure 10). Toutes les mailles de présence tombent dans des aires à forte probabilité d’occurrence (100%).

La zone à forte probabilité (80%) prédite sur la pointe de la Normandie est la seule où l’espèce n’est pas

présente actuellement, représentant un endroit où l’environnement serait potentiellement favorable à cette

espèce.

La distribution de Maculinea teleius (Figure 11a) a été relativement bien estimée par le modèle, avec

une aire de répartition principale dans l’est de la France (probabilité jusqu’à 100%) qui s’étend jusqu’à la

Bourgogne et au Languedoc-Roussillon, et deux zones à niveaux des populations du centre-ouest. Le modèle

a également estimé une faible probabilité de présence (environs 30%) de l’espèce dans le sud-ouest

(Pyrénées).

Le modèle sur Rosalia alpina (Figure 11b) estime bien les données de présence dans les zones à forte

prévalence de données. Dans la pointe de la Normandie il y a une probabilité entre 30 – 40% de rencontrer

l’espèce. Le modèle prédit également une probabilité (jusqu’à 80%) de présence dans le nord.

Le cas de Myotis blythii a été choisi pour représenter l’impact de la qualité et la fiabilité des données

en entrée sur les résultats des modèles. Les modèles calibrés sur ces deux jeux de données ont produit deux

cartes consensus différentes (Figure 12). En Corse la probabilité de présence de l’espèce est nettement plus

faible pour le modèle calibré sur les données EVAL (plus nombreuses, moins biaisées et idéalement sans

erreurs d’identification). Dans le sud-ouest de la France le modèle « EVAL » prédit une probabilité plus

forte (30 – 70% contre 5 – 30%) de rencontrer l’espèce. Les évaluations sont en faveur des modèles INPN

(Figure 13), bien que les données EVAL soient considérées comme les plus fiables.

25

Figure 9 Comparaison de cartes consensus issues de modèles utilisant deux approches différentes de génération de pseudo-

absences (PAs). Distributions potentielles de Muscardinus avellanarius obtenues respectivement avec les stratégies (a) « RAN »

et (b) « SRE ». Pour Muscardinus avellanarius, la carte retenue est celle obtenue avec la stratégie « SRE ». En bas à droite, la

carte montre les centroïdes (en bleu) des mailles de présence de Muscardinus avellanarius.

(a)

(b)

26

Figure 10 Comparaison de cartes consensus issues de modèles utilisant deux approches différentes de génération de pseudo-

absences (PAs). Distributions potentielles d’Elona quimperiana obtenues respectivement avec (a) stratégie « RAN » et (b)

« SRE ». Pour Elona quimperiana, la carte retenue est celle basée sur les PAs générées avec la stratégie « RAN ». En bas à droite,

la carte montre les centroïdes (en bleu) des mailles de présence d’Elona quimperiana.

(b)

(a)

27

Figure 11 Cartes consensus des distributions potentielles pour (a) Maculinea teleius et (b) Rosalia alpina. Les deux modèles sont

basés sur un approche « RAN ». L’aire de répartition de Rosalia alpina est probablement sous-estimée par ce modèle. L’aire de

répartition de Maculinea teleius est relativement bien estimée. Les points bleus sur les cartes sont les centroïdes des mailles de

présence respectivement de Maculinea teleius et Rosalia alpina.

(a)

(b)

28

Figure 12 Comparaison de cartes consensus de distribution de Myotis blythii. Les deux modèles calibrés sur (a) les données

INPN et (b) les données EVAL. Les points bleus sur les cartes sont les centroïdes des mailles de présence de Myotis blythii

respectivement dans la base INPN et dans la base EVAL.

(a)

(b)

29

Figure 13 Boites à moustache des évaluations (TSS) des modèles calibrés sur les deux jeux de données (INPN en bleu et EVAL

en rouge). Chaque boite à moustache représente l’ensemble des TSS calculées sur les calibrations individuelles, soit 5 relance de

PAs x 4 échantillonnages de données en entrée = 20 calibrations par méthode et 120 calibrations au total par jeu de données. Les

modèles calibrés sur les données INPN ont obtenu des métriques plus élevées par rapport aux modèles calibrés sur les données

EVAL.

Tableau 5 Résultats du test non paramétrique de Wilcoxon-Mann-Whitney sur la comparaison entre les modèles calibrés sur deux

différents jeux de données (bases de données INPN et EVAL) pour l’espèce Myotis blythii. W est la statistique du test. La

significativité est fixé à 0.05. Les évaluations sont plus élevées pour le modèle calibré sur les données INPN.

GAM GBM GLM MARS Maxent RF

W = 64.5

p-value<0.001***

W = 23

p-value<0.001***

W = 1

p-value<0.001***

W = 6.5

p-value<0.001***

W = 47

p-value<0.001***

W = 43

p-value<0.001***

30

IV. DISCUSSION

Cette étude a permis de démontrer l’applicabilité des modèles de niche aux données d’inventaire

gérées par le SPN. Les espèces traitées, figurant dans la DHFF Natura 2000, sont des espèces d’intérêt

patrimonial et communautaire, dont la connaissance est lacunaire. Sur les 17 espèces modélisées, 5 ont été

analysées dans le détail. Ces cinq espèces ont été choisies parce qu’elles sont représentatives de différents

taxons, quantité et qualité de données de présence en entrée et type de répartition. Elles sont aussi

relativement bien connues par les experts SPN qui peuvent aider à l’interprétation des cartes de répartition

potentielle et des déterminants écologiques. Certaines espèces ont pu être modélisées de manière cohérente,

d’autres moins. La responsabilité de ces différences peut être attribuée d’une part au profil des données de

présence, d’autre part aux caractéristiques écologiques distinctes des espèces : la taille de l’aire de

répartition, l’échelle à laquelle les discriminants environnementaux agissent, la sensibilité des espèces à des

processus difficiles à identifier ou à modéliser. Cela nous a permis d’identifier plusieurs questions

méthodologiques : quelles variables et comment les sélectionner ; quelle stratégie de génération des pseudo-

absences ; quelle qualité des données en entrée.

À partir de ce travail, nous pouvons élaborer des recommandations préliminaires pour l’application

des modèles de prédiction de répartition aux données du SPN.

5. Les distributions géographiques

Elona quimperiana. Les deux cartes issues des deux stratégies de génération de pseudo-absences

sont cohérentes avec les données de présence et la connaissance de l’espèce. Il s’agit d’un mollusque

gastéropode endémique, présent dans une zone caractérisée par des conditions climatiques singulières, ce qui

permet d’extrapoler facilement les caractéristiques de sa niche écologique. La forte probabilité de présence

estimée sur la pointe de la Normandie indique un environnement favorable, mais pas nécessairement la

présence réelle de l’espèce. En effet, la répartition de cet escargot étant relativement bien connue, il est peu

probable qu’elle soit présente dans cette zone (Léonard, 2016, communication personnelle). Cette espèce est

initialement originaire du nord de la péninsule ibérique, ce qui explique sa présence dans le sud-ouest de la

France. Une hypothèse est que son aire de répartition se soit étendue vers le nord-ouest de la France avant la

dernière glaciation. L’extrémité de la Bretagne et les Pyrénées basques auraient constitué des refuges

climatiques durant le dernier maximum glaciaire, grâce à des conditions de micro-habitat plus douces et

favorables pour l’espèce (proximité des chênes et/ou caves) (Vialatte et al., 2008). L’autre hypothèse

soutient une colonisation postglaciaire suivant les peuplements de chêne et en conséquence, la disparition de

l’espèce dans les zones de déforestation causées par l’homme (Vialatte et al., 2008). Cela expliquerait

31

l’actuelle disjonction géographique. Elona quimperiana vit dans les forêts caduques tempérées, humides et

ombragés. En Bretagne, son habitat typique correspond à des hêtraies-chênaies qui se développent sur un sol

humide (Bensettiti et al., 2002). En dehors des milieux forestiers l'espèce peut s'observer « dans des ruines

ou des murs près de zones humides ou de petites rivières, dans des broussailles herbeuses humides et

ombragées, ou encore au niveau de grottes, dans des jardins, des caves, des landes humides » (Léonard,

2016, communication personnelle). Les courbes de réponse semblent cohérentes avec son écologie : l’espèce

se trouve plutôt dans les régions humides, tempérées, avec des précipitations abondantes en hiver. La légère

corrélation négative avec la forêt feuillue (R_CLC311, Figure 9) pourrait traduire une préférence pour des

zones où la forêt est peu prépondérante (paysage mixte). Il pourrait cependant s’agir d’un produit indirecte

de sa répartition circonscrite à la Bretagne où la forêt est généralement éparse. La carte de distribution

potentielle semble donc cohérente avec l’histoire biogéographique et les préférences environnementales de

cette espèce. Un ensemble de conditions a contribué à la réussite des modèles, quel que soit la méthodologie

utilisée : un nombre d’occurrences suffisant, leur localisation et une aire de répartition restreinte par rapport

à la zone d’étude.

Maculinea teleius. Ce papillon est principalement présent dans l’est de la France, à l'exception des

zones méditerranéennes. Deux populations isolées se trouvent dans le sud-ouest et la centre de la France. Il

s’agit probablement de deux lignées séparées (Dupont, 2016, communication personnelle). La carte de

répartition potentielle montre des zones à forte et moyenne probabilité de présence respectivement en

Bourgogne et dans les Pyrénées. Cependant, l’espèce ne semble pas occuper ces régions, peut-être pour des

raisons liées à sa biogéographie (Dupont, 2016, communication personnelle). Pour le reste, le modèle semble

prédire correctement les zones de présence dans l’est de la France, un peu moins celles du centre et de

l’ouest. Ce papillon a une prédilection pour les prairies humides sur substrat calcaire régulièrement fauchées,

mais elle peut aussi fréquenter les prairies mésophiles ; elle est observée en bordure de mégaphorbiaies

humides, en zones de lisière, ou sur les bords de fossés (Dupont, 2016, communication personnelle). Tous

ces milieux sont aussi associés à sa plante hôte (Sanguisorba officinalis, d’où son nom vernaculaire « azuré

de la sanguisorbe »), qui est très favorisée par la fauche. La variable construite sur le modèle de distribution

de la sanguisorbe (sanguiEM, Tableau 3) apparait importante dans les modèles et est positivement corrélée à

la probabilité de présence du papillon (Figure 8). Les prairies, à part une courte corrélation positive initiale,

sont négativement corrélées avec la présence de Maculina teleius (Figure 8). Ce résultat pourrait paraître en

contradiction avec l’écologie de l’espèce, qui se trouve souvent dans les milieux ouverts. En réalité, cela

pourrait indiquer que l’espèce, évite les paysages principalement constitués par des prairies, en leur préférant

les milieux collinéens et montagnards de l’est de la France, où les milieux ouverts sont souvent mélangés à

des zones forestières. Maculinea teleius présente un cycle biologique complexe : pendant ses premiers

stades, la chenille vit sur la sanguisorbe, mais ensuite elle se déplace dans les fourmilières de l’espèce

32

Myrmica scabrinodis Nylander, 1846. Nous avions envisagé d’utiliser les données de répartition de cette

fourmi hôte combinées à celles de Sanguisorba officinalis pour modéliser la distribution géographique du

papillon. Toutefois les données de présence de Myrmica scabrinodis sont insuffisantes et biaisés, à cause

d’un problème d’identification entre espèces du même genre (Elmes et al., 1998). Cependant, cette fourmi

est considérée présente partout en France, et donc elle ne représenterait pas un discriminant fort sur la

réparation du papillon (Dupont, 2016, communication personnelle).

Muscardinus avellanarius. Le muscardin est un petit rongeur arboricole qui privilégie les forêts à

végétation buissonnante, les lisières forestières ou encore les clairières. Il peut fréquenter également les

mégaphorbiaies associées aux marais. En France les densités de muscardin sont faibles. Il ne fréquente pas

les habitations et il est plutôt discret. Pour ces raisons, il peut être difficile à détecter (Chapuis, 2016,

communication personnelle). Le modèle retenu pour cette espèce et celui issu de la stratégie de sélection de

pseudo-absences « SRE » (pseudo-absences sélectionnées par exclusion environnementale). Le choix n’a

pas été fait sur la base des évaluations, qui ne sont pas toujours fiables, mais sur la base de l’aire prédite par

le modèle. Ce modèle, en effet, n’est pas le meilleur : d’une part, l’efficacité de cette stratégie de génération

de pseudo-absence est débattue (Engler et al., 2004; Wisz et Guisan, 2009). D’autre part, plusieurs mailles

de présence, notamment dans le nord et le nord-ouest de la France, ainsi que dans le sud-est sont exclues par

les prédictions. Cependant, la carte de répartition produite semble plus cohérente avec la connaissance

actuelle de l’espèce, qui est réputée être présente partout en France (Haffner, 2016, communication

personnelle), sauf dans le sud-ouest, où il n’y a pas d’information.

Myotis blythii. Le petit murin est un chiroptère qui chasse en milieu ouvert (prairies pâturages,

steppes) et peut monter jusqu’à 2000 m d’altitude; il favorise également les prairies humides et semble éviter

les forêts et les terrains agricoles (Bensettiti et al., 2002). Les gîtes d’hibernation sont peu connus, il choisit

probablement les anciennes carrières, les mines et les caves (Haffner, 2016, communication personnelle).

Dans les zones chaudes, en été, les gîtes sont situés dans des cavités souterraines ; dans les zones plus

froides, cette espèce thermophile choisit les greniers (Haffner, 2016, communication personnelle), lui

permettant d’étendre les limites de sa répartition géographiques vers le nord de l’Europe (Bensettiti et al.,

2002). Les données en Corse, présentent dans la base INPN, se sont avérées fausses. Les deux modèles

calibrés sur deux jeux de données différents (INPN et EVAL) ont donc produit des résultats divergents. Les

deux aires de répartition se ressemblent du côté est, où les densités de mailles de présence sont semblables.

Au contraire, dans la carte issue des données EVAL où les occurrences erronées sont absentes, l’espèce

n’occupe plus la Corse. Les occurrences EVAL dans l’ouest de la France ont aussi permis d’affiner la carte

de répartition dans le sud-ouest. Selon les variables sélectionnées et les courbes de réponse, ce chiroptère

favorise les roches nues et la végétation clairsemée (R_CLC354,Tableau 3 ;Figure 8) typiques des paysages

de montagne ; les milieux agricoles (R_CLC200, Tableau 3 ;Figure 8) ne semblent pas constituer un facteur

33

limitant pour l’espèce, à l’échelle considérée. Il tolère relativement bien les fluctuations de température (bio2

et bio4, Tableau 3 ;Figure 8) et préfère les endroits chauds en été, avec peu de précipitations (bio10 et bio16,

Tableau 3 ;Figure 8).

Rosalia alpina. La rosalie des Alpes est un coléoptère saproxylique (i.e. cycle de vie associé à la

décomposition du bois mort) qui vit en montagne comme en plaine. Elle est considérée comme une espèce

emblématique et a été inscrite aux annexes II et IV (protection stricte) de la DHFF. En montagne elle se

retrouve dans les hêtraies et sa plante hôte principale est le hêtre commun (Fagus Sylvatica, Linné, 1753).

En plaine elle a été observée sur différentes espèces de frênes (Fraxinus spp.), noyer (Juglans spp.), saules

(Salix spp.) et peupliers (Populus spp.) (Horellou, 2016, Touroult, 2016, communication personnelle). Cette

espèce est menacée par la régression des vieilles forêts de hêtre. Sa répartition est mal connue puisqu’il

s’agit d’un insecte très discret, dont la vie se déroule essentiellement sous forme de larve se nourrissant du

bois mort ou dépérissant. En mai 2014, l’OPIE (Office Insectes Environnement) et le GRETIA (Groupe

d’étude des Invertébrés Armoricains) ont lancé une enquête nationale sur Rosalia alpina. Les premiers

résultats sont satisfaisants, avec une nouvelle observation en Basse-Normandie (Eychenne, 2015). Cette

observation est cohérente avec les résultats du modèle (Figure 11), qui indiquent une probabilité, bien que

faible, de trouver Rosalia alpina dans cette région. Au contraire, l’espèce n’est pas considérée comme

présente dans le nord de la France, le long de la frontière, où le modèle prédit pourtant une certaine

probabilité de présence (Touroult, 2016, communication personnelle). Il pourrait s’agir d’un habitat

favorable qui n’a pas été occupé par l’espèce. Les données de présence dans le nord-est ne sont plus

d’actualité, puisque le coléoptère semble avoir disparu dans cette zone (Bensettiti et al., 2002). Si le but est

de décrire la distribution réelle de l’espèce, il faudrait masquer ces aires d’absence avérée. Au contraire, si le

modèle sert à mettre en évidence de zones potentiellement favorables, les données plus anciennes peuvent

être gardées. Dans ce cas, les éventuels changements environnementaux, en particulier de l’occupation du

sol, doivent être pris en compte et les variables doivent être cohérentes avec les données de présence.


Pour ce travail, nous avons utilisé un protocole de sélection de variables (Bellard et al., 2016; Leroy

et al., 2014, 2013) qui consiste à garder la variable la plus importante dans chaque groupe de variables

colinéaires et à tester, dans un deuxième temps, toutes les variables non inter-corrélées, en retirant ensuite

les moins significatives. Ce protocole de sélection automatique est adapté à des espèces pour lesquelles les

préférences environnementales et la répartition sont méconnues et les variables à tester sont nombreuses.

Cependant, il est important de maintenir une approche critique et qualitative dans le choix final, puisque les

résultats de la sélection automatique peuvent être insuffisants. D’une part, ces résultats dépendent de l’ordre

dans lequel les variables sont intégrées dans le modèle, d’autre part les variables « importantes » choisies par

34

la sélection automatique peuvent être encore trop nombreuses et rendre la calibration des modèles successifs,

ainsi que leur interprétation difficiles.

Le choix des variables est une étape sensible du processus de modélisation. Il est important de choisir

des prédicteurs écologiquement pertinents, en se basant sur la connaissance des espèces (Mac Nally, 2000)

ce qui peut être particulièrement difficile pour modéliser les organismes dont l’écologie et la répartition sont

peu connues. Il faut distinguer entre variables proximales, ou directes, et variables distales, ou indirectes.

L’altitude, par exemple, affecte rarement de manière directe la distribution d’une espèce, mais elle est

souvent corrélée à d’autres variables plus pertinentes telles que la température ou les précipitations (Austin,

2002). L’utilisation de seules prédicteurs distaux peut causer des erreurs de prédiction, puisque la relation

entre variables directes et indirectes peut varier dans l’espace (Austin, 2002). Cependant, le choix des

variables dépend de la disponibilité des couches environnementales et de la résolution à laquelle l’étude est

conduite. Aujourd’hui l’accès aux données climatiques et environnementales grâce à la libéralisation des

images satellites et des données dérivées est de plus en plus démocratisé, mais peu d’études ont réalisé une

recherche approfondie des variables pertinentes, et la plupart se limitent à utiliser les données les plus faciles

d’accès (Elith and Leathwick, 2009) sans décrire le processus de choix et de traitement des variables

utilisées.

Intégrer un grand nombre de variables peut rendre l’interprétation difficile, diminuer le pouvoir

prédictif du modèle et augmenter le temps de calcul. En général, pour améliorer la qualité d’un modèle, il

faut réduire le nombre de variables explicatives (Guisan et Zimmermann, 2000) capables d’expliquer la

plupart de la variabilité du système. Cela implique de choisir le modèle le plus parcimonieux en éliminant

les variables les moins significatives parmi les variables colinéaires (ou inter-corrélées), puisque la

multicolinéarité couvre déjà une partie de cette variabilité (Franklin, 2009). Une alternative possible est la

transformation des variables corrélées au sein d’un indicateur composite ou en représentant plusieurs

variables corrélées par les coordonnées des occurrences sur les axes principales d’une ACP (Analyse en

Composantes Principales). Cependant, le prédicteur résultant et la manière dont il affecte la présence de

l’espèce peut être difficile à interpréter puisqu’il est détaché de sa signification écologique.

Enfin, l’écologie des espèces est parfois bien connue, mais identifier les variables qui décrivent la

relation entre ces espèces et leur environnement, aux différentes échelles, peut être complexe. De plus, les

processus environnementaux qui affectent la distribution des espèces agissent de manières différentes aux

différentes échelles spatiales (Pearson et Dawson, 2003). Les variables choisies, bien qu’écologiquement

pertinentes, pourraient n’avoir aucun effet sur la présence de l’espèce à la résolution considérée. D’autre

part, la distribution actuelle de l’espèce peut dépendre de facteurs historiques, biogéographiques ou de sa

capacité de dispersion, ou bien des interactions biotiques, plus que des déterminants environnementaux

(Guisan et Thuiller, 2005; Jimenez-Valverde et al., 2008). Cette étude présente des limites au regard des

35

variables utilisées et des couches environnementales traitées. En premier lieu, les variables d’occupation du

sol, en particulier celles de CLC2006, représentent une approximation écologique. Elles mesurent la densité

d’un certain type d’utilisation du sol à l’intérieur d’une maille 10x10 km (e.g. peu de forêt contre beaucoup

de forêt). Ce type de variable pourrait être discriminante pour certaines espèces. D’autres espèces pourraient

être affectées par d’autres caractéristiques environnementales : la fragmentation du paysage ou la

présence/absence d’un type de milieu, plutôt que sa quantité relative dans la maille. D’autres indicateurs,

comme l'hétérogénéité du milieu, pourraient être envisagés. Par exemple différentes espèces d’amphibiens

répondent de manière différente à l'hétérogénéité des surfaces humides : certaines préfèrent vivre dans des

milieux humides avec de nombreuses petites surfaces d’eau, alors que d’autres choisissent une seule grande

surface humide (de Massary, 2016, communication personnelle).

Les couches Corine Land Cover (CLC2006) et celles à haute résolution (CLCHR) sont relativement

récentes (2006 et 2012). Alors que le données climatiques couvrent à peu près tout l’écart temporel des

occurrences (1950-aujourd'hui), les données CLC2006 pourraient être trop récentes pour être testées.

L'incohérence temporelle entre les variables et les observations pourrait avoir faussé les résultats des

modèles. À certains endroits, le modèle est susceptible d’identifier une relation erronée entre l’espèce et son

environnement, puisque l’environnement n’est plus celui d’origine. Étant une étude préliminaire visant

surtout à développer une méthodologie de modélisation applicable aux données du SPN, le fait d'intégrer ces

couches a une finalité principalement exploratoire. De plus, les couches à haute résolution apportent une

information plus précise sur les milieux naturels et urbains qu’il est intéressant d’exploiter. Une solution

pourrait être, lorsque c’est possible, d'utiliser exclusivement les données d'occurrence les plus récentes. Dans

le cas où l'échantillon de mailles récentes est insuffisant ou biaisé, l’utilisation de couches CLC plus

anciennes pourrait être envisagée. Dans tous les cas, les variables d’occupation du sol, y compris les données

HR, ont rarement été sélectionnées parmi les variables finales. Il y a peu de probabilité qu’elles aient affecté

les modèles finaux.

7. Stratégie de génération des pseudo-absences

Nous avons confronté les métriques et les cartes de distribution de 5 espèces en appliquant pour

chacune deux approches différentes : génération de pseudo-absences (PAs) aléatoire partout dans la scène

(stratégie « RAN ») et sélection des variables par exclusion environnementale (stratégie « SRE »). Pour

Elona quimperiana, Muscardinus avellanarius, nous avons comparé les cartes de distribution issues de

modèles basés sur ces deux stratégies. Lorsque les PAs sont sélectionnées par exclusion environnementale,

les cartes de zones favorables (i.e. de distribution potentielle) estimées par les modèles tendent à être plus

optimistes (Barbet-Massin et al. 2012; Hanberry et al., 2012). Les évaluations de ces modèles (stratégie

« SRE ») pour cette étude sont globalement meilleures, à l’exception d’Elona quimperiana, pour laquelle les

36

deux cartes de prédiction sont presque identiques (Figure 10) et les métriques, pour la plupart, ne sont pas

significativement différentes. Au contraire, lorsque les PAs sont générées aléatoirement partout (stratégie

« RAN ») les prédictions sont beaucoup plus conservatives. Ce conservatisme est probablement dû à la

sélection d’un grand nombre d’absences proches des points de présences, et donc à une distance trop petite

dans l’espace géographique et des variables (Chefaoui et Lobo, 2008; Hanberry et al., 2012): les projections

montrent une forte probabilité de présence seulement dans ou près des mailles d’occurrence (Figure 10).

La métrique d’évaluation utilisée ici (TSS) est supposée être indépendante de la prévalence (i.e., la

proportion de sites occupés par l’espèce par rapport au nombre total de sites de la zone d’étude) (Allouche et

al., 2006), mais de récents travaux ont démontré au contraire une corrélation négative entre TSS et

prévalence (Leroy et al. soumis).. Cette corrélation négative pourrait expliquer les faibles valeurs de TSS

pour les espèces à large répartition et à forte prévalence (e.g. Muscardinus avellanarius). Il s’agit d’une

métrique adaptée pour évaluer des prédictions basées sur des présences/absences (Allouche et al., 2006) et

elle est aujourd’hui utilisée pour des modèles de présence/pseudo-absences. La stratégie « SRE » guide la

sélection de pseudo-absences en les séparant de manière nette des présences, ce qui pourrait générer des

artefacts au moment de l’évaluation (Leroy, 2016, communication personnelle; voir aussi Jarnevich et al.,

2015; Wisz et Guisan, 2009). Cela expliquerait les métriques plus élevées pour les modèles « SRE », sans

pour autant qu’il s'agisse des meilleurs modèles.

Barbet-Massin et al. (2012) ont montré que la stratégie et le nombre de pseudo-absences ont un

impact sur la qualité du modèle, mais les résultats sont aussi affectés par le nombre et la répartition de

données de présence initiales et par l’étendue de la zone d’étude. La distribution prédite pour une espèce

avec une grande aire de répartition (e.g. Muscardinus avellanarius) ne sera pas impactée de la même façon

qu’une espèce ayant une aire de répartition circonscrite (e.g. Elona quimperiana). En effet, les résultats pour

Elona quimperiana sont satisfaisants parce que son aire de répartition est restreinte et bien connue et que

toutes les occurrences sont dans cette aire. Pour cette raison, la stratégie « SRE » a la même capacité

prédictive que la stratégie « RAN » d’estimer les aires favorables à la présence de l’espèce sans problèmes

de sur- ou de sous prédiction.

Le choix entre les deux stratégies pourrait dépendre de l'objectif de la modélisation. Barbet-Massin et

al. (2012) suggèrent d’utiliser la stratégie « RAN » plutôt dans un cadre de planification de réserves

biologiques (i.e. minimiser le taux de vraies absences prédites comme présences). Des deux approches de

génération des pseudo-absences, pour Elona quimperiana, la meilleure stratégie à retenir est la « RAN », car

à parité de performance, il s’agit du modèle le plus parcimonieux (Wisz et Guisan, 2009). Pour les autres

espèces (Figure 9 ;Figure 11 ; Figure 12 ; voir aussi Annexes Figure A.1) le choix est plus complexe. La

stratégie « RAN » est conservatrice et estime bien les vraies présences, mais elles n’a pas de pouvoir

prédictif (aucune zone favorable n’est révélée par le modèle outre celles qui sont déjà connues). D’autre part

37

la stratégie « SRE » prédit des potentiels de présence importants dans de nouveaux sites, mais a tendance à

laisser certains points de présence avérés en dehors de l’enveloppe prédite (faux négatifs). Lobo et al. (2010)

distinguent trois types d’absences : les absences contingentes (i.e. causées par des raisons historiques,

l’extinction locale de l’espèce ou des barrières à la dispersion); les absences environnementales (i.e. causées

par des conditions climatiques et environnementales défavorables); et les absences méthodologiques (i.e. le

résultat des biais et de la pénurie de données d’inventaire). La méthode « SRE » elle-même est basée sur un

modèle de niche écologique basé exclusivement sur les présences et les variables environnementales. Elle

permet, comme d’autres méthodes de type « présences seules », de sélectionner les pseudo-absences en

laissant une ‘zone tampon’ autour des points d’occurrences dans l’espace géographique et dans l’espace des

variables (Hengl et al., 2009). Cette stratégie se limite à prendre les absences environnementales, ce qui peut

représenter une source d’erreur (i.e., fausses présences). De plus, elle a tendance à séparer de manière nette

les zones de présence et celles d’absence (Figure 9 ; voir aussi Annexes Figure A.1), plutôt que d’estimer

des probabilités continues. Cette approche peut, néanmoins, être utile pour la modélisation d’espèces rares,

pour lesquelles on cherche à connaître les zones de présence potentielle (ou zones climatiques favorables)

pour mettre en place des campagnes d’échantillonnage ciblées (Engler et al., 2004; Lobo et al., 2010). Les

absences contingentes sont, au contraire, nécessaires pour estimer la distribution géographique. Il est

cependant plus difficile de les identifier (Lobo et al., 2010) et de les simuler au travers de la génération de

pseudo-absences puisqu’on risque d’intégrer de fausses absences dans les pseudo-absences. L’approche

« SRE », avec le protocole et les paramètres utilisés, n’est pas encore optimisée pour estimer l’aire de

répartition d’espèces d’intérêt patrimonial avec les données d’occurrence de la base INPN. Les pseudo-

absences « RAN » pourraient aider à construire des aires de répartition plus proches de la réalité. De plus,

cette méthode est la plus parcimonieuse et s’est avérée être une bonne alternative à l’utilisation de vrais

absences (Wisz et Guisan, 2009). Cependant, dans les conditions actuelles, elle est insuffisante pour les

espèces à large et très large répartition telles que Rosalia alpina et Muscardinus avellanarius.

Différents études (Hanberry et al., 2012; Hertzog et al., 2014; Mateo et al., 2010) ont montré que

l’utilisation de stratégies de génération de pseudo-absences « corrigées » et adaptées augmente les capacités

prédictives du modèle. Ces stratégies sont souvent basées sur les présences d’un groupe cible (target group)

pour sélectionner les absences de l’espèce à modéliser (Phillips, 2009). Les pseudo-absences basées sur un

groupe cible (target group absences) sont des sites où les espèces du groupe ont été inventoriées (i.e. sites à

forte pression d’observation) mais où l’espèce à modéliser n’a pas été observée (Mateo et al., 2010; Phillips,

2009). Cette approche permettrait d’avoir plus de chance d’extraire des pseudo-absences dans des zones de

vraie absence, ainsi que de limiter l’effet du biais lié à la concentration d’occurrences dans les zones faciles

d’accès (routes, basse altitudes, universités et villes).

Enfin, une stratégie adaptée au cas-par-cas, viserait à sélectionner les zones où tirer les pseudo-

38

absences en se basant sur la connaissance des experts. Cette méthode, si elle est appliquée à un petit nombre

d’espèces relativement bien connues, pourrait aider à développer une stratégie appropriée et exploitable par

le SPN dans les futures projets de modélisation de niche.

8. Les données en entrée

La comparaison entre les cartes de répartition issues de deux jeux de données pour Myotis blythii

(base INPN et base EVAL) démontre l’impact de la qualité des données d’entrée sur les modèles.

Les données d’inventaire, bien que valides et codifiées, peuvent inclure des biais spatiaux, temporels,

taxonomiques et environnementaux (Leroy, 2012; Robertson et al., 2010). Il peut s’agir d’erreurs

d’identification ou de géolocalisation, ou bien, d’une pression d'échantillonnage plus forte dans les zones

plus faciles d’accès, telles que les routes, les rivières et les villes (Reddy et Dávalos, 2003). En outre,

certains taxons sont plus échantillonnés que d’autres. Par exemple, les espèces cryptiques, peu vagiles ou les

animaux fouisseurs peuvent être sous-représentés (Robertson et al., 2010). Les espèces rares ou endémiques

peuvent être sur-représentées puisqu’elles sont recherchées activement dans des endroits ciblés (Robertson et

al., 2010). Les espèces communes, au contraire, peuvent se retrouver sous-estimées dans les inventaires. De

la même façon, une espèce peut être bien répertoriée dans une certaine zone géographique où elle est plus

rare, et peu représentée dans une zone où elle est commune. C’est le cas de Cerambyx cerdo, un coléoptère

qui a été modélisé lors de cette étude et dont les résultats sont montrés en Annexes Figure A.2. Cette espèce

est mal représentée dans le sud de la France, où elle est commune, et bien répertoriée dans le nord où elle est

plus difficile à rencontrer. Ces biais sont généralement minimisés grâce aux systèmes de contrôle, de

validation et d’homogénéisation des données. Le rôle des experts dans l’identification et la minimisation de

ces erreurs est très important pour maintenir un bon compromis entre quantité et qualité de données.

Dans cette étude, le nombre et la localisation des mailles semble avoir un impact sur les modèles et

leur capacité prédictive : un nombre intermédiaire de mailles de présence, réparties de manière homogène et

intégralement comprises dans une aire de répartition restreinte (Elona quimperiana, 139 mailles) conduit à

une bonne prédiction de la distribution géographique de l’espèce; à l’opposé, pour un échantillon

intermédiaire (Rosalia alpina, 325 mailles) ou grand (Muscardinus avellanarius, 1463 mailles), avec des

lieux à plus forte prévalence et une large répartition géographique les modèles tendent à faire des prédictions

conservatrices ou erronées. Au contraire, un petit échantillon et une aire de répartition intermédiaire

(Maculinea teleius, 63 mailles) ont permis une bonne prédiction de l’aire de distribution potentielle.

Une approche efficace, pour les organismes à large répartition, consisterait à calibrer les modèles sur

une zone d’étude plus large (e.g. l’europe), et à projeter ensuite les probabilités prédites sur la France

(Jarnevich et al., 2015). Cela permettrait d’extraire toute l’enveloppe environnementale de l’espèce (Barbet-

Massin et al., 2010; Jarnevich et al., 2015; Pearson et al., 2004; Thuiller et al., 2004).

39

9. Perspectives et recommendations

L’information apportée par les modèles n’est jamais totalement « vraie ». Les résultats, même s’ils

sont issus d’un modèle consensus et caractérisés par de bonnes métriques, sont toujours à analyser avec

prudence et, idéalement, à soumettre à l’œil critique d’un expert du taxon considéré. Le passage par la

consultation d’experts, avant et après la réalisation des modèles, est une étape essentielle pour la

compréhension et l’analyse critique des modèles, ainsi que pour la réalisation de cartes utiles au rapportage.

Nous avons montré que les principales sources d’erreur dérivent de la qualité des données en entrée, du

choix des variables environnementales et de la stratégie de sélection des pseudo-absences. Cette étude a

montré, qu’à partir de données environnementales et de données de présence de maille 10x10 km et avec

l’application de modèles consensus, on peut réaliser des cartes assez précises montrant la distribution

géographique potentielle maille par maille sur tout le territoire national de la France métropolitaine. Cette

approche apporte une information complémentaire par rapport aux seules données d’occurrence ou aux

cartes de répartition par départements (ABDSM : Atlas de la Biodiversité Départementale et des Secteurs

Marins) et, malgré ses défauts, pourra aider le SPN dans ses obligations de rapportage, de diffusion

d’information et de connaissance et de support technico-scientifique pour les décideurs en conservation de la

nature.

Modéliser de nombreux groupes d’organismes rendait difficile la recherche de discriminants

écologiques précis et appropriés à chaque espèce ou taxon considéré. En revanche, limiter les variables au

climat et à l’occupation du sol a facilité l’automatisation des tâches et l’exploration des données et des

résultats préliminaires. Le protocole pourra être ensuite perfectionné ou réadapté en travaillant espèce par

espèce et en intégrant éventuellement d’autres déterminants écologiques. Notamment, l’intégration d’autres

variables environnementales telles que la densité de routes ou de cours d’eau, la pollution lumineuse, la

pédologie et la topographie, pourra être envisagée. Le modèle sur Maculinea teleius suggère que

l’intégration de variables d’interaction biotique est aussi intéressante à explorer. Élargir l’étendue de la zone

d’étude à l’Europe, voir au globe entier, permettra de modéliser avec plus de précision les espèces à large

répartition et surtout les espèces invasives, qui n’ont pas pu être modélisées lors de cette étude à cause du

manque de données validées hors de la France. Modéliser sur une zone d’étude plus grande permettra ainsi

de rendre la sélection des pseudo-absences plus efficace. Lorsque de vraies absences (i.e. sites où l’espèce

est avérée comme non présente) sont connues, elles pourront être assimilées dans les modèles, grâce à la

consultation d’experts naturalistes. Une analyse approfondie de l’incertitude permettra aussi d’affiner

l’évaluation des modèles et de leur applicabilité.

Cette mission a permis de jeter les bases pour l’exploitation des modèles de niche au sein du SPN et

notamment, d’explorer l’applicabilité de la modélisation à la grande quantité de données récoltées,

40

synthétisées et validées par le service. Ces méthodes vont continuer à être mises en œuvre dans les mois

suivants, dans le cadre d’une vacation visant à compléter le travail de catalogage et de traitement des

couches environnementales qui sera mis sous forme de base de données, ainsi que pour la réalisation d’un

pré-atlas des lépidoptères de France.

10. Conclusion

Les données de biodiversité recueillies et validées par les institutions publiques et parfois issues des

sciences participatives sont de plus en plus utilisées pour décrire les distributions géographiques et définir

des politiques de conservation pour les espèces d’intérêt patrimonial. Ces bases de données représentent une

source d’information importante sur la répartition de la biodiversité. De plus, la libéralisation d’images

satellites et des produits dérivés permet aujourd’hui l’accès à une grande quantité de données sur le climat, le

paysage et l’environnement, à haute résolution et sur de grandes étendues spatiales. Cette information, riche

mais incomplète, peut être complétée grâce à la modélisation de niche écologique. Les modèles de niche

permettent non seulement de prédire la distribution d’un organisme dans l’espace, d’estimer l’impact des

changements climatiques et le potentiel d’invasion d’une espèce, ils peuvent aussi enrichir notre

connaissance sur l’écologie et la biogéographie des espèces, suggérer des sites d’échantillonnage pour les

espèces rares ou de réintroduction pour celles en déclin et aider à la conception de réserves naturelles.

Il n’existe pas de méthodologie de modélisation unique et adaptée à toutes les conditions. Le choix

doit se faire au cas par cas, selon l’application envisagée, les caractéristiques de l’espèce et les données

disponibles. Les principales sources d’erreur dérivent de la qualité des données en entrée, du choix des

variables environnementales et de la stratégie de sélection des pseudo-absences. Malgré ses limites, la

modélisation reste un outil puissant, utile pour compléter l’information sur la distribution des espèces au

niveau national et pourra être exploité par le SPN pour ses missions d’expertise sur la biodiversité et la

conservation de la nature en France.

41

Références

Allouche, O., Tsoar, A., Kadmon, R., 2006. Assessing the accuracy of species distribution models:

Prevalence, kappa and the true skill statistic (TSS). J. Appl. Ecol. 43, 1223‑1232. doi:10.1111/j.1365-

2664.2006.01214.x

Araújo, M.B., Luoto, M., 2007. The importance of biotic interactions for modelling species distributions

under climate change. Glob. Ecol. Biogeogr. 16, 743‑753. doi:10.1111/j.1466-8238.2007.00359.x

Araújo, M.B., New, M., 2007. Ensemble forecasting of species distributions. Trends Ecol. Evol. 22, 42‑7.

doi:10.1016/j.tree.2006.09.010

Austin, M., 2007. Species distribution models and ecological theory: A critical assessment and some

possible new approaches. Ecol. Modell. 200, 1‑19. doi:10.1016/j.ecolmodel.2006.07.005

Austin, M.P., 2002. Spatial prediction of species distribution: An interface between ecological theory and

statistical modelling. Ecol. Modell. 157, 101‑118. doi:10.1016/S0304-3800(02)00205-3

Austin, M.P., Nicholls, A.O., Margules, C.R., 1990. Measurement of the Realized Qualitative Niche :

Environmental Niches of Five Eucalyptus Species. Ecol. Soc. Am. 60, 161‑177.

Barbet-Massin, M., Jiguet, F., Albert, C.H., Thuiller, W., 2012. Selecting pseudo-absences for species

distribution models: How, where and how many? Methods Ecol. Evol. 3, 327‑338. doi:10.1111/j.2041-

210X.2011.00172.x

Barbet-Massin, M., Thuiller, W., Jiguet, F., 2010. How much do we overestimate future local extinction

rates when restricting the range of occurrence data in climate suitability models? Ecography (Cop.). 33,

878‑886. doi:10.1111/j.1600-0587.2010.06181.x

Bellard, C., Leroy, B., Thuiller, W., Rysman, J.F., Courchamp, F., 2016. Major drivers of invasion risks

throughout the world. Ecosphere 7, 1‑14. doi:10.1002/ecs2.1241

Bensettiti, F., Gaudillat, V., Roué, S.Y., Barbier, B., Guilbot, R., Dupont, P., Dommanget, J.-L. (Coord. .,

2002. Cahiers d’habitats Natura 2000 - Tome 7 - Espèce animales. Cah. d’habitats Nat. 2000,

Conaissance Gest. des habitats des espèces d’interet Communaut. Tome 7, 353. doi:10.1016/S0372-

1248(62)80016-2

Breiman, L., 2001. Random forests. Mach. Learn. 45, 5‑32.

Cardoso, P., Erwin, T.L., Borges, P. a. V., New, T.R., 2011. The seven impediments in invertebrate

conservation and how to overcome them. Biol. Conserv. 144, 2647‑2655.

doi:10.1016/j.biocon.2011.07.024

Chefaoui, R.M., Lobo, J.M., 2008. Assessing the effects of pseudo-absences on predictive distribution model

42

performance. Ecol. Modell. 210, 478‑486. doi:10.1016/j.ecolmodel.2007.08.010

Elith, J., Ferrier, S., Huettmann, F., Leathwick, J., 2005. The evaluation strip: A new and robust method for

plotting predicted responses from species distribution models. Ecol. Modell. 186, 280‑289.

doi:10.1016/j.ecolmodel.2004.12.007

Elith, J., Graham, C., Anderson, R., Dudik, M., Ferrier, S., Guisan, A., Hijmans, R., Huettmann, F.,

Leathwick, J., Lehmann, A., Li, J., Lohmann, L., Loiselle, B., Manion, G., Moritz, C., Nakamura, M.,

Nakazawa, Y., Overton, J., Peterson, A., Phillips, S., Richardson, K., Scachetti-Pereira, R., Schapire,

R., Soberon, J., Williams, S., Wisz, M., Zimmermann, N., 2006. Novel methods improve prediction of

species’ distributions from occurrence data. Ecography (Cop.). 29, 129‑151. doi:10.1111/j.2006.0906-

7590.04596.x

Elith, J., Leathwick, J.R., 2009. Species Distribution Models: Ecological Explanation and Prediction Across

Space and Time. Annu Rev Ecol Syst 40, 415‑436. doi:10.1146/annurev.ecolsys.l

Elith, J., Phillips, S.J., Hastie, T., Dudík, M., Chee, Y.E., Yates, C.J., 2011. A statistical explanation of

MaxEnt for ecologists. Divers. Distrib. 17, 43‑57. doi:10.1111/j.1472-4642.2010.00725.x

Elmes, G.W., Thomas, J.A., Wardlaw, J.C., Hochberg, M.E., Clarke, R.T., Simcox, D.J., 1998. The ecology

of Myrmica ants in relation to the conservation of Maculinea butterflies. J. Insect Conserv. 2, 67‑78.

doi:10.1023/A:1009696823965

Engler, R., Guisan, A., Rechsteiner, L., 2004. An improved approach for predicting the distribution of rare

and endangered species from occurrence and pseudo-absence data. J. Appl. Ecol. 41, 263 –274.

doi:10.1111/j.0021-8901.2004.00881.x

European Environment Agency, 2007. CLC2006 technical guidelines, EEA Technical report.

doi:10.2800/12134

Eychenne, G., 2015. Première observation de Rosalia alpina (L., 1758) en Basse-Normandie (Coleoptera,

Cerambycidae), par G. Eychenne, Invertébrés Armoricains, les Cahiers du GRETIA, n°12

Ferrier, S., 2002. Mapping Spatial Pattern in Biodiversity for Regional Conservation Planning: Where to

from Here? Syst. Biol 51, 331‑363. doi:10.1080/10635150252899806

Fox, J., Weisberg, S., 2010. An R companion to applied regression. Sage.

Franklin, J., 2009. Mapping Species Distributions; Spatial Inference and Prediction, Cambridge University

Press. Cambridge University Press, Cambridge, UK. doi:10.1017/CBO9781107415324.004

Friedman, J.H., 1991. Multivariate adaptive regression splines. Ann. Stat. 1‑67.

Guisan, A., Thuiller, W., 2005. Predicting species distribution: Offering more than simple habitat models.

Ecol. Lett. 8, 993‑1009. doi:10.1111/j.1461-0248.2005.00792.x

Guisan, A., Zimmermann, N.E., 2000. Predictive habitat distribution models in ecology. Ecol. Modell. 135,

43

147‑186. doi:10.1016/S0304-3800(00)00354-9

Hanberry, B.B., He, H.S., Palik, B.J., 2012. Pseudoabsence Generation Strategies for Species Distribution

Models. PLoS One 7. doi:10.1371/journal.pone.0044486

Hastie, T., Tibshirani, R., 1987. Generalized additive models: some applications. J. Am. Stat. Assoc. 82,

371‑386.

Hengl, T., Sierdsema, H., Radović, A., Dilo, A., 2009. Spatial prediction of species’ distributions from

occurrence-only records: combining point pattern analysis, ENFA and regression-kriging. Ecol. Modell.

220, 3499‑3511. doi:10.1016/j.ecolmodel.2009.06.038

Hertzog, L.R., Besnard, A., Jay-Robert, P., 2014. Field validation shows bias-corrected pseudo-absence

selection is the best method for predictive species-distribution modelling. Divers. Distrib. 20,

1403‑1413. doi:10.1111/ddi.12249

Hijmans, R., Sumner, M., Macqueen, D., Lemon, J., Brien, J.O., 2016. Package ‘ sp ’.

Hijmans, R.J., Cameron, S.E., Parra, J.L., Jones, P.G., Jarvis, A., 2005. Very high resolution interpolated

climate surfaces for global land areas. Int. J. Climatol. 25, 1965‑1978. doi:10.1002/joc.1276

Hijmans, R.J., Phillips, S., Leathwick, J.R., Elith, J., 2011. Package ‘ dismo ’. October 55.

doi:10.1016/j.jhydrol.2011.07.022.

Hijmans, R.J., van Etten, J., 2014. raster: Geographic data analysis and modeling. R Packag. version 2, 15.

Hutchinson, G.E., 1957. The multivariate niche, in: Cold Spr. Harb. Symp. Quant. Biol. p. 415‑421.

Jarnevich, C.S., Stohlgren, T.J., Kumar, S., Morisette, J.T., Holcombe, T.R., 2015. Caveats for correlative

species distribution modeling. Ecol. Inform. 29, 6‑15. doi:10.1016/j.ecoinf.2015.06.007

Jimenez-Valverde, A., Gomez, J.F., Lobo, J.M., Baselga, A., Hortal, J., 2008. Challenging species

distribution models: the case of Maculinea nausithous in the Iberian Peninsula. Ann. Zool. Fennici 45,

200‑210. doi:10.5735/086.045.0305

Leathwick, J.R., Austin, M.P., 2001. Competitive Interactions between Tree Species in New Zealand’s Old-

Growth Indigenous Forests. Ecology 82, 2560‑2573. doi:10.2307/2679936

Leroy, B., 2012. Utilisation des bases de données biodiversité pour la conservation des taxons d’invertébrés :

indices de rareté des assemblages d’espèces et modèles de prédiction de répartition d’espèces

(phdthesis). Paris, Mus{é}um national d’histoire naturelle.

Leroy, B., Bellard, C., Dubos, N., Colliot, A., Vasseur, M., Courtial, C., Bakkenes, M., Canard, A., Ysnel,

F., 2014. Forecasted climate and land use changes, and protected areas: The contrasting case of spiders.

Divers. Distrib. 20, 686‑697. doi:10.1111/ddi.12191

Leroy, B., Meynard, C.N., Bellard, C., Courchamp, F., 2016. virtualspecies, an R package to generate virtual

44

species distributions. Ecography (Cop.). 599–607. doi:10.1111/ecog.01388

Leroy, B., Paschetta, M., Canard, A., Bakkenes, M., Isaia, M., Ysnel, F., 2013. First assessment of effects of

global change on threatened spiders: Potential impacts on Dolomedes plantarius (Clerck) and its

conservation plans. Biol. Conserv. 161, 155‑163. doi:10.1016/j.biocon.2013.03.022

Lobo, J.M., Jiménez-Valverde, A., Hortal, J., 2010. The uncertain nature of absences and their importance in

species distribution modelling. Ecography (Cop.). 33, 103‑114. doi:10.1111/j.1600-0587.2009.06039.x

Mac Nally, R., 2000. Regression and model-building in conservation biology, biogeography and ecology:

The distinction between – and reconciliation of – ‘predictive’ and ‘explanatory’ models. Biodivers.

Conserv. 655‑671. doi:10.1023/A:1008985925162

Mackenzie, D.I., Royle, J.A., 2005. Designing occupancy studies: General advice and allocating survey

effort. J. Appl. Ecol. 42, 1105‑1114. doi:10.1111/j.1365-2664.2005.01098.x

Mateo, R.G., Croat, T.B., Felicísimo, Á.M., Muñoz, J., 2010. Profile or group discriminative techniques?

Generating reliable species distribution models using pseudo-absences and target-group absences from

natural history collections. Divers. Distrib. 16, 84‑94. doi:10.1111/j.1472-4642.2009.00617.x

McCullagh, P., Nelder, J.A., 1989. Generalized linear models. CRC press.

Milbau, A., Stout, J.C., Graae, B.J., Nijs, I., 2009. A hierarchical framework for integrating invasibility

experiments incorporating different factors and spatial scales. Biol. Invasions 11, 941‑950.

doi:10.1007/s10530-008-9306-2

Pearson, R.G., Dawson, T.P., 2003. Predicting the impacts of climate change on the distribution of species:

Are bioclimate envelope models useful? Glob. Ecol. Biogeogr. 12, 361‑371. doi:10.1046/j.1466-

822X.2003.00042.x

Pearson, R.G., Dawson, T.P., Liu, C., 2004. Modelling species distributions in Britain: a hierarchical

integration of climate and land-cover data. Ecography (Cop.). 27, 285‑298. doi:10.1111/j.0906-

7590.2004.03740.x

Pearson, R.G., Thuiller, W., Ara??jo, M.B., Martinez-Meyer, E., Brotons, L., McClean, C., Miles, L.,

Segurado, P., Dawson, T.P., Lees, D.C., 2006. Model-based uncertainty in species range prediction. J.

Biogeogr. 33, 1704‑1711. doi:10.1111/j.1365-2699.2006.01460.x

Peterson, A.T., 2003. Predicting the Geography of Species’ Invasions via Ecological Niche Modeling. Q.

Rev. Biol. 78, 419‑433. doi:10.1086/378926

Phillips, S.B., Anderson, R.P., Schapire, R.E., 2006. Maximum entropy modeling of species geographic

distributions. Ecol. Modell. 190, 231‑259. doi:10.1016/j.ecolmodel.2005.03.026

Phillips, S.J., 2009. Sample selection bias and presence-only distribution models : implications for

45

background and pseudo-absence data 19, 181‑197. doi:10.1890/07-2153.1

Pulliam, H.R., 2000. On the relationship between niche and distribution. Ecol. Lett.

R Core Developement Team, 2016. R: A language and environment for statistical computing. R Found. Stat.

Comput. Vienna, Austria.

Reddy, S., Dávalos, L.M., 2003. Geographical sampling bias and its implications for conservation priorities

in Africa. J. Biogeogr. 30, 1719‑1727. doi:10.1046/j.1365-2699.2003.00946.x

Ridgeway, G., 1999. The state of boosting. Comput. Sci. Stat. 172‑181.

Robertson, M.P., Cumming, G.S., Erasmus, B.F.N., 2010. Getting the most out of atlas data. Divers. Distrib.

16, 363‑375. doi:10.1111/j.1472-4642.2010.00639.x

Roger, A., Keitt, T., Rowlingson, B., Sumner, M., Hijmans, R., Rouault, E., 2016. Package ‘ rgdal ’.

Soberon, J., Peterson, T.A., 2005. Interpretation of Models of Fundamental Ecological Niches and Species ’

Distributional Areas. Biodivers. Informatics 2, 1‑10. doi:10.1093/wber/lhm022

Thuiller, W., 2004. Patterns and uncertainties of species’ range shifts under climate change. Glob. Chang.

Biol. 10, 2020‑2027.

Thuiller, W., 2003. BIOMOD: Optimising predictions of species distributions and projecting potential future

shift under global change. Glob. Chang. Biol. 9, 1353–1362.

Thuiller, W., Brotons, L., Araújo, M.B., Lavorel, S., 2004. Effects of restricting environmental range of data

to project current\rand future species distributions. Ecography (Cop.). 165‑172.

Thuiller, W., Georges, D., Engler, R., Breiner, F., 2016. Package ‘biomod2’ Version 3.3-7. Ensemble

Platform for Species Distribution Modeling.

Thuiller, W., Lafourcade, B., Engler, R., Araújo, M.B., 2009. BIOMOD - A platform for ensemble

forecasting of species distributions. Ecography (Cop.). 32, 369‑373. doi:10.1111/j.1600-

0587.2008.05742.x

Touroult, J., Jolivet, S., 2012. Connaître pour préserver : L’atlas de répartition. Insectes 166, 23‑25.

Vialatte, A., Guiller, A., Bellido, A., Madec, L., 2008. Phylogeography and historical demography of the

Lusitanian snail Elona quimperiana reveal survival in unexpected separate glacial refugia. BMC Evol.

Biol. 8, 339. doi:10.1186/1471-2148-8-339

Wickham, H., 2009. ggplot2: elegant graphics for data analysis. Springer Science & Business Media.

Wisz, M.S., Guisan, A., 2009. Do pseudo-absence selection strategies influence species distribution models

and their predictions? An information-theoretic approach based on simulated data. BMC Ecol 9, 8.

doi:10.1186/1472-6785-9-8

46

Crédits photos, dans l’ordre : J.C. Tempier (http://www.tempier-nature.com); B. Fontaine, O. Gargominy,

D.Morel, J. Touroult, L. Arthur, J. Touroult, (https://inpn.mnhn.fr)

http://www.tempier-nature.com/

https://inpn.mnhn.fr/

47

Annexes

Figure A.1 Cartes consensus des modèles « SRE » pour Maculinea teleius, Rosalia alpina et les deux jeux de données de Myotis

blythii.

48

Figure A.2 Carte consensus des modèles « RAN » et « SRE » et données de présence pour l’espèce Cerambyx cerdo. Les points

bleus sont les centroïdes des mailles de présence.

49

Figure A.3 Cartes consensus issues des

modèles « RAN » (à droite) et « SRE » (à

gauche) pour les espèces de la DHFF non

présentées dans ce rapport. Du haut en bas :

Anisus vorticulus (Troschel, 1834),

Circaetus gallicus (Gmelin, 1788),

Euphydryas aurinia (Rottemburg, 1775),

Gomphus graslinii (Rambur, 1842), Lynx

lynx (Linnaeus, 1758). Les modèles

« RAN » pour les espèces à plus large

répartition et/ou dont la qualité des données

est moins bonne, tendent à être plus

conservatifs que les modèles « SRE ».

50

Figure A.4 Cartes consensus issues des

modèles « RAN » (à droite) et « SRE »

(à gauche) pour les espèces de la DHFF

non présentées dans ce rapport. Du

haut en bas : Maculinea

nausithous (Bergsträsser, 1779), Myotis

capaccinii (Bonaparte, 1837), Picus

canus (Gmelin, 1788), Rhinolophus

euryale (Blasius, 1853), Vertigo

angustior (Jeffreys, 1830). Les

modèles « RAN » pour les espèces à

plus large répartition et/ou dont la

qualité des données est moins bonne,

tendent à être plus conservatifs que les

modèles « SRE ».

51

Figure A.5 Schéma du protocole de modélisation appliqué dans cette étude. Pour chaque espèce, les données de présence sont

tirées aléatoirement à 4 relances (R) : 70% des présences sont utilisées pour la calibration, 30% gardées de côté pour l’évaluation.

Chacune de ces itérations est combinée à 5 jeux de pseudo-absences et 6 méthodes de modélisation sont testées sur chaque

combinaison pour un total de 120 calibrations individuelles. Ce protocole est appliqué avec deux méthodes de génération de

pseudo-absences, « RAN » et « SRE ».

52

Figure A.6 Corrélation entre variables, calculée grâce à une classification hiérarchique avec une métrique de distance basée sur le

coefficient de corrélation de Pearson (seuil = 0.70). Chaque groupe de variables colinéaires est testé dans un modèle pour

sélectionner et garder la variable la plus importante parmi celles du groupe.

53

Résumé

L’évaluation de l’état de la biodiversité pour l’élaboration de

politiques de conservation appropriées nécessite de connaître la distribution

géographique des espèces. Depuis les années 70 les données sur la

biodiversité sont de plus en plus abondantes grâce à la mise en place de

programmes nationaux d’inventaire et de sciences participatives. Les

inventaires nationaux représentent une source d’information importante sur la

répartition de la biodiversité. Cependant, cette information reste souvent

incomplète. Combinée aux outils des SIG, la modélisation de la distribution

géographique d’espèces peut aider à combler ces lacunes.

Les modèles de niche permettent aussi de prédire l’impact des

changements climatiques sur la biodiversité, de mieux connaitre l’écologie et

la biogéographie des espèces, de suggérer des sites pour la recherche

d’espèces rares ou pour la conception de réserves naturelles. Cette étude a

permis de démontrer l’applicabilité des modèles de niche aux données

d’inventaire gérées par le SPN. Les espèces traitées, figurant dans la DHFF

Natura 2000, sont des espèces d’intérêt patrimonial et communautaire, dont la

connaissance est lacunaire. Certaines espèces ont pu être modélisées de

manière cohérente, d’autres moins. La responsabilité de ces différences peut

être attribuée d’une part au profil des données de présence, d’autre part aux

caractéristiques écologiques distinctes des espèces. À partir de ce travail, nous

pouvons élaborer des recommandations préliminaires pour l’application des

modèles de prédiction de répartition aux données du SPN.

valentina cima - patrinat.mnhn.frpatrinat.mnhn.fr/.../rapportstagemodelisation_cima_2016.pdf · - i...

Documents