valentina cima - patrinat.mnhn.frpatrinat.mnhn.fr/.../rapportstagemodelisation_cima_2016.pdf · - i...
TRANSCRIPT
- i - - i -
Service du Patrimoine Naturel
Rapport de stage M2 Master TGAE
Septembre 2016
Valentina CIMA
Direction de la Recherche, de l’Expertise et de la Valorisation
Direction Déléguée au Développement Durable, à la Conservation de la Nature et à l’Expertise
Modélisation de la distribution géographique d’espèces
d’intérêt patrimonial
ii
Le Service du Patrimoine Naturel (SPN)
Inventorier - Gérer - Analyser - Diffuser
Au sein de la direction de la recherche, de l’expertise et de la valorisation (DIREV), le Service du Patrimoine Naturel développe la mission d'expertise confiée au Muséum national d'Histoire naturelle pour la connaissance et la conservation de la nature. Il a vocation à couvrir l'ensemble de la thématique biodiversité (faune/flore/habitat) et géodiversité au niveau français (terrestre, marine, métropolitaine et ultra-marine). Il est chargé de la mutualisation et de l'optimisation de la collecte, de la synthèse et de la diffusion d'informations sur le patrimoine naturel.
Placé à l'interface entre la recherche scientifique et les décideurs, il travaille de façon partenariale avec l'ensemble des acteurs de la biodiversité afin de pouvoir répondre à sa mission de coordination scientifique de l’Inventaire National du Patrimoine Naturel (code de l'environnement : L411-5).
Un objectif : contribuer à la conservation de la Nature en mettant les meilleures connaissances à disposition et en développant l'expertise.
En savoir plus : http://www.spn.mnhn.fr
Directeur : Jean-Philippe SIBLET Adjoint au directeur en charge des programmes de connaissance : Laurent PONCET Adjoint au directeur en charge des programmes de conservation : Julien TOUROULT
Porté par le SPN, cet inventaire est l'aboutissement d'une démarche qui associe scientifiques, collectivités territoriales, naturalistes et associations de protection de la nature en vue d'établir une synthèse sur le patrimoine naturel en France. Les données fournies par les partenaires sont organisées, gérées, validées et diffusées par le MNHN. Ce système est un dispositif clé du SINP et de l'Observatoire National de la Biodiversité.
Afin de gérer cette importante source d'informations, le Muséum a construit une base de données permettant d'unifier les données à l’aide de référentiels taxonomiques, géographiques et administratifs. Il est ainsi possible d'accéder à des listes d'espèces par commune, par espace protégé ou par maille de 10x10 km. Grâce à ces systèmes de référence, il est possible de produire des synthèses quelle que soit la source d'information.
Ce système d'information permet de mutualiser au niveau national ce qui était jusqu'à présent éparpillé à la fois en métropole comme en outre-mer et aussi bien pour la partie terrestre que pour la partie marine. C’est une contribution majeure pour la connaissance, l'expertise et l'élaboration de stratégies de conservation efficaces du patrimoine naturel.
En savoir plus : http://inpn.mnhn.fr
iii
Stage M2 TGAE - Télédétection et Géomatique appliquées à l’Environnement Paris 7 Diderot – Paris 6 Pierre et Marie Curie Auteur : Valentina Cima Relecture : Isabelle Witté, Boris Leroy Responsables : Isabelle Witté, Julien Touroult
iv
Remerciements
Je tiens à̀ remercier toutes les personnes qui m’ont permis de réaliser ce stage.
En premier lieu, je remercie le SPN pour m’avoir donné́ l’opportunité́ d’entreprendre ce projet
enthousiasmant.
Je remercie Julien Touroult de m’avoir accueillie au sein du SPN.
Ce stage ne serait rien sans l’aide incroyable et la passion d’Isabelle Witté, merci pour l’écoute, les
enseignements, les riches échanges en modélisation et en Ecologie, l’accueil chaleureux et les conseils
précieux. Mais aussi pour sa disponibilité́, pour les repas en compagnie, l’encouragement et pour avoir
corrigé mon rapport.
Je remercie chaleureusement Boris Leroy. Merci pour tous ses conseils avisés, pour m’avoir transmis sa
connaissance en modélisation, pour avoir corrigé mon rapport et pour son aide technique inestimable
Merci à tous les agents SPN, les experts que j’ai pu consulter et les autres pour les pauses cafés, les superbes
gâteaux et les conversations.
Je remercie vivement le travail de tous ces agents, qui permet aussi d'alimenter la grande base de données
INPN. Ce travail a été possible grâce à la quantité et la qualité de ces données d'inventaire
Je tiens à remercier Pascal Dupont, Lilian Leonard, Jacques Comolet, Patrick Haffner, Jean-Christophe de
Massary, Arnaud Horellou, Geneviève Barnaud, Jessica Thevenot et Paul Rouveyrol du SPN, Quentin
Rome, Renaud Puissauve et Jean-Louis Chapuis du MNHN pour la disponibilité, l’aide et les riches
échanges sur l’écologie et la biogéographie des espèces.
De même un grand merci à Guillaume Grech pour tous les conseils techniques.
Je remercie Jean-Marc Allart pour accourir à chaque souci informatique.
Merci également à tous ceux qu’ont aimablement répondu à mes questions par mail.
Je tiens à remercier encore Isabelle et Lilian pour les inoubliables conversations sur quel goût aurait la
viande humaine. La question reste toujours ouverte…
Enfin, je remercie Matt pour la patience, l’amour inconditionnel et le soutien, ce que j’ai réalisé cette année
je le dois aussi à lui. Et merci à mes parents pour être toujours à mes côtés.
v
Glossaire
CLC : Corine Land Cover
DHFF : Directive « Habitat-Faune-Flore »
EVAL : Evaluation de l'état de conservation à l'échelle des régions biogéographiques (DHFF article 17)
GAM : Modèle Additif Généralisé
GBIF : Système Mondial d’Information sur la Biodiversité
GBM : Boosting d’Arbres de Décision
GLM : Modèle Linéaire Généralisé
HR : Haute Résolution
INPN : Inventaire National du Patrimoine Naturel
MARS : Modèle de Régression Multivariée par Spline Adaptative
MAXENT : Entropie Maximale
MNHN : Muséum National d’Histoire Naturelle
OS : Occupation du Sol
PAs : pseudo - absences
RAN : stratégie de génération de pseudo-absences aléatoire
RF : Forêt d'Arbres Décisionnels
SDM : Modèle de Distribution d’Espèce
SIG : Systèmes d’Information Géographique
SPN : Service National du Patrimoine Naturel
SRE : Stratégie de génération de pseudo-absences à exclusion environnementale
TSS : « True Skill Statistic »
1
Table des matières I. Introduction ................................................................................................................................................ 2
II. Matériels et Méthodes ................................................................................................................................ 5
1. Préparation des données .......................................................................................................................... 5
1. La grille 10x10 km .......................................................................................................................... 5
2. Base de données INPN .................................................................................................................... 5
3. Autres données ................................................................................................................................ 6
4. Catalogue de couches environnementales ....................................................................................... 7
5. Traitement des couches ................................................................................................................... 8
6. Homogénéisation des données....................................................................................................... 15
2. Modélisation ......................................................................................................................................... 15
1. Calibrations et génération de pseudo-absences ............................................................................. 16
2. Modèle d’ensemble ........................................................................................................................ 16
3. Courbes de réponse ........................................................................................................................ 17
4. Sélection des variables ................................................................................................................... 17
5. Logiciels ........................................................................................................................................ 18
III. Résultats ................................................................................................................................................ 18
3. Sélection des modèles ........................................................................................................................... 18
1. Sélection des variables ................................................................................................................... 18
2. Évaluation des modèles ................................................................................................................. 19
4. Analyse des répartitions modélisées ..................................................................................................... 22
1. Courbes de réponse ........................................................................................................................ 22
2. Cartes des projections géographiques............................................................................................ 22
IV. Discussion ............................................................................................................................................. 30
5. Les distributions géographiques ........................................................................................................... 30
6. Sélection des variables .......................................................................................................................... 33
7. Stratégie de génération des pseudo-absences ....................................................................................... 35
8. Les données en entrée ........................................................................................................................... 38
9. Perspectives et recommendations ......................................................................................................... 39
10. Conclusion ......................................................................................................................................... 40
Références ........................................................................................................................................................ 41
Annexes............................................................................................................................................................ 47
2
I. INTRODUCTION
L’évaluation de l’état de la biodiversité et des écosystèmes pour l’élaboration de politiques de
conservation appropriées nécessite de connaître la distribution géographique des espèces (Ferrier, 2002).
Décrire la distribution géographique de la biodiversité repose sur la compréhension des relations entre les
espèces et leur environnement (Guisan et Thuiller, 2005). Depuis les années 70 les données sur la
biodiversité sont de plus en plus abondantes (Witté, 2016, communication personnelle), grâce à la mise en
place de programmes nationaux d’inventaire et de sciences participatives. D’autre part, les développements
en informatique ont permis de mettre en œuvre des techniques pour modéliser la distribution des espèces.
Les structures telles que le Museum National d’Histoire Naturel (MNHN) et au sein du MNHN, le Service
du Patrimoine Naturel (SPN) sont chargées en France de fournir un appui scientifique pour la collecte et la
synthèse d’une grande quantité de données sur la distribution de la biodiversité. Ces données, récoltées par
un ensemble de partenaires, spécialistes de la nature, sont validées par des experts et versées à l’Inventaire
National du Patrimoine Naturel (INPN) (Touroult et Jolivet, 2012). Les données sont organisées à l’aide de
référentiels taxonomiques, géographiques et administratifs et diffusées sur le site https://inpn.mnhn.fr. Ce
système d’information permet de réunir l’information sur la biodiversité marine et terrestre au niveau
national (France métropolitaine et outre-mer) et a pour objectif de contribuer à la connaissance, aux
rapportages nationaux et internationaux et à la mise en place de stratégies de conservation de la nature.
Les inventaires nationaux représentent une source d’information importante sur la distribution
géographique des espèces. Cependant, cette information reste souvent incomplète. D’une part, certains
taxons, surtout chez les invertébrés, sont sous-représentés par rapport à d’autres (Cardoso et al., 2011).
D’autre part, les données d’inventaire peuvent présenter des biais spatiaux, temporels, ou bien taxonomiques
et environnementaux (Leroy, 2012; Robertson et al., 2010). Dans ce cadre, la modélisation statistique peut
représenter un instrument efficace pour combler les lacunes des inventaires.
Les modèles de distribution géographique (en anglais SDM : Species Distribution Modeling) sont des
modèles empiriques corrélatifs (Guisan et Zimmermann, 2000) utiles à décrire la relation entre la présence
de l’espèce (i.e. la variable réponse) et les facteurs environnementaux influençant la physiologie, et donc la
géographie de l’espèce (i.e. les variables explicatives). A partir des données d’occurrence et d’une série de
variables environnementales, les modèles cherchent à prédire la probabilité de présence de l’espèce dans
l’espace ou dans le temps, lorsque des variables de scénarios futures sont disponibles. Les variables
environnementales nécessaires à la modélisation peuvent être trouvées parmi la grande quantité d’images
3
satellites et de tous les produits dérivés. Ces produits permettent l’accès libre à une autre grande source
d’information sur le climat, le paysage et l’environnement, y compris sur les futures scénarios climatiques.
Combinée aux outils des Systèmes d’Information Géographique (SIG), la modélisation peut être utilisée
pour estimer les distributions géographiques des espèces et prédire leur évolution.
Les modèles de distribution d’espèce ont plusieurs applications, résumées et cataloguées par Guisan
et Thuiller, (2005). Les plus fréquentes comprennent l’estimation de la niche écologique des espèces (Austin
et al., 1990), l’évaluation de l’impact d’invasions biologiques (Peterson, 2003) ou de changements
environnementaux (Thuiller, 2004), la suggestion de nouvelles zones d’échantillonnage pour les espèces
rares (Engler et al., 2004) ou pour la planification de réserves biologiques (Ferrier, 2002). Les étapes
principales de la modélisation sont : la conceptualisation (e.g. quelle espèces? quelle stratégie?), la
préparation des données (occurrences, variables et traitements), la calibration des modèles, l’évaluation des
modèles (ont-ils correctement prédit la présence/absence de l’espèce?), les prédictions spatiales et
l’estimation de l’applicabilité du modèle (Guisan et Thuiller, 2005)
Les modèles de distribution géographique ne cherchent pas à décrire un processus réaliste de “cause-
effet” entre les variables prédictives et la présence de l’espèce (Guisan et Zimmermann, 2000). Ils sont
plutôt une description approximative de la niche écologique d’une espèce dans l’espace des variables
analysées (Phillips et al., 2006). La niche a été décrite par Hutchinson, 1957 comme un hypervolume à
l’intérieur duquel une espèce peut survivre et se reproduire et dont les dimensions représentent les facteurs
environnementaux discriminants. Ces facteurs peuvent être indirects ou directs (Austin, 2002) et peuvent
influencer la distribution spatiale des espèces à trois niveaux : (1) les facteurs limitants, qui contrôlent
l’écophysiologie de l’espèce, (2) les perturbations (naturelles ou artificielles, par exemple les pressions
anthropiques), (3) les ressources (nourriture, eau) (Guisan et Thuiller, 2005). La niche de Hutchinson est
représentée comme une grande enveloppe, la niche fondamentale (définie par l'ensemble de conditions
favorables pour l’espèce), et un sous-ensemble, la niche réalisée, qui représente l’espace des valeurs de
variables réellement occupé par l’espèce. Les interactions biotiques telles que la compétition, la pression
humaine et les barrières à la dispersion empêchent généralement l’espèce d’occuper toute sa niche
potentielle (Pulliam, 2000). La distribution dans l’espace géographique peut être donc considérée comme
une représentation de la niche réalisée de l’espèce et le modèle, une approximation de cette niche réalisée
(Phillips et al., 2006). D’autre part, selon une autre approche conceptuelle, les modèles sont susceptibles
d’estimer la niche fondamentale de l’espèce, parce qu’ils n'intègrent pas l’information sur les contraintes
biotiques et les barrières géographiques (Soberon & Peterson, 2005). Néanmoins, les données de présence
disponibles capturent seulement l’information sur les endroits réellement occupés par l’espèce, et donc sa
niche réalisée. Dans tous les cas, puisque les modèles sont censés être des approximations de la réalité, il est
toujours préférable de parler de “distribution potentielle”.
4
Dans la plupart des modèles de niche la variable réponse acceptée est une variable binaire (présence-
absence). L’information sur l’absence d’une espèce est généralement plus incomplète que celle sur sa
présence : les zones de non-présence indiquent les endroits où l’espèce n’a pas été observée, mais
n’indiquent pas que l’espèce est réellement absente de ces endroits. Obtenir des absences confirmées
demanderait un très grand effort d’échantillonnage (Mackenzie et Royle, 2005). Pour cette raison, certains
modèles de niche utilisent les seules présences. Cependant, les modèles de présence-absence sont beaucoup
plus nombreux et semblent être les plus performants (Elith et al., 2006). Une alternative valide bien que non
équivalente à l’utilisation de vraies absences consiste à simuler artificiellement l’absence de l’espèce avec de
pseudo-absences (Chefaoui et Lobo, 2008). Les modèles basés sur les pseudo-absences, bien que robustes,
présentent toujours des limites (Wisz et Guisan, 2009). De plus, des études récentes ont démontré que
différentes techniques de modélisation peuvent conduire à des résultats très divergents (Araújo et New,
2007; Pearson et al., 2006) sans impliquer pour autant qu’un modèle ne soit plus vrai qu’un autre. Cela
dérive plutôt du fait que les modèles corrélatifs sont sensibles aux données disponibles et aux fonctions
mathématiques utilisées (Araújo et New, 2007). Pour remédier à ce problème méthodologique, la dernière
génération de modèles de niche se base sur le concept de “modèle d’ensemble”, couramment utilisé dans les
domaines de la physique. Un modèle d’ensemble consiste à combiner les prédictions de plusieurs prévisions
qui sont générées en utilisant différentes paramétrisations, différentes conditions initiales et/ou différentes
fonctions mathématiques (Araújo et New, 2007). Cette approche permet de choisir la tendance moyenne de
toutes les projections individuelles au lieu de ne prendre que le "meilleur” modèle (Araújo et New, 2007).
Le travail présenté ici s’inscrit dans ce contexte et vise à explorer l’applicabilité des modèles de niche
aux données de l’INPN. Nous avons traitées 17 espèces d'intérêt patrimonial et communautaire figurant dans
la Directive “Habitat-Flore-Faune” de Natura 2000. Cinq sur les 17 espèces modélisées ont été retenues pour
la présentation des résultats les plus significatifs. Ces espèces ont été sélectionnées parce qu’elles sont
représentatives de différents taxons, quantité et qualité de données de présence en entrée et type de
répartition.
Cette mission consistait en quatre objectifs fondamentaux: (1) faire une révision de techniques de
modélisation existantes et déterminer les plus appropriées et efficaces pour la description de la distribution
géographique d’espèces méconnues d'intérêt communautaire; (2) réaliser un catalogue des couches
environnementales disponibles et utiles à la modélisation de niche écologique (3) définir une liste d’espèces
de priorité élevée, à l’aide d’experts naturalistes, pour l’intégration dans les modèles (4) mettre en œuvre les
méthodes de modélisation adaptées. À partir de ce travail, nous avons élaboré des recommandations
préliminaires pour appliquer les modèles de prédiction de répartition aux données du SPN.
5
II. MATERIELS ET METHODES
1. Préparation des données
1. La grille 10x10 km
Le SPN a adopté une grille standard de référence nationale pour la représentation cartographique des
données d’inventaire. Cette grille est définie sur le système de projection Lambert-93 et sert à synthétiser et
harmoniser les données récoltées avec des méthodologies différentes, et des origines ou des résolutions
spatiales diverses. Les données sont associées à des mailles de 10x10 km et sont validées par les experts
pendant ce processus de synthèse. Les principales caractéristiques de la grille sont les suivantes :
Nom de la couche L93_10X10
Version 2011
Système de projection Lambert 93
Surface couverte par le lot de données France métropolitaine continentale et maritime
Nombre de mailles 9546 (dont 5875 continentales)
Attributs CD_SIG : code de la maille et identifiant
CODE10KM : code maille court, pour utilisation courante
2. Base de données INPN
Les données d’occurrence utilisées pour cette étude proviennent principalement de la base de
données de l’INPN et sont basées sur un maillage national de 10x10 km. Une série de critères sont établis
pour trier les données d’origine et pour définir une liste d’espèces à intégrer dans le travail de modélisation.
En premier lieu, l’étude est limitée au milieu terrestre et à la France métropolitaine. En second lieu, les
données plus anciennes, récoltées avant 1950, sont retirées puisqu’elles sont considérées comme moins
fiables du fait de l’évolution des paysages pendant la phase de ré-industrialisation et le développement des
zones urbaines après la guerre qui ont largement affecté la distribution de la biodiversité. D’autre part, le
développement des programmes d’inventaires nationaux à partir des années 1970 a apporté à l’INPN de
grandes quantités de données permettant de concentrer les études sur des données plus récentes (Witté, 2016,
communication personnelle). Les espèces présentant moins de 25 mailles d’occurrence ne sont pas
considérées, afin de garantir des tailles d’échantillon suffisantes pour la modélisation. Pour réduire le
nombre d’espèces à présenter aux experts pour la sélection finale, seules les espèces introduites et/ou
envahissantes et les espèces qui figurent à l’annexe II de la Directive Habitats-Faune-Flore (DHFF,
« espèces animales et végétales d’intérêt communautaire dont la conservation nécessite la désignation de
zones spéciales de conservation »), sont retenues. Cela permet de réduire la base de données de l’INPN à
6
212 espèces DHFF – annexe II et 509 introduites. Cette liste est ensuite présentée aux experts de différents
taxons en leur demandant d’établir un ordre de priorité. Les critères principaux de sélection soumis aux
experts sont basés sur l’état de connaissance actuelle de l’espèce (i.e. une répartition ou une écologie
méconnue, justifiant l’intérêt de la démarche de modélisation) et sur son statut (i.e. un fort intérêt
patrimonial ou la nécessité de surveiller le potentiel d’invasion de l’espèce). La liste finale compte 15
espèces DHFF – annexe II et 7 espèces introduites (Tableau 1). Suite aux discussions avec les experts, deux
espèces ne figurant pas dans l’annexe II sont ajoutée : Muscardinus avellanarius (Linnaeus, 1758), présente
dans l’annexe IV de la directive, et Sanguisorba officinalis (Linnaeus, 1753), utilisée en tant que prédicteur
pour modéliser la présence de l’espèce Maculinea teleius (Bergsträsser, 1779) (Tableau 1).
3. Autres données
Afin de comparer les modèles issus de jeux de données différents, les occurrences de l’espèce Myotis
blythii (Tomes, 1857) ont été extraites d’une deuxième base de données, la base EVAL. Cette base dérive
d’une évaluation de l'état de conservation des espèces et habitats listés dans la DHFF. L’article 17 de la
DHFF requiert que cette évaluation soit réalisée tous les 6 ans par tous les états membres de l’UE. En France
elle est gérée par le SPN. Toutes les données disponibles sur les espèces et les habitats de la directive
(distribution, effectifs, surface, etc.) sont mobilisées et compilées dans une base qui est transmise à la
Commission Européenne. Les données proviennent de l’INPN et de programmes partenaires, groupes
d’experts, etc. (Gazay, 2016, communication personnelle). La base de données EVAL utilisée lors de cette
étude correspond aux données synthétisées pour le dernier rapportage 2013 (évaluation 20007-2012). Les
données EVAL pour Myotis blythii sont plus nombreuses (256 occurrences) par rapport aux données INPN
(156 occurrences), et plus récentes : elles n’incluent pas les occurrences en Corse qui ont été supprimées
suite à une erreur d’identification (Haffner, 2016, communication personnelle. Ces données erronées sont
encore présentes dans la base INPN.
Le Global Biodiversity Information Facility (GBIF, http://www.gbif.org) est une base internationale
de données en libre accès, financée par les gouvernements. Elle permet d’accéder aux occurrences mondiales
concernant plus d’un million d’espèces. Les données GBIF ont été téléchargées pour la modélisation des
espèces introduites (Tableau 1) dans le logiciel R, à travers la fonction gbif du package dismo (Hijmans et
al., 2011). Ces données sont très hétérogènes et partiellement validées. Après avoir retiré toutes les
occurrences non confirmées, les données restantes ne sont pas suffisantes pour modéliser les espèces
introduites à l’échelle mondiale. Pour avoir une estimation précise de la niche d’espèces introduites dans
l’aire d’introduction, il est fortement conseillé de les modéliser à partir de leur distribution d’origine
(Peterson, 2003). Pour cette raison et du fait de l’absence de données validées en dehors de la France, la
modélisation d’espèces introduites n’a pas été réalisée.
7
Tableau 1 Liste d’espèces sélectionnées pour être intégrées au travail de modélisation, grâce à l’aide des agents SPN et d’autre
experts externes. Pour établir un ordre de priorité et définir cette liste, deux critères principaux ont été soumis aux experts : (1) une
répartition et/ou une écologie méconnue (2) le fort intérêt patrimonial ou la nécessité de surveiller le potentiel invasif de l’espèce.
Nom de l’espèce Taxon
Mailles
10x10
km
DHFF
Annexe II
Anisus vorticulus (Troschel, 1834) Gastéropodes 44
Cerambyx cerdo (Linnaeus, 1758) Coléoptères 707
Circaetus gallicus (Gmelin, 1788) Oiseaux 2822
Elona quimperiana (Blainville, 1821) Gastéropodes 139
Euphydryas aurinia (Rottemburg, 1775) Lépidoptères 543
Gomphus graslinii (Rambur, 1842) Odonates 26
Lynx lynx (Linnaeus, 1758) Mammifères 91
Maculinea nausithous (Bergsträsser, 1779) Lépidoptères 28
Maculinea teleius (Bergsträsser, 1779) Lépidoptères 63
Myotis blythii (Tomes, 1857) Chiroptères 156
Myotis capaccinii (Bonaparte, 1837) Chiroptères 58
Picus canus (Gmelin, 1788) Oiseaux 2099
Rhinolophus euryale (Blasius, 1853) Chiroptères 165
Rosalia alpina (Linnaeus, 1758) Oiseaux 325
Vertigo angustior (Jeffreys, 1830) Gastéropodes 149
Introduites /
envahissantes
Egeria densa (Planch., 1849) Angiospermes 126
Isodontia mexicana (Saussure, 1867) Hyménoptères 117
Leptoglossus occidentalis (Heidemann, 1910) Hémiptères 36
Lithobates catesbeianus (Shaw, 1802) Amphibiens 96
Podarcis siculus (Rafinesque-Schmaltz, 1810) Reptiles 128
Procyon lotor (Linnaeus, 1758) Mammifères 48
Silurus glanis (Linnaeus, 1758) Poissons 699
Autres Sanguisorba officinalis (Linnaeus, 1753) Angiospermes 1063
Muscardinus avellanarius (Linnaeus, 1758) Mammifères 1463
4. Catalogue de couches environnementales
Un des objectifs de cette mission consiste à répertorier les couches environnementales permettant de
décrire la niche écologique de plusieurs taxons et qui permettent donc de construire les modèles. Le
catalogue est réalisé sous forme de tableau Excel non codifié, contenant une liste de variables en format
raster ou vecteur, de différents types (climat, occupation du sol, etc.), systèmes de projections,
résolutions/échelles, étendues spatiales (Monde, Europe, France) et diverses modalités d’accessibilité
8
(couche gratuite, payante, disponible sur demande, non disponible). Ce catalogue est en cours de mise à jour
et sera codifié, converti en base de données et mis à disposition des agents SPN.
5. Traitement des couches
Pour le travail de modélisation, les variables considérées sont essentiellement des variables
climatiques et d’occupation du sol. La résolution soulève un problème dans le choix des déterminants
écologiques. Nous avons considéré ces variables parce que à la résolution considérée dans cette étude, celles
qui sont considérées comme discriminantes sont principalement le climat, la topographie et l’occupation du
sol (Pearson et Dawson, 2003).
Toutes les couches environnementales sont re-projetées en Lambert-93 et croisées avec le maillage
10x10 km de la France continentale pour que chaque pixel corresponde à une maille de la grille et que
chaque maille soit associée à une valeur de la variable. Le but étant d’obtenir pour chaque variable
environnementale une matrice à la même résolution et sur la même étendue que les données d’occurrence.
Les données d’occurrence sont aussi rastérisées.
Bioclim. Est constitué de 19 variables bioclimatiques en WGS84, à la résolution de 30 arc-seconds
(~1 km), appartenant à l’ensemble de couches Worldclim version 1.4 (Hijmans et al., 2005) et
représentatives du climat actuel (période 1960-1990). Ces données sont téléchargeables via le portail
http://worldclim.org/, qui met également à disposition des projections climatiques futures et passées, idéales
pour modéliser l’évolution des distributions géographiques dans le temps. Les données Bioclim sont issues
de la synthèse de séries de valeurs mensuelles de température et de précipitations Ces indicateurs sont
développés afin de représenter des variables climatiques significative en biologie (amplitude thermique,
précipitations du mois le plus froid…) et sont donc idéales pour la modélisation de la distribution d’espèces.
Ces données sont disponibles en format raster, couvrent le globe entier et représentent des tendances
annuelles et saisonnières, ainsi que des valeurs extrêmes considérées comme des facteurs potentiellement
limitant pour les organismes biologiques. Les 19 couches Bioclim ont été découpées et projetées grâce à une
interpolation bilinéaire, sur le maillage 10x10 km (Figure 1).
Figure 1 Traitement des couches Bioclim pour l’adaptation à l’étendue
de la France à une résolution 10x10 km.. Les données raster sont
projetées avec interpolation bilinéaire sur le maillage 10x10 km en
Lambert-93. De cette façon, à chaque maille est associée une valeur
climatique. Ce traitement est appliqué aux 19 couches Bioclim et aux
couches Corine Land Cover d’imperméabilité des sols et de taux de
couvert arboré.
9
Corine Land Cover 2006 (CLC2006). Couche vectorielle européenne d’occupation du sol (OS) à
l’échelle 1 : 100 000 et en projection ETRS89 - LAEA, consistant en un inventaire de 44 classes (European
Environment Agency, 2007). Ces couches sont développées dans le cadre d’un programme de l’Union
Européenne, géré par l'Agence européenne de l'environnement (AEE, http://www.eea.europa.eu). Le
traitement de cette couche pour le travail de modélisation a pour objectif de projeter la proportion de chaque
type d’OS dans les mailles dans une matrice raster correspondant au maillage 10x10 km. De cette manière
on obtient une couche raster par type d’OS (Figure 2a) à la même résolution que les données d’occurrence et
de climat précédemment traitées. Ce traitement implique l’automatisation d’une longue chaine de traitement,
visant à produire 44 couches, une pour chaque classe + 20 classes supplémentaires produites en agrégeant
certaines couches élémentaires (Figure 2a et 2b).
La couche européenne CLC2006 (CLC06_EU) est d’abord intersectée avec celle de la grille de la
France continentale (10k_FR) et ré-projetée en Lambert-93. Les polygones sont ensuite fusionnés selon le
code de la maille (CD_SIG) et par classe d’OS (code_06) (Figure 2b). La proportion de la surface de chaque
maille occupée par chaque type d’OS est donc calculée (valeurs entre 0 et 1). Un code Arcpy a permis
d’automatiser l’extraction des 44 couches raster :
• Sélection et extraction par attributs (CODE_06) : 44 couches vecteur d’OS
• Jointure au shapefile de la maille via CD_SIG : 44 grilles vecteur dont chaque polygone correspond à
une maille à laquelle une valeur de proportion de surface est associée.
• Rastérisation de la grille.
• Les « No data » produits lorsqu’un type d’OS n’est pas présent dans la maille, sont convertis en 0
(e.g. 0% de la surface de la maille occupée par la forêt)
La calculatrice raster est ensuite utilisée pour agréger plusieurs variables (e.g. les classes 311 : forêts
de feuilles, 312 : forêts de conifères, 313 : forêts mélangées sont agrégées en une seule classes 351 : forêts).
La chaine de traitement des données Corine Land Cover est schématisée dans la Figure 2.
Couches paneuropéenne à haute résolution (HRL). Distribuées par le programme Copernicus,
http://land.copernicus.eu/, en collaboration avec l’AAE. Ces données en format raster et projection ETRS89
- LAEA décrivent l’occupation du sol avec une précision de 20m et sont compatibles avec Corine Land
Cover. Les couches HRL utilisées pour ce travail sont les suivantes :
Imperméabilité 2006 (IMP_06). Décrit le dégrée d’imperméabilité (0-100%) du sol causé par la
présence de surfaces artificialisées. Cette couche est projetée sur le maillage 10x10 km et la valeur des pixels
recalculée par interpolation bilinéaire. À chaque pixel (maille 10x10 km) est associée une valeur entre 0 et
100.
10
Figure 2 (a) Principe d’extraction de plusieurs couches raster à partir d’un vecteur (CLC2006). Chaque raster correspond à un
élément de l’attribut (code_06) du vecteur (i.e. une couche par type d’OS). (b) Schéma de la chaine de traitement réalisée pour la
création des couches d’OS.
Type de couvert arboré 2012 (FTY_1 ; FTY_2). À chaque pixel de 20x20 m est associé un type de
couvert arboré dominant : forêts feuillues ou conifères. Les pixels appartenant aux deux classes sont extraits
dans deux couches raster séparées par classe de forêt. Pour chacune des deux couches, la proportion de
couvert arboré par maille est calculé en multipliant le nombre de pixels dans une maille 10x10 km par l’aire
des pixels et divisant par 100 (nombre de pixels x (0.02km x 0.02 km) /100). Les valeurs des mailles sont
comprises entre 0 et 1. Les deux rasters correspondent à ceux issus du traitement de CLC2006 (R_CLC311
et 312 dans la Figure 5 et FTY_1 et 2 dans la Figure 6). Cependant, alors que la variable est la même, elle
(a)
(b)
11
n’est pas calculée de la même façon : la différence réside dans la résolution initiale. Les couches à haute
résolution permettent de calculer une valeur plus précise, la largeur du plus petit objet observé étant de 20m.
La résolution plus fine de CLC2006 est de 100m.
Milieux humides 2012 (WET_12). Produit binaire, indiquant la présence/absence de milieux humides
dans un pixel de 20x20 m. La proportion de surfaces humides est calculée en comptant le nombre de pixels
dans une maille 10x10 km multiplié par l’aire des pixels et divisé par 100 (nombre de pixels x (0.02km x
0.02 km) /100). Les valeurs sont comprises entre 0 et 1.
Taux de couvert arboré 2012 (TCD_1 ; TCD_2). Cette couche représente le taux de couvert arboré
(0-100%) par pixel de 20x20 m. Les pixels de forêts feuillues et de forêts de conifères sont d’abord séparés
en croisant la couche du taux de couvert arboré avec les deux couches de type de couvert arboré. Le taux de
couvert arboré par maille 10x10 km est recalculée par interpolation bilinéaire en ré-projetant la couche sur la
grille 10x10 km. À chaque maille est associée une valeur entre 0 et 100 (Figure 3).
Figure 3 Traitement de la couche taux de couvert arboré 2012 (TCD_12). Séparation des pixels appartenant aux deux classes et
interpolation bilinéaire.
Les résultats des traitements de couches sont résumés dans le Tableau 2 et les cartes des variables
extrapolées sont visibles dans les Figure 4 à Figure 6).
Tableau 2 Couches géographiques utilisées et résultat des traitements.
Nom couche Nb de couches
initiales
résolution/échelle
initiale
Résolution
finale
Nb de couches
finales Valeur finale par maille
Bioclim 1960-1990 19 30 arc-sec (~1km) 10 km 19 valeur bioclimatique interpolée
Corine Land Cover 2006 1 1: 100 000 10 km 64 pourcentage de surface occupée par type
d’OS (0-1)
Imperméabilité HR 2006 1 20 m 10 km 1 taux d’imperméabilisation (0-100)
Type de forêt HR 2012 1 20 m 10 km 2 pourcentage de surface occupée par type
de forêt (0-1)
Milieux humides HR
2012 1 20 m 10 km 1 pourcentage de surface humide (0-1)
Taux de couvert arboré
HR 2012 1 20 m 10 km 2 taux de couvert arboré (0-100)
12
Figure 4 Couches Bioclim. Voir Tableau 2 pour la description des variables.
13
Figure 5 Couches Corine Land Cover 2006. Du haut en bas; de droite à gauche : milieux anthropiques sauf espaces verts
artificialisés, espaces verts artificialisés, territoires agricoles sauf prairies, prairies, forêts de feuillus, forêts de conifères, tous types
de forêt, végétation arbustive et sclérophylle, landes et pelouses, roches nues et végétation clairsemée.
14
Figure 6 Couches Corine Land HR et carte consensus du modèle sur Sanguisorba officinalis. Du haut en bas, de droite à gauche:
taux d’imperméabilité, milieux humides, taux de couvert arboré –feuillues, taux de couvert arboré – conifères, forêts de feuilles,
forêts de conifères, probabilité de présence de Sanguisorba officinalis.
15
6. Homogénéisation des données
La fonction « synchroniseNA » du package R virtualspecies (Leroy et al., 2016) est utilisée pour
rendre toutes les couches homogènes en gérant les mailles sans information (NAs). La fonction permet
d’assurer que les NAs soient les même partout (Leroy et al., 2016). Les couches d’occurrences sont aussi
synchronisées (i.e. si les variables environnementales présentent des NAs pour certaines mailles, les mailles
de présence sont également retirées).
2. Modélisation
Pour les différentes étapes de modélisation, de la préparation des données à la projections des
probabilités de présence dans l’espace géographique, nous avons suivi le protocole conseillé par Boris Leroy
(2016, communication personnelle; Bellard et al., 2016; Leroy et al., 2014, 2013) basé sur l’utilisation du
package biomod2 (version 3.3-7, version à jour du package BIOMOD, Thuiller et al., 2009). Dans ce
rapport, nous présentons les résultats des modélisations sur cinq espèces (autres résultats en Annexes Figure
A.1-Figure A.4) : Rosalia alpina, Cerambyx cerdo, Elona quimperiana, Maculinea teleius, Myotis blythii,
Muscardinus avellanarius. Ces espèces sont sélectionnées parce qu’elles sont représentatives de différents
taxons, quantité et qualité de données de présence en entrée et type de répartition. Un modèle de distribution
géographique est construit sur les données d’occurrence de l’espèce Sanguisorba officinalis (Linnaeus,
1753) (Figure 6), plante hôte du papillon Maculinea teleius (Dupont, 2016, communication personnelle).
Selon l’opinion générale, les effets des interactions biotiques sur les distributions d’espèces et leur capacité
d’invasion ne sont pas observables à une échelle macro-écologique (Milbau et al., 2009; Pearson et
Dawson, 2003) ; néanmoins plusieurs auteurs ont mis en évidence une amélioration du pouvoir explicatif et
prédictif des modèles de distribution géographiques sur des macro-échelles (Araújo et Luoto, 2007;
Leathwick et Austin, 2001). Ces études utilisent généralement la variable biotique (compétiteur, plante hôte
ou ressource) sous forme de présence-absence. Pour ce travail, nous avons testé une approche différente, en
utilisant la variable « sanguisorbe » sous forme de probabilité de présence de la plante hôte. Le modèle
appliqué à Sanguisorba officinalis est basé sur le protocole décrit en page 16. Cette approche est choisie,
d’une part puisque certaines méthodes de modélisation utilisées ici n’acceptent pas des variables explicatives
en format binaire de type présence-absence (l’utilisation d’une variable quantitative telle que la probabilité
de présence permet d’éviter ce problème), d’autre part parce que les données d’occurrence ne fournissent pas
l’information sur les vraies absences de l’espèce. Une variable de distribution potentielle de la plante hôte, si
elle est bien construite, pourrait donc combler cette lacune de connaissance et mieux prédire la distribution
potentielle du papillon associé.
16
7. Calibrations et génération de pseudo-absences
Six méthodes de modélisation différentes sont appliquées : 3 méthodes de régression : un modèle
linéaire généralisé (GLM, McCullagh and Nelder, 1989), un modèle additif généralisé (GAM, Hastie and
Tibshirani, 1987), une régression multivariée par spline adaptative (MARS, Friedman, 1991) et 3 méthodes
d’apprentissage automatique : le boosting d’arbres de décision ou « generalized boosted regression models»
(GBM, Ridgeway, 1999), la forêt d'arbres décisionnels ou « random forests » (RF, Breiman, 2001), et
l’entropie maximale (MaxEnt, Phillips, Anderson, and Schapire 2006; Elith et al. 2011). Tous les modèles
utilisés, fonctionnent avec des données de présence-absence, ce qui a rendu nécessaire la génération de
pseudo-absences (PAs). Deux stratégies de sélection de pseudo-absences sont testées : la stratégie
« random » (RAN) : les PAs sont échantillonnées de manière aléatoire sur toute l’étendue spatiale, avec un
nombre défini par l’utilisateur. La stratégie «surface range envelope» (SRE, Thuiller et al. 2009) construit un
modèle sur les présences seules et les variables environnementales générant une enveloppe bioclimatique à
l’extérieur de laquelle les pseudo-absences sont échantillonnées (Thuiller et al. 2016). Pour chacune des
stratégies de génération des PAs, 5 jeux de PAs sont relancé à chaque calibration. Pour chaque relance, afin
d’avoir un nombre de PAs suffisant, 1000 PAs sont générées pour les espèces dont le nombre de mailles de
présence est inférieure à 1000. Pour les espèces dont le nombre de mailles est supérieur ou égale à 1000, un
nombre de PAs équivalent au nombre de mailles de présence est généré (Barbet-Massin et al., 2012). En
l’absence de jeux de données indépendants pour la validation, les calibrations des modèles sont appliqués sur
70% des données d’occurrence et les 30% de données restantes sont utilisées pour évaluer la qualité du
modèle (i.e. sa capacité à prédire correctement la présence de l’espèce pour les points de présences pour
lesquelles le modèle n’a pas été calibré). Cette opération est itérée 4 fois pour chaque méthode de
modélisation et chaque jeu de PAs. La métrique d’évaluation utilisée est la « true skill statistic » (TSS,
Allouche et al., 2006). Cette métrique compare le nombre de prévisions correctes, moins celles attribuables
au hasard, à un ensemble hypothétique de prévisions parfaites. Elle prend en compte les erreurs de fausses
présences et fausses absences en même temps (Allouche et al., 2006). La moyenne des évaluations est
calculée pour chaque méthode de modélisation (TSS moyen). En tout, 120 calibrations individuelles sont
effectuées (5 jeux de PAs x 4 relance de données en entrée x 6 méthodes = 120) Figure A.5) Les
distributions de probabilité sont ensuite projetées dans l’espace géographique. Enfin, le test non-
paramétrique de Wilcoxon-Mann-Whitney est utilisé pour comparer la performance des modèles.
8. Modèle d’ensemble
L’approche de modélisation d’ensemble (Araújo et New, 2007; Thuiller et al., 2009) est appliquée
pour obtenir une projection « consensus » de la distribution: au lieu de prendre le « meilleur » des modèles
17
calibrés (i.e. celui avec la TSS le plus élevé), l’approche d’ensemble permet d’estimer la tendance moyenne
des distributions obtenues avec les calibrations individuelles. Le but est des garder les aires de répartition où
les probabilités des calibrations individuelles convergent, en écartant les zones d’incertitude. Le modèle
d’ensemble est construit en intégrant seulement les modèles individuels dont la TSS est supérieure à un seuil
fixé à 0.6 (i.e. bonne qualité du modèle) et en calculant la moyenne. Le résultat est une carte « consensus »
de distribution de la probabilité de présence de l’espèce en valeurs continues.
9. Courbes de réponse
Les courbes de réponse de chaque espèce aux variables environnementales considérées sont
construites grâce à la méthode développée par Elith et al. (2005) et utilisée par Leroy et al. (2013). La courbe
de réponse à une variable est obtenue en fixant les autres variables à leur moyenne parmi les mailles de
présence en laissant osciller la variable d’intérêt entre son minimum et maximum. La variation de probabilité
de présence avec la variable est donc calculée pour chaque relance et méthode de modélisation, et un GAM
est ensuite utilisé pour estimer la courbe de réponse moyenne.
10. Sélection des variables
Les modèles calibrés sur un petit nombre de variables, notamment celles qui sont réputées avoir un
effet sur les espèces traitées, sont généralement plus performants que ceux intégrant toutes les variables
disponibles (Austin, 2007; Jimenez-Valverde et al., 2008). Pour éviter de partir d’un trop grand nombre de
variables, les experts du SPN ont été consultés, afin d’effectuer une première sélection de prédicteurs
considérés comme écologiquement pertinents pour l’espèce. Cette connaissance concerne surtout le type
d’habitat et de paysage où les espèces sont régulièrement observées. Cela a permis de faire un premier tri des
variables d’OS. L’écophysiologie des espèces est souvent moins connue, et établir à priori les facteurs
climatiques agissants sur les espèces peut être difficile. Nous avons appliqué un protocole de sélection
automatique des variables qui permet de déterminer les variables les plus significatives pour chaque espèce
traitée. Le protocole consiste en une série de calibrations intermédiaires pour l’exclusion de la multi-
colinéarité et la sélection des variables les plus importantes (Leroy, 2016, communication personnelle ; voir
Leroy et al., 2014 - Annexe S2 pour la description détaillée du protocole). Les étapes sont les suivantes :
• Etape 1 : les groupes de variables corrélées sont identifiés grâce à une classification hiérarchique
avec une métrique de distance basée sur le coefficient de corrélation de Pearson (Figure A.6)
• Etape 2 : chaque groupe de variables colinéaires est testé sur chaque espèce avec la procédure
décrite en page16. La variable la plus significative (i.e. celle qui prédit le mieux la distribution de l’espèce)
est conservée pour les calibrations successives. L’importance est déterminée en recalculant la variation de
18
probabilité de présence lorsque la variable est réé-échantillonnée de manière aléatoire (ce tirage est effectué
10 fois) : si la probabilité reste la même, la variable n’a pas d’effet sur l’espèce ; au contraire, si la
probabilité varie, la variable a un effet sur la présence de l’espèce. Cela est appliqué à chaque variable en
fixant les autres. L’importance est calculée selon le dégrée de variation de la probabilité de présence et la
variable la plus importante est conservée pour les calibrations successives.
• Etape 3 : les variables sélectionnées à l’étape 2 (une pour chaque groupe de variables colinéaires)
et toutes les autres variables non corrélées sont testées sur chaque espèce en appliquant la procédure décrite
en page 16. Les variables sont ordonnées selon leur importance et le choix final dépend ensuite de
l’utilisateur. Nous avons fixé un seuil à 5% d’importance pour la sélection finale. Ce seuil a été choisi pour
optimiser le nombre de variables retenues pour chaque espèce : d’une part, pour tester un nombre de
variables suffisant à décrire la niche de l’espèce; d’autre part, pour limiter le temps de calcul et faciliter
l’interprétation des modèles (Austin, 2007).
11. Logiciels
La gestion des couches environnementales est réalisée principalement grâce au logiciel ArcMap.
Avec l’extension Spatial Analyst pour les traitements raster et du package ArcPy pour l’automatisation des
taches du traitement de CLC2006.
La gestion des bases de données d’occurrence, la préparation des données pour la modélisation, les
analyses statistiques et les graphiques sont effectuées grâce au logiciel R (R Core Developement Team,
2016) et notamment aux packages biomod2 (Thuiller, 2003; Thuiller et al., 2016) virtualspecies (Leroy et
al., 2016), raster (Hijmans et van Etten, 2014), rgdal (Roger et al., 2016), , sp (Hijmans et al., 2016), car
(Fox et Weisberg, 2010), ggplot2 (Wickham, 2009). Les cartes de distribution d’espèces sont également
réalisées sous R.
III. RESULTATS
3. Sélection des modèles
12. Sélection des variables
À la suite d’un protocole de sélection automatique, complété d’un tri au cas par cas, les variables les
plus importantes ont été sélectionnées et testées dans les modèles finaux. La liste de variables testées et
retenues pour chaque espèce avec le protocole de sélection est visible dans le Tableau 1 Les variables
retenues ont été sélectionnées avec un seuil de 5% d’importance, en enlevant ensuite les variables ayant des
19
courbes de réponse plate et en fixant arbitrairement à un maximum de 6 le nombre total de variables à tester.
Pour Rosalia alpina et Muscardinus avellanarius, aucune variable d’occupation du sol n’a été retenue.
Tableau 3 Variables testées (▪) et sélectionnées (×) dans les derniers modèles pour chaque espèce.
Elona quimperiana
Rosalia alpina
Maculinea teleius
Myotis blythii
Muscardinus avellanarius
bio1 Température moyenne annuelle
bio2 Amplitude quotidienne moyenne (moyenne (max – min de la période) ▪ ▪ ▪ × ×
bio3 Isothermalité bio2/bio7 ▪ × × × ▪ bio4 Saisonnalité de la température × × × × × bio5 Température maximale de la période la plus chaude ▪ bio6 Température minimale de la période la plus froide ▪ × × × bio7 Amplitude annuelle de la température (bio5-bio6) bio8 Température moyenne du trimestre le plus humide ▪ ▪ ▪ ▪ ▪ bio9 Température moyenne du trimestre le plus sec × ▪ × ▪ × bio10 Température moyenne du trimestre le plus chaud × × × ▪ bio11 Température moyenne du trimestre le plus froid × bio12 Précipitations annuelles × bio13 Précipitations de la période la plus humide × ▪ bio14 Précipitations de la période la plus sèche ▪ ▪ bio15 Saisonnalité des précipitations (C.V.) ▪ ▪ ▪ ▪ ▪ bio16 Amplitude annuelle de la température (5-6) ▪ bio17 Précipitations du trimestre le plus sec ▪ × bio18 Précipitations du trimestre le plus chaud ▪ bio19 Précipitations du trimestre le plus froid × R_CLC100 Milieux anthropiques sauf espaces verts artificialisés ▪ ▪ R_CLC140 Espaces verts artificialisés ▪ ▪ ▪ ▪ ▪ R_CLC200 Territoires agricoles sauf prairies × R_CLC230 Prairies × ▪ R_CLC311 Forêts de feuillus × R_CLC312 Forêts de conifères R_CLC351 Tous types de forêt ▪ R_CLC352 Végétation arbustive et sclérophylle ▪ R_CLC353 Landes et pelouses ▪ R_CLC354 Roches nues et végétation clairsemée × imp_06 Taux d’imperméabilité (HR) ▪ ▪
wet_12 Milieux humides ▪ ▪ ▪ ▪
tcd_1 Taux de couvert arboré –feuillues (HR) ▪ ▪ ▪
tcd_2 Taux de couvert arboré – conifères (HR) ▪ ▪ ▪
fty_1 Forêts de feuilles (HR) ▪ ▪ ▪ ▪
fty_2 Forêts de conifères (HR) ▪ × ▪ ▪
sanguiEM Probabilité de présence de Sanguisorba officinalis ×
13. Évaluation des modèles
La performance des modèles a été affectée par la stratégie de génération des pseudo-absences (PAs).
L’approche aléatoire (« RAN») a produit des évaluations (TSS) moyennes inférieures au seuil fixé à 0.60
pour Muscardinus avellanarius, proches ou inférieurs à 0.60 pour Rosalia alpina entre 0.60 et 0.80 pour
Myotis blythii (données INPN) et Maculinea teleius (Figure 7). Les modèles de type «RAN» les plus
20
performants concernent Elona quimperiana (l’escargot de Quimper), avec des évaluations moyennes
supérieures 0.90 (Figure 7). Pour cette espèce, la qualité des modèles utilisant la stratégie « SRE » est
également élevée, montrant des évaluations moyennes supérieures à 0.90, qui ne sont pas significativement
différentes de celles des modèles à stratégie « RAN », à l’exception des GLMs (Tableau 4). Au contraire,
pour toutes les autres espèces, la stratégie « SRE » a donné lieu à des évaluations nettement supérieures à
celles des modèles à stratégie « RAN » (Figure 7). La distribution consensus est obtenue en calculant la
moyenne des prédictions des modèles individuels ayant obtenu une TSS > 0.60. Pour Muscardinus
avellanarius, aucune calibration individuelle avec pseudo-absences de type « RAN » n’a été validée et la
distribution consensus n’a pas été calculée dans un premier temps. Pour obtenir cette carte, le seuil de
tolérance a été baissé à 0, et toutes les calibrations ont été prises pour faire un modèle d’ensemble.
Le choix des modèles, accompagné par l’analyse qualitative des experts du SPN, n’a pas été fait sur
la base des évaluations. Ce qui a été privilégié ce sont les cartes consensus (i.e. projection dans l’espace
géographique du modèle d’ensemble) qui semblent avoir plus de sens d’un point de vue biologique et dont
les aires prédites semblent plus proches des distributions réelles. Ces modèles ne sont pas nécessairement les
meilleurs d’un point de vu statistique. Pour Elona quimperiana, à parité d’aire de répartition prédite, le
modèle issue de l’approche « RAN » a été retenu puisque plus parcimonieux. Les modèles retenus sont ceux
basés sur la stratégie « RAN » pour Rosalia alpina et Maculinea teleius et « SRE » pour Muscardinus
avellanarius. Pour Myotis blythii le modèle « RAN » a été conservé et un autre modèle d’ensemble a été
produit à partir des données EVAL pour comparer les cartes résultantes des deux jeux de données différents.
21
Figure 7 Boites à moustache des évaluations (TSS), pour chacune des 6
techniques de modélisation. En rouge : stratégie de génération de
pseudo-absences (PAs) « SRE » ; en bleu : stratégie de génération de
pseudo-absences (PAs) « RAN ». Chaque boite à moustache représente
l’ensemble des TSS calculés sur les calibrations individuelles, soit 5
relance de PAs x 4 échantillonnages de données en entrée = 20
calibrations par méthode et 120 calibrations totales par stratégie de
génération de PAs. Les modèles issus de la stratégie « SRE » (Surface
Range Envelope, PAs sélectionnées par exclusion environnementale)
ont obtenu en générale des métriques plus élevées par rapport aux
modèles « RAN » (random, PAs prises au hasard).
22
Tableau 4 Résultats du test non paramétrique de Wilcoxon-Mann-Whitney sur la comparaison entre les modèles « RAN » et
« SRE » par espèce et méthode de modélisation. W est la statistique du test. La significativité est fixé à 0.05. En gras, les tests non
significatifs.
GAM GBM GLM MARS MAXENT RF
Elona
quimperiana
W = 184.5
p-value = 0.68
W = 161
p-value = 0.29
W = 109.5
p-value = 0.01*
W = 135.5
p-value = 0.08
W = 167
p-value = 0.37
W = 168.5
p-value = 0.40
Maculinea teleius W = 124
p-value <0.001***
W = 7
p-value <0.001***
W = 10
p-value <0.001***
W = 35
p-value <0.001***
W = 110
p-value <0.001***
W = 7
p-value <0.001***
Muscardinus
avellanarius
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
Myotis blythii W =16.5
p-value <0.001***
W =9.5
p-value <0.001***
W =1
p-value <0.001***
W =0
p-value <0.001***
W =3
p-value <0.001***
W =6
p-value <0.001***
Rosalia alpina W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
W = 0
p-value <0.001***
4. Analyse des répartitions modélisées
14. Courbes de réponse
Les 5 espèces ont montré trois types de réponses aux variables environnementales sélectionnées
(Figure 8). Une influence forte de type « seuil », avec la probabilité de réponse qui diminue de manière
brusque à partir d’une certaine valeur (e.g. réponse de Myotis blythii à la variation de bio3 : isothermalité,
avec une probabilité de présence qui tombe au-dessus de ~0.035) ; une influence forte de type « plateau »,
où la probabilité de présence reste constante entre deux valeurs (e.g. réponse de Muscardinus avellanarius à
bio2 : variation journalière moyenne de la température, avec une probabilité proche de 1 entre 7 et 10 °C);
une influence faible (e.g. relation quasi-linéaire légèrement négative entre R_CLC311 - forêt de feuille et
présence d’Elona quimperiana, avec une probabilité qui diminue lentement à partir de 20% de surface
occupée par la forêt).
15. Cartes des projections géographiques
La projection des modèles d’ensemble (tendance moyenne des calibrations individuelles) dans l’espace
géographique (i.e. carte consensus) a aussi montré des différences entre les deux stratégies de sélection de
PAs. Pour la plupart des espèces traitées, l’approche « RAN » a donné lieu à des distributions circonscrites
autour des mailles de présence, alors que l’approche « SRE» a montré une tendance à prédire des aires de
présence potentielles plus étendues (Figure A.1).
23
Figure 8 Courbes de réponse des espèces aux variables environnementales
testées. La ligne bleue représente la fonction GAM calculée sur les courbes
de réponse des 120 calibrations individuelles. La partie grise autour de la
ligne représente l’intervalle de confiance (95%).
24
Le cas le plus évident concerne l’espèce Muscardinus avellanarius : la carte consensus produite
montre une évidente sous-représentation de son aire de répartition (Figure 9). Au contraire, la carte
consensus issue du modèle « SRE » attribue au muscardin une distribution potentielle clairement plus vaste
dans la moitié ouest de la France. Cette différence n’est pas détectable sur les cartes de distribution d’Elona
quimperiana, pour lesquelles les deux stratégies ont produit des résultats presque équivalents. Les deux
modèles d’ensemble ont prédit la présence d’Elona quimperiana au nord-ouest et au sud-ouest de la France
(Figure 10). Toutes les mailles de présence tombent dans des aires à forte probabilité d’occurrence (100%).
La zone à forte probabilité (80%) prédite sur la pointe de la Normandie est la seule où l’espèce n’est pas
présente actuellement, représentant un endroit où l’environnement serait potentiellement favorable à cette
espèce.
La distribution de Maculinea teleius (Figure 11a) a été relativement bien estimée par le modèle, avec
une aire de répartition principale dans l’est de la France (probabilité jusqu’à 100%) qui s’étend jusqu’à la
Bourgogne et au Languedoc-Roussillon, et deux zones à niveaux des populations du centre-ouest. Le modèle
a également estimé une faible probabilité de présence (environs 30%) de l’espèce dans le sud-ouest
(Pyrénées).
Le modèle sur Rosalia alpina (Figure 11b) estime bien les données de présence dans les zones à forte
prévalence de données. Dans la pointe de la Normandie il y a une probabilité entre 30 – 40% de rencontrer
l’espèce. Le modèle prédit également une probabilité (jusqu’à 80%) de présence dans le nord.
Le cas de Myotis blythii a été choisi pour représenter l’impact de la qualité et la fiabilité des données
en entrée sur les résultats des modèles. Les modèles calibrés sur ces deux jeux de données ont produit deux
cartes consensus différentes (Figure 12). En Corse la probabilité de présence de l’espèce est nettement plus
faible pour le modèle calibré sur les données EVAL (plus nombreuses, moins biaisées et idéalement sans
erreurs d’identification). Dans le sud-ouest de la France le modèle « EVAL » prédit une probabilité plus
forte (30 – 70% contre 5 – 30%) de rencontrer l’espèce. Les évaluations sont en faveur des modèles INPN
(Figure 13), bien que les données EVAL soient considérées comme les plus fiables.
25
Figure 9 Comparaison de cartes consensus issues de modèles utilisant deux approches différentes de génération de pseudo-
absences (PAs). Distributions potentielles de Muscardinus avellanarius obtenues respectivement avec les stratégies (a) « RAN »
et (b) « SRE ». Pour Muscardinus avellanarius, la carte retenue est celle obtenue avec la stratégie « SRE ». En bas à droite, la
carte montre les centroïdes (en bleu) des mailles de présence de Muscardinus avellanarius.
(a)
(b)
26
Figure 10 Comparaison de cartes consensus issues de modèles utilisant deux approches différentes de génération de pseudo-
absences (PAs). Distributions potentielles d’Elona quimperiana obtenues respectivement avec (a) stratégie « RAN » et (b)
« SRE ». Pour Elona quimperiana, la carte retenue est celle basée sur les PAs générées avec la stratégie « RAN ». En bas à droite,
la carte montre les centroïdes (en bleu) des mailles de présence d’Elona quimperiana.
(b)
(a)
27
Figure 11 Cartes consensus des distributions potentielles pour (a) Maculinea teleius et (b) Rosalia alpina. Les deux modèles sont
basés sur un approche « RAN ». L’aire de répartition de Rosalia alpina est probablement sous-estimée par ce modèle. L’aire de
répartition de Maculinea teleius est relativement bien estimée. Les points bleus sur les cartes sont les centroïdes des mailles de
présence respectivement de Maculinea teleius et Rosalia alpina.
(a)
(b)
28
Figure 12 Comparaison de cartes consensus de distribution de Myotis blythii. Les deux modèles calibrés sur (a) les données
INPN et (b) les données EVAL. Les points bleus sur les cartes sont les centroïdes des mailles de présence de Myotis blythii
respectivement dans la base INPN et dans la base EVAL.
(a)
(b)
29
Figure 13 Boites à moustache des évaluations (TSS) des modèles calibrés sur les deux jeux de données (INPN en bleu et EVAL
en rouge). Chaque boite à moustache représente l’ensemble des TSS calculées sur les calibrations individuelles, soit 5 relance de
PAs x 4 échantillonnages de données en entrée = 20 calibrations par méthode et 120 calibrations au total par jeu de données. Les
modèles calibrés sur les données INPN ont obtenu des métriques plus élevées par rapport aux modèles calibrés sur les données
EVAL.
Tableau 5 Résultats du test non paramétrique de Wilcoxon-Mann-Whitney sur la comparaison entre les modèles calibrés sur deux
différents jeux de données (bases de données INPN et EVAL) pour l’espèce Myotis blythii. W est la statistique du test. La
significativité est fixé à 0.05. Les évaluations sont plus élevées pour le modèle calibré sur les données INPN.
GAM GBM GLM MARS Maxent RF
W = 64.5
p-value<0.001***
W = 23
p-value<0.001***
W = 1
p-value<0.001***
W = 6.5
p-value<0.001***
W = 47
p-value<0.001***
W = 43
p-value<0.001***
30
IV. DISCUSSION
Cette étude a permis de démontrer l’applicabilité des modèles de niche aux données d’inventaire
gérées par le SPN. Les espèces traitées, figurant dans la DHFF Natura 2000, sont des espèces d’intérêt
patrimonial et communautaire, dont la connaissance est lacunaire. Sur les 17 espèces modélisées, 5 ont été
analysées dans le détail. Ces cinq espèces ont été choisies parce qu’elles sont représentatives de différents
taxons, quantité et qualité de données de présence en entrée et type de répartition. Elles sont aussi
relativement bien connues par les experts SPN qui peuvent aider à l’interprétation des cartes de répartition
potentielle et des déterminants écologiques. Certaines espèces ont pu être modélisées de manière cohérente,
d’autres moins. La responsabilité de ces différences peut être attribuée d’une part au profil des données de
présence, d’autre part aux caractéristiques écologiques distinctes des espèces : la taille de l’aire de
répartition, l’échelle à laquelle les discriminants environnementaux agissent, la sensibilité des espèces à des
processus difficiles à identifier ou à modéliser. Cela nous a permis d’identifier plusieurs questions
méthodologiques : quelles variables et comment les sélectionner ; quelle stratégie de génération des pseudo-
absences ; quelle qualité des données en entrée.
À partir de ce travail, nous pouvons élaborer des recommandations préliminaires pour l’application
des modèles de prédiction de répartition aux données du SPN.
5. Les distributions géographiques
Elona quimperiana. Les deux cartes issues des deux stratégies de génération de pseudo-absences
sont cohérentes avec les données de présence et la connaissance de l’espèce. Il s’agit d’un mollusque
gastéropode endémique, présent dans une zone caractérisée par des conditions climatiques singulières, ce qui
permet d’extrapoler facilement les caractéristiques de sa niche écologique. La forte probabilité de présence
estimée sur la pointe de la Normandie indique un environnement favorable, mais pas nécessairement la
présence réelle de l’espèce. En effet, la répartition de cet escargot étant relativement bien connue, il est peu
probable qu’elle soit présente dans cette zone (Léonard, 2016, communication personnelle). Cette espèce est
initialement originaire du nord de la péninsule ibérique, ce qui explique sa présence dans le sud-ouest de la
France. Une hypothèse est que son aire de répartition se soit étendue vers le nord-ouest de la France avant la
dernière glaciation. L’extrémité de la Bretagne et les Pyrénées basques auraient constitué des refuges
climatiques durant le dernier maximum glaciaire, grâce à des conditions de micro-habitat plus douces et
favorables pour l’espèce (proximité des chênes et/ou caves) (Vialatte et al., 2008). L’autre hypothèse
soutient une colonisation postglaciaire suivant les peuplements de chêne et en conséquence, la disparition de
l’espèce dans les zones de déforestation causées par l’homme (Vialatte et al., 2008). Cela expliquerait
31
l’actuelle disjonction géographique. Elona quimperiana vit dans les forêts caduques tempérées, humides et
ombragés. En Bretagne, son habitat typique correspond à des hêtraies-chênaies qui se développent sur un sol
humide (Bensettiti et al., 2002). En dehors des milieux forestiers l'espèce peut s'observer « dans des ruines
ou des murs près de zones humides ou de petites rivières, dans des broussailles herbeuses humides et
ombragées, ou encore au niveau de grottes, dans des jardins, des caves, des landes humides » (Léonard,
2016, communication personnelle). Les courbes de réponse semblent cohérentes avec son écologie : l’espèce
se trouve plutôt dans les régions humides, tempérées, avec des précipitations abondantes en hiver. La légère
corrélation négative avec la forêt feuillue (R_CLC311, Figure 9) pourrait traduire une préférence pour des
zones où la forêt est peu prépondérante (paysage mixte). Il pourrait cependant s’agir d’un produit indirecte
de sa répartition circonscrite à la Bretagne où la forêt est généralement éparse. La carte de distribution
potentielle semble donc cohérente avec l’histoire biogéographique et les préférences environnementales de
cette espèce. Un ensemble de conditions a contribué à la réussite des modèles, quel que soit la méthodologie
utilisée : un nombre d’occurrences suffisant, leur localisation et une aire de répartition restreinte par rapport
à la zone d’étude.
Maculinea teleius. Ce papillon est principalement présent dans l’est de la France, à l'exception des
zones méditerranéennes. Deux populations isolées se trouvent dans le sud-ouest et la centre de la France. Il
s’agit probablement de deux lignées séparées (Dupont, 2016, communication personnelle). La carte de
répartition potentielle montre des zones à forte et moyenne probabilité de présence respectivement en
Bourgogne et dans les Pyrénées. Cependant, l’espèce ne semble pas occuper ces régions, peut-être pour des
raisons liées à sa biogéographie (Dupont, 2016, communication personnelle). Pour le reste, le modèle semble
prédire correctement les zones de présence dans l’est de la France, un peu moins celles du centre et de
l’ouest. Ce papillon a une prédilection pour les prairies humides sur substrat calcaire régulièrement fauchées,
mais elle peut aussi fréquenter les prairies mésophiles ; elle est observée en bordure de mégaphorbiaies
humides, en zones de lisière, ou sur les bords de fossés (Dupont, 2016, communication personnelle). Tous
ces milieux sont aussi associés à sa plante hôte (Sanguisorba officinalis, d’où son nom vernaculaire « azuré
de la sanguisorbe »), qui est très favorisée par la fauche. La variable construite sur le modèle de distribution
de la sanguisorbe (sanguiEM, Tableau 3) apparait importante dans les modèles et est positivement corrélée à
la probabilité de présence du papillon (Figure 8). Les prairies, à part une courte corrélation positive initiale,
sont négativement corrélées avec la présence de Maculina teleius (Figure 8). Ce résultat pourrait paraître en
contradiction avec l’écologie de l’espèce, qui se trouve souvent dans les milieux ouverts. En réalité, cela
pourrait indiquer que l’espèce, évite les paysages principalement constitués par des prairies, en leur préférant
les milieux collinéens et montagnards de l’est de la France, où les milieux ouverts sont souvent mélangés à
des zones forestières. Maculinea teleius présente un cycle biologique complexe : pendant ses premiers
stades, la chenille vit sur la sanguisorbe, mais ensuite elle se déplace dans les fourmilières de l’espèce
32
Myrmica scabrinodis Nylander, 1846. Nous avions envisagé d’utiliser les données de répartition de cette
fourmi hôte combinées à celles de Sanguisorba officinalis pour modéliser la distribution géographique du
papillon. Toutefois les données de présence de Myrmica scabrinodis sont insuffisantes et biaisés, à cause
d’un problème d’identification entre espèces du même genre (Elmes et al., 1998). Cependant, cette fourmi
est considérée présente partout en France, et donc elle ne représenterait pas un discriminant fort sur la
réparation du papillon (Dupont, 2016, communication personnelle).
Muscardinus avellanarius. Le muscardin est un petit rongeur arboricole qui privilégie les forêts à
végétation buissonnante, les lisières forestières ou encore les clairières. Il peut fréquenter également les
mégaphorbiaies associées aux marais. En France les densités de muscardin sont faibles. Il ne fréquente pas
les habitations et il est plutôt discret. Pour ces raisons, il peut être difficile à détecter (Chapuis, 2016,
communication personnelle). Le modèle retenu pour cette espèce et celui issu de la stratégie de sélection de
pseudo-absences « SRE » (pseudo-absences sélectionnées par exclusion environnementale). Le choix n’a
pas été fait sur la base des évaluations, qui ne sont pas toujours fiables, mais sur la base de l’aire prédite par
le modèle. Ce modèle, en effet, n’est pas le meilleur : d’une part, l’efficacité de cette stratégie de génération
de pseudo-absence est débattue (Engler et al., 2004; Wisz et Guisan, 2009). D’autre part, plusieurs mailles
de présence, notamment dans le nord et le nord-ouest de la France, ainsi que dans le sud-est sont exclues par
les prédictions. Cependant, la carte de répartition produite semble plus cohérente avec la connaissance
actuelle de l’espèce, qui est réputée être présente partout en France (Haffner, 2016, communication
personnelle), sauf dans le sud-ouest, où il n’y a pas d’information.
Myotis blythii. Le petit murin est un chiroptère qui chasse en milieu ouvert (prairies pâturages,
steppes) et peut monter jusqu’à 2000 m d’altitude; il favorise également les prairies humides et semble éviter
les forêts et les terrains agricoles (Bensettiti et al., 2002). Les gîtes d’hibernation sont peu connus, il choisit
probablement les anciennes carrières, les mines et les caves (Haffner, 2016, communication personnelle).
Dans les zones chaudes, en été, les gîtes sont situés dans des cavités souterraines ; dans les zones plus
froides, cette espèce thermophile choisit les greniers (Haffner, 2016, communication personnelle), lui
permettant d’étendre les limites de sa répartition géographiques vers le nord de l’Europe (Bensettiti et al.,
2002). Les données en Corse, présentent dans la base INPN, se sont avérées fausses. Les deux modèles
calibrés sur deux jeux de données différents (INPN et EVAL) ont donc produit des résultats divergents. Les
deux aires de répartition se ressemblent du côté est, où les densités de mailles de présence sont semblables.
Au contraire, dans la carte issue des données EVAL où les occurrences erronées sont absentes, l’espèce
n’occupe plus la Corse. Les occurrences EVAL dans l’ouest de la France ont aussi permis d’affiner la carte
de répartition dans le sud-ouest. Selon les variables sélectionnées et les courbes de réponse, ce chiroptère
favorise les roches nues et la végétation clairsemée (R_CLC354,Tableau 3 ;Figure 8) typiques des paysages
de montagne ; les milieux agricoles (R_CLC200, Tableau 3 ;Figure 8) ne semblent pas constituer un facteur
33
limitant pour l’espèce, à l’échelle considérée. Il tolère relativement bien les fluctuations de température (bio2
et bio4, Tableau 3 ;Figure 8) et préfère les endroits chauds en été, avec peu de précipitations (bio10 et bio16,
Tableau 3 ;Figure 8).
Rosalia alpina. La rosalie des Alpes est un coléoptère saproxylique (i.e. cycle de vie associé à la
décomposition du bois mort) qui vit en montagne comme en plaine. Elle est considérée comme une espèce
emblématique et a été inscrite aux annexes II et IV (protection stricte) de la DHFF. En montagne elle se
retrouve dans les hêtraies et sa plante hôte principale est le hêtre commun (Fagus Sylvatica, Linné, 1753).
En plaine elle a été observée sur différentes espèces de frênes (Fraxinus spp.), noyer (Juglans spp.), saules
(Salix spp.) et peupliers (Populus spp.) (Horellou, 2016, Touroult, 2016, communication personnelle). Cette
espèce est menacée par la régression des vieilles forêts de hêtre. Sa répartition est mal connue puisqu’il
s’agit d’un insecte très discret, dont la vie se déroule essentiellement sous forme de larve se nourrissant du
bois mort ou dépérissant. En mai 2014, l’OPIE (Office Insectes Environnement) et le GRETIA (Groupe
d’étude des Invertébrés Armoricains) ont lancé une enquête nationale sur Rosalia alpina. Les premiers
résultats sont satisfaisants, avec une nouvelle observation en Basse-Normandie (Eychenne, 2015). Cette
observation est cohérente avec les résultats du modèle (Figure 11), qui indiquent une probabilité, bien que
faible, de trouver Rosalia alpina dans cette région. Au contraire, l’espèce n’est pas considérée comme
présente dans le nord de la France, le long de la frontière, où le modèle prédit pourtant une certaine
probabilité de présence (Touroult, 2016, communication personnelle). Il pourrait s’agir d’un habitat
favorable qui n’a pas été occupé par l’espèce. Les données de présence dans le nord-est ne sont plus
d’actualité, puisque le coléoptère semble avoir disparu dans cette zone (Bensettiti et al., 2002). Si le but est
de décrire la distribution réelle de l’espèce, il faudrait masquer ces aires d’absence avérée. Au contraire, si le
modèle sert à mettre en évidence de zones potentiellement favorables, les données plus anciennes peuvent
être gardées. Dans ce cas, les éventuels changements environnementaux, en particulier de l’occupation du
sol, doivent être pris en compte et les variables doivent être cohérentes avec les données de présence.
6. Sélection des variables
Pour ce travail, nous avons utilisé un protocole de sélection de variables (Bellard et al., 2016; Leroy
et al., 2014, 2013) qui consiste à garder la variable la plus importante dans chaque groupe de variables
colinéaires et à tester, dans un deuxième temps, toutes les variables non inter-corrélées, en retirant ensuite
les moins significatives. Ce protocole de sélection automatique est adapté à des espèces pour lesquelles les
préférences environnementales et la répartition sont méconnues et les variables à tester sont nombreuses.
Cependant, il est important de maintenir une approche critique et qualitative dans le choix final, puisque les
résultats de la sélection automatique peuvent être insuffisants. D’une part, ces résultats dépendent de l’ordre
dans lequel les variables sont intégrées dans le modèle, d’autre part les variables « importantes » choisies par
34
la sélection automatique peuvent être encore trop nombreuses et rendre la calibration des modèles successifs,
ainsi que leur interprétation difficiles.
Le choix des variables est une étape sensible du processus de modélisation. Il est important de choisir
des prédicteurs écologiquement pertinents, en se basant sur la connaissance des espèces (Mac Nally, 2000)
ce qui peut être particulièrement difficile pour modéliser les organismes dont l’écologie et la répartition sont
peu connues. Il faut distinguer entre variables proximales, ou directes, et variables distales, ou indirectes.
L’altitude, par exemple, affecte rarement de manière directe la distribution d’une espèce, mais elle est
souvent corrélée à d’autres variables plus pertinentes telles que la température ou les précipitations (Austin,
2002). L’utilisation de seules prédicteurs distaux peut causer des erreurs de prédiction, puisque la relation
entre variables directes et indirectes peut varier dans l’espace (Austin, 2002). Cependant, le choix des
variables dépend de la disponibilité des couches environnementales et de la résolution à laquelle l’étude est
conduite. Aujourd’hui l’accès aux données climatiques et environnementales grâce à la libéralisation des
images satellites et des données dérivées est de plus en plus démocratisé, mais peu d’études ont réalisé une
recherche approfondie des variables pertinentes, et la plupart se limitent à utiliser les données les plus faciles
d’accès (Elith and Leathwick, 2009) sans décrire le processus de choix et de traitement des variables
utilisées.
Intégrer un grand nombre de variables peut rendre l’interprétation difficile, diminuer le pouvoir
prédictif du modèle et augmenter le temps de calcul. En général, pour améliorer la qualité d’un modèle, il
faut réduire le nombre de variables explicatives (Guisan et Zimmermann, 2000) capables d’expliquer la
plupart de la variabilité du système. Cela implique de choisir le modèle le plus parcimonieux en éliminant
les variables les moins significatives parmi les variables colinéaires (ou inter-corrélées), puisque la
multicolinéarité couvre déjà une partie de cette variabilité (Franklin, 2009). Une alternative possible est la
transformation des variables corrélées au sein d’un indicateur composite ou en représentant plusieurs
variables corrélées par les coordonnées des occurrences sur les axes principales d’une ACP (Analyse en
Composantes Principales). Cependant, le prédicteur résultant et la manière dont il affecte la présence de
l’espèce peut être difficile à interpréter puisqu’il est détaché de sa signification écologique.
Enfin, l’écologie des espèces est parfois bien connue, mais identifier les variables qui décrivent la
relation entre ces espèces et leur environnement, aux différentes échelles, peut être complexe. De plus, les
processus environnementaux qui affectent la distribution des espèces agissent de manières différentes aux
différentes échelles spatiales (Pearson et Dawson, 2003). Les variables choisies, bien qu’écologiquement
pertinentes, pourraient n’avoir aucun effet sur la présence de l’espèce à la résolution considérée. D’autre
part, la distribution actuelle de l’espèce peut dépendre de facteurs historiques, biogéographiques ou de sa
capacité de dispersion, ou bien des interactions biotiques, plus que des déterminants environnementaux
(Guisan et Thuiller, 2005; Jimenez-Valverde et al., 2008). Cette étude présente des limites au regard des
35
variables utilisées et des couches environnementales traitées. En premier lieu, les variables d’occupation du
sol, en particulier celles de CLC2006, représentent une approximation écologique. Elles mesurent la densité
d’un certain type d’utilisation du sol à l’intérieur d’une maille 10x10 km (e.g. peu de forêt contre beaucoup
de forêt). Ce type de variable pourrait être discriminante pour certaines espèces. D’autres espèces pourraient
être affectées par d’autres caractéristiques environnementales : la fragmentation du paysage ou la
présence/absence d’un type de milieu, plutôt que sa quantité relative dans la maille. D’autres indicateurs,
comme l'hétérogénéité du milieu, pourraient être envisagés. Par exemple différentes espèces d’amphibiens
répondent de manière différente à l'hétérogénéité des surfaces humides : certaines préfèrent vivre dans des
milieux humides avec de nombreuses petites surfaces d’eau, alors que d’autres choisissent une seule grande
surface humide (de Massary, 2016, communication personnelle).
Les couches Corine Land Cover (CLC2006) et celles à haute résolution (CLCHR) sont relativement
récentes (2006 et 2012). Alors que le données climatiques couvrent à peu près tout l’écart temporel des
occurrences (1950-aujourd'hui), les données CLC2006 pourraient être trop récentes pour être testées.
L'incohérence temporelle entre les variables et les observations pourrait avoir faussé les résultats des
modèles. À certains endroits, le modèle est susceptible d’identifier une relation erronée entre l’espèce et son
environnement, puisque l’environnement n’est plus celui d’origine. Étant une étude préliminaire visant
surtout à développer une méthodologie de modélisation applicable aux données du SPN, le fait d'intégrer ces
couches a une finalité principalement exploratoire. De plus, les couches à haute résolution apportent une
information plus précise sur les milieux naturels et urbains qu’il est intéressant d’exploiter. Une solution
pourrait être, lorsque c’est possible, d'utiliser exclusivement les données d'occurrence les plus récentes. Dans
le cas où l'échantillon de mailles récentes est insuffisant ou biaisé, l’utilisation de couches CLC plus
anciennes pourrait être envisagée. Dans tous les cas, les variables d’occupation du sol, y compris les données
HR, ont rarement été sélectionnées parmi les variables finales. Il y a peu de probabilité qu’elles aient affecté
les modèles finaux.
7. Stratégie de génération des pseudo-absences
Nous avons confronté les métriques et les cartes de distribution de 5 espèces en appliquant pour
chacune deux approches différentes : génération de pseudo-absences (PAs) aléatoire partout dans la scène
(stratégie « RAN ») et sélection des variables par exclusion environnementale (stratégie « SRE »). Pour
Elona quimperiana, Muscardinus avellanarius, nous avons comparé les cartes de distribution issues de
modèles basés sur ces deux stratégies. Lorsque les PAs sont sélectionnées par exclusion environnementale,
les cartes de zones favorables (i.e. de distribution potentielle) estimées par les modèles tendent à être plus
optimistes (Barbet-Massin et al. 2012; Hanberry et al., 2012). Les évaluations de ces modèles (stratégie
« SRE ») pour cette étude sont globalement meilleures, à l’exception d’Elona quimperiana, pour laquelle les
36
deux cartes de prédiction sont presque identiques (Figure 10) et les métriques, pour la plupart, ne sont pas
significativement différentes. Au contraire, lorsque les PAs sont générées aléatoirement partout (stratégie
« RAN ») les prédictions sont beaucoup plus conservatives. Ce conservatisme est probablement dû à la
sélection d’un grand nombre d’absences proches des points de présences, et donc à une distance trop petite
dans l’espace géographique et des variables (Chefaoui et Lobo, 2008; Hanberry et al., 2012): les projections
montrent une forte probabilité de présence seulement dans ou près des mailles d’occurrence (Figure 10).
La métrique d’évaluation utilisée ici (TSS) est supposée être indépendante de la prévalence (i.e., la
proportion de sites occupés par l’espèce par rapport au nombre total de sites de la zone d’étude) (Allouche et
al., 2006), mais de récents travaux ont démontré au contraire une corrélation négative entre TSS et
prévalence (Leroy et al. soumis).. Cette corrélation négative pourrait expliquer les faibles valeurs de TSS
pour les espèces à large répartition et à forte prévalence (e.g. Muscardinus avellanarius). Il s’agit d’une
métrique adaptée pour évaluer des prédictions basées sur des présences/absences (Allouche et al., 2006) et
elle est aujourd’hui utilisée pour des modèles de présence/pseudo-absences. La stratégie « SRE » guide la
sélection de pseudo-absences en les séparant de manière nette des présences, ce qui pourrait générer des
artefacts au moment de l’évaluation (Leroy, 2016, communication personnelle; voir aussi Jarnevich et al.,
2015; Wisz et Guisan, 2009). Cela expliquerait les métriques plus élevées pour les modèles « SRE », sans
pour autant qu’il s'agisse des meilleurs modèles.
Barbet-Massin et al. (2012) ont montré que la stratégie et le nombre de pseudo-absences ont un
impact sur la qualité du modèle, mais les résultats sont aussi affectés par le nombre et la répartition de
données de présence initiales et par l’étendue de la zone d’étude. La distribution prédite pour une espèce
avec une grande aire de répartition (e.g. Muscardinus avellanarius) ne sera pas impactée de la même façon
qu’une espèce ayant une aire de répartition circonscrite (e.g. Elona quimperiana). En effet, les résultats pour
Elona quimperiana sont satisfaisants parce que son aire de répartition est restreinte et bien connue et que
toutes les occurrences sont dans cette aire. Pour cette raison, la stratégie « SRE » a la même capacité
prédictive que la stratégie « RAN » d’estimer les aires favorables à la présence de l’espèce sans problèmes
de sur- ou de sous prédiction.
Le choix entre les deux stratégies pourrait dépendre de l'objectif de la modélisation. Barbet-Massin et
al. (2012) suggèrent d’utiliser la stratégie « RAN » plutôt dans un cadre de planification de réserves
biologiques (i.e. minimiser le taux de vraies absences prédites comme présences). Des deux approches de
génération des pseudo-absences, pour Elona quimperiana, la meilleure stratégie à retenir est la « RAN », car
à parité de performance, il s’agit du modèle le plus parcimonieux (Wisz et Guisan, 2009). Pour les autres
espèces (Figure 9 ;Figure 11 ; Figure 12 ; voir aussi Annexes Figure A.1) le choix est plus complexe. La
stratégie « RAN » est conservatrice et estime bien les vraies présences, mais elles n’a pas de pouvoir
prédictif (aucune zone favorable n’est révélée par le modèle outre celles qui sont déjà connues). D’autre part
37
la stratégie « SRE » prédit des potentiels de présence importants dans de nouveaux sites, mais a tendance à
laisser certains points de présence avérés en dehors de l’enveloppe prédite (faux négatifs). Lobo et al. (2010)
distinguent trois types d’absences : les absences contingentes (i.e. causées par des raisons historiques,
l’extinction locale de l’espèce ou des barrières à la dispersion); les absences environnementales (i.e. causées
par des conditions climatiques et environnementales défavorables); et les absences méthodologiques (i.e. le
résultat des biais et de la pénurie de données d’inventaire). La méthode « SRE » elle-même est basée sur un
modèle de niche écologique basé exclusivement sur les présences et les variables environnementales. Elle
permet, comme d’autres méthodes de type « présences seules », de sélectionner les pseudo-absences en
laissant une ‘zone tampon’ autour des points d’occurrences dans l’espace géographique et dans l’espace des
variables (Hengl et al., 2009). Cette stratégie se limite à prendre les absences environnementales, ce qui peut
représenter une source d’erreur (i.e., fausses présences). De plus, elle a tendance à séparer de manière nette
les zones de présence et celles d’absence (Figure 9 ; voir aussi Annexes Figure A.1), plutôt que d’estimer
des probabilités continues. Cette approche peut, néanmoins, être utile pour la modélisation d’espèces rares,
pour lesquelles on cherche à connaître les zones de présence potentielle (ou zones climatiques favorables)
pour mettre en place des campagnes d’échantillonnage ciblées (Engler et al., 2004; Lobo et al., 2010). Les
absences contingentes sont, au contraire, nécessaires pour estimer la distribution géographique. Il est
cependant plus difficile de les identifier (Lobo et al., 2010) et de les simuler au travers de la génération de
pseudo-absences puisqu’on risque d’intégrer de fausses absences dans les pseudo-absences. L’approche
« SRE », avec le protocole et les paramètres utilisés, n’est pas encore optimisée pour estimer l’aire de
répartition d’espèces d’intérêt patrimonial avec les données d’occurrence de la base INPN. Les pseudo-
absences « RAN » pourraient aider à construire des aires de répartition plus proches de la réalité. De plus,
cette méthode est la plus parcimonieuse et s’est avérée être une bonne alternative à l’utilisation de vrais
absences (Wisz et Guisan, 2009). Cependant, dans les conditions actuelles, elle est insuffisante pour les
espèces à large et très large répartition telles que Rosalia alpina et Muscardinus avellanarius.
Différents études (Hanberry et al., 2012; Hertzog et al., 2014; Mateo et al., 2010) ont montré que
l’utilisation de stratégies de génération de pseudo-absences « corrigées » et adaptées augmente les capacités
prédictives du modèle. Ces stratégies sont souvent basées sur les présences d’un groupe cible (target group)
pour sélectionner les absences de l’espèce à modéliser (Phillips, 2009). Les pseudo-absences basées sur un
groupe cible (target group absences) sont des sites où les espèces du groupe ont été inventoriées (i.e. sites à
forte pression d’observation) mais où l’espèce à modéliser n’a pas été observée (Mateo et al., 2010; Phillips,
2009). Cette approche permettrait d’avoir plus de chance d’extraire des pseudo-absences dans des zones de
vraie absence, ainsi que de limiter l’effet du biais lié à la concentration d’occurrences dans les zones faciles
d’accès (routes, basse altitudes, universités et villes).
Enfin, une stratégie adaptée au cas-par-cas, viserait à sélectionner les zones où tirer les pseudo-
38
absences en se basant sur la connaissance des experts. Cette méthode, si elle est appliquée à un petit nombre
d’espèces relativement bien connues, pourrait aider à développer une stratégie appropriée et exploitable par
le SPN dans les futures projets de modélisation de niche.
8. Les données en entrée
La comparaison entre les cartes de répartition issues de deux jeux de données pour Myotis blythii
(base INPN et base EVAL) démontre l’impact de la qualité des données d’entrée sur les modèles.
Les données d’inventaire, bien que valides et codifiées, peuvent inclure des biais spatiaux, temporels,
taxonomiques et environnementaux (Leroy, 2012; Robertson et al., 2010). Il peut s’agir d’erreurs
d’identification ou de géolocalisation, ou bien, d’une pression d'échantillonnage plus forte dans les zones
plus faciles d’accès, telles que les routes, les rivières et les villes (Reddy et Dávalos, 2003). En outre,
certains taxons sont plus échantillonnés que d’autres. Par exemple, les espèces cryptiques, peu vagiles ou les
animaux fouisseurs peuvent être sous-représentés (Robertson et al., 2010). Les espèces rares ou endémiques
peuvent être sur-représentées puisqu’elles sont recherchées activement dans des endroits ciblés (Robertson et
al., 2010). Les espèces communes, au contraire, peuvent se retrouver sous-estimées dans les inventaires. De
la même façon, une espèce peut être bien répertoriée dans une certaine zone géographique où elle est plus
rare, et peu représentée dans une zone où elle est commune. C’est le cas de Cerambyx cerdo, un coléoptère
qui a été modélisé lors de cette étude et dont les résultats sont montrés en Annexes Figure A.2. Cette espèce
est mal représentée dans le sud de la France, où elle est commune, et bien répertoriée dans le nord où elle est
plus difficile à rencontrer. Ces biais sont généralement minimisés grâce aux systèmes de contrôle, de
validation et d’homogénéisation des données. Le rôle des experts dans l’identification et la minimisation de
ces erreurs est très important pour maintenir un bon compromis entre quantité et qualité de données.
Dans cette étude, le nombre et la localisation des mailles semble avoir un impact sur les modèles et
leur capacité prédictive : un nombre intermédiaire de mailles de présence, réparties de manière homogène et
intégralement comprises dans une aire de répartition restreinte (Elona quimperiana, 139 mailles) conduit à
une bonne prédiction de la distribution géographique de l’espèce; à l’opposé, pour un échantillon
intermédiaire (Rosalia alpina, 325 mailles) ou grand (Muscardinus avellanarius, 1463 mailles), avec des
lieux à plus forte prévalence et une large répartition géographique les modèles tendent à faire des prédictions
conservatrices ou erronées. Au contraire, un petit échantillon et une aire de répartition intermédiaire
(Maculinea teleius, 63 mailles) ont permis une bonne prédiction de l’aire de distribution potentielle.
Une approche efficace, pour les organismes à large répartition, consisterait à calibrer les modèles sur
une zone d’étude plus large (e.g. l’europe), et à projeter ensuite les probabilités prédites sur la France
(Jarnevich et al., 2015). Cela permettrait d’extraire toute l’enveloppe environnementale de l’espèce (Barbet-
Massin et al., 2010; Jarnevich et al., 2015; Pearson et al., 2004; Thuiller et al., 2004).
39
9. Perspectives et recommendations
L’information apportée par les modèles n’est jamais totalement « vraie ». Les résultats, même s’ils
sont issus d’un modèle consensus et caractérisés par de bonnes métriques, sont toujours à analyser avec
prudence et, idéalement, à soumettre à l’œil critique d’un expert du taxon considéré. Le passage par la
consultation d’experts, avant et après la réalisation des modèles, est une étape essentielle pour la
compréhension et l’analyse critique des modèles, ainsi que pour la réalisation de cartes utiles au rapportage.
Nous avons montré que les principales sources d’erreur dérivent de la qualité des données en entrée, du
choix des variables environnementales et de la stratégie de sélection des pseudo-absences. Cette étude a
montré, qu’à partir de données environnementales et de données de présence de maille 10x10 km et avec
l’application de modèles consensus, on peut réaliser des cartes assez précises montrant la distribution
géographique potentielle maille par maille sur tout le territoire national de la France métropolitaine. Cette
approche apporte une information complémentaire par rapport aux seules données d’occurrence ou aux
cartes de répartition par départements (ABDSM : Atlas de la Biodiversité Départementale et des Secteurs
Marins) et, malgré ses défauts, pourra aider le SPN dans ses obligations de rapportage, de diffusion
d’information et de connaissance et de support technico-scientifique pour les décideurs en conservation de la
nature.
Modéliser de nombreux groupes d’organismes rendait difficile la recherche de discriminants
écologiques précis et appropriés à chaque espèce ou taxon considéré. En revanche, limiter les variables au
climat et à l’occupation du sol a facilité l’automatisation des tâches et l’exploration des données et des
résultats préliminaires. Le protocole pourra être ensuite perfectionné ou réadapté en travaillant espèce par
espèce et en intégrant éventuellement d’autres déterminants écologiques. Notamment, l’intégration d’autres
variables environnementales telles que la densité de routes ou de cours d’eau, la pollution lumineuse, la
pédologie et la topographie, pourra être envisagée. Le modèle sur Maculinea teleius suggère que
l’intégration de variables d’interaction biotique est aussi intéressante à explorer. Élargir l’étendue de la zone
d’étude à l’Europe, voir au globe entier, permettra de modéliser avec plus de précision les espèces à large
répartition et surtout les espèces invasives, qui n’ont pas pu être modélisées lors de cette étude à cause du
manque de données validées hors de la France. Modéliser sur une zone d’étude plus grande permettra ainsi
de rendre la sélection des pseudo-absences plus efficace. Lorsque de vraies absences (i.e. sites où l’espèce
est avérée comme non présente) sont connues, elles pourront être assimilées dans les modèles, grâce à la
consultation d’experts naturalistes. Une analyse approfondie de l’incertitude permettra aussi d’affiner
l’évaluation des modèles et de leur applicabilité.
Cette mission a permis de jeter les bases pour l’exploitation des modèles de niche au sein du SPN et
notamment, d’explorer l’applicabilité de la modélisation à la grande quantité de données récoltées,
40
synthétisées et validées par le service. Ces méthodes vont continuer à être mises en œuvre dans les mois
suivants, dans le cadre d’une vacation visant à compléter le travail de catalogage et de traitement des
couches environnementales qui sera mis sous forme de base de données, ainsi que pour la réalisation d’un
pré-atlas des lépidoptères de France.
10. Conclusion
Les données de biodiversité recueillies et validées par les institutions publiques et parfois issues des
sciences participatives sont de plus en plus utilisées pour décrire les distributions géographiques et définir
des politiques de conservation pour les espèces d’intérêt patrimonial. Ces bases de données représentent une
source d’information importante sur la répartition de la biodiversité. De plus, la libéralisation d’images
satellites et des produits dérivés permet aujourd’hui l’accès à une grande quantité de données sur le climat, le
paysage et l’environnement, à haute résolution et sur de grandes étendues spatiales. Cette information, riche
mais incomplète, peut être complétée grâce à la modélisation de niche écologique. Les modèles de niche
permettent non seulement de prédire la distribution d’un organisme dans l’espace, d’estimer l’impact des
changements climatiques et le potentiel d’invasion d’une espèce, ils peuvent aussi enrichir notre
connaissance sur l’écologie et la biogéographie des espèces, suggérer des sites d’échantillonnage pour les
espèces rares ou de réintroduction pour celles en déclin et aider à la conception de réserves naturelles.
Il n’existe pas de méthodologie de modélisation unique et adaptée à toutes les conditions. Le choix
doit se faire au cas par cas, selon l’application envisagée, les caractéristiques de l’espèce et les données
disponibles. Les principales sources d’erreur dérivent de la qualité des données en entrée, du choix des
variables environnementales et de la stratégie de sélection des pseudo-absences. Malgré ses limites, la
modélisation reste un outil puissant, utile pour compléter l’information sur la distribution des espèces au
niveau national et pourra être exploité par le SPN pour ses missions d’expertise sur la biodiversité et la
conservation de la nature en France.
41
Références
Allouche, O., Tsoar, A., Kadmon, R., 2006. Assessing the accuracy of species distribution models:
Prevalence, kappa and the true skill statistic (TSS). J. Appl. Ecol. 43, 1223‑1232. doi:10.1111/j.1365-
2664.2006.01214.x
Araújo, M.B., Luoto, M., 2007. The importance of biotic interactions for modelling species distributions
under climate change. Glob. Ecol. Biogeogr. 16, 743‑753. doi:10.1111/j.1466-8238.2007.00359.x
Araújo, M.B., New, M., 2007. Ensemble forecasting of species distributions. Trends Ecol. Evol. 22, 42‑7.
doi:10.1016/j.tree.2006.09.010
Austin, M., 2007. Species distribution models and ecological theory: A critical assessment and some
possible new approaches. Ecol. Modell. 200, 1‑19. doi:10.1016/j.ecolmodel.2006.07.005
Austin, M.P., 2002. Spatial prediction of species distribution: An interface between ecological theory and
statistical modelling. Ecol. Modell. 157, 101‑118. doi:10.1016/S0304-3800(02)00205-3
Austin, M.P., Nicholls, A.O., Margules, C.R., 1990. Measurement of the Realized Qualitative Niche :
Environmental Niches of Five Eucalyptus Species. Ecol. Soc. Am. 60, 161‑177.
Barbet-Massin, M., Jiguet, F., Albert, C.H., Thuiller, W., 2012. Selecting pseudo-absences for species
distribution models: How, where and how many? Methods Ecol. Evol. 3, 327‑338. doi:10.1111/j.2041-
210X.2011.00172.x
Barbet-Massin, M., Thuiller, W., Jiguet, F., 2010. How much do we overestimate future local extinction
rates when restricting the range of occurrence data in climate suitability models? Ecography (Cop.). 33,
878‑886. doi:10.1111/j.1600-0587.2010.06181.x
Bellard, C., Leroy, B., Thuiller, W., Rysman, J.F., Courchamp, F., 2016. Major drivers of invasion risks
throughout the world. Ecosphere 7, 1‑14. doi:10.1002/ecs2.1241
Bensettiti, F., Gaudillat, V., Roué, S.Y., Barbier, B., Guilbot, R., Dupont, P., Dommanget, J.-L. (Coord. .,
2002. Cahiers d’habitats Natura 2000 - Tome 7 - Espèce animales. Cah. d’habitats Nat. 2000,
Conaissance Gest. des habitats des espèces d’interet Communaut. Tome 7, 353. doi:10.1016/S0372-
1248(62)80016-2
Breiman, L., 2001. Random forests. Mach. Learn. 45, 5‑32.
Cardoso, P., Erwin, T.L., Borges, P. a. V., New, T.R., 2011. The seven impediments in invertebrate
conservation and how to overcome them. Biol. Conserv. 144, 2647‑2655.
doi:10.1016/j.biocon.2011.07.024
Chefaoui, R.M., Lobo, J.M., 2008. Assessing the effects of pseudo-absences on predictive distribution model
42
performance. Ecol. Modell. 210, 478‑486. doi:10.1016/j.ecolmodel.2007.08.010
Elith, J., Ferrier, S., Huettmann, F., Leathwick, J., 2005. The evaluation strip: A new and robust method for
plotting predicted responses from species distribution models. Ecol. Modell. 186, 280‑289.
doi:10.1016/j.ecolmodel.2004.12.007
Elith, J., Graham, C., Anderson, R., Dudik, M., Ferrier, S., Guisan, A., Hijmans, R., Huettmann, F.,
Leathwick, J., Lehmann, A., Li, J., Lohmann, L., Loiselle, B., Manion, G., Moritz, C., Nakamura, M.,
Nakazawa, Y., Overton, J., Peterson, A., Phillips, S., Richardson, K., Scachetti-Pereira, R., Schapire,
R., Soberon, J., Williams, S., Wisz, M., Zimmermann, N., 2006. Novel methods improve prediction of
species’ distributions from occurrence data. Ecography (Cop.). 29, 129‑151. doi:10.1111/j.2006.0906-
7590.04596.x
Elith, J., Leathwick, J.R., 2009. Species Distribution Models: Ecological Explanation and Prediction Across
Space and Time. Annu Rev Ecol Syst 40, 415‑436. doi:10.1146/annurev.ecolsys.l
Elith, J., Phillips, S.J., Hastie, T., Dudík, M., Chee, Y.E., Yates, C.J., 2011. A statistical explanation of
MaxEnt for ecologists. Divers. Distrib. 17, 43‑57. doi:10.1111/j.1472-4642.2010.00725.x
Elmes, G.W., Thomas, J.A., Wardlaw, J.C., Hochberg, M.E., Clarke, R.T., Simcox, D.J., 1998. The ecology
of Myrmica ants in relation to the conservation of Maculinea butterflies. J. Insect Conserv. 2, 67‑78.
doi:10.1023/A:1009696823965
Engler, R., Guisan, A., Rechsteiner, L., 2004. An improved approach for predicting the distribution of rare
and endangered species from occurrence and pseudo-absence data. J. Appl. Ecol. 41, 263 –274.
doi:10.1111/j.0021-8901.2004.00881.x
European Environment Agency, 2007. CLC2006 technical guidelines, EEA Technical report.
doi:10.2800/12134
Eychenne, G., 2015. Première observation de Rosalia alpina (L., 1758) en Basse-Normandie (Coleoptera,
Cerambycidae), par G. Eychenne, Invertébrés Armoricains, les Cahiers du GRETIA, n°12
Ferrier, S., 2002. Mapping Spatial Pattern in Biodiversity for Regional Conservation Planning: Where to
from Here? Syst. Biol 51, 331‑363. doi:10.1080/10635150252899806
Fox, J., Weisberg, S., 2010. An R companion to applied regression. Sage.
Franklin, J., 2009. Mapping Species Distributions; Spatial Inference and Prediction, Cambridge University
Press. Cambridge University Press, Cambridge, UK. doi:10.1017/CBO9781107415324.004
Friedman, J.H., 1991. Multivariate adaptive regression splines. Ann. Stat. 1‑67.
Guisan, A., Thuiller, W., 2005. Predicting species distribution: Offering more than simple habitat models.
Ecol. Lett. 8, 993‑1009. doi:10.1111/j.1461-0248.2005.00792.x
Guisan, A., Zimmermann, N.E., 2000. Predictive habitat distribution models in ecology. Ecol. Modell. 135,
43
147‑186. doi:10.1016/S0304-3800(00)00354-9
Hanberry, B.B., He, H.S., Palik, B.J., 2012. Pseudoabsence Generation Strategies for Species Distribution
Models. PLoS One 7. doi:10.1371/journal.pone.0044486
Hastie, T., Tibshirani, R., 1987. Generalized additive models: some applications. J. Am. Stat. Assoc. 82,
371‑386.
Hengl, T., Sierdsema, H., Radović, A., Dilo, A., 2009. Spatial prediction of species’ distributions from
occurrence-only records: combining point pattern analysis, ENFA and regression-kriging. Ecol. Modell.
220, 3499‑3511. doi:10.1016/j.ecolmodel.2009.06.038
Hertzog, L.R., Besnard, A., Jay-Robert, P., 2014. Field validation shows bias-corrected pseudo-absence
selection is the best method for predictive species-distribution modelling. Divers. Distrib. 20,
1403‑1413. doi:10.1111/ddi.12249
Hijmans, R., Sumner, M., Macqueen, D., Lemon, J., Brien, J.O., 2016. Package ‘ sp ’.
Hijmans, R.J., Cameron, S.E., Parra, J.L., Jones, P.G., Jarvis, A., 2005. Very high resolution interpolated
climate surfaces for global land areas. Int. J. Climatol. 25, 1965‑1978. doi:10.1002/joc.1276
Hijmans, R.J., Phillips, S., Leathwick, J.R., Elith, J., 2011. Package ‘ dismo ’. October 55.
doi:10.1016/j.jhydrol.2011.07.022.
Hijmans, R.J., van Etten, J., 2014. raster: Geographic data analysis and modeling. R Packag. version 2, 15.
Hutchinson, G.E., 1957. The multivariate niche, in: Cold Spr. Harb. Symp. Quant. Biol. p. 415‑421.
Jarnevich, C.S., Stohlgren, T.J., Kumar, S., Morisette, J.T., Holcombe, T.R., 2015. Caveats for correlative
species distribution modeling. Ecol. Inform. 29, 6‑15. doi:10.1016/j.ecoinf.2015.06.007
Jimenez-Valverde, A., Gomez, J.F., Lobo, J.M., Baselga, A., Hortal, J., 2008. Challenging species
distribution models: the case of Maculinea nausithous in the Iberian Peninsula. Ann. Zool. Fennici 45,
200‑210. doi:10.5735/086.045.0305
Leathwick, J.R., Austin, M.P., 2001. Competitive Interactions between Tree Species in New Zealand’s Old-
Growth Indigenous Forests. Ecology 82, 2560‑2573. doi:10.2307/2679936
Leroy, B., 2012. Utilisation des bases de données biodiversité pour la conservation des taxons d’invertébrés :
indices de rareté des assemblages d’espèces et modèles de prédiction de répartition d’espèces
(phdthesis). Paris, Mus{é}um national d’histoire naturelle.
Leroy, B., Bellard, C., Dubos, N., Colliot, A., Vasseur, M., Courtial, C., Bakkenes, M., Canard, A., Ysnel,
F., 2014. Forecasted climate and land use changes, and protected areas: The contrasting case of spiders.
Divers. Distrib. 20, 686‑697. doi:10.1111/ddi.12191
Leroy, B., Meynard, C.N., Bellard, C., Courchamp, F., 2016. virtualspecies, an R package to generate virtual
44
species distributions. Ecography (Cop.). 599–607. doi:10.1111/ecog.01388
Leroy, B., Paschetta, M., Canard, A., Bakkenes, M., Isaia, M., Ysnel, F., 2013. First assessment of effects of
global change on threatened spiders: Potential impacts on Dolomedes plantarius (Clerck) and its
conservation plans. Biol. Conserv. 161, 155‑163. doi:10.1016/j.biocon.2013.03.022
Lobo, J.M., Jiménez-Valverde, A., Hortal, J., 2010. The uncertain nature of absences and their importance in
species distribution modelling. Ecography (Cop.). 33, 103‑114. doi:10.1111/j.1600-0587.2009.06039.x
Mac Nally, R., 2000. Regression and model-building in conservation biology, biogeography and ecology:
The distinction between – and reconciliation of – ‘predictive’ and ‘explanatory’ models. Biodivers.
Conserv. 655‑671. doi:10.1023/A:1008985925162
Mackenzie, D.I., Royle, J.A., 2005. Designing occupancy studies: General advice and allocating survey
effort. J. Appl. Ecol. 42, 1105‑1114. doi:10.1111/j.1365-2664.2005.01098.x
Mateo, R.G., Croat, T.B., Felicísimo, Á.M., Muñoz, J., 2010. Profile or group discriminative techniques?
Generating reliable species distribution models using pseudo-absences and target-group absences from
natural history collections. Divers. Distrib. 16, 84‑94. doi:10.1111/j.1472-4642.2009.00617.x
McCullagh, P., Nelder, J.A., 1989. Generalized linear models. CRC press.
Milbau, A., Stout, J.C., Graae, B.J., Nijs, I., 2009. A hierarchical framework for integrating invasibility
experiments incorporating different factors and spatial scales. Biol. Invasions 11, 941‑950.
doi:10.1007/s10530-008-9306-2
Pearson, R.G., Dawson, T.P., 2003. Predicting the impacts of climate change on the distribution of species:
Are bioclimate envelope models useful? Glob. Ecol. Biogeogr. 12, 361‑371. doi:10.1046/j.1466-
822X.2003.00042.x
Pearson, R.G., Dawson, T.P., Liu, C., 2004. Modelling species distributions in Britain: a hierarchical
integration of climate and land-cover data. Ecography (Cop.). 27, 285‑298. doi:10.1111/j.0906-
7590.2004.03740.x
Pearson, R.G., Thuiller, W., Ara??jo, M.B., Martinez-Meyer, E., Brotons, L., McClean, C., Miles, L.,
Segurado, P., Dawson, T.P., Lees, D.C., 2006. Model-based uncertainty in species range prediction. J.
Biogeogr. 33, 1704‑1711. doi:10.1111/j.1365-2699.2006.01460.x
Peterson, A.T., 2003. Predicting the Geography of Species’ Invasions via Ecological Niche Modeling. Q.
Rev. Biol. 78, 419‑433. doi:10.1086/378926
Phillips, S.B., Anderson, R.P., Schapire, R.E., 2006. Maximum entropy modeling of species geographic
distributions. Ecol. Modell. 190, 231‑259. doi:10.1016/j.ecolmodel.2005.03.026
Phillips, S.J., 2009. Sample selection bias and presence-only distribution models : implications for
45
background and pseudo-absence data 19, 181‑197. doi:10.1890/07-2153.1
Pulliam, H.R., 2000. On the relationship between niche and distribution. Ecol. Lett.
R Core Developement Team, 2016. R: A language and environment for statistical computing. R Found. Stat.
Comput. Vienna, Austria.
Reddy, S., Dávalos, L.M., 2003. Geographical sampling bias and its implications for conservation priorities
in Africa. J. Biogeogr. 30, 1719‑1727. doi:10.1046/j.1365-2699.2003.00946.x
Ridgeway, G., 1999. The state of boosting. Comput. Sci. Stat. 172‑181.
Robertson, M.P., Cumming, G.S., Erasmus, B.F.N., 2010. Getting the most out of atlas data. Divers. Distrib.
16, 363‑375. doi:10.1111/j.1472-4642.2010.00639.x
Roger, A., Keitt, T., Rowlingson, B., Sumner, M., Hijmans, R., Rouault, E., 2016. Package ‘ rgdal ’.
Soberon, J., Peterson, T.A., 2005. Interpretation of Models of Fundamental Ecological Niches and Species ’
Distributional Areas. Biodivers. Informatics 2, 1‑10. doi:10.1093/wber/lhm022
Thuiller, W., 2004. Patterns and uncertainties of species’ range shifts under climate change. Glob. Chang.
Biol. 10, 2020‑2027.
Thuiller, W., 2003. BIOMOD: Optimising predictions of species distributions and projecting potential future
shift under global change. Glob. Chang. Biol. 9, 1353–1362.
Thuiller, W., Brotons, L., Araújo, M.B., Lavorel, S., 2004. Effects of restricting environmental range of data
to project current\rand future species distributions. Ecography (Cop.). 165‑172.
Thuiller, W., Georges, D., Engler, R., Breiner, F., 2016. Package ‘biomod2’ Version 3.3-7. Ensemble
Platform for Species Distribution Modeling.
Thuiller, W., Lafourcade, B., Engler, R., Araújo, M.B., 2009. BIOMOD - A platform for ensemble
forecasting of species distributions. Ecography (Cop.). 32, 369‑373. doi:10.1111/j.1600-
0587.2008.05742.x
Touroult, J., Jolivet, S., 2012. Connaître pour préserver : L’atlas de répartition. Insectes 166, 23‑25.
Vialatte, A., Guiller, A., Bellido, A., Madec, L., 2008. Phylogeography and historical demography of the
Lusitanian snail Elona quimperiana reveal survival in unexpected separate glacial refugia. BMC Evol.
Biol. 8, 339. doi:10.1186/1471-2148-8-339
Wickham, H., 2009. ggplot2: elegant graphics for data analysis. Springer Science & Business Media.
Wisz, M.S., Guisan, A., 2009. Do pseudo-absence selection strategies influence species distribution models
and their predictions? An information-theoretic approach based on simulated data. BMC Ecol 9, 8.
doi:10.1186/1472-6785-9-8
46
Crédits photos, dans l’ordre : J.C. Tempier (http://www.tempier-nature.com); B. Fontaine, O. Gargominy,
D.Morel, J. Touroult, L. Arthur, J. Touroult, (https://inpn.mnhn.fr)
47
Annexes
Figure A.1 Cartes consensus des modèles « SRE » pour Maculinea teleius, Rosalia alpina et les deux jeux de données de Myotis
blythii.
48
Figure A.2 Carte consensus des modèles « RAN » et « SRE » et données de présence pour l’espèce Cerambyx cerdo. Les points
bleus sont les centroïdes des mailles de présence.
49
Figure A.3 Cartes consensus issues des
modèles « RAN » (à droite) et « SRE » (à
gauche) pour les espèces de la DHFF non
présentées dans ce rapport. Du haut en bas :
Anisus vorticulus (Troschel, 1834),
Circaetus gallicus (Gmelin, 1788),
Euphydryas aurinia (Rottemburg, 1775),
Gomphus graslinii (Rambur, 1842), Lynx
lynx (Linnaeus, 1758). Les modèles
« RAN » pour les espèces à plus large
répartition et/ou dont la qualité des données
est moins bonne, tendent à être plus
conservatifs que les modèles « SRE ».
50
Figure A.4 Cartes consensus issues des
modèles « RAN » (à droite) et « SRE »
(à gauche) pour les espèces de la DHFF
non présentées dans ce rapport. Du
haut en bas : Maculinea
nausithous (Bergsträsser, 1779), Myotis
capaccinii (Bonaparte, 1837), Picus
canus (Gmelin, 1788), Rhinolophus
euryale (Blasius, 1853), Vertigo
angustior (Jeffreys, 1830). Les
modèles « RAN » pour les espèces à
plus large répartition et/ou dont la
qualité des données est moins bonne,
tendent à être plus conservatifs que les
modèles « SRE ».
51
Figure A.5 Schéma du protocole de modélisation appliqué dans cette étude. Pour chaque espèce, les données de présence sont
tirées aléatoirement à 4 relances (R) : 70% des présences sont utilisées pour la calibration, 30% gardées de côté pour l’évaluation.
Chacune de ces itérations est combinée à 5 jeux de pseudo-absences et 6 méthodes de modélisation sont testées sur chaque
combinaison pour un total de 120 calibrations individuelles. Ce protocole est appliqué avec deux méthodes de génération de
pseudo-absences, « RAN » et « SRE ».
52
Figure A.6 Corrélation entre variables, calculée grâce à une classification hiérarchique avec une métrique de distance basée sur le
coefficient de corrélation de Pearson (seuil = 0.70). Chaque groupe de variables colinéaires est testé dans un modèle pour
sélectionner et garder la variable la plus importante parmi celles du groupe.
53
Résumé
L’évaluation de l’état de la biodiversité pour l’élaboration de
politiques de conservation appropriées nécessite de connaître la distribution
géographique des espèces. Depuis les années 70 les données sur la
biodiversité sont de plus en plus abondantes grâce à la mise en place de
programmes nationaux d’inventaire et de sciences participatives. Les
inventaires nationaux représentent une source d’information importante sur la
répartition de la biodiversité. Cependant, cette information reste souvent
incomplète. Combinée aux outils des SIG, la modélisation de la distribution
géographique d’espèces peut aider à combler ces lacunes.
Les modèles de niche permettent aussi de prédire l’impact des
changements climatiques sur la biodiversité, de mieux connaitre l’écologie et
la biogéographie des espèces, de suggérer des sites pour la recherche
d’espèces rares ou pour la conception de réserves naturelles. Cette étude a
permis de démontrer l’applicabilité des modèles de niche aux données
d’inventaire gérées par le SPN. Les espèces traitées, figurant dans la DHFF
Natura 2000, sont des espèces d’intérêt patrimonial et communautaire, dont la
connaissance est lacunaire. Certaines espèces ont pu être modélisées de
manière cohérente, d’autres moins. La responsabilité de ces différences peut
être attribuée d’une part au profil des données de présence, d’autre part aux
caractéristiques écologiques distinctes des espèces. À partir de ce travail, nous
pouvons élaborer des recommandations préliminaires pour l’application des
modèles de prédiction de répartition aux données du SPN.