identification de facteurs environnementaux expliquant la ...€¦ · virologie dans laquelle...

12
PRE-RAPPORT DE STAGE Statistique et Informatique Décisionnelles Promotion 2013 - 2015 Identification de facteurs environnementaux expliquant la structure génétique spatiale de virus du salsifis Rapport de stage réalisé par Justine DENIS Maître de stage : Karine BERTHIER IUT d’Avignon Site Agroparc 337 Chemin des Meinajaries BP 61207 84911 AVIGNON Domaine Saint Maurice 67 allée des Chênes CS 60094 84143 Monfavet Tuteur: Pierre Michel BOUSQUET

Upload: others

Post on 24-Oct-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

  • PRE-RAPPORT DE STAGE Statistique et Informatique Décisionnelles

    Promotion 2013 - 2015

    Identification de facteurs environnementaux expliquant la structure génétique spatiale de

    virus du salsifis

    Rapport de stage réalisé par Justine DENIS

    Maître de stage : Karine BERTHIER

    IUT d’Avignon Site Agroparc

    337 Chemin des Meinajaries BP 6120784911 AVIGNON

    Domaine Saint Maurice67 allée des Chênes

    CS 60094 84143 Monfavet

    Tuteur: Pierre Michel BOUSQUET

  • SOMMAIRE

    Introduction ……………………………………………………………………………………………………………………….. p. 2

    I- L'entreprise: L'INRA ………………………………………………………………………..…………………... p. 3

    II- Objectifs et missions ……………………………………………………………………...………………... p. 5

    1) Le projet ……………………...…………………………………………………………………………………….. p. 5

    2) Outils mis en œuvres …………………………………………………………………..………….. p. 6

    3) Les missions proposées ………………………………………………………………..…….. p. 7A) Extraction et mise en forme de données environnementale p. 7

    B) Cartographie sous SIG p. 8C) Statistiques descriptives p. 9D) Mission à déterminer p. 9

    4) Avancement actuel du stage ……………………………………………………………. p. 10

    Annexe ……………………...…………………………………………………………………………………………………………….. p. 11

    Pré-rapport stage INRA 2015 DENIS Justine 1/11

  • Introduction

    Pour valider leurs diplômes, les étudiants en DUT STatistiques et Informatiques Décisionnelles (STID) doivent effectuer un stage en entreprise de 10 semaines minimum en adéquation avec leurs domaines d'études. Ce stage a pour objectif de mobiliser nos compétences en dehors du cadre scolaire mais aussi de découvrir le monde du travail dans les domaines de la statistique et de l'informatique. Ainsi, ce document va permettre de faire le point pendant le stage sur l'évolution de celui-ci.

    Pour ma part, j'ai pu obtenir un stage au sein de l'INRA (Institut National de la Recherche Agronomique) avec Karine Berthier comme maître de stage.

    L'objectif de ce stage de 10 semaines est de déterminer et de mettre en œuvre une démarche pour l'identification de facteurs environnementaux qui explique la structure génétique spatiale d'un virus de plante sauvage.

    J'ai choisi ce stage car il me permet de découvrir le monde de la recherche (que je connaissais peu). En effet, souhaitant m'orienter en école d'ingénieur informatique, cela me permet de découvrir l'organisation d'un projet scientifique et la complexité des réseaux de collaborations au sein des organismes.

    Note: L'ensemble des termes indiqués par une * sont expliqués en annexe

    Pré-rapport stage INRA 2015 DENIS Justine 2/11

  • I- L'entreprise : L'INRA

    Mon stage se déroule à l'Institut National de la Recherche Agronomique (INRA) d'Avignon sur le domaine Saint Maurice à Montfavet. L'INRA est un organisme de recherche public qui mène ses recherches dans trois grands domaines : l'alimentation, l'agriculture et l'environnement. Ainsi, le but est de proposer une agriculture qui répond aux besoins des hommes tout en respectant l'environnement.

    L'INRA est découpé en 18 centres régionaux rassemblant plus de 200 unités de recherches. Ces unités sont dirigés par 13 départements scientifiques. Ainsi, l'équipe de virologie dans laquelle j'effectue mon stage fait partie de l'Unité de Pathologie Végétale qui est rattachée au centre PACA (quatrième centre de recherche de l'INRA). Et les recherches de l'Unité de Pathologie Végétale dépendent du département Santé des Plantes et Environnement (SPE). Voir figure 1

    L'unité de pathologie végétale du PACA est chargée de trouver des méthodes de lutte pour une production durable et de qualité sur les fruits et légumes du bassin méditerranéen. Au sein de cette unité, on retrouve deux grandes équipes de recherche.

    L'équipe Mistral a pour objectif principal de concevoir des dispositifs innovants de protection durable sur les cultures horticoles, maraîchères ou fruitières.

    L'équipe de virologie est chargée de l'écologie, de la génétique des populations (étude des reproductions de populations), de l'éthologie (étude du comportement des espèces) et de l'épidémiologie.

    Au sein de l'équipe de Virologie, Karine Berthier travaille dans le domaine de l'éco-épidemiologie spatiale qui vise à comprendre l'émergence et la propagation des maladies virales à l'échelle des paysages. C'est donc l'étude de l'interaction des virus avec leurs milieux.

    Vous trouverez page suivante, l'organigramme de l'Unité de pathologie végétale.

    Pré-rapport stage INRA 2015 DENIS Justine 3/11

    INRA

    Departement SPE (Santé des Plantes et Environnement) centrePACA

    Unité de Pathologie Végétale

    Equipe de virologieEquipe MISTRAL

    Figure1 :Schéma de l'organisation de l'INRA pour l'équipe de Virologie

  • Pré-rapport stage INRA 2015 DENIS Justine 4/11

  • II- Objectif et missions

    1) Le projet

    Mon stage sincère dans un projet scientifique dans le domaine de l'épidémiologie* spatiale des virus de plantes.

    L'objectif de ce projet est de décrire la structure génétique spatiale du virus d'une plante sauvage: le salsifis (Tragopogon spp). Et de mettre en relation cette structure avec les caractéristiques de la matrice environnementale. Ainsi le projet se décompose en deux grandes étapes.

    La première a été réalisé par l'équipe de virologie avant mon arrivée. En 2014 et 2015, ils ont échantillonné 1600 salsifis dans les départements du Vaucluse et des Bouches du Rhône (Voir figure 2). Après analyse en laboratoire, les salsifis porteurs du virus ENMV-like ont été identifiés ainsi que leur variabilité génétique*. En effet, on trouve différentes formes génétiques du virus entre différentes plantes mais aussi au sein d'une même plante. Ils ont ainsi identifié 350 plantes malades.

    La seconde étape est de mettre en relation la structure spatiale du virus avec les caractéristiques de l'environnement. C'est dans cette étape que mon stage sincère. Dans un premier temps, nous regarderons l'abondance de la plante hôte (salsifis) et le nombre de plantes infectées en fonction de l'environnement (prairie, humidité, relief…). Puis, nous devrons nous intéresser à la structuration génétique du virus dans l'espace. Nous rechercherons des corrélations entre la structure génétique du virus et la variation spatiale des facteurs environnementaux. Ainsi, nous pourrons comprendre la dispersion du virus à l'échelle du paysage. Sachant que le virus se propage à l'aide des pucerons, nous pourrons savoir qu'elles sont les obstacles à la dispersion de ces derniers.

    Pré-rapport stage INRA 2015 DENIS Justine 5/11

    Légende :

    Parcelles où on été échantillonné les salsifis (les cercles sont proportionnelle aux nombres de plantes collectées)Proportion de salsifis négatif au virus (sain)

    Proportion de salsifis positif au virus (malade)

    Figure 2: Parcelles échantillonnées par l'INRA en 2014

    Grilles de 5x5 kmLes grilles ont étaient centrés sur Avignon

  • Voici, en figure 3 un schéma simplifié de ce que nous souhaitons établir avec la structure spatiale. Nous supposons ici deux formes génétiques du virus ENMV-like (A et B) qui apparaissent en deux groupes bien distincts. La mise en relation des virus avec le paysage nous montre que la séparation génétique est due à un élément particulier (en bleu). D'après ce schéma, il existe des barrières environnementales à la dispersion des pucerons et donc des virus. Ainsi les groupes de maladies ne se mélangent pas à cause d'une structuration spatiale.

    2) Outils mise en œuvres

    Plateforme GeOpen4s :

    Cette plateforme est un outil de géomatique qui centralise et met à la disposition de la communauté scientifique des données spatialisées ainsi que des ressources informatiques pour les analyser. Ce plateau est constitué de deux serveurs physiques avec quatre machines virtuelles. Chaque machine représente un type de service:

    - La gestion et le partage de données spatialisées à travers un système de base de données dans l'environnement Postgresql/postgis (PGEOM_BD)- Le traitement statistique avec R(PGEOM_STAT)- Les applications web basé notamment sur Geonetwork (PGEOM_WEB)- La technologie SIG* (Système d'Informations Géographiques) via les logiciels QGIS et GRASS (PGEOM_GIS).

    Pré-rapport stage INRA 2015 DENIS Justine 6/11

    BALégende :

    Salsifis Groupe de virus Facteur environnementale Grille d'échantillonnage

    Barrière à la dispersion du vecteur (pucerons)

    Figure 3: Schéma simplifié de la structure spatiale

  • Ainsi, l'ensemble des données est stocké sur les serveurs des unités de l'INRA et sur le serveur centralisé du centre INRA PACA (NAS). De plus, les logiciels (en violet) et les systèmes d'exploitation des machines sont open sources. Car, il s'agit d'un outil gratuit et administré par des chercheurs et ingénieurs en plus de leur travail habituel.

    Durant le stage, je vais utiliser les machines virtuelles PGEOM_BD, PEGEOM_SIG et PEGEOM_STAT afin de récupérer les données dont nous avons besoin pour les exploiter.

    3) Les missions proposées

    A) Extraction et mise en forme de données environnementale

    Cette mission consiste à rechercher dans les bases de données spatialisées mises à disposition sur la plateforme GeOpen4s, des descripteurs environnementaux pertinents pour expliquer :

    - La distribution spatiale du salsifis sauvage et de son virus.- La structuration spatiale de la variabilité génétique du virus.

    Nous avons défini trois grandes classes de données environnementales d'intérêt en fonction des connaissances sur le virus et son hôte: l'occupation des sols (typologie d'habitat), le relief et l'hydrographie car le salsifis croît plus volontiers dans les prairies humides. Je recherche ces informations pour les zones d'échantillonnages c'est à dire pour les départements du Vaucluse (84) et des Bouches du Rhône (13).

    Les recherches effectuées sur la plateforme seront complétées avec les données en libre accès de sites comme CRIGE ou SANDRE.

    Une fois les descripteurs environnementaux sélectionnés, on réalise une base de données Postgre. En effet, ils doivent être extraits et stockés dans cette base qui contient

    Pré-rapport stage INRA 2015 DENIS Justine 7/11

    PGEOM_SIGQgisGrass

    PGEOM_BDPostgresPostgis

    PGEOM_WEB

    PGEOM_STATR

    GeonetworkGeoserveurMapserveurLizmap

    Stockages

    Unités NAS centre

    Figure 4 : Schéma du plateau GeOpen4s

  • déjà les informations relatives au projet (salsifis et virus). Cependant, il n'existe pas de lien logique entre les différentes tables (aucun index commun). La correspondance entre les informations est donc leurs coordonnées géographiques. Ainsi, j’effectuerais sous PostgreSQL des requêtes géospatialisées à l'aide de Postgis (extension spatiale de PostgreSQL).

    Dans la base de données finale nous trouverons donc les données concernant les salsifis et leur virus ainsi que les descripteurs environnementaux extraits sur une surface correspondant à la zone d'étude. Par exemple il est inutile de garder tout le relief du PACA alors que seule une partie nous intéresse.

    Compétences STID mobilisés : . Utiliser des logiciels de gestion et de manipulation des données (SGBD) . Collecter, analyser les informations. Concevoir une base de données

    B) Cartographie sous SIG

    Réalisation de cartes à l'aide du logiciel Qgis. Ce logiciel qui possède une interface graphique simple permet de faire des cartes plus ou moins complexes à partir de deux types de formats :

    - raster où les cartes sont présentées sous forme de grilles (pixels) : images satellites, météo…- et les formats vecteurs où les données graphiques sont des points, des lignes ou des surfaces.

    L'avantage de Qgis est qu'il est possible d'importer directement des données géospatialisées depuis la base de données postgres.

    Les données disponibles sur la plateforme GeOpen4S étant très variables et souvent peu renseignées en termes de nature de l'information, couverture spatiale, résolution et parfois système de projection spatiale*. Je cartographie systématiquement ces informations pour déterminer si elles peuvent être pertinentes pour le projet.

    Ainsi, nous pouvons estimer visuellement les corrélations entre l'environnement et les données concernant le salsifis et son virus.

    Compétences STID mobilisés : . Faire des synthèses de l 'information. Utiliser des logiciels statistiques du monde professionnel . Contrôler et valider les résultats des analyses et les interpréter

    Pré-rapport stage INRA 2015 DENIS Justine 8/11

  • C) Statistiques descriptives

    Après avoir sélectionné, extraient et formatés les variables environnementales qui nous semblent pertinentes. Nous allons étudier les relations entre ces variables et nos données biologiques à expliquer (abondance des salsifis, présence/absence du virus et structure génétique du virus).

    Pour cela nous utiliserons des analyses multivariées (ACP, AFC et classifications hiérarchiques) afin de réduire les données, de déterminer les variables qui maximisent les informations (soit la variabilité) et de faire émerger une potentielle structure. Ainsi, nous résumerons les informations que nous détenons. Nous réaliserons cette étape sur Rstudio afin de faciliter le traitement des données. Par conséquent, je travaillerai en local car la plateforme GeOpen4S ne possède pas la version graphique de R. Je ferai donc un lien vers la base, ou importerai mes données pour réaliser mes analyses.

    Compétences STID mobilisés : . Analyser les informations. Contribuer au choix des méthodes statistiques et de data-mining. Utiliser des logiciels statistiques du monde professionnel . Contrôler et valider les résultats des analyses statistiques et les interpréter

    D) Mission à détérminer

    Cette dernière partie du stage est pour le moment indéterminée. En effet, selon les résultats que nous obtiendrons, nous choisirons différentes études. Par exemple, nous pourrons partir sur de la modélisation statistiques. En effet, il serait utile de créer un modèle expliquant comment le virus se propage en fonction du milieu et de la densité des plantes (hôtes). Ainsi, nous pourrions conclure à des variables discriminantes qui induiraient ce facteur. Ou encore, nous pourrions continuer les analyses à travers des méthodes plus cartographiques.

    Compétences STID mobilisés : . Analyser les informations. Contribuer au choix des méthodes statistiques et de data-mining. Utiliser des logiciels statistiques du monde professionnel . Contrôler et valider les résultats des analyses statistiques et les interpréter

    Pré-rapport stage INRA 2015 DENIS Justine 9/11

  • 4) Avancement actuel du stage

    Actuellement, j'ai recensé et cartographié sous Qgis l'ensemble des données spatialisées de la plateforme GeOpen4S. J'ai classé ces données pour identifier celles appartenant à nos trois groupes d'intérêt (occupation des sols, relief et hydrographie). Mais je les ai aussi caractérisé en fonction des informations (abondante ou non), de leur couverture spatiale, de leur résolution,etc. Il me reste à visiter les différents sites internet (portails géomatiques) en libre accès tels que Crige ou Sandre afin de compléter ce recensement.

    Après concertation, nous avons choisi dans un premier temps de travailler sur les données d'occupation du sol. A l'aide des requêtes SQL spatialisé, j'ai donc commencé à extraire ces informations (disponibles pour l'ensemble de la région PACA) pour que ces données concernent seulement la zone d'étude des salsifis (Figure 5).

    A partir de ce découpage et toujours en langage SQL, j'ai débuté une première phase d'analyse pour calculer les proportions des différents types d'habitats (prairies, cultures, forêts,…) présents dans la zone d'étude et dans des cercles de tailles variables centrés sur les points des parcelles où les salsifis ont été collectés. Ensuite, j'ai calculé les différences entre les proportions estimées de la zone d'étude et autour des parcelles. Ainsi, en mettant ces résultats en relation avec l'abondance des salsifis dans les différentes parcelles, cette analyse nous donne une première indication sur les environnements favorables aux salsifis.

    Par la suite, nous répéterons ces analyses pour les informations sur la présence/absence des virus dans les plantes échantillonnées.

    Pré-rapport stage INRA 2015 DENIS Justine 10/11

  • ANNEXE

    Épidémiologie: Étude de la fréquence et la répartition des problèmes de santé dans le temps et dans l'espace au sein de populations (humaines, animales, végétales). Mais aussi, l'étude des facteurs qui détermine ces problèmes.

    L'épidé miologie spatiale est donc l'étude de la localisation des individus et de la différence de distribution spatiale entre deux groupes d’individus pour la recherche de facteurs de risque. Elle utilise les techniques de l’analyse spatiale.

    Variabilité génétique: Tendance à varier des caractéristiques génétiques d'une espèce au sein d'un même patrimoine génétique.

    Le patrimoine génétique étant l'ensemble du génome d'un organisme, c’est-à-dire les différents allèles des gènes que possède un individu. C'est donc l'ensemble des caractéristiques génétiques dont hérite un individu.

    S IG (système d'information géographique) : Système d'information conçu pour recueillir, stocker, traiter, analyser, gérer et présenter tous les types de données spatiales et géographiques

    Sy s tème de projection spatiale: Référentiel dans lequel on peut représenter des éléments dans l'espace. Ce système permet de se situer sur l'ensemble du globe terrestre grâce à un couple de coordonnées géographiques. Ce système varie d'un pays ou d'une région à l'autre.

    Sur la plateforme GeOpen4s, l'ensemble des données doivent être sous un même système de projection spatiale : Lambert 93. Malheureusement, certaines cartes ne sont pas sous ce système.

    Pré-rapport stage INRA 2015 DENIS Justine 11/11

    couverturepre_rapport_stage (1)