rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en...

54
Irstea Unité de Recherches sur les écosystèmes forestiers (Unit Research on Forest Ecosystems) Domaine des Barres F-45290 Nogent -sur-Vernisson France www.irstea.fr Rapport de stage Master 2 Ingénierie-Mathématiques Modèle d'Equations Structurelles sous l'Approche Bayésienne Auteur : Jad Abou-Ghantous Responsable de stage : Frédéric Archaux, Frédéric Gosselin, Philippe Balandier Responsables du master : Fabienne Comte Année : 2012/2013

Upload: others

Post on 07-Apr-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

Irstea Unité de Recherches sur les écosystèmes forestiers

(Unit Research on Forest Ecosystems) Domaine des Barres

F-45290 Nogent -sur-Vernisson France

www.irstea.fr

Rapport de stage Master 2 Ingénierie-Mathématiques

Modèle d'Equations Structurelles sous

l'Approche Bayésienne

Auteur : Jad Abou-Ghantous

Responsable de stage : Frédéric Archaux, Frédéric Gosselin, Philippe Balandier

Responsables du master : Fabienne Comte

Année : 2012/2013

Page 2: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

Remerciements :

Je tiens tout d’abord à remercier mes maîtres de stage Frédéric ARCHAUX, Frédéric

GOSSELIN, Philippe BALANDIER pour m’avoir fait confiance et m’avoir donné l’opportunité

d’effectuer ce stage. Je les remercie pour leur patience, pour leur grande disponibilité et leur

attention à mon égard, leur bonne humeur et tout ce qu’ils ont pu m’apporter, en termes de

connaissances statistiques, d’écologies et de rédaction.

Enfin, je remercie l’ensemble des stagiaires présents qui m’ont rendu ce stage très agréable. Il

faut dire que l’ambiance chaleureuse et paisible était au rendez-vous !

Merci à Donatien FRANCOIS, mon collègue de bureau devenu un ami. Merci à Etienne MANSA

pour ses belles discussions qu’on a pu partager, ainsi que pour ses expressions sympathiques !

Merci à tous ceux qui se sont portés volontaires pour le ramassage à la gare en particulier à

Donatien FRANCOIS, Aurélie LALLERONI, Lisa LAURENT, Valéne TUILLERAS. Merci les

filles pour les bons petits plats! et à Ines-café MESSAOUDI pour ses champignon-Mario. Merci

aussi à Sylvain DELABYE et au jeune papa David TELLEZ pour avoir tous les deux de la classe

ainsi que pour de la bonne humeur en soirée de même qu’à Morghan GOVINDOORAZOO…

Merci à Karima HADJ-BOUSSADA malgré sa discrétion et sa timidité.

Page 3: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

SOMMAIRE

Présentation d’IRSTEA

Résumé

Introduction

I: Principe du SEM_________________________________________________

– Cas classique SEM fréquentiste

– La méthode LISREL standard ou fréquentiste

II : Typologie des modèles SEM ________________________________________

– Analyse exploratoire ou confirmatoire ?

– Variables observées, relations réflexive ou relation formatives ?

– Variables latente, endogènes ou exogènes ?

– Schéma

– Théorème de Bayes

Approche Bayésienne

III : Généralité sur l’approche Bayésienne _____________________________________

Modèle statistique paramétrique bayésien

Raisonnement proportionnel de la loi a posteriori

L’estimation bayésienne : le cas multidimensionnel

Le risque de Bayes

Intervalles de crédibilité bayésiens

Avantages et inconvénients de l’approche bayésienne comparé à l’approche fréquentiste

En quoi consistent les approches fréquentiste et bayésienne au niveau philosophique ?

L’une a-t-elle plus la faveur des statisticiens que l’autre ?

IV : SEM Non Linéaire à deux niveaux de structure hiérarchique avec des variables de types

mixtes sous l’approche Bayésienne.

V : SEM Non Linéaire à deux niveaux de structure hiérarchique à effets sur deux niveaux croisés

VI : Application sur le jeu de données________________________________________________

Interprétation_______________________________________________________________

Conclusion __________________________________________________________________

Références _________________________________________________________________

Annexes___________________________________________________________________

P 1

P 2

p 3–4

P 5-6

P 5

P6

P 7 - 8

P 7 P 7 P 7 P 8 P 8

P 8

P 9 – 12

P 9

P 9

P 10

P 10

P 11

P 11

P 12

P 12

P 13 - 18

P 19-22

P 23-39

P 40

P 41

P 42

P 43-51

Page 4: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

1

Présentation d’IRSTEA :

IRSTEA - Institut national de Recherche en Sciences et Technologies pour

l’Environnement et l’Agriculture - regroupe 9 centres et compte près de 1750 personnes,

statutaires et contractuelles, dont 950 ingénieurs et chercheurs, 250 doctorants et 40 post-

doctorants. L’institut est organisé en trois départements scientifiques :

« Eaux » abordant les questions de la disponibilité de la ressource en eau, pollution,

écosystèmes aquatiques, risques naturels, irrigation, pêche, aménagements…

« Ecotechnologies » visant à concilier productivité et respect de l’environnement, à

travers une approche globale (de leur conception à leur fin de vie) et multicritère

(composantes environnementales, économiques et sociales) autour de l’agriculture et

l’agroalimentaire, gestion et le stockage des déchets, l’épuration.

« Territoires » visant le développement durable des territoires dans ses diverses

dimensions en associant écologie, télédétection et sciences humaines.

Le centre de Nogent-sur-Vernisson appartient à ce dernier département scientifique basé

sur le site forestier du Domaine des Barres, il se trouve à proximité immédiate de l’inventaire

forestier national, du lycée agricole du Chesnoy et de l’Arboretum national des Barres. Cette

identité forte dans le domaine forestier est accentuée par sa participation en région au groupe

Resonat, en train de se structurer en groupement d’intérêts scientifique dédié aux sols, à la forêt

et à la biodiversité. Le centre entend renforcer son positionnement européen et ses missions au

service des politiques publiques et des négociations internationales sur l’environnement. Il anime

aussi un module d’enseignement sur la biodiversité à l’Université d’Orléans et développe de

nombreuses activités avec l’Office National des Forêts (ONF), notamment par ses travaux sur les

forêts mélangées.

Le centre est entièrement dédié à la forêt et ne comporte qu’une seule unité de recherche,

l’unité EFNO, Ecosystèmes Forestiers. Cette dernière compte une cinquantaine de permanents

dont 24 ingénieurs-chercheurs. Il accueille aussi des thésards, des post-doctorants, des

contractuels, ainsi que des stagiaires.

Cette unité s’intéresse à la modélisation de la croissance des peuplements forestiers aux

ressources génétiques, aux impacts des grands herbivores sur la flore du sous-bois et de la gestion

forestière et la biodiversité.

Pour ma part j’ai réalisé mon stage au sein de l’équipe « Biodiversité » et j’ai plus

particulièrement travaillé sur le projet de recherche IMPREBIO où ma mission principale

a été de développer un modèle bayésien à équations structurelles (SEM) prenant en compte

la complexité des variables écologiques (notamment la structure hiérarchique).

Page 5: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

2

Résumé :

Le projet Imprebio piloté par IRSTEA cherche à mettre en évidence les conséquences de

l'intensification des prélèvements de bois en forêt sur différents compartiments de la biodiversité

en futaie régulière de chêne et d'en modéliser la réponse en fonction des caractéristiques du

peuplement, du climat lumineux, de la disponibilité en eau et de la température, afin d'en

généraliser les résultats.

La modélisation par équations structurelles (SEM) est très répandue dans des domaines

très variés tels que la médecine, la finance, le marketing et de manière plus récente en écologie.

On profite des développements récents réalisés, en particulier, dans l’approche bayésienne des

SEM pour comprendre, grâce à deux réseaux de sites expérimentaux, les relations écologiques

qui lient les caractéristiques des peuplements forestiers, la flore, la faune du sol et l’entomofaune.

Les SEM à variables latentes, c’est-à-dire à variables non observées sont des modèles

multi-variés utilisés pour modéliser des relations de causalité entre des variables observées (les

données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs

disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de

corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables

latentes. Une approche bayésienne des modèles à équations structurelles (SEMs) à deux niveaux

de structures hiérarchiques non linéaire sera proposée.

Page 6: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

3

Introduction :

Les modèles SEM à équations structurelles (SEM) sont des modèles à variables latentes

multi-variées utilisés pour représenter des structures de causalité dans les données. Les variables

observées sont associées à des variables dans le modèle externe (modèle de mesure) et interne

(modèle structurel) où des relations de causalité entre les variables latentes sont représentées.

C’est une méthodologie générale pour spécifier, estimer, comparer et évaluer des modèles

de relations entre variables. On va chercher à confirmer une théorie.

La procédure comporte plusieurs étapes dont la construction du modèle par les experts, la

collection des données pour tester le modèle, l'application du modèle SEM sur le jeu de données,

l'analyse et interprétation puis les conclusions.

Pour le SEM classique, la matrice de covariance du vecteur aléatoire y des observations

contient tous les paramètres inconnus du modèle. De là, les méthodes classiques pour analyser le

SEM classique se sont concentrées sur l’échantillon de la matrice de covariance S et non pas sur

les vecteurs aléatoires individuels bruts .

Ceci implique la formulation de la structure de covariance c’est-à-dire la matrice (ℴ),

qui est une fonction matricielle du vecteur de paramètres inconnu ℴ ; l’évaluation de ℴ en

minimisant (ou maximisant) quelques fonctions objectives qui mesurent la divergence entre S et

(ℴ), comme le maximum de vraisemblance ou la régression des moindres carrés partiels (GLS)

(inventée en 1983 par Svante Wold et son père Herman Wold) ou encore la méthode de M.Borey

avec la dérivation asymptotique pour évaluer si (ℴ) est adaptée à S. Tout comme l’analyse de

population de la matrice de covariance et l’échantillon de matrice de covariance, elle est souvent

appelée l’analyse de structure de covariance.

Aujourd’hui, plus d’une douzaine de « packages » SEM connus des statisticiens ont été

développés sur la base de l’approche d’analyse de structure de covariance avec l’échantillon de la

matrice de covariance. Des exemples typiques sont LISREL, EQS6 et AMOS. L’approche de la

structure de covariance d’analyse dépend lourdement de la normalité asymptotique de S, dans la

définition de la fonction objective ou dans l’action de tirer des propriétés asymptotiques pour des

inférences statistiques. Quand la distribution du vecteur aléatoire est normal multivarié et la

taille des données est raisonnablement grande, la distribution asymptotique de S se rapproche

précisément à la distribution normale multivariée revendiquée et en conséquence cette approche

fonctionne bien. Cependant, dans des situations plus complexes qui sont communes dans la

recherche, l’approche d’analyse de structure de covariance sur la base de S n’est pas efficace et

peut rencontrer des problèmes théoriques et informatiques. Il est bien reconnu qu’évaluer des

termes non linéaires plus particulièrement les termes d’interactions entre les variables latentes

dans l’équation structurelle est une question importante en sciences sociales comme écologique…

(voir Kenny et Judd, 1984, Bagozzi, Baumgartner et Yi, 1992). En raison de la présence des

termes non linéaires de variables latentes, ces variables endogènes ainsi que les variables

observées liées dans ne sont pas distribués selon une loi normale. De ce fait, l’échantillon de la

matrice de covariance des observations types brutes est inadéquat pour modéliser les relations

non linéaires.

Page 7: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

4

Pour les données dichotomiques ou les données catégorielles, l’échantillon de la matrice

de covariance des données types brutes ne peut être utilisé.

Les procédures d’évaluation dans LISREL ou EQS ont produit des évaluations qui sont

moins optimales que des évaluations de maximum de vraisemblance et ne peuvent pas être

appliquées pour analyser les termes non linéaires de variables latentes.

Pour les données manquantes qui sont un petit nombre d’observations dans quelques

modèles (en raison d'une déficience quelconque des capteurs situés sur le terrain), l’approche

d’analyse de structure de matrice de covariance rencontrerait aussi des difficultés sérieuses parce

que l’échantillon de la matrice correspondant à ces modèles peut être singulier. Dans le cas de

données hiérarchiques, telles que des mesures répétées dans l’espace ou le temps, les

observations individuelles sont corrélées, ce qui pose un problème pour l’analyse de structure de

covariance avec l’échantillon de la matrice de covariance.

Ainsi, la structure de covariance fonctionne pour le SEM classique ou fréquentiste

conformément à la supposition de la normalité des variables. Il ne peut être appliqué aux modèles

plus complexes comme les données à structure non linéaire, hiérarchique... généralement

rencontrées en écologie où les relations sont rarement linéaires. Il est nécessaire d’appliquer des

méthodes statistiques adaptées (prenant en compte la complexité des variables), basées sur les

observations individuelles et aussi sur leur modèle de base, plutôt que sur l’échantillon de la

matrice de covariance.

Il existe une approche différente du SEM qui est celle de la méthode de Bill SHIPLEY

(« Confirmatory path analysis in a generalized multilevel context »). C'est une méthode qui

n’admet pas de variables latentes mais par comparaison au SEM classique, elle permet de

s’adapter aux spécificités des données et des relations entre variables (relations non linéaires,

structure hiérarchique des données, variables catégorielles, variable dichotomique,..) en utilisant

des méthodes de régressions statistiques classiques (glm, lm, lme, ppm,..). Plus le nombre de

variables incluses dans le modèle conceptuel est important, plus le temps de calcul est important.

D’où l’idée d’appliquer un modèle SEM sous l’approche Bayésienne pour garder l’intérêt

conceptuel des variables latentes tout en prenant en compte les contraintes statistiques propres au

jeu de données.

Le jeu de données est constitué de 9 variables regroupés en 3 groupes provenant du

protocole de mise en œuvre des relevés de diversité et des mesures physiques dans le cadre du

projet IMPREBIO. L’ensemble sera décrit dans l’application du jeu de données.

Page 8: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

5

I. Principe du SEM :

L’intérêt pour les variables latentes trouve son origine dans l’hétérogénéité de variables

observées qui prises ensemble acquièrent un sens précis définissant une entité spécifique. Plus

généralement, un ensemble de variables latentes peut être utilisé pour extraire une structure de

données observées contribuant à la réduction de la dimension des données pourvu que celles ci

soient corrélées.

La matrice de corrélation des variables observées est alors résumée en la matrice de

corrélation des variables latentes. Le modèle à variables latentes ainsi caractérisé est un modèle à

équations structurelles à variables latentes dit (SEM) qui vient de l’anglais Structural Equation

Modeling (Lee, 2007).

Cas classique SEM fréquentiste :

L’estimation des paramètres de ce modèle peut se faire soit :

Par l’approche LISREL (Linear Structural Relationships)

Par l’approche PLS (Least Squares Path modeling)

L’approche PLS ne sera pas abordée dans cette analyse puisque c’est un modèle de prédiction et

non d'estimation.

La méthode LISREL standard ou fréquentiste

La méthode LISREL est une approche statistique qui permet de tester des hypothèses sur

les relations entre variables observées et latentes (Hoyle, 1995). Le fondement statistique de la

méthode LISREL est la covariance.

= * + (1)

= * + (2)

= * + * + (3)

(1) et (2) sont les équations du modèle externe et (3) l’équation du modèle interne.

Page 9: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

6

Quelques notations :

p + q = Nombre de variables observées

n = Nombre d’observations

𝚺 = Matrice de covariance au niveau de la population

S = Matrice des covariances observées

C = Matrice des covariances obtenues grâce au modèle

𝛟 = Matrice de covariance de 𝛏 𝛙 = Matrice de covariance de 𝛇

A partir de ce modèle, une matrice de covariance tentera d’être obtenue. Elle aura la forme

suivante :

C = (

) = (

)

La méthode LISREL consiste à minimiser l’écart entre la matrice C covariance calculée à partir

du modèle et la matrice de covariance observée S.

L’approche LISREL impose que les données soient normales multi-variées et utilisent

l’estimateur du maximum de vraisemblance (ML) pour minimiser l’écart entre C et S.

Cet estimateur est calculé de la façon suivante :

= ln(|C|) + tr( ) – ln(|S|) – (p +q)

Admettons que le modèle étudié soit « exact », alors cette équation serait vérifiée :

(n-1)F = (DF)

Le degré de liberté (DF) = nombre de covariances – nombre de paramètres

Le modèle est accepté si

⪯ 3 et la valeur de probabilité P(F<chi

2(DF)) ⪯ 0.05

Cependant il existe d’autres indices de validation qui sont plus performants tels que le RMSEA

(Root Mean Square Error of Approximation, Steiger et Lind,1980):

Le RMSEA calcule la différence entre la matrice de covariance obtenue et celle de la population

globale :

RMSEA = √

Où = ln(|C|) + tr(𝚺 ) – ln(|𝚺|) – (p+q)

Ce résultat est accepté en dessous de 0.008, un intervalle de confiance pourrait être obtenu.

Des exemples détaillés sont expliqués dans l'article scientifique de Fox (2006).

Page 10: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

7

II. Typologie des modèles SEM selon la thèse de Demeyer (2011)

Analyse exploratoire ou confirmatoire ?

Les modèles SEM reposent sur des hypothèses structurelles. Elles peuvent être déduites

au cours d’une analyse dite exploratoire de données ayant pour but d'identifier des blocs de

variables corrélées ainsi que de donner la dimension qui les résume. En écologie, par exemple,

les variables observées relatives à la biodiversité sont des indicateurs d’autres facteurs.

A contrario, les hypothèses peuvent se baser sur des fondements théoriques provenant par

d’un consensus d’experts, par exemple. L'objectif est de confirmer ou d'infirmer la théorie via les

données. Ainsi, dans son ouvrage, Lee (2007) montre que l’intérêt des S.E.M réside dans la

quantification de relations de causalité données.

Les conclusions s’interprètent en termes d’indicateurs de la qualité de la politique de

gestion forestière globale donnant les leviers d’action. Ces données sont à mettre en corrélation

avec les constats de l’intervention de l'Homme sur la forêt, dans le but de prendre des décisions

les plus rationnelles possible concernant les actions futures (déforestation…). Une gestion

durable entend concilier production de bois et maintien des autres fonctions de la forêt dont la

préservation de la biodiversité.

Variables observées: relation réflexive ou relation formative ?

Les relations entre les variables latentes et les variables observées peuvent également être

de nature différente.

Le type réflectif correspond au cas où les variables observées du modèle externe sont le

reflet de la variable latente à laquelle elles sont liées.

Pour le type formatif, à l’inverse c’est la variable latente qui est le reflet des variables

observées.

Variables latente: Endogène ou Exogène ?

Le modèle interne est formé exclusivement des relations entre les variables latentes. Ces

dernières peuvent avoir des relations de natures différentes:

Les variables latentes exogènes sont celles qui sont influencées par au moins une autre

variable latente

Les variables latentes endogènes sont celles qui ne dépendent d’aucune autre variable

latente

L’intérêt particulier à distinguer les variables exo et endogène résident dans l’équation interne.

Page 11: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

8

Schéma du SEM:

Fig(1)

Le modèle interne est représenté par le cercle rouge.

Le modèle externe est représenté par les cercles jaunes.

Les variables observées ont pour symboles ,…, , , , ,…, .

Les variables latentes ont pour symbole :

La seule variable latente endogène est

Les variables latentes exogènes ont pour symboles ,

Théorème de Bayes :

Le théorème de Bayes est le fondement de la théorie des probabilités. Si l'on prend deux

variables A et B, il est possible de trouver la probabilité de A sachant B si l’on connait la

probabilité de A, celle B et de B sachant A. La formule est la suivante:

P(A|B) =

.

L’Approche Bayésienne :

Ce modèle fut créé par le mathématicien Thomas Bayes en se basant sur son théorème

précédemment expliqué. L'utilisation du théorème de Bayes dans sa forme la plus simple, densité

a priori et a posteriori permettra de commencer l'explication.

Page 12: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

9

III. Généralité sur l’approche Bayésienne :

Modèle statistique paramétrique bayésien :

Soit l’ensemble des observations noté x, avec x autrement dit, on

dispose d’un échantillon de taille n. On se trouve dans un cadre de statistique inférentielle. Les

observations sont donc considérées comme des réalisations de variables aléatoires qu’on note

.

Quelques définitions :

L’information a priori sur le paramètre Ѳ concerne toute l’information disponible sur les

paramètres en dehors des informations apportées par les observations (comme le fait

d’imposer une seconde loi de probabilité comme cela est le cas dans l’exemple de « la

pièce »)

L’information a priori sur Ѳ est sujette à des incertitudes. Il est donc nécessaire de

l’estimer. Elle sera donc modélisée au travers d’une loi de probabilité, appelée loi a priori.

Sa densité est notée f(Ѳ).

Le modèle statistique paramétrique bayésien repose sur la combinaison de la loi a priori et

de la loi des observations :

o La loi des observations est la loi conditionnelle de Χ sachant Ѳ. Sa densité est

notée d(x| Ѳ). La variable Χ peut être discrète ou ne pas l’être. Si Χ s’avère

discrète, alors d(x|Ѳ) représente la probabilité P(Χ = x| Ѳ). L’hypothèse

systématiquement supposée sera que sachant Ѳ, les variables aléatoires sont

indépendante soit mathématiquement :

d(x| Ѳ) = ∏

D’autres lois de probabilité interviennent en statistique bayésienne.

La loi a posteriori est la loi conditionnelle de Ѳ sachant x. Sa densité est notée f(Ѳ|x).

Bayes formule cette loi comme suit :

f(Ѳ|x) =

∮ .

Dans cette formule, la loi du couple de (Ѳ, Χ) a une densité notée h(Ѳ,x).

Ainsi : h(Ѳ,x) = d(x|Ѳ)f(Ѳ) et la loi marginale de Χ a une densité notée m(x) = ∮

Raisonnement proportionnel de la loi a posteriori :

En raisonnant proportionnellement, il est parfois possible d’éviter le calcul de l’intégrale

Page 13: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

10

Notation et définition :

Soient deux fonctions réelles f et g définies sur le même espace 𝛺. On dit que f et g sont

proportionnelles, ce qu’on note f ≌ g, s’il existe une constance 𝜶 tel que f(y) = 𝜶g(y) pour tout y

⋲ 𝛺. La relation ≌ représente une relation d’équivalence. En particulier : f ≌ g et g ≌ h

entrainent f ≌ h.

Remarque :

Soit f(y) est la densité d’une variable aléatoire Y de loi inconnue.

Si f ≌ …. ≌ g, …. désignent des fonctions réelles et g(y) est la densité d’une

loi de probabilité P, alors Y ~ P.

Dans le contexte bayésien on a f(Ѳ|x) ≌ L(x|Ѳ) f(Ѳ). L(x|Ѳ) désigne la vraisemblance

par définition.

L’estimation Bayésienne : Le cas multidimensionnel.

Dans le contexte multidimensionnel où Ѳ = ( la moyenne a posteriori est

E[ |x] = ∮ f( |x)d .

f( |x) est obtenu en intégrant f(Ѳ |x) sur toutes les composantes de Ѳ autres que .

En règle générale, les estimateurs de Bayes des ne peuvent pas être calculés de façon

explicite. L’utilisation des méthodes de simulation de la chaîne de Monte Carlo est donc

nécessaire.

Ainsi, dans la partie application sur le jeu de données, on pourra observer que l’estimation

Bayésienne n’apparaîtra pas explicitement. On devra donc être déduire à la fois par de la lecture

des graphiques, concernant la convergence ou non et par les estimations des paramètres.

Le risque de Bayes

La recherche d’estimateurs de Bayes est réalisable dans le cadre de la théorie de la

décision également appelé analyse du risque.

La démarche consiste à choisir l’estimateur préférentiel grâce une règle de préférence et à

utiliser un estimateur optimal au sens de cette règle

Il convient de rappeler qu’en statistique fréquentiste la règle de préférence repose le plus

souvent sur le risque quadratique, noté R(Ӫ), et défini comme suit :

R(Ӫ) = Var[Ӫ] + .

L’approche Bayésienne fait reposer la règle de préférence sur le risque de Bayes.

Page 14: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

11

La densité a priori f(Ѳ) étant fixée, le risque de Bayes de Ӫ est noté R(Ӫ). Il est défini comme suit :

R(Ӫ) = E[R(Ӫ)] = ∮ .

On dira que est meilleur que au sens du risque de Bayes, si :

R( ) < R( ) .

Intervalles de crédibilité bayésiens

Soit un modèle bayésien et supposons que Ѳ est un paramètre réel.

D’après la définition suivante : Soit 𝜶 ⋲ ]0,1[ fixer un intervalle I de tel façon qu’on ait :

P(Ѳ ⋲ I|x) = ∮ = 1- 𝜶.

Cette équation est appelée intervalle de confiance a posteriori. Ou encore un intervalle Q si Ѳ ⋲

Q sera :

P(Ѳ ⋲ Q) = ∮ = 1- 𝜶.

Cette dernière sera un intervalle de confiance a priori de niveau 1- 𝜶.

Avantages et inconvénients de l’approche bayésienne comparé à l’approche fréquentiste :

Les avantages :

Certaines caractéristiques peuvent être à la fois un avantage comme un inconvénient.

o L’ajout des distributions de probabilités sont également faites sur les paramètres du

modèle.

Exemple : la moyenne est la variance d’une loi normale. La distribution de probabilité

des paramètres change quand on observe des données, avant de les observer, on a affaire

à la distribution a priori des paramètres. Après les avoir observées, elle devient la

distribution a posteriori des paramètres. Cette mise à jour obtenue des distributions de

probabilité des paramètres est mis en lumière par le fameux théorème de Bayes.

L’intervalle de crédibilité correspond à l’intervalle de confiance en fréquentiste. Elle a

une interprétation plus directe et moins compliquée que celle classique. En d’autres termes

un intervalle à 95% d’un paramètre est un intervalle qui contient 95% de la distribution a

posteriori du paramètre.

Les méthodes Bayésiennes respectent le principe de vraisemblance, c’est-à-dire que toute

l’information provenant d’un jeu de données est contenue dans la fonction de vraisemblance.

Les chaînes de Markov de Monte Carlo permettent de prendre en compte des modèles

beaucoup plus complexes que ce que l’on peut faire sous l’approche fréquentiste. Les outils

Bayésiens permettent de décomposer des modèles complexes en morceaux de modèles

simples en utilisant des conditionnements probabilistes. Cela permet de prendre en compte

de nombreuses sources d’incertitude y compris en ce qui concerne les mesures des variables

explicatives.

Page 15: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

12

L’estimation des paramètres ne repose pas sur des résultats asymptotiques mais sur les

distributions des estimateurs.

Les inconvénients :

Le fait d’ajouter dans l’analyse des paramètres supplémentaires aux données, les

distributions a priori, (Gosselin, 2011).

Concernant la p-valeur et le test d’ajustement (Uriate et Yackulic, 2009), l’outil classique

de critique du modèle Bayésien c’est-à-dire la p-valeur postérieur prédictive est moins adapté que

l’outil utilisant le maximum de vraisemblance de l’approche fréquentiste. Les outils de

substitution sont complexes.

En quoi consistent les approches fréquentiste et bayésienne au niveau philosophique ?

Ces deux approchent permettent de retrouver une loi de probabilité inconnue à partir d’un

ensemble de réalisations de cette loi pour résoudre un problème donné. C’est ce qu'on appelle

l’inférence statistique.

Exemple : Sur le lancer d’une pièce de monnaie.

Approche fréquentiste : il existe une vraie valeur p, qui caractérise la pièce

et qui définit la probabilité d’obtenir pile. On l’estime en calculant des moyennes.

Exemple : on lance la pièce cent fois et on estime la probabilité d’obtenir pile à partir des

résultats obtenus, 55% si l’on compte cinquante-cinq fois pile.

Dans l’approche bayésienne : on imagine qu’il existe plusieurs pièces,

chacune avec sa propre valeur de p. On impose une seconde loi de probabilités, la loi a priori sur

les pièces elles-mêmes. Elle rend compte de notre croyance quant aux valeurs de p. Ici, on estime

donc pas p mais sa loi de probabilité ou fonction de répartition (loi continue ou discrète), par

exemple la moyenne et la variance d’une loi normale (continue) après avoir observé les

réalisations. C’est pour cela que les modèles bayésien sont qualifiés de complètement

probabiliste. La distribution de probabilité des paramètres change quand on observe des données.

L’une a-t-elle plus la faveur des statisticiens que l’autre ?

Les deux méthodes ont leurs adeptes, tout dépend des besoins. La différence principale

porte sur les a priori fondamentaux pour poser la modélisation aléatoire.

La vision fréquentiste s’est imposée avec le développement des statistiques, à la fin du

XIXe siècle. La communauté bayésienne s’est développée, elle, avec l’essor de l’informatique.

Page 16: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

13

IV. SEM non linéaire à deux niveaux de structure hiérarchique avec des variables

de types mixtes sous l’approche Bayésienne

Le plan d’échantillonnage comprend deux niveaux de structure hiérarchique, à savoir des

placettes (1er

niveau) réparties dans différents massifs forestiers (2ème

niveau).

Partons de l’hypothèse que l’estimation bayésienne proposée ici concerne les modèles

SEM confirmatoire dont la structure est fixée.

Les variables latentes sont des concepts nommés, porteurs d’un sens intrinsèque, reflétés par les

variables observées dans des relations réflexives.

Le Modèle :

On considère un ensemble de vecteurs aléatoires de p variables aléatoires , i = 1,….,

dans des groupes g = 1,…..,G. L’échantillon des tailles peut être différent de groupe en

groupe. Par conséquent, avoir un jeu de données non équilibré.

Pour le premier niveau, on suppose que conditionnel sur le groupe signifie et des

observations aléatoires dans chaque groupe satisferont l’équation de mesure suivante :

= + * + avec g = 1,…..,G, et i = 1,……., , (1.1)

Où :

* est une matrice de données de dimension p * ,

est un vecteur aléatoire de facteur latent de dimension *1

* est un p*1 vecteur aléatoire d’erreur de mesure qui est indépendant de et qui suit une

loi N(0, ), où est une matrice diagonale.

Du fait de l’existence de , et , ne sont pas indépendants.

De ce fait, dans le modèle à deux niveaux hiérarchiques, l’hypothèse d’indépendance des

observations est violée. Ceci implique quelques difficultés pour l’analyse. Pour représenter la

structure entre groupes, on suppose que le groupe veut dire que satisfait le modèle de facteur

suivant :

= 𝝁 + * + , avec g = 1,…..,G, (1.2)

Où : *𝝁 est le vecteur d’intercepts commun à tous les groupes

* est une matrice de données de dimension p *

* est un vecteur de variables latentes de dimension * 1

* est un p*1 vecteur aléatoire d’erreur de mesure qui est indépendant de et est distribué

selon une loi N(0, ), où est une matrice diagonal.

Page 17: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

14

De plus le premier et le deuxième niveau d’erreur de mesure sont supposés indépendants. Il

découle des équations (1.1) et (1.2) que :

= 𝝁 + * + + * + . (1.3)

Pour évaluer les interrelations entre les variables latentes, les vecteurs de ces dernières

sont partitionnés en et qui eux aussi le sont comme suit :

=

et =

( * 1), ( * 1), ( * 1) et ( * 1) sont des vecteurs de variables latentes

avec + = q, pour j = 1,2. Les distributions de et sont respectivement des lois

gaussiennes N(0, ) et N(0, ). Les équations structurelles non linéaires sont incorporées dans

les modèles entre-groupes et intra-groupes du modèle proposé à deux niveaux :

= * + * ( ) + , (1.4)

Et

= * + * ( ) + , (1.5)

où ( ) = et ( ) =

sont des

vecteurs de fonctions différentiables connues, et mais qui ne s’annulent pas, c'est-à-dire

une fonction f est différentiable au point x0 si au voisinage de ce point elle est convenablement

approchée par une fonction affine ayant pour forme A(x) = y0 +T(x), où T est une application

linéaire et y0 est une constante. La forme linéaire ne s'annule pas.

Habituellement a ≽ et b ≽ , de dimension ( * ), de dimension (

* ), de dimension ( * a) et de dimension ( * b) sont des paramètres inconnus

de matrices.

et sont respectivement des erreurs de mesures distribuées respectivement selon

une loi N(0, ) et N(0, ), avec et des matrices diagonales. Du fait de la non

linéarité, impliquée par et la distribution de ne suit pas une loi normale.

Dans l’équation structurelle « intra-groupes », on supposera que :

et sont indépendants.

L’équation structurelle l’« entre-groupes », et sont indépendants.

Les vecteurs « intra-groupe » de variables latentes et sont indépendants

des vecteurs de variables latentes « entre-groupe » et .

De là, il s’en suit de l’équation (15.4) que est indépendant de et

Page 18: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

15

Ce modèle à deux niveaux ne satisfait pas les effets des vecteurs latents dans le niveau

« entre-groupes » sur les vecteurs latents dans le niveau « intra-groupe». Néanmoins dans le

modèle de niveau « intra-groupe » ou dans celui du « entre-groupes », l’effet non linéaire entre

des variables latentes exogènes et endogènes peut être évalué à partir des équations (1.4) et (1.5)

en sachant que la structure hiérarchique des données est prise en compte.

Du fait que les fonctions dans ( ) et dans ( ) sont plutôt générales,

l’interaction commune et les effets quadratiques sont des cas spéciaux.

En pratique, cela permet ce genre de relations non linéaires comme une interaction des

termes quadratiques entre les variables latentes qui mènent à des modèles plus représentatifs de la

réalité.

A fortiori, on suppose que - et - sont non singuliers et leurs déterminants sont

respectivement indépendants de leurs éléments dans et . Avec et représentent les

matrices identités.

Le SEM proposé à deux niveaux hiérarchiques ne peut être identifié si l’on n’impose pas

l’identification des paramètres. La méthode d’identification consiste à fixer des paramètres

appropriés dans , , , , , pour avoir un modèle identifié.

De même, par la méthode du SEM non linéaire les choix de ( ) et ( ) ne sont

pas arbitraire. Ces fonctions peuvent être n’importe quelles fonctions différentiables, de là, il est

suffisant d’utiliser les fonctions polynomiales comme relation entre les variables latentes.

Par définition, une fonction polynomiale est de la forme suivante :

f(x) = +

+……+ +

où n est un entier naturel et , ,. …, , sont des éléments de R.

Le choix de ces fonctions n’est pas complètement arbitraire. Pour exemple, les cas

suivants sont à éviter (𝛏) = ( , , ,

) ou encore (𝛏) = ( , , * ,0).

(𝛏) et (𝛏) doivent être modifiés comme suit : ( , , ) et ( , , * ).

Pour mieux comprendre, voici un exemple concret:

( ) = (

) ( ) + (

) (

) + (

). (1.6)

Pour le modèle mixte (variables continues et catégorielles) sans perte de généralité, on

suppose que =

, où =

est un vecteur continu et observable et

= ( , … , ) est un vecteur continu et non observable.

Page 19: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

16

Une spécification de seuil est posée pour les variables observables catégorielles définies

par le vecteur z = avec les variables continues définies par le vecteur y =

comme suit :

z = si < < (1.7)

< < (1.8)

où est une valeur entière dans {0,1, … , }. En général, on garde = , = .

Pour la kième variable, il y a + 1 catégories qui sont définies par des seuils non connus .

Les variables dichotomiques sont traitées de la même manière que les variables

catégorielles avec un seuil unique fixé à zéro. Le lien entre les variables dichotomiques et leurs

variables continues y est donné par :

d = 1 si y > 0 , et d = 0 si y 0. (1.9)

Soit Ѳ le vecteur paramètre qui contient tous les paramètres inconnus dans , ,

, , , , , , , et et soit 𝜶 le vecteur qui contient tous les paramètres

des seuils inconnus.

Le nombre total de paramètres inconnus dans Ѳ et 𝜶 est normalement élevé. Par la suite,

on suppose que le modèle non linéaire à structure hiérarchique défini par Ѳ et 𝜶 est identifié.

Simulation a posteriori et estimation Bayésienne :

Soient = ( , … , ) et X= ( … , ) les variables observées et continues, et

= ( , … , ) et Z= ( … , ) les variables observées catégorielles.

Soient = ( , … , ) et Y= ( … , ) les variables continues latentes associées

respectivement à et Z. Les variables observées seront augmentées avec Y dans l’analyse a

posteriori. Une fois qu’Y est donné, toutes les variables sont continues et le problème est

simplifié. Soit V = ( , ..., ) la matrice des variables latentes qui représente le niveau

hiérarchique « entre-groupe ».

Si V est observée, le modèle est réduit à un seul niveau. Soient 𝛺 = ( , ..., ),

𝛺 = ( 𝛺 , … , 𝛺 ) et 𝛺 = ( 𝛺 , … , 𝛺 ) les matrices des variables latentes des niveaux

hiérarchiques « intra-groupe » et « entre-groupe ». Si les matrices sont observées, les équations

(1.4) et (1.5) réduisent simultanément les modèles de régressions.

La difficulté provient de la relation non linéaire entre les variables latentes ainsi que les

problèmes associés avec les éléments du modèle. Comme par exemple les structures corrélées des

observations qui impliquent les deux niveaux d’échelle ou encore la nature discrète des variables

catégorielles ainsi que la non linéarité des variables latentes aux niveaux des deux échelles.

Page 20: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

17

Ces derniers peuvent être résolus avec l’augmentation du jeu de données. Dans l’analyse

a posteriori les données observées (X,Z) seront augmentées avec (Y,V, 𝛺 , 𝛺 ), les matrices de

données hypothétiquement manquantes de mesures latentes et variables.

Plus spécifiquement, on considère les distributions a posteriori jointes [Ѳ,Y,V,𝝮, 𝛺 , 𝛺 |

X,Z]. L’algorithme de l’échantillon de Gibbs sera utilisé pour générer une séquence

d’observations de cette distribution a posteriori jointes.

Alors la solution Bayésienne est obtenue par l’inférence standard sur la base de

l’échantillon produit d’observations. Dans l’application de Gibbs, on échantillonne itérativement

des distributions conditionnelles suivantes : [V | Ѳ,𝜶,Y, , , X,Z], [ | Ѳ,𝜶,Y, V, , X, Z],

[[ | Ѳ,𝜶,Y, V, , X, Z], [𝜶,Y | Ѳ,V, , , X,Z] et [Ѳ | 𝜶,Y, , , X,Z].

Pour le modèle à deux niveaux proposé, la distribution conditionnelle [Ѳ | 𝜶, Y, V, ,

, X, Z] est décomposée en composants et impliquant divers paramètres structurels dans les

modèles d’ « entre-groupes » . Les composants sont différents et relatent différents cas spéciaux

de modèles. Suivant les cas, la structure de Ѳ peut prendre différentes formes :

a) Les modèles avec différents paramètres dans l’ « intra-groupe » au travers des niveaux :

dans ce cas, les paramètres structurels « intra-groupes » = { , , , ,

, } et les paramètres seuils associés avec le gième groupe sont différents de

ceux qui sont associés avec le kième groupe, pour g k. En pratique G et ne doivent

pas être très petits pour pouvoir dessiner des conclusions graphiques statistiques valides

pour le modèle de l’ « entre-groupe » et le modèle du gième « intra-groupe ».

b) Les modèles avec quelques paramètres invariants dans l’ « intra-groupe », dans ce cas les

paramètres et qui sont associés avec le gième groupe sont égaux à ceux qui sont

associés avec les autres groupes.

c) Les modèles avec tous les paramètres invariants dans l’ « intra-groupe » sous cette

condition, = … = , et = … = .

Les distributions conditionnelles dans des cas spéciaux sont similaires mais différents.

En outre, les distributions a priori des paramètres sont aussi impliquées. La distribution non-

informative est utilisée pour les distributions a priori des seuils.

Les distributions conditionnelles des composantes dans [Ѳ | 𝜶, Y, V, 𝛺 , 𝛺 , X, Z] aussi

bien que dans d’autres distributions conditionnelles nécessitant l’algorithme de Gibbs sont

discutés dans le livre de Lee (Appendix 9.1).

Les distributions conditionnelles sont des généralisations des modèles qui sont associés

avec un modèle à un seul niveau et la plupart suivent des distributions standard telles que la loi

normale, gamma et l’inverse Wishart.

Simuler des observations sous ces distributions demande un effort considérable en

programmation. L’algorithme Metropolis-Hasting est utilisé pour simuler en particulier les trois

distributions conditionnelles les plus complexes:

[ 𝛺 | Ѳ, 𝜶,Y, V, 𝛺 , X, Z], [ 𝛺 | Ѳ,𝜶,Y, V, 𝛺 , X, Z] et [𝜶,Y | Ѳ,V, 𝛺 , 𝛺 , X, Z].

Page 21: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

18

Les estimations Bayésiennes de Ѳ, 𝜶 et des variables latentes et sur les deux

niveaux peuvent être obtenues facilement via la moyenne des observations générées. Plus

spécifiquement, soient { , , 𝛺 , 𝛺 ) ; t =1 ,.., } et soient des observations

aléatoires générées par la distribution a posteriori jointe p( Ѳ, 𝜶, Y, V, 𝛺 , 𝛺 | X, Z ), les

estimations jointes de Bayes de Ѳ, 𝜶, , seront obtenues comme suit :

Ӧ =

, ᾶ =

, =

, =

(1.10)

Où et proviennent de 𝛺 et 𝛺 , .

Ces estimations Bayésiennes jointe convergent à leur moyenne a posteriori quand T tend

vers l’infini. Du fait que l’on possède un large échantillon de Ѳ de par sa distribution a posteriori,

une estimation de la variable Ѳ peut être obtenue à partir de la matrice de covariance.

De plus, une estimation des résidus , , , peut être obtenue par la moyenne des

paramètres estimés.

Page 22: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

19

V. SEM non linéaire à deux niveaux de structure hiérarchique avec effets croisés

sous l’approche Bayésienne

En plus de la non linéarité à deux niveaux de structure hiérarchique, nous avons également utilisé

l’effet croisé au niveau des variables latentes. D’après le modèle de Lee (2007), on considère

l’équation de mesure qui relie les variables observables et les variables latentes dans « l’intra-

groupe » et « l’entre-groupe » Lee et Tang (2007)

= 𝝁 + * + + * + . (1.11)

Avec g = 1 , … , G, et i = 1, … ,

Où est un vecteur aleatoire ( *1) de variables latentes qui suit une loi N(0, ), est un

vecteur aléatoire (p*1) avec comme distribution N(0, ) , où est une matrice diagonale et où

et et sont indépendants. Les définitions des autres quantités sont les mêmes que

précédemment. Pour le modèle « intra-groupe » on définit =

comme une

partition de . Pour simplifier la notation, on omettra la souscription de 1 dans et . On

considère l’équation structurelle suivante :

= 𝝘H( , ) + , (1.12)

Où ( *1) et ( *1) sont des sous vecteurs latents de et

H( , ) = .Ce dernier est un (m*1) vecteur avec des valeurs

non nulles et des fonctions différentiables connues , …, , de plus m max{ , },

𝝘( *m) est la matrice des coefficients inconnus, et sont respectivement distribués

comme N(0, ) et N(0, ), où est une diagonale et est indépendant de .

La généralité de la fonction H( , ) estimée de vecteur satisfait les termes non-

linéaires des variables latentes exogènes dans et pour prévoir les variables latentes

endogènes dans . Un exemple concret est associé avec = ( ), = et =

( , , ) est donné par :

= + + + + + + + , (1.13)

Où 𝝘 = ( , …, ) , H( , ) = .

La linéarité et l’interaction des termes des variables latentes exogènes dans « l’intra-

groupes » et dans « l’entre-groupes » sont prises en compte dans l’équation (1.13). Si nécessaire

on peut facilement ajouter des termes non-linéaires. Soient 𝝠 = ( , ) et = ( ,

)T

alors l’équation (1.11) peut être écrite comme suit :

= 𝝁 + 𝝠 * + . (1.14)

Page 23: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

20

On suppose que pour g h, et sont indépendants, pour tout i et j. Cependant, en

raison de la présence de , les mesures observées et sont corrélées.

De plus, en raison de dans l’ « intra-groupe » d’équations structurelles (1.12), pour i

j, et sont dépendants et de là, , sont dépendants.

Similairement, l’ « intra-groupes » du vecteur latent dépend de l’ « entre-groupes »

du vecteur latent . De ce fait l'hypothèse usuelle sur les deux niveaux du SEM (Ansari and

Jedidi, 2000 ; Lee and Shi, 2001 ; Song and Lee, 2004) à propos de l’indépendance de et

est violée.

Les covariances entre les variables observées et les variables latentes deviennent de plus

en plus compliquées à cause des différentes variations de dépendance, pas seulement parmi,

et , mais aussi parmi les , , et .

Par exemple en raison de la complexité de H( , ) dans l’équation (1.12), la matrice

de covariance de peut être compliquée ; du fait de la corrélation structurelle de et

, leur covariance est compliqué et la matrice de covariance de peut-être aussi très

compliquée.

Plus encore, comme la covariance de et de peut être très compliquée, la matrice

de covariance de = ( ,…,

)T peut être très compliquée.

Pour une certaine accommodation de l’ « entre-groupes » des variables latentes et de

l’effet de l’ « intra-groupes » des variables latentes endogènes étend à une difficulté d’analyse

du modèle à deux structures hiérarchique, non-linéaire en SEM.

Comme on peut le constater, la difficulté peut être réglée par la technique de

l’augmentation du jeu de données. Dans ce qui suit, on suppose que le modèle est identifié, c’est-

à-dire que l’on a fixé des paramètres.

Page 24: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

21

L’analyse Bayésienne :

Soit U= ( , …, ), les données observées globales, n = + … + , et soient 𝛺 , 𝛺 , 𝛺

les matrices définies comme précédemment. Soit Ѳ, le paramètre vecteur qui contient tous les

paramètres inconnus dans 𝛍, , , 𝝘, , , , .

En utilisant l’idée clé de l’augmentation du jeu de données (Tanner et Wong, 1987), la

distribution a posteriori jointe est [Ѳ , 𝛺 , 𝛺 | U ].

L’estimation Bayésienne des paramètres, des variables latentes et de la p-value peut être

obtenue grâce à un grand nombre d'itérations qui sera simulée par [Ѳ , 𝛺 , 𝛺 | U ].

La tâche majeure est de simuler des observations de la simulation a posteriori commune

par l’échantillonnage de Gibbs couplée avec l’algorithme de Metropolis-Hasting. L’algorithme de

Gibbs est implémenté comme suit : à la (j+1)ième itération avec les valeurs ( , 𝛺

,𝛺

),

itérativement on génère :

a) 𝛺

de [𝛺 | ,𝛺

, U].

b) 𝛺

de [𝛺 | ,𝛺

, U].

c) de P(Ѳ |𝛺

, 𝛺

, U).

Simuler les distributions des paramètres d’une loi gamma, normal et de Wishart est assez

directe et assez rapide. Néanmoins, les distributions conditionnelles p(𝛺 |.), p(𝛺 |.) et p(𝜶,Y|.)

sont complexes et il est nécessaire d’implémenter avec l’algorithme de Metropolis-Hasting pour

simuler efficacement les distributions conditionnelles.

L’algorithme de Metropolis-Hasting est implémenté comme suit : à la (j+1)ième itération

avec les valeurs de , un nouveau candidat est généré par la distribution proposée

N( , ), où

=

+ 𝝨 avec

𝝨 = (

) ,

Où 𝝙 = 𝞉 H( , ) /𝞉 / et est adapté tel que le taux d’acceptation moyen est

environ 0.25 ou plus (voir Gelman, Roberts and Gilks, 1995).

La probabilité d’acceptation est :

Min[1,

Page 25: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

22

De même, l’algorithme de Metropolis-Hasting pour l’échantillonnage de de la

p( |𝛺 , , ) est comme suit : au (j+1)ième itération avec les valeurs de , un

nouveau candidat est généré par la distribution proposée N( , ), où

𝝨 =

+

+ ∑

𝝘 avec = 𝞉 H( , ) /𝞉 /

et est choisi comme précédemment. La probabilité d’acceptation est :

Min[1,

La convergence de l’algorithme est établie par l’ « estimated potential scale reduction

(EPSR), ce sont des valeurs suggérées par (Gelman et Rubin, 1992) ou par les graphiques

parallèles des séquences des observations simulées sous différentes paramètres de

commencement.

Voici un exemple de convergence graphique :

Voici un exemple de divergence graphique :

S’il y a non convergence, la question doit être posée concernant l’utilisation des paramètres les

plus pertinents ainsi que le choix de la bonne distribution.

Page 26: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

23

VI. Application sur le jeu de données

L'objectif du Plan Forestier National et du Grenelle de l'Environnement est de produire

plus tout en préservant au mieux la biodiversité. A l'échelle européenne, l'augmentation des

prélèvements de bois en forêt est souhaitée, pour accroître à la fois la production de bois,

ressource renouvelable, et la résistance des peuplements à la sécheresse ; en effet, avec les

changements climatiques, de nombreux experts recommandent de réduire le nombre d'arbres sur

pied des peuplements avec comme double but la réduction de la consommation en eau et savoir

affronter les sécheresses récurrentes que subissent nos écosystèmes de manière plus efficace.

Nous allons prendre ce postulat de base à notre réflexion dans le but de savoir si cette

augmentation de prélèvements impacte la biodiversité et d’identifier des effets en cascades entre

compartiments de cette biodiversité.

A ce jour, aucune recherche approfondie au niveau national ou international n'a été menée

pour démontrer les conséquences de ces changements d’intensité de prélèvements en termes de

biodiversité. Les recherches entamées sont tout au mieux fragmentaires et n'étudient souvent

qu'une seule variable latente de la diversité (la flore) et sur des dispositifs peu ou mal contrôlés.

De façon mécanique, en réduisant le nombre d'arbres, le forestier augmente certaines

ressources clés pour les végétaux du sous-bois, notamment en eau et lumière, ce qui se traduit par

une augmentation de la biomasse végétale du sous-bois, avec des réactions possibles sur les

autres compartiments de l'écosystème, insectes, gastéropodes, faune du sol. Le réel enjeu est de

démontrer scientifiquement comment et en quoi ces changements ont des répercussions sur la

diversité de l'ensemble.

Pour répondre à ce postulat, notre groupe de recherche à décider d’expérimenter dans le

but d’en tirer des conclusions. Pour se faire l’objectif initial est de faire varier au sein des

placettes, la densité dans le but d’expliquer les conséquences que peut avoir cette dernière sur la

biodiversité.

En sachant que, la densité est de prendre en considération une surface terrestre forestière

ainsi que de mesurer le nombre d’arbres par rapport à cette dernière pour estimer le nombre

d’arbre. Et que, La qualité d’un arbre se définit par sa grandeur ainsi que sa circonférence.

Les placettes ne sont pas très éloignées géographiquement les unes des autres pour garder

l’homogénéité du sol ainsi que d’autres facteurs comme la lumière, l’eau et la biodiversité.

Ainsi, les forestiers peuvent faire varier uniquement la densité en arbre dans les

différentes placettes appelées dispositifs et mesurer les différences puisqu’une aucunes autres

variables n’ont changés (lumière, eau, biodiversité…)

Dans une forêt, il y a donc plusieurs placettes et chacune varient en densité relative (rdi

qui est le nombre d’arbre par unité de surface. Ce dispositif-là est utilisé dans un objectif

d’observer l’impact du changement de densité sur la biodiversité, c’est-à-dire la flore, la faune du

sol, les champignons, les mammifères, la pluie, la lumière, les espèces, etc.

Page 27: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

24

Les deux variables qui décrivent en partie la biodiversité (prises en compte dans notre

étude) sont la flore et la faune du sol. On pense que seuls ses deux groupes devraient fluctuer

positivement ou négativement aux variations de la densité du peuplement puisque par définition

les autres facteurs de biodiversité restent quant à eux homogènes. Ainsi, s’il y a une variation

conséquente vis-à-vis de la biodiversité, nous pourrons affirmer que la densité en arbres y est

pour quelque chose.

Le contexte expérimental étant homogène dans tous les sens du terme, le fait que la liste

des variables ne soit exhaustive n'influence en aucun cas notre analyse et les estimations ne s’en

trouvent pas biaisées.

Par ailleurs, nous pouvons constater qu’une partie de la forêt française risque d'être

modifiée notamment à cause de la densité en arbres. Cela engendrera des bouleversements

notamment en termes de biodiversité.

Il faut savoir que les forestiers doivent aussi limiter la densité du peuplement à cause de la

sécheresse puisque les arbres puisent par leurs racines profondes l’eau de la terre.

Il y a deux réseaux expérimentaux, GIS et LERFOB qui sont eux-mêmes divisés en trois

catégories de site. Dans notre étude, nous retiendrons le premier réseau cité. Le dispositif est

uniforme, il se compose dans la placette où se trouvent neuf placeaux repartis selon le plan ci-

dessous, tout en contrôlant la densité des peuplements "chêne".

Ce dispositif permet l'exploration des relations de causalité au travers de différents

facteurs.

Ce cadre rend le modèle SEM pertinent par contre la structure des placettes impose la structure

spatiale des dispositifs.

NB : Les données ont été en grande partie récoltées avant la période de mon stage.

Mon travail fut à développer le SEM bayésien, un modèle conceptuel, ainsi que de lever un

certain nombre de réticences des écologistes car cet outil statistique récent et difficile à

manipuler.

Page 28: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

25

Le Modèle conceptuel.

Fig(2)

Dans ce modèle, le peuplement est caractérisé par l’âge des arbres, la densité du

peuplement (nha), la surface terrière (gha), la circonférence des arbres (cg) et le nombre relatif

d’arbre par unité de surface (rdi).

La flore est définie par le recouvrement total de l’ensemble des espèces végétales du sous-

étage (ce dernier réfère à tout ce qui se trouve en bas des arbres) et le nombre d'espèces végétales

du sous-étage.

La faune du sol est caractérisée par le nombre d’espèces de collemboles, petits

arthropodes pan crustacés, ainsi que par le nombre d’espèces de vers de terre collectés sur la

placette.

Les flèches indiquent les relations de causalités d'influence entre les variables latentes

elles-mêmes ainsi que entre les variables observées et les variables latentes.

Le Massif représente le deuxième niveau de la structure spatiale hiérarchique.

Le rectangle bleu représente l'effet croisé des deux variables latentes peuplement et faune

du sol sur la flore.

Page 29: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

26

Définitions des variables observées : Recouvrement_Total : recouvrement (en %) de l’ensemble des espèces végétales du sous-étage

(entre 0 et 2 m de hauteur ; placette de 40 m²)

Rs Plantes = Nbr-espèces : nombre d’espèces végétales du sous-étage

Age : Age moyen des arbres de la placette

Nha : nombre d’arbres de l’étage principal (la canopée) vivant à l’hectare

Gha : surface terrière par hectare (m²/ha). Cet indice correspond, pour un arbre donné, à la

surface de la section d'un arbre mesurée à 1,30 mètre du sol. Dans notre cas, il s’agit plus

précisément de la surface terrière totale ou moyenne, calculée par la somme des surfaces terrières

de tous les arbres de la placette et ramenée à l’échelle d’un ha.

Cg : circonférence moyenne des arbres de l’étage principal de la placette, « moyenne » en unité

de cm

Rdi : indice de densité relative, comprise entre entre 0 et 1. Mesure la densité du peuplement

(nombre d’arbres par unité de surface) par rapport à la densité maximale théorique (la densité des

arbres ne peut pas être infinie). Cet indice mesure l’intensité de la gestion forestière : une valeur

proche de 0 signifie qu’il n’y a pratiquement plus d’arbres dans la placette ; une valeur proche de

1, que la densité est proche de la valeur maximale théorique.

Rs_Collemboles : nombre d’espèces de collemboles, petits arthropodes pancrustacés, collectées

sur la placette (77 espèces différentes inventoriées par l’Université de Rouen)

Rs_Lombriciens : nombre d’espèces de vers de terre collectées sur la placette (5 espèces

inventoriées par l’Université de Rouen) Définitions des variables latentes :

Peuplement : ensemble des arbres de la placette

Flore : ensemble des espèces végétales

Faune du sol : ensemble des espèces animales

Page 30: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

27

Sc éma e l’équation e mesure :

Fig(3)

Sur ce schéma, les estimations d'influences que peuvent avoir le premier et le deuxième

niveau qui sont respectivement les variables latentes niveau placette et le Massif représenté par

les p sont représentées.

Page 31: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

28

Sc éma e l’équation structurelle :

Fig(4)

La Fig(4) traduit l'équation structurelle de notre modélisation.

représente la variable latente exogène (flore).

représente la variable latente (peuplement).

représente la variable latente (faune du sol).

représentent l'effet croisé du peuplement et de la faune du sol sur la flore.

Les p et p représentent l'influence du niveau deux (Massif) sur la flore.

Il était pertinent d'ajouter dans la modélisation une relation causale supplémentaire qui est celle

entre le peuplement et la faune du sol.

Cet ajout est important au point de vue écologique puisque selon les experts, il y a une relation

causale entre ces deux variables latentes qu’on ne peut négliger.

Page 32: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

29

ésultat e l’application sur le jeu de données. display(log) check(C:/Users/jad.abou-ghantous/Desktop/model.txt) model is syntactically correct data(C:/Users/jad.abou-ghantous/Desktop/data.txt) data loaded compile(3) model compiled inits(1,C:/Users/jad.abou-ghantous/Desktop/inits1.txt) expected collection operator c inits(2,C:/Users/jad.abou-ghantous/Desktop/inits2.txt) inits(3,C:/Users/jad.abou-ghantous/Desktop/inits3.txt) gen.inits() initial values generated, model initialized thin.updater(4) update(1) set(lb) set(lw) set(mu) set(psi) set(gam) set(lam) set(deviance) dic.set() update(2500) coda(*,C:/Users/jad.abou-ghantous/Desktop/coda) stats(*) Node statistics node mean sd MC error 2.5% median 97.5% start sample deviance 2746.0 88.05 6.725 2663.0 2719.0 3010.0 2 7500 gam[1] -1.818 7.07 0.5693 -9.93 -5.416 11.14 2 7500 gam[2] 3.114 2.523 0.1062 -2.522 3.272 7.773 2 7500 gam[3] 0.8534 2.814 0.2199 -7.14 1.908 4.365 2 7500 gam[4] -1.795 0.8102 0.05186 -3.599 -1.724 -0.4015 2 7500 gam[5] 4.445 1.067 0.07357 0.396 4.486 6.234 2 7500 lam[6] 0.08655 0.4207 0.03318 -0.9793 0.269 0.5984 2 7500 lb[1] 1.054 2.96 0.2363 -4.129 2.382 4.888 2 7500 lb[2] 2.18 3.043 0.1084 -2.053 1.751 10.53 2 7500 lb[3] 0.7971 0.7091 0.0518 0.5207 0.6392 2.413 2 7500 lb[4] 2.183 2.025 0.1473 1.431 1.745 6.558 2 7500 lb[5] 0.01504 0.025 0.001225 -0.0058 0.01253 0.05091 2 7500 lb[6] 0.1145 0.04932 0.001986 0.04573 0.1121 0.1843 2 7500 lw[1] 0.226 0.2443 0.0189 0.138 0.1895 0.5476 2 7500 lw[2] 0.8942 2.871 0.07503 -4.154 0.8488 6.836 2 7500 lw[3] 0.7817 2.931 0.2404 -6.663 2.447 3.508 2 7500 lw[4] -0.8562 5.515 0.4515 -5.919 -3.933 13.68 2 7500 lw[5] 0.02952 0.1227 0.009944 -0.292 0.09222 0.1541 2 7500 lw[6] -0.1714 0.2043 0.01147 -0.4889 -0.1823 0.1693 2 7500 mu[1] 4.267 0.5198 0.01219 3.23 4.265 5.284 2 7500 mu[2] 4.769 0.5091 0.009636 3.767 4.762 5.762 2 7500 mu[3] 4.957 0.5821 0.02955 3.909 4.919 6.232 2 7500 mu[4] 2.392 0.4962 0.005649 1.415 2.402 3.334 2 7500 mu[5] 3.017 0.5274 0.02217 1.911 3.033 4.031 2 7500 mu[6] 3.369 0.4983 0.009918 2.376 3.373 4.333 2 7500 mu[7] 0.3674 0.2082 0.006849 -0.04046 0.3683 0.7853 2 7500 mu[8] 0.4718 0.5135 0.01407 -0.5111 0.4644 1.475 2 7500 mu[9] 0.5885 0.4973 0.01215 -0.3595 0.5953 1.539 2 7500 psi[1] 0.02071 0.005774 2.69E-4 0.002783 0.02078 0.03137 2 7500 psi[2] 0.07086 0.01516 5.714E-4 0.04669 0.0694 0.1042 2 7500 psi[3] 0.1527 0.3119 0.02461 0.0039 0.08582 1.381 2 7500 psi[4] 1.362E-7 2.303E-8 2.719E-10 9.558E-8 1.349E-7 1.843E-7 2 7500 psi[5] 1.763 1.386 0.1063 0.1015 1.93 4.569 2 7500 psi[6] 0.2242 0.3557 0.02802 0.01927 0.04553 1.273 2 7500 psi[7] 8.166 1.436 0.03238 5.608 8.071 11.25 2 7500 psi[8] 0.3187 0.07145 0.00232 0.1902 0.3149 0.468 2 7500 psi[9] 0.7731 0.1381 0.002311 0.5298 0.7653 1.068 2 7500 dic.stats() DIC Dbar = post.mean of -2logL; Dhat = -2LogL at post.mean of stochastic nodes Dbar Dhat pD DIC

y 2745.900 11815.000 -9069.070 -6323.170 total 2745.900 11815.000 -9069.070 -6323.170 history(*,C:/Users/jad.abou-ghantous/Desktop/history.odc)

Page 33: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

30

Les graphiques qui suivent montrent la convergence ou la divergence des estimateurs causaux.

Page 34: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

31

Page 35: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

32

Page 36: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

33

Page 37: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

34

Page 38: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

35

Page 39: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

36

Page 40: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

37

Page 41: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

38

Page 42: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

39

Page 43: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

40

L’interprétation :

On prend en compte les estimations significatives c'est-à-dire celles pour lesquelles les

estimations ont correctement convergées. Ne peuvent être interprétées les variables suivantes

faute de convergence :

gam[1]= l’estimation de l’influence de la variable latente peuplement sur la

variable latente flore

gam[3]= l’estimation de l’influence de l’effet croisé (peuplement/faune du sol) sur

la variable latente flore.

lam[6]= l’effet causal entre le peuplement et la faune du sol.

lb[1]= l’estimation entre le massif et la variable « richesse spécifique de la flore »

lw[3]= l’estimation de l’influence du niveau hiérarchique 1 (placette) sur les

variables observées « la surface terrière » (gha).

lw[4]= l’estimation de l’influence du niveau hiérarchique 1 (placette) sur les

variables observées « la circonférence moyenne des arbres (cg).

lw[5]= l’estimation de l’influence du niveau hiérarchique 1 (placette) sur les

variables observées « indice de densité relative » (rdi).

Finalement, l'interprétation sera faite sur les variables suivantes :

gam[2]= l’estimation de l’influence de la variable latente faune du sol sur la

variable latente flore

gam[4]= l’estimation de l’influence du niveau hiérarchique 2 (massif) sur la

variable latente peuplement

gam[5]= l’estimation de l’influence du niveau hiérarchique 2 (massif) sur la

variable latente la faune du sol

lb[2],lb[3],lb[4],lb[5],lb[6]= l’estimation de l’influence du niveau hiérarchique 2

(massif) sur les variables observées respectivement richesse spécifique de la fore, densité du

peuplement, surface terrière, circonférence moyenne, rdi et la richesse spécifique des

lombriciens.

lw[1],lw[2],lw[6]= l’estimation de l’influence du niveau hiérarchique 1 (placette)

sur les variables observées respectivement richesse spécifique de la flore, densité du

peuplement et riches spécifique des lombriciens.

.

La flore et la faune du sol (gam[2]) sont corrélées positivement (3,11) ; en d'autres termes

à de fortes diversités floristiques sont associées de fortes diversités faunistiques. Tout comme à

l’échelle de la placette, la corrélation positive qui lie la diversité floristique à celle de la faune du

sol.

Il y a une influence positive du recouvrement total et RS collemboles, c’est à dire que

lorsque le nombre de plantes augmentent, il y a une prolifération des verres de terre dans le sol.

Il y a une influence positive au deuxième niveau hiérarchique (massif) sur l’ensemble des

variables observées. La forêt étant prise dans sa globalité (l’ensemble des facteurs écologiques

existants), l’influence sur les variables observées est décuplée.

A noter, tout comme à l’échelle de la placette, la corrélation positive qui lie la diversité

floristique à celle de la faune du sol est positif.

Page 44: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

41

Conclusion:

L'enjeu de la gestion durable des forêts est d’optimiser la production forestière à diverses

fins tout en préservant la capacité future de production et la biodiversité qu’elle abrite.

Au vu de l’analyse et des estimations, trois points sont mis en exergues :

L'association positive entre la faune du sol et la flore au niveau massif et

placette. Le rapport de causalité et les mécanismes restent néanmoins à

démontrer.

La richesse liée entre les variables "recouvrement _total" et

"RS_Collemboles."

Les variations entre massif sont plus fortes que les variations entre

placettes.

L’analyse ne permet malheureusement pas de conclure sur l'impact (nul, positif ou

négatif) de l'intensité forestière sur la biodiversité.

Au vu de la complexité du système écologique, il faudrait :

Considérer des relations plus complexes entre variables latentes (par exemple

quadratique)

prendre en compte d’autres variables tels que la lumière, l'eau, les grands

herbivores, le sol, l'entomofaune, etc… et considérer d’autres variables latentes et

structures de modèles SEM pour pouvoir émettre une analyse satisfaisante qui se

rapprocherait de la vérité.

Ce travail constitue un test pour estimer si l'approche bayésienne pourrait être un outil

approprié pour mettre en évidence l'effet causal entre des variables complexes en écologie.

A ce stade de l'expérimentation, il est impossible d'affirmer ou d'infirmer que l'approche

bayésienne puisse répondre à la problématique dans le cadre du jeu de données analysé.

Page 45: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

42

Références Bibliographiques.

B.Grace James (2008), Journal of Wildlife Management, 72(1) : Structural Equation for

Observational Studies.

B.Reich Peter (2012), Journal of Ecology, 100, 539-545 : Understorey diversity in southern

boreal forests is regulated by productivity and its indirect impacts on resource availability and

heterogeity.

Demeyer Severine (2011), Conservatoire national des arts et Métiers : Approche bayésienne de

l'evaluation de l'incertitude de mesure.

Fox John (2006) de l’Université de McMaster : Structural Equation Modeling With the SEM

package in R.

Gosselin Frédéric (HDR, 2011) de l'Université Pierre et Marie Curie : Propositions pour

améliorer l'équipement biométrique du détective écologique, Application à la modélisation de la

relation entre gestion forestière et biodiversité.

Lee Sik-Yum (2007) de l’Université de Chine de Hong Hong : Structural Equation Modeling.

Shipley Bill (2009), l'Université de Sherbrooke, Quebec: Confirmatory path analysis in a

generalized multilevel context in Ecology.

Page 46: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

43

Annexes: Code WinBUGS sous R.

rm(list=ls()) library(R2WinBUGS) environment.bugs<-environment(bugs) #modification of bugs to create temporate files in working.directory (to avoid long names) bugs<-function (data, inits, parameters.to.save, model.file = "model.bug", n.chains = 3, n.iter = 2000, n.burnin = floor(n.iter/2), n.thin = max(1, floor(n.chains * (n.iter - n.burnin)/n.sims)), n.sims = 1000, bin = (n.iter - n.burnin)/n.thin, debug = FALSE, DIC = TRUE, digits = 5, codaPkg = FALSE, bugs.directory = "c:/Program Files/WinBUGS14/", program = c("WinBUGS", "OpenBUGS", "winbugs", "openbugs"), working.directory = NULL, clearWD = FALSE, useWINE = .Platform$OS.type != "windows", WINE = NULL, newWINE = TRUE, WINEPATH = NULL, bugs.seed = NULL, summary.only = FALSE, save.history = !summary.only, over.relax = FALSE) { if (!is.null(working.directory)) { working.directory <- path.expand(working.directory) savedWD <- getwd() setwd(working.directory) on.exit(setwd(savedWD)) } program <- match.arg(program) if (missing(bugs.directory) && !is.null(bugs.dir <- getOption("R2WinBUGS.bugs.directory"))) { bugs.directory <- bugs.dir } if (program %in% c("openbugs", "OpenBUGS", "OpenBugs")) { if (!is.R()) stop("OpenBUGS is not yet available in S-PLUS") return(openbugs(data, inits, parameters.to.save, model.file, n.chains, n.iter, n.burnin, n.thin, n.sims, DIC = DIC, bugs.directory, working.directory, digits, over.relax = over.relax, seed = bugs.seed)) } if (!missing(inits) && !is.function(inits) && !is.null(inits) && (length(inits) != n.chains)) stop("Number of initialized chains (length(inits)) != n.chains") if (useWINE) { if (!is.R()) stop("Non-Windows platforms not yet supported in R2WinBUGS for S-PLUS") if (is.null(WINE)) WINE <- findUnixBinary(x = "wine") if (is.null(WINEPATH)) WINEPATH <- findUnixBinary(x = "winepath") }

Page 47: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

44

inTempDir <- FALSE if (is.null(working.directory)) { working.directory <- tempdir() if (useWINE) { working.directory <- gsub("//", "/", working.directory) Sys.chmod(working.directory, mode = "770") on.exit(Sys.chmod(working.directory, mode = "700"), add = TRUE) } savedWD <- getwd() setwd(working.directory) on.exit(setwd(savedWD), add = TRUE) inTempDir <- TRUE } if (is.function(model.file)) { # temp <- tempfile("model",tmpdir =working.directory) temp <- paste(working.directory,"model",sep="\\") temp <- if (is.R() || .Platform$OS.type != "windows") { paste(temp, "txt", sep = ".") } else { gsub("\\.tmp$", ".txt", temp) } write.model(model.file, con = temp, digits = digits) model.file <- gsub("\\\\", "/", temp) if (!is.R()) on.exit(file.remove(model.file), add = TRUE) } if (inTempDir && basename(model.file) == model.file) try(file.copy(file.path(savedWD, model.file), model.file, overwrite = TRUE)) if (!file.exists(model.file)) stop(paste(model.file, "does not exist.")) if (file.info(model.file)$isdir) stop(paste(model.file, "is a directory, but a file is required.")) if (!(length(data) == 1 && is.vector(data) && is.character(data) && (regexpr("\\.txt$", data) > 0))) { bugs.data.file <- bugs.data(data, dir = getwd(), digits) } else { if (inTempDir && all(basename(data) == data)) try(file.copy(file.path(savedWD, data), data, overwrite = TRUE)) if (!file.exists(data)) stop("File", data, "does not exist.") bugs.data.file <- data } if (is.character(inits)) { if (inTempDir && all(basename(inits) == inits)) try(file.copy(file.path(savedWD, inits), inits, overwrite = TRUE)) if (!all(file.exists(inits))) {

Page 48: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

45

stop("One or more inits files are missing") } if (length(inits) != n.chains) { stop("Need one inits file for each chain") } bugs.inits.files <- inits } else { if (!is.function(inits) && !is.null(inits) && (length(inits) != n.chains)) { stop("Number of initialized chains (length(inits)) != n.chains") } bugs.inits.files <- bugs.inits(inits, n.chains, digits) } if (DIC) parameters.to.save <- c(parameters.to.save, "deviance") if (!length(grep("\\.txt$", tolower(model.file)))) { new.model.file <- paste(basename(model.file), ".txt", sep = "") if (!is.null(working.directory)) new.model.file <- file.path(working.directory, new.model.file) file.copy(model.file, new.model.file, overwrite = TRUE) on.exit(try(file.remove(new.model.file)), add = TRUE) } else { new.model.file <- model.file } if (useWINE) { new.model.file <- gsub("//", "/", new.model.file) } bugs.script(parameters.to.save, n.chains, n.iter, n.burnin, n.thin, new.model.file, debug = debug, is.inits = !is.null(inits), bin = bin, DIC = DIC, useWINE = useWINE, newWINE = newWINE, WINEPATH = WINEPATH, bugs.seed = bugs.seed, summary.only = summary.only, save.history = save.history, bugs.data.file = bugs.data.file, bugs.inits.files = bugs.inits.files, over.relax = over.relax) bugs.run(n.burnin, bugs.directory, WINE = WINE, useWINE = useWINE, newWINE = newWINE, WINEPATH = WINEPATH) if (codaPkg) return(file.path(getwd(), paste("coda", 1:n.chains, ".txt", sep = ""))) if (summary.only) { return(bugs.log("log.txt")) } sims <- c(bugs.sims(parameters.to.save, n.chains, n.iter, n.burnin, n.thin, DIC), model.file = model.file, program = program) if (clearWD) { file.remove(c(bugs.data.file, "log.odc", "log.txt", "codaIndex.txt", bugs.inits.files, "script.txt", paste("coda", 1:n.chains, ".txt", sep = "")))

Page 49: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

46

} class(sims) <- "bugs" sims } environment(bugs) <- environment.bugs data<-read.table("TB.csv", h=T, sep=";") data data$nom_placette<-paste(data$id_dispo,data$id_placette) #id_dispo = Massif = forêts Ng<-length(unique(data$id_dispo)) #Ng=nbr de Masssif N<-tapply(data$nom_placette,as.integer(as.factor(data$id_dispo)),function(x){length(unique(x))}) #N=nbr de placette dans chaque massif MP<-tapply(as.integer(as.factor(data$id_dispo)),data$nom_placette,function(x){unique(x)}) MPchar=as.integer(as.character(MP)) Pp<-tapply(data$nom_general,as.integer(as.factor(data$nom_placette)),function(x){length(unique(x))}) Ppchar=as.integer(as.character(Pp)) pl<-length(unique(data$nom_placette)) idpl<-seq(1:pl) Np<-rbind(MPchar,idpl,Ppchar) #NP<-tapply(data$nom_placette,list(#as.integer(as.factor(data$id_dispo)),function(x){length(unique(x))}) #Np=nbr de placeau dans la placette i du Massif g kk<-cumsum(c(0,N)) #kk=la somme cumule du nbr de placette dans chaque Massif kkp<-cumsum(c(0,Np[3,])) #kkp= nbr de placeau de la massif g qui sont dans la placette i et des precedents # g =identite du Massif data<-read.table("TB.csv", h=T, sep=";") summary(data) newdata=data[,-1] newdata1=newdata[,-1] summary(newdata1) newdata2=newdata1[,-2] newdata3=newdata2[,-3] summary(newdata3) newdata4=newdata3[,-3] summary(newdata4) Data=newdata4 head(Data) dim(Data) #DData=scale(Data,center=TRUE, scale=TRUE) Data

Page 50: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

47

head(Data) model=function() { for(g in 1:Ng){ for(i in 1:N[g]){ for(k in 1: Np[3,kk[g]+i]) { for(j in 1:9){ y[kkp[kk[g]+i]+k,j]~dnorm(u[kk[g]+i,j],psi[j]) ephat[kkp[kk[g]+i]+k,j]<-y[kkp[kk[g]+i]+k,j]-u[kk[g]+i,j] } } #Equation de mesure u[kk[g]+i,1]<- mu[1]+pi[g,1]+eta[g,i] #recouvrement_total u[kk[g]+i,2]<- mu[2]+lb[1]*pi[g,1]+lw[1]* eta[g,i] #nb_despece u[kk[g]+i,3]<- mu[3]+pi[g,2]+xi[g,i,1] #age u[kk[g]+i,4]<- mu[4]+lb[2]*pi[g,2]+lw[2]*xi[g,i,1] #nha u[kk[g]+i,5]<- mu[5]+lb[3]*pi[g,2]+lw[3]*xi[g,i,1] #gha u[kk[g]+i,6]<- mu[6]+lb[4]*pi[g,2]+lw[4]*xi[g,i,1] #cg u[kk[g]+i,7]<- mu[7]+lb[5]*pi[g,2]+lw[5]*xi[g,i,1] #rdi u[kk[g]+i,8]<- mu[8]+pi[g,3]+xi[g,i,2] #RS_collemboles u[kk[g]+i,9]<- mu[9]+lb[6]*pi[g,3]+lw[6]*xi[g,i,2] #RS_lombriciens #xi[g,i,1:2]~dmnorm(ux[1:2],phi[1:2,1:2]) #ux=[0 0]^T is fixed constant xi[g,i,1]~dnorm(ux[1,1,1],phi[1]) xi[g,i,2]~dnorm(ux[g,i,2],phi[2])

Page 51: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

48

eta[g,i]~dnorm(nu[g,i], psd) #Equations structurelles nu[g,i]<- gam[1]*xi[g,i,1]+gam[2]*xi[g,i,2]+gam[3]*xi[g,i,1]*xi[g,i,2]+gam[4]*pi[g,2]+gam[5]*pi[g,3] ux[g,i,2]<-lam[6]*xi[g,i,1] dthat2[g,i]<-xi[g,i,2]-ux[g,i,2] dthat[g,i]<-eta[g,i]-nu[g,i] } # end of i pi[g,1:3]~ dmnorm(uu[1:3],phip[1:3,1:3]) } # end of g uu[1]<- 0.0 uu[2]<- 0.0 uu[3]<- 0.0 ux[1,1,1]<- 0.0 #ux[2]<- 0.0 # priors on loadings and coefficients mu[1]~dnorm(4.248,4.0) mu[2]~dnorm(4.668,4.0) mu[3]~dnorm(4.56,4.0) mu[4]~dnorm(2.389,4.0) mu[5]~dnorm(3.161,4.0)

Page 52: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

49

mu[6]~dnorm(3.445,4.0) mu[7]~dnorm(0.526,4.0) mu[8]~dnorm(0.375,4.0) mu[9]~dnorm(0.596,4.0) var.bw[1]<-4.0*psi[2] var.bw[2]<-4.0*psi[3] var.bw[3]<-4.0*psi[5] var.bw[4]<-4.0*psi[6] var.bw[5]<-4.0*psi[8] var.bw[6]<-4.0*psi[9] lb[1]~dnorm(1.096,var.bw[1]) lb[2]~dnorm(0.861,var.bw[2]) lb[3]~dnorm(0.590,var.bw[3]) lb[4]~dnorm(1.470,var.bw[4]) lb[5]~dnorm(0.787,var.bw[5]) lb[6]~dnorm(0.574,var.bw[6]) lw[1]~dnorm(0.825,var.bw[1]) lw[2]~dnorm(0.813,var.bw[2]) lw[3]~dnorm(0.951,var.bw[3]) lw[4]~dnorm(0.692,var.bw[4]) lw[5]~dnorm(0.986,var.bw[5]) lw[6]~dnorm(0.800,var.bw[6]) var.gam<-4.0*psd var.lam<-4.0*phi[2] gam[1]~dnorm(0.577,var.gam) gam[2]~dnorm(1.712,var.gam) gam[3]~dnorm(-0.571,var.gam) gam[4]~dnorm(-0.571,var.gam) gam[5]~dnorm(-0.571,var.gam) lam[6]~dnorm(-0.571,var.lam) # priors on precisions

Page 53: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

50

for(j in 1:9){psi[j]~dgamma(10.0,4.0) ivpsi[j]<-1/psi[j]} psd~dgamma(10.0,4.0) ivpsd<-1/psd phi[1]~dgamma(10.0,4.0) phx[1]<-1/phi[1] phi[2]~dgamma(10.0,4.0) phx[2]<-1/phi[2] #phi[1:2,1:2]~dwish(R0[1:2,1:2],5) #phx[1:2,1:2]<-inverse(phi[1:2,1:2]) phip[1:3,1:3]~dwish(R1[1:3,1:3],5) php[1:3,1:3]<-inverse(phip[1:3,1:3]) } # end of model win.data<-list(kkp=kkp,Np=Np,Ng=Ng,N=as.vector(N),kk=kk, R1=structure(.Data=c(13.6,-0.61,0.48,-0.61,0.24,0.06,0.48,0.06,0.22),.Dim= c(3,3)), y=structure(as.matrix(Data),.Dim= c(78,9))) #Three different initial values inits1<-list(lb=c(0.6,0.6,0.5,2.2,0.6,0.4),lw=c(0.3,0.3,0.3,0.3,0.3,0.3),mu=c(3.0,3.5,3.3,1.0,2.0,2.2,0.2,0.0,0.2), psi=c(0.3, 0.3, 0.3,0.3,0.3,0.3,0.3,0.3,0.3),psd=0.6,gam=c(0.2,1.0,-0.4,-0.3,-0.3),lam=c(-0.3), phip=structure(.Data=c(0.7,-0.1,0.0,-0.1,0.2,0.0,0.0,0.0,0.18),.Dim=c(3,3)), phi=structure(.Data=c(0.7, 0.4,0.4,0.7),.Dim= c(2,2))) inits2<-list(lb=c(0.8,0.8,0.7,2.5,0.8,0.6),lw=c(0.7,0.7,0.7,0.7,0.7,0.7),mu=c(4.0,4.0,4.0,2.0,3.0,3.0,0.5,0.

Page 54: Rapport de stage · 2013-09-27 · dans l’équation structurelle est une question importante en sciences sociales comme écologique… (voir Kenny et Judd, 1984, Bagozzi, Baumgartner

51

4,0.6), psi=c(0.5, 0.5, 0.5,0.5,0.5,0.5,0.5,0.5,0.5),psd=0.36,gam=c(0.5,1.7,0.6,-0.3,-0.3),lam=c(-0.3), phip=structure(.Data=c(0.5,0.1,-0.1,0.1,0.2,0.0,-0.1,0.0,0.5),.Dim=c(3,3)), phi=structure(.Data=c(0.5, 0.1,0.1,0.5), .Dim= c(2,2))) inits3<-list(lb=c(1.0,1.0,1.0,3.0,1.0,1.0),lw=c(1.0,1.0,1.0,1.0,1.0,1.0),mu=c(4.8,4.8,4.8,3.5,4.0,4.2,0.8,0.8,0.8), psi=c(0.8, 0.8, 0.8, 0.8, 0.8, 0.8,0.8,0.8,0.8),psd=0.9,gam=c(0.8,1.2,0.0,-0.3,-0.3),lam=c(-0.3), phip=structure(.Data=c(0.6,-0.2,0.2,-0.2,0.4,0.1,0.2,0.1,0.3),.Dim=c(3,3)), phi=structure(.Data=c(0.9, 0.0,0.0,0.6),.Dim= c(2,2))) params<-list("lb","lw","mu","psi","gam","lam") nc <- 3 # Nombre de trajectoires (ou chaînes de Markov) ni <- 10000 # Nombre total de valeurs pour chaque chaîne de Markov nb <- 3 # Nombre de valeurs attribuées à la partie transitoire de la chaîne de Markov #(premières valeurs de chaque chaîne) ("burn-in phase") nt <- 4 # Période (ou fréquence de sauvegarde des paramètres ("thinning rate") # On appelle de WinBUGS cette fonction pour qui choisit automatiquement l'algorithme convenable en MCMC ! (soit l'algorithme de Gibbs soit Metropolis-Hasting soit l'algorithme hybride c'est à dire les deux) ! out <- bugs(data = win.data, inits = list(inits1,inits2,inits3), parameters.to.save = params, model.file = model, n.thin = nt, n.chains = nc, n.burnin = nb, n.iter = ni, debug = TRUE, DIC = TRUE, working.directory = getwd(),bugs.directory="C:/WinBUGS14")