les modèles d’équations structurelles à variable latentes · nbr-espèce age limites autant de...
TRANSCRIPT
I) Introduction
II) Les modèles Statistiques utilisés
III) SEM sous l’approche Fréquentiste et Bayésienne
VI) Exemple Imprebio
V) Conclusion
Les objectifs du projet Imprebio
Intensification des prélèvements
Impact sur la biodiversité
Mécanisme sous jacents
Régression relation entre variables
nha
gha
rdi
Recouvrement Total
age
GLM
nha
gha
rdi
Nbr-espèce
age
Limites
Autant de modèles que de variables à expliquer
Les relations indirectes sont impossibles
Pas de reduction du nombre de variable
Confirmatory Path Analysis
Limites
Complexité du modèle avec l’accroissement du nombre de variables
Impossibilité de rendre compte de méta-variables (type sol, peuplement...)
âge
rdi Nbr-
espèces
Recouvrement
Total
age
nha
gha
rdi
Peuplement
𝝃𝑔𝑖1 Flore 𝜼𝑔𝑖1
Recouvrement Total
Nbr-espèces
ou Rs Plantes
cg
Le principe
Spécification, estimation, comparaison et évaluation des modèles de relations
entre variables.
Test d’une théorie
Procédure
Construction d’un modèle
Collection des données pour tester le modèle
Modèle comparé aux données et évalué
Si nécessaire le modèle est modifié et testé avec de nouvelles données
ξ1
ξ3
ξ2
x11
x12
x13
x21
x22
x31
x32
x33
x34
x35
x36
Variables observées/manifestes
ξ1
ξ3
ξ2
x11
x12
x13
x21
x22
x31
x32
x33
x34
x35
x36
Modèle de mesure (externe)
Contraintes de l’approche Fréquentiste
La normalité des variables et la linéarité entre elles
N’admet pas les données manquantes
N’admet pas de structure hiérarchique
Nécessite un échantillon important
Avantages de l’approche Bayésienne
L’approche bayésienne englobe l’approche fréquentiste
Permet la complexité des modèles
Quelques arguments en faveur du Bayésien
Distributions de probabilité aussi sur les paramètres du modèle
Possibilité de concevoir des modèles complexes
Paramètres basés sur la distribution autant que sur les observations
Quelques arguments en défaveur du Bayésien
Nécessité de définir des distributions sur les paramètres
Problème de convergence, de corrélation entre les valeurs qui sont prisent par
tirages au sort dans les posteriors
Plan d’échantillonnage
Structure hiérarchique
Non-normalité des distributions
Non-linéarité entre VL
Modèle à deux niveaux de structure hiérarchique non linéaire à effets croisés
age
nha
gha
rdi
Peuplement
𝝃𝑔𝑖1
Faune du sol
𝝃𝑔𝑖2
Flore 𝜼𝑔𝑖1
Recouvrement Total
Nbr-espèces
ou Rs Plantes
Rs-
collemboles
Rs-
lombriciens
𝝃𝑔𝑖1𝝃𝑔𝑖2
cg
Massif
1
λ2
λ3
λ4 α6
λ5
λ1
1
λ6 1
γ3
γ2
γ1
γ4 γ5
Recouvrement-
total
Nbr-espèces ou
Rs Plantes rdi Rs_Collemboles Age nha gha cg Rs_Lombriciens
η𝑔𝑖 ξ𝑔𝑖2 ξ𝑔𝑖1
𝑝𝑔𝑖3 𝑝𝑔𝑖2 𝑝𝑔𝑖1
1 1.05
1 0.22 1 0.89
0.11 1 0.01
2.18 0.79 2.18
1
-0.85
0.78 0.02 1 -0.17
η𝑔𝑖
ξ𝑔𝑖1 ξ𝑔𝑖2 𝑝𝑔𝑖2 𝑝𝑔𝑖3 ξ𝑔𝑖1 ξ𝑔𝑖2 0.08
-1.81
3.11 0.85 -1.79 4.44
Contenu très simplifié de la programmation WinBUGS sous R
Equations de mesure
Equations structurelles
Les lois priors sur les paramètres
Les différentes valeurs initiales choisies des paramètres
Liste des paramètres
Les valeurs choisies pour le MCMC
node mean sd MC error 2.5% median 97.5% start sample
deviance 2746.0 88.05 6.725 2663.0 2719.0 3010.0 2 7500
gam[1] -1.818 7.07 0.5693 -9.93 -5.416 11.14 2 7500
gam[2] 3.114 2.523 0.1062 -2.522 3.272 7.773 2 7500
gam[3] 0.8534 2.814 0.2199 -7.14 1.908 4.365 2 7500
gam[4] -1.795 0.8102 0.05186 -3.599 -1.724 -0.4015 2 7500
gam[5] 4.445 1.067 0.07357 0.396 4.486 6.234 2 7500
lam[6] 0.08655 0.4207 0.03318 -0.9793 0.269 0.5984 2 7500
lb[1] 1.054 2.96 0.2363 -4.129 2.382 4.888 2 7500
lb[2] 2.18 3.043 0.1084 -2.053 1.751 10.53 2 7500
lb[3] 0.7971 0.7091 0.0518 0.5207 0.6392 2.413 2 7500
lb[4] 2.183 2.025 0.1473 1.431 1.745 6.558 2 7500
lb[5] 0.01504 0.025 0.001225 -0.0058 0.01253 0.05091 2 7500
lb[6] 0.1145 0.04932 0.001986 0.04573 0.1121 0.1843 2 7500
lw[1] 0.226 0.2443 0.0189 0.138 0.1895 0.5476 2 7500
lw[2] 0.8942 2.871 0.07503 -4.154 0.8488 6.836 2 7500
lw[3] 0.7817 2.931 0.2404 -6.663 2.447 3.508 2 7500
lw[4] -0.8562 5.515 0.4515 -5.919 -3.933 13.68 2 7500
lw[5] 0.02952 0.1227 0.009944 -0.292 0.09222 0.1541 2 7500
lw[6] -0.1714 0.2043 0.01147 -0.4889 -0.1823 0.1693 2 7500
Cas de gam1 et lam6
Cas de gam2, gam5
Sur un plan théorique
Le SEM Bayésien est approprié pour rendre compte de la compléxite
des jeux de données
Sur un plan pratique
Outil lourd, peu adapté pour des praticiens même assez avertis
Pistes à explorer
Distributions
Paramètres
Algorithmes