les modèles d’équations structurelles à variable latentes · nbr-espèce age limites autant de...

JAD ABOU-GHANTOUS

Bio-statistique

Irstea [email protected]

I) Introduction

II) Les modèles Statistiques utilisés

III) SEM sous l’approche Fréquentiste et Bayésienne

VI) Exemple Imprebio

V) Conclusion

Les objectifs du projet Imprebio

Intensification des prélèvements

Impact sur la biodiversité

Mécanisme sous jacents

Régression relation entre variables

nha

gha

rdi

Recouvrement Total

age

GLM

nha

gha

rdi

Nbr-espèce

age

Limites

Autant de modèles que de variables à expliquer

Les relations indirectes sont impossibles

Pas de reduction du nombre de variable

Confirmatory Path Analysis

Limites

Complexité du modèle avec l’accroissement du nombre de variables

Impossibilité de rendre compte de méta-variables (type sol, peuplement...)

âge

rdi Nbr-

espèces

Recouvrement

Total

age

nha

gha

rdi

Peuplement

𝝃𝑔𝑖1 Flore 𝜼𝑔𝑖1

Recouvrement Total

Nbr-espèces

ou Rs Plantes

cg

Le principe

Spécification, estimation, comparaison et évaluation des modèles de relations

entre variables.

Test d’une théorie

Procédure

Construction d’un modèle

Collection des données pour tester le modèle

Modèle comparé aux données et évalué

Si nécessaire le modèle est modifié et testé avec de nouvelles données

ξ1

ξ3

ξ2

x11

x12

x13

x21

x22

x31

x32

x33

x34

x35

x36

Variables observées/manifestes

ξ1

ξ3

ξ2

x11

x12

x13

x21

x22

x31

x32

x33

x34

x35

x36

Modèle de mesure (externe)

Contraintes de l’approche Fréquentiste

La normalité des variables et la linéarité entre elles

N’admet pas les données manquantes

N’admet pas de structure hiérarchique

Nécessite un échantillon important

Avantages de l’approche Bayésienne

L’approche bayésienne englobe l’approche fréquentiste

Permet la complexité des modèles

Quelques arguments en faveur du Bayésien

Distributions de probabilité aussi sur les paramètres du modèle

Possibilité de concevoir des modèles complexes

Paramètres basés sur la distribution autant que sur les observations

Quelques arguments en défaveur du Bayésien

Nécessité de définir des distributions sur les paramètres

Problème de convergence, de corrélation entre les valeurs qui sont prisent par

tirages au sort dans les posteriors

Plan d’échantillonnage

Structure hiérarchique

Non-normalité des distributions

Non-linéarité entre VL

Modèle à deux niveaux de structure hiérarchique non linéaire à effets croisés

age

nha

gha

rdi

Peuplement

𝝃𝑔𝑖1

Faune du sol

𝝃𝑔𝑖2

Flore 𝜼𝑔𝑖1

Recouvrement Total

Nbr-espèces

ou Rs Plantes

Rs-

collemboles

Rs-

lombriciens

𝝃𝑔𝑖1𝝃𝑔𝑖2

cg

Massif

1

λ2

λ3

λ4 α6

λ5

λ1

1

λ6 1

γ3

γ2

γ1

γ4 γ5

Recouvrement-

total

Nbr-espèces ou

Rs Plantes rdi Rs_Collemboles Age nha gha cg Rs_Lombriciens

η𝑔𝑖 ξ𝑔𝑖2 ξ𝑔𝑖1

𝑝𝑔𝑖3 𝑝𝑔𝑖2 𝑝𝑔𝑖1

1 1.05

1 0.22 1 0.89

0.11 1 0.01

2.18 0.79 2.18

1

-0.85

0.78 0.02 1 -0.17

η𝑔𝑖

ξ𝑔𝑖1 ξ𝑔𝑖2 𝑝𝑔𝑖2 𝑝𝑔𝑖3 ξ𝑔𝑖1 ξ𝑔𝑖2 0.08

-1.81

3.11 0.85 -1.79 4.44

Contenu très simplifié de la programmation WinBUGS sous R

Equations de mesure

Equations structurelles

Les lois priors sur les paramètres

Les différentes valeurs initiales choisies des paramètres

Liste des paramètres

Les valeurs choisies pour le MCMC

node mean sd MC error 2.5% median 97.5% start sample

deviance 2746.0 88.05 6.725 2663.0 2719.0 3010.0 2 7500

gam[1] -1.818 7.07 0.5693 -9.93 -5.416 11.14 2 7500

gam[2] 3.114 2.523 0.1062 -2.522 3.272 7.773 2 7500

gam[3] 0.8534 2.814 0.2199 -7.14 1.908 4.365 2 7500

gam[4] -1.795 0.8102 0.05186 -3.599 -1.724 -0.4015 2 7500

gam[5] 4.445 1.067 0.07357 0.396 4.486 6.234 2 7500

lam[6] 0.08655 0.4207 0.03318 -0.9793 0.269 0.5984 2 7500

lb[1] 1.054 2.96 0.2363 -4.129 2.382 4.888 2 7500

lb[2] 2.18 3.043 0.1084 -2.053 1.751 10.53 2 7500

lb[3] 0.7971 0.7091 0.0518 0.5207 0.6392 2.413 2 7500

lb[4] 2.183 2.025 0.1473 1.431 1.745 6.558 2 7500

lb[5] 0.01504 0.025 0.001225 -0.0058 0.01253 0.05091 2 7500

lb[6] 0.1145 0.04932 0.001986 0.04573 0.1121 0.1843 2 7500

lw[1] 0.226 0.2443 0.0189 0.138 0.1895 0.5476 2 7500

lw[2] 0.8942 2.871 0.07503 -4.154 0.8488 6.836 2 7500

lw[3] 0.7817 2.931 0.2404 -6.663 2.447 3.508 2 7500

lw[4] -0.8562 5.515 0.4515 -5.919 -3.933 13.68 2 7500

lw[5] 0.02952 0.1227 0.009944 -0.292 0.09222 0.1541 2 7500

lw[6] -0.1714 0.2043 0.01147 -0.4889 -0.1823 0.1693 2 7500

Cas de gam1 et lam6

Cas de gam2, gam5

Sur un plan théorique

Le SEM Bayésien est approprié pour rendre compte de la compléxite

des jeux de données

Sur un plan pratique

Outil lourd, peu adapté pour des praticiens même assez avertis

Pistes à explorer

Distributions

Paramètres

Algorithmes

les modèles d’équations structurelles à variable latentes · nbr-espèce age limites autant de...

Documents