mesures gaussiennes pour l'inférence...

46
Exposé groupe APSSE / 22-juin-2018 1/46 Mesures gaussiennes pour l'inférence bayésienne sur quelques exemples... Résumé (1/2) Rôle central des processus aléatoires gaussiens (ou champs gaussiens) dans la modélisation probabiliste de phénomènes aléatoires : prévision avec les modèles ARMA gaussiens dans l'étude de séries chronologiques, prédiction avec les champs gaussiens stationnaires en géostatistique ou imagerie, filtrage en traitement du signal… Raison essentielle : le calcul de loi conditionnelle dans le cas gaussien (pour faire de la prévision, prédiction ou filtrage) se ramène à un calcul d'ordre 2 (calcul de projection orthogonale dans des espaces hilbertiens), donc à de l'algèbre linéaire (inversion de systèmes linéaires). De même, les processus ou champs gaussiens jouent un rôle privilégié dans l'analyse statistique bayésienne où l'inférence à partir de la loi a posteriori (qui intègre à la fois les incertitudes a priori et des observations) nécessite en général le plus souvent l'utilisation de techniques lourdes (cf. méthodes Monte-Carlo par simulation de chaînes de Markov ou Markov chain Monte-Carlo methods).

Upload: others

Post on 03-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

Exposé groupe APSSE / 22-juin-2018 1/46

Mesures gaussiennes pour l'inférence bayésienne sur quelques exemples...

Résumé (1/2)

Rôle central des processus aléatoires gaussiens (ou champs gaussiens) dans la

modélisation probabiliste de phénomènes aléatoires : prévision avec les modèles ARMA

gaussiens dans l'étude de séries chronologiques, prédiction avec les champs gaussiens

stationnaires en géostatistique ou imagerie, filtrage en traitement du signal…

Raison essentielle : le calcul de loi conditionnelle dans le cas gaussien (pour faire de la

prévision, prédiction ou filtrage) se ramène à un calcul d'ordre 2 (calcul de projection

orthogonale dans des espaces hilbertiens), donc à de l'algèbre linéaire (inversion de

systèmes linéaires).

De même, les processus ou champs gaussiens jouent un rôle privilégié dans l'analyse

statistique bayésienne où l'inférence à partir de la loi a posteriori (qui intègre à la fois les

incertitudes a priori et des observations) nécessite en général le plus souvent l'utilisation

de techniques lourdes (cf. méthodes Monte-Carlo par simulation de chaînes de Markov ou

Markov chain Monte-Carlo methods).

Page 2: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

Exposé groupe APSSE / 22-juin-2018 2/46

Résumé (2/2)

1. Inférence bayésienne : montrer sur quelques exemples en quoi les processus ou

champs gaussiens peuvent être utilisés dans un cadre bayésien en exploitant les

deux visions « fonctions aléatoires » et « mesures gaussiennes ». Exemple du

mouvement brownien vu comme la "fameuse" mesure de Wiener sur un espace de

fonctions continues.

2. Un problème classique d’inversion bayésienne : montrer comment l'inférence

bayésienne avec loi a priori gaussienne peut être réalisée sur le problème

classique de "défloutage" d'un signal (problème de déconvolution) qui est un

exemple type de problème mal posé. Lien avec la régularisation classique de

Tychonov (résultat analogue à celui du dernier exposé). Exploitation de ce

lien pour voir comment estimer de manière "naturelle" le paramètre de

régularisation si critique dans l'approche "déterministe" classique...

Page 3: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.1 FORMULE DE BAYES ET ANALYSE BAYESIENNE]

Exposé groupe APSSE / 22-juin-2018 3/46

(, , P) espace probabilisé (cadre axiomatique classique, Foundations of the

Theory of Probability, A. Kolmogorov, 1933)

Probabilité conditionnelle : soit B tel que P(B) > 0.

B « réalisé » la mesure P doit être mise à jour et remplacée par la

nouvelle mesure de probabilité PB définie par

A → PB(A) := P(AB)

P(B) = : P(A | B)

Petit exemple : jeu de pile ou face deux fois

Formule de Bayes : P(B | A) = P(A | B)×P(B)

P(A) (pour P(A) > 0)

Résulte de l’importante formule (de commutativité!) :

P(A | B)×P(B) = P(AB) = P(BA) = P(B | A)×P(A)

Page 4: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.1 FORMULE DE BAYES ET ANALYSE BAYESIENNE]

Exposé groupe APSSE / 22-juin-2018 4/46

Aspect “révolutionnaire” de la formule :

P(H | O) = P(O | H) × P(H)

P(O)

Thomas BAYES, 1702-1761, pasteur et mathématicien

Membre de la Royal Society en 1742

Formule de Bayes : Essai sur la manière de résoudre un

problème dans la doctrine des risques (Essay Towards

Solving a Problem in the Doctrine of Chances - 1763)

Formule déjà connue et redécouverte par Pierre-Simon de

LAPLACE, 1749-1827 : loi de Bayes-Laplace

H = hypothèse (ou cause) O = observation

Vraisemblance

Probabilité a priori

« constante » de

normalisation

Probabilité a posteriori

Page 5: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.1 FORMULE DE BAYES ET ANALYSE BAYESIENNE]

Exposé groupe APSSE / 22-juin-2018 5/46

Illustration : cas d’un test de dépistage d’une maladie

Test de dépistage T+ = " test positif " ou (exclusif) T = T+ = " test négatif "

Une personne nommée Julian fait le test et le résultat est « positif » : ici O =

T+ et H = M où M = " Julian est atteint de la maladie "

Table d’analyse bayésienne

Loi

a priori

Vraisemblance Loi a posteriori

non normalisée

Loi a posteriori

M p P(T+

| M) P(T+

| 𝐌)×P(M) P(T+

| M)×P(M)

P(T+)

M

1 – p P(T+

| M

) P(T+

|M

)×P(M

) P(T+

| M

)×P(M

)

P(T+)

Petite application numérique : P(T+ | M) = 90% = P(T | M

) et p = 1%

P(M | T+) = 1/12 (donc moins de 1 chance sur 10 !)

Page 6: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 6/46

Considérons une grandeur physique « déterministe » inconnue

(par exemple masse d’un objet)

Observations (mesures) : xi = i ; 1 i n avec les i i.i.d. N(0, 2), connu

Inférence classique : estimation ponctuelle par maximum de vraisemblance et

intervalle de confiance à 95% donné par

IC95% = [x 1.96 ×

n ; x + 1.96 ×

n ]

P( IC95%) = 95%

Interprétation « fréquentiste » : P( [X

1.96×

n ; X

+ 1.96×

n ]) = 95%

où X

= estimateur usuel de la moyenne (et non pas l’estimation x calculée sur

la série de mesures).

Page 7: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 7/46

Inférence bayésienne : on dispose d’informations a priori sur que l’on

traduit sous la forme d’une loi de probabilité, par exemple une loi gaussienne :

P( [a, b] ) =

a

b

(m)dm avec (m) densité de la loi N(m0, 02)

(m0 et 0 explicites)

Loi a priori = loi normale N(m0, 02)

Vraisemblance :

L(m) = fX | = m(x) densité jointe des Xi = + i si = m

Densité de la loi a posteriori (« petite » extension de la formule de Bayes) :

f | X = x(m) fX | = m(x) × (m)

Densité a posteriori

(m | x) Vraisemblance (x | m) Densité a priori ou prior

Page 8: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 8/46

Résultat :

Loi a posteriori = loi normale N(

2/n +

x +

/n

2/n +

m0 , (

/n) ×

2/n +

)

Deux moyens d’établir ce résultat (correspondant à deux visions différentes)

Méthode n°1 (par la formule de Bayes précédente)

f | X = x(m) exp(

q(m) )

avec q(m) forme quadratique qu’il suffit de réduire…

Méthode n°2 (par conditionnement de variables aléatoires dans le cas

gaussien)

= 0 + 1X1 + … + nXn + Z avec Z 1, X1, …, Xn

Page 9: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 9/46

Commentaires.

+ Loi a posteriori = N(x ,

n ) associée à un prior uniforme

On peut enfin écrire (en toute liberté d’esprit !)

P( IC95%) = 95% où IC95% = [x 1.96 ×

n ; x + 1.96 ×

n ]

n grand Loi a posteriori ≈ N(x ,

n )

le choix plus ou moins arbitraire (personnel/subjectif) du prior s’efface

devant le volume de données !

n + Loi a posteriori →n

le point essentiel ici est que (« le vrai ») est dans le support de la loi a

priori

Page 10: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 10/46

Illustrations. = 1 ; données : n = 10 et = 1

Prior : m0 = 3 et 0 = 0.5 Prior : m0 = 3 et 0 = 1

Page 11: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 11/46

Prior : m0 = 1.2 et 0 = 0.2

Page 12: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 12/46

Prior : m0 = 3, 0 = 0.5 mais n = 40

Page 13: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 13/46

Remarque (statistique paramétrique)

( ( ×

Weighted Likelihood !

Page 14: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.3 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE NON PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 14/46

Soit f : [0,1] → IR fonction définie sur [0, 1] « déterministe » inconnue

Observations (données) : f(xi) = yi pour 1 i n avec 0 < x1 < x2 < … < xn 1

Information a priori : f continue et nulle en x = 0

Inférence bayésienne : loi a priori = mesure de probabilité sur l’espace

de fonctions C0[0, 1] (de dimension infinie!) telle que ({f : f(0) = 0}) = 1

qui soit « la plus uniforme possible ». On demande que les

« accroissements de f soient indépendants et stationnaires », alors :

= mesure de Wiener = loi du Mouvement Brownien (Wt)t

Si 0 < t1 < t2 < … < tm 1, alors aj < bj (1 j m) :

( { f : f(tj) [aj, bj], 1 j m }) = P( Wt j [ aj, bj], 1 j m )

Page 15: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.3 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE NON PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 15/46

Page 16: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.3 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE NON PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 16/46

Loi a posteriori = loi d’un mouvement brownien passant par les points (xi,

yi) pour 1 i n (données).

Page 17: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.3 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE NON PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 17/46

Prior gaussien et « données linéaires »

Loi a posteriori = mesure gaussienne

Pour la déterminer, il suffit de projeter :

Wx = 1Wx1 + … + nWxn + Zx avec Zx Wx1, …, Wxn

et :

Loi a posteriori = loi de (Wx)x [0, 1] sachant Wx1 = y1 , … , Wxn = yn :

= loi de x → 1y1 + … + n yn + Zx

Page 18: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[1.3 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE NON PARAMETRIQUE]

Exposé groupe APSSE / 22-juin-2018 18/46

Lien avec l’approche par régularisation dans un RKHS :

Moyenne a posteriori = fonction de norme minimale dans le RKHS

associé à la mesure de Wiener et qui interpole les données

Page 19: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2. UN PROBLEME CLASSIQUE D’INVERSION BAYESIENNE]

Exposé groupe APSSE / 22-juin-2018 19/46

On considère un opérateur de « floutage » (blurring) A de la forme

g = Af où g(s) =

0

1 a(s, t)f(t)dt

et où f est un signal d’entrée de [0, 1] → IR « convenable ».

On supposera que le noyau a(s, t) est connu de type gaussien suivant

a(s, t) = 1

2 exp(

1

2 (t – s)

2 )

Illustration (source : A Gentle Introduction on Statistical Inversion using the Bayesian

Paradigm, Tan Bui-Thanh, University of Texas at Austin) :

f(t) = 10(t – 0.5)×exp( 50(t 0.5)2 ) – 0.8 + 1.6t

= 0.1

présence d’un bruit blanc avec « ratio signal sur bruit » = 5

Page 20: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2. UN PROBLEME CLASSIQUE D’INVERSION BAYESIENNE]

Exposé groupe APSSE / 22-juin-2018 20/46

Page 21: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2. UN PROBLEME CLASSIQUE D’INVERSION BAYESIENNE]

Exposé groupe APSSE / 22-juin-2018 21/46

Le problème:

reconstruire f à partir des observations « bruitées » de la fonction g = Af :

gobs

(si) = g(si) + i

où si = i/n, 0 i n et où les i sont i.i.d. N(0, 2).

Ce problème est très mal posé…

Page 22: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2. 1 INFERENCE BAYESIENNE POUR LE PROBLEME DISCRETISE]

Exposé groupe APSSE / 22-juin-2018 22/46

Dans un premier temps, on considère le problème discrétisé suivant :

f = (f(s0), …, f(sn))T IR n+1 → g = Af = (g(s0), …, g(sn))

T IR n+1

avec A matrice de la forme

A = ( 1

n a(si, sj) )0 i, j n de taille (n+1)×(n+1)

On cherche à reconstruire f sachant que l’on dispose des observations bruitées

suivantes :

gobs(si) = g(si) + i

où si = i/n, 0 i n et où les i sont i.i.d. N(0, 2).

Page 23: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 CHOIX DU PRIOR]

Exposé groupe APSSE / 22-juin-2018 23/46

La première étape du paradigme bayésien est de choisir la loi a priori sur f. Si

l’on suppose que le signal a une certaine régularité (de classe au moins C1), il

est naturel d’écrire

f(si) = 1

2 (f(si1) + f(si+1)) + Zi pour 1 i n1

avec les Zi i.i.d. de même loi N(0, 2). Avec l’information supplémentaire que

la fonction est proche de 0 au bord, on est conduit à

LDf = Z

avec LD = 1

2

[

2 −1 0 … 0−1 2 −1 0 0 −1 ⋱ ⋱ 0 ⋱ ⋱ 2 −10 … 0 −1 2 ]

et Z N(0, n+1).

De là, on en déduit que f N(0, prioravec prior(LD

TLD)

1

.

Page 24: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 CHOIX DU PRIOR]

Exposé groupe APSSE / 22-juin-2018 24/46

Illustration.

Page 25: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 CHOIX DU PRIOR]

Exposé groupe APSSE / 22-juin-2018 25/46

Bien sûr, dans le cas où f n’a aucune raison d’être nulle au bord (a priori), il

faut adapter le prior. Par exemple, on peut écrire

LRf = Z

avec LR = 1

2

[ 2 0 0 … 0−1 2 −1 0 0 −1 ⋱ ⋱ 0 ⋱ ⋱ 2 −10 … 0 0 2 ]

et Z N(0, n+1).

En pratique, on peut par exemple calculer de sorte que la variance au bord

soit du même ordre de grandeur que la variance au centre de l’intervalle.

De là, on en déduit que f N(0, prioravec prior(LR

TLR) 1

.

Page 26: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 CHOIX DU PRIOR]

Exposé groupe APSSE / 22-juin-2018 26/46

Illustration.

Page 27: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 DETERMINATION DU POSTERIOR]

Exposé groupe APSSE / 22-juin-2018 27/46

La formule de Bayes conduit à

(f | gobs) (gobs | f)×(f) exp( 1

22 || gobs – Af ||2)×exp(

1

2 < prior

1

f, f >n+1)

avec prior

1

1

LD

TLD ou (mieux a priori!) prior

1

1

LR

TLR.

De manière plus explicite,

(f | gobs

) exp( 1

2 T(f) )

avec T(f) = 1

2 || gobs – Af ||2 +

1

|| Lf ||2 avec L = LD ou LR.

fappelée fonctionnelle (« régularisante ») de Tikhonov

Page 28: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 DETERMINATION DU POSTERIOR]

Exposé groupe APSSE / 22-juin-2018 28/46

Un calcul analogue à celui déjà vu au §1.2 conduit à expliciter entièrement la

loi de f sachant gobs :

f | gobs N(fMAP, posterior)

fMAP = 1

2 H 1AT gobs

avec

H = 1

2 ATA +

1

LTL matrice hessienne de T(f)

posterior 1 = H

Page 29: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 QUANTIFICATION D’INCERTITUDE]

Exposé groupe APSSE / 22-juin-2018 29/46

fMAP est le mode de la loi conditionnelle de f sachant gobs, c’est aussi la

moyenne de cette loi (par symétrie) : on parle de Mode A Posteriori ou de

Moyenne A Posteriori. C’est la reconstruction bayésienne optimale de f qui

intègre à la fois l’information a priori (f régulière) et les observations

« indirectes » et bruitées de f. On voit que l’on a encore

fMAP = f

argmin ( T(f) = 1

2 || gobs – Af ||2 +

1

|| Lf ||2 )

la matrice de covariance a posteriori posterior permet de quantifier les

incertitudes autour de fMAP de manière probabiliste

petit problème : la loi a priori (f) dépend d’un paramètre d’échelle qu’il

faudra bien estimer (on parle d’hyper-paramètre). On a supposé et connus

par contre…

Page 30: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 QUANTIFICATION D’INCERTITUDE]

Exposé groupe APSSE / 22-juin-2018 30/46

Illustration de l’inversion bayésienne (n = 100 ; n ; = 0.1 et = 10%

du max de |f|) : influence du prior

Page 31: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 QUANTIFICATION D’INCERTITUDE]

Exposé groupe APSSE / 22-juin-2018 31/46

Inversion bayésienne avec quantification d’incertitude :

Page 32: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 QUANTIFICATION D’INCERTITUDE]

Exposé groupe APSSE / 22-juin-2018 32/46

Cas 0

Page 33: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 QUANTIFICATION D’INCERTITUDE]

Exposé groupe APSSE / 22-juin-2018 33/46

Page 34: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 ESTIMATION DE L’HYPER-PARAMETRE ]

Exposé groupe APSSE / 22-juin-2018 34/46

En pratique, il faut bien estimer le paramètre associé à la loi a priori. Dans

notre cas, il est facile d’écrire la vraisemblance des observations et de s’en

servir pour l’estimer :

gobs = Af +

où f N(0, prior) et N(0, 2In+1) sont indépendantes ! De là :

gobs N(0, obs)

où obs = AobsAT + 2In+1. Sachant queobs = (LR

TLR) 1

, on a finalement

obs = A(LRTLR)

1 AT + 2In+1

Reste à maximiser la vraisemblance des observations pour estimer :

=

argmin ( 2×LogL(

Page 35: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.1 ESTIMATION DE L’HYPER-PARAMETRE ]

Exposé groupe APSSE / 22-juin-2018 35/46

Page 36: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LE PROBLEME NON DISCRETISE]

Exposé groupe APSSE / 22-juin-2018 36/46

Rappelons le problème initial (non discrétisé) : reconstruire f à partir des

observations bruitées de g = Af où

g(s) =

0

1 a(s, t)f(t)dt

On notera encore gobs(si) = g(si) + i (1 i m) les observations avec les i

i.i.d. N(0, 2) mais où les si ne correspondent plus à des points de discrétisation

de l’opérateur mais aux seuls points d’observation.

La première question non triviale pour appliquer la démarche bayésienne dans

cette situation est de savoir comment traduire les informations que l’on a sur f

sous la forme d’une loi de probabilité, laquelle est maintenant une distribution

sur un espace de fonctions (de dimension infinie !).

Pour cela, nous allons reprendre le cas discret en essayant de voir ce qui se

passe si le pas de discrétisation h = 1/n tend vers 0 ou (de manière équivalente)

lorsque n tend vers + (f IR n+1 →n « f dans un espace de dim infinie »).

Page 37: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A PRIORI]

Exposé groupe APSSE / 22-juin-2018 37/46

Rappelons le modèle discret

f(ti) = 1

2 (f(ti1) + f(ti+1)) + Zi pour 1 i n1 et ti = i/n

avec les Zi i.i.d. N(0, 2).

Si f est supposée de classe au moins C2, on sait que

1

2 ( f(ti1) + f(ti+1) ) – f(ti) =

1

2 h2f ʺ(ti) + h2(h)

avec (h) → 0 lorsque h = 1/n → 0.

On est donc amené à écrire à la limite que

– 1

2 f ʺ(t) = Wt

où W est la « dérivée » du mouvement brownien standard !

Page 38: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A PRIORI]

Exposé groupe APSSE / 22-juin-2018 38/46

Par intégrations successives, on obtient

f(t) =

( (1 – t)U0 + tU1 ) + 2

0

t

(

0

1 Wu du - Ws) ds

comme limite du prior discret de matrice de covariance

prior(LR

TLR) 1

Dans cette écriture, les v.a. U0, U1 sont supposées indépendantes N(0, 1) et

indépendantes du MB W, elles traduisent une condition de Dirichlet dans la

résolution de l’eds précédente puisque

f(0) =

U0 N(0,

) et f(1) =

U1 N(0,

)

Un calcul analytique conduit à choisir = 6 (ou 12 = 2 3 ). Le paramètre

est à nouveau un paramètre d’échelle (écart-type).

Page 39: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A PRIORI]

Exposé groupe APSSE / 22-juin-2018 39/46

On note X le processus aléatoire gaussien :

Xt = 2

0

t

(

0

1 Wu du - Ws) ds

solution de l’eds – 1

2 Xtʺ = Wt avec les conditions au bord X0 = X1 = 0.

Par diagonalisation de l’opérateur – 1

2 , on obtient la représentation suivante

du processus X (dite de Karhunen-Loève) :

Xt = n ≥ 1

2

n22 n 2 sin(nt)

où les n sont i.i.d. N(0, 1). On remarquera que les fonctions ( 2 sin(nt))n ≥ 1

forment une base orthonormée de l’espace de Hilbert L2[0, 1].

Page 40: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A PRIORI]

Exposé groupe APSSE / 22-juin-2018 40/46

De là, on en déduit le noyau de covariance du processus X sous la forme

KX(t, s) = n ≥ 1

4

n44 2 sin(nt)× 2 sin(ns)

En notant n = 4

n44 pour n ≥ 1, on obtient une représentation du RKHS HX

associé :

HX = { f L2[0, 1] : f(t) = n ≥ 1

cn 2 sin(nt) avec n ≥ 1

cn2

n < +}

et de produit scalaire

< f | g >HX =

n ≥ 1

cn(f) cn(g)

n

Page 41: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A PRIORI]

Exposé groupe APSSE / 22-juin-2018 41/46

De manière plus familière, il est immédiat de constater que HX est l’espace de

Sobolev H02(0, 1) :

HX = { f : [0, 1] → IR de classe C1: f(0) = f(1) = 0 et fʺ L2[0, 1] }

de norme vérifiant : || f ||HX2 = < f | f >HX =

1

4

0

1 fʺ(t)2dt .

Le calcul fournit de manière explicite le noyau reproduisant :

KX(t, s) = { 2ts

3(2 – 3s + s2) +

2t3

3(s – 1) si t s

2ts

3(2 – 3t + t2) +

2s3

3(t – 1) si s t

(pour t fixé, Kt(.) = KX(t, .) vérifie Ktʹʹʹʹ(s) = 0 si s t → spline cubique )

Page 42: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A PRIORI]

Exposé groupe APSSE / 22-juin-2018 42/46

Revenons maintenant au prior qui s’écrit en fonction du processus X

f(t) =

( (1 – t)U0 + tU1 ) + Xt

Le noyau de covariance associé est donc

K(t, s) =

( (1 – t)(1 – s) + ts ) + X(t, s)

de RKHS H = H2(0, 1) avec

|| h ||H2 =

( h(0)2 + h(1)2 ) +

4

0

1 hʺ2

L’opérateur de covariance est de la forme

prior : f L2[0, 1] →

(

0

1

(1 s)f(s) ds )×(1 – t) +

(

0

1 sf(s) ds )×t + 2

(

4 2

) 1

(f)

Page 43: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A POSTERIORI]

Exposé groupe APSSE / 22-juin-2018 43/46

On a encore que la loi du vecteur des observations est une loi multi-gaussienne

N(Af, 2Im) de densité sur IR m vérifiant

(gobs | f) exp( 1

22 || gobs – Af ||2)

où Af = ( s →

0

1 a(s, t)f(t)dt ).

Mais, cette fois la loi a priori, notée (df), n’admet pas de densité car il n’est

pas correct d’écrire

(df) = (f) df

Par contre, la loi a posteriori admet une densité par rapport à la loi a priori, ce

que l’on écrit (formule de Bayes !)

(df | gobs

) exp( 1

22 || gobs – Af ||2) × (df)

Page 44: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A POSTERIORI]

Exposé groupe APSSE / 22-juin-2018 44/46

On peut montrer que la moyenne de cette loi a posteriori notée fMAP est aussi la

solution du programme d’optimisation sur H = H2(0, 1) :

fMAP = h H

argmin ( T(h) = 1

22 || gobs – Ah ||2 +

1

2 || h ||H

2 )

où (rappel) || h ||H2 =

( h(0)2 + h(1)2 ) +

4

0

1 hʺ2

Attention donc au fait que ce n’est pas le mode de la densité de la loi a

posteriori par rapport à la loi a priori, c’est-à-dire de

f → exp( 1

22 || gobs – Af ||2 )

Page 45: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A POSTERIORI]

Exposé groupe APSSE / 22-juin-2018 45/46

Pour prouver le résultat précédent, le plus simple est de calculer explicitement

fMAP. Pour cela, on va spécifier entièrement la loi a posteriori comme loi du

processus gaussien f(t) conditionnellement aux observations

gobs(si) = Af(si) + i, 1 i m.

Ecrivons donc les équations de krigeage correspondantes, à savoir :

f(t) = t)×(Af(s1) + i) + … + mt)×(Af(sm) +m) + Zt

et déterminons les poids t), …, mt) qui permettent d’expliquer au mieux

f(t) à partir des observations

gobs(si) = Af(si) + i.

Page 46: Mesures gaussiennes pour l'inférence bayésiennetugaut.perso.math.cnrs.fr/pdf/APSSE/2018.06.22.pdf · 2018-06-23 · Exposé groupe APSSE / 22-juin-2018 2/46 Résumé (2/2) 1. Inférence

[2.2 LOI A POSTERIORI]

Exposé groupe APSSE / 22-juin-2018 46/46

On obtient (t) = (t), …, t))T solution du système linéaire m×m

Km (t) = cov(f(t), Af(s))

Km(i, j) = 2i, j + cov(Af(si), Af(sj)) pour 1 i, j m

cov(f(t), Af(s)) = (cov(f(t), Af(s1)), …, cov(f(t), Af(sm))T

D’où la décomposition L2 de f(t) :

f(t) = cov(f(t), Af(s)) Km 1gobs(s) + Zt

En particulier,

fMAP(t) = cov(f(t), Af(s))T Km 1gobs(s)

et

Var(f(t) | gobs) = Var(Zt) = Var(f(t)) – cov(f(t), Af(s))T Km 1 cov(f(t), Af(s))