modélisation bayésienne par chaines de markov monte carlo

Post on 30-Dec-2015

32 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Modélisation Bayésienne par chaines de Markov Monte Carlo. I. Les probabilités Bayésiennes II. Echantillonnage par Monte Carlo Théorie des chaines de Markov Algorithme de Metropolis III. Application: reconstruction phylogénétique - PowerPoint PPT Presentation

TRANSCRIPT

Modélisation Bayésienne par chaines de Markov Monte Carlo

• I. Les probabilités Bayésiennes• II. Echantillonnage par Monte Carlo

– Théorie des chaines de Markov– Algorithme de Metropolis

• III. Application: reconstruction phylogénétique

• IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs

I. Lois des probabilités

Interprétation classique :Fréquence de phénomènes "aléatoires"

Interprétation Bayésienne :Degré d´incertitude sur la véracité d´une assertion(dépend du contexte, en particulier, de l´information disponible)

Raisonner en présence d´incertitudeApprendre par l´expérience et l´observation

(probabilité de tirer un 6 lors d´un lancer de dés)

(probabilité que les hommes soient plus proches des chympanzésque du gorille, connaissant la séquence de leurs génomes respectifs)

Lois des probabilités

)|(),|()|,( IBpIBApIBAp

1)|()|( IApIAp

1)|(0 IAp

1)|(1

N

nn IAp

),...,( 2,1 nAAA ensemble exhaustif de

)|,()|,( IABpIBAp commutativité

loi du produit

loi de la somme

propositions mutuellement exclusives :

ou:

domaine

11 machines, dont 1 défectueuse.Produisent des robinets, qui sont conditionnés par caisses de 600.

Machines normales produisent en moyenne une proportion de:5/6 robinets corrects1/6 robinets défectueux

Machine défectueuse:2/3 robinets corrects1/3 robinets défectueux

On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester

En déduire la probabilité que la caisse provienne de la machine défectueuse.

Problème:

A : la caisse provient de la machine défectueuse

I0 : notre information a priori (avant toute observation)

B : la caisse provient d´une machine normale

11

1)|( 0 IAp

11

10)|( 0 IBp

3

2),|( 01 IAbonRp

3

1),|( 01 IAdefRp

6

5),|( 01 IBbonRp

6

1),|( 01 IBdefRp

),|( 01 IRAp ? "Probabilité inverse"

)|,()|,( 0101 IARpIRAp

)|(),|()|,( 00101 IApIARpIARp

)|(),|()|,( 010101 IRpIRApIRAp

)|(

)|(),|(),|(

01

00101 IRp

IApIARpIRAp

)|(),|()|(),|( 0010101 IApIARpIRpIRAp

Théorème de Bayes

)|(

)|(),|(),|(

01

00101 IdefRp

IApIAdefRpIdefRAp

),|(),|(1 0101 IRBpIRAp11

10

6

1

11

1

3

1)|( 01 IdefRp

)|(111

31

01 IdefRp

)|(1110

61

01 IdefRp

)|(

)|(),|(),|(

01

00101 IdefRp

IBpIBdefRpIdefRBp

17.06

1

1110

61

111

31

111

31

),|( 01

IdefRAp

83.06

5

1110

61

111

31

1110

61

),|( 01

IdefRBp

17.0),|( 01 IRAp

83.0),|( 01 IRBp

09.0)|( 0 IAp

91.0)|( 0 IBp

defR 1defR 2

29.083.0

61

17.031

17.031

)|(

),|(),,|(),,|(

02

01012012

IRp

IRApIRARpIRRAp

71.083.0

61

17.031

83.061

)|(

),|(),,|(),,|(

02

01012012

IRp

IRBpIRBRpIRRBp

?),,|( 012 IRRAp

?),,|( 012 IRRBp

17.0),|( 01 IRAp

83.0),|( 01 IRBp

09.0)|( 0 IAp

91.0)|( 0 IBp

defR 1bonR 2

14.083.0

65

17.032

17.032

)|(

),|(),,|(),,|(

02

01012012

IRp

IRApIRARpIRRAp

86.083.0

65

17.032

83.065

)|(

),|(),,|(),,|(

02

01012012

IRp

IRBpIRBRpIRRBp

?),,|( 012 IRRAp

?),,|( 012 IRRBp

),...,|( 021 IRRAp

),...,|( 021 IRRBp

),...,|( 021 IRRBp

),...,|( 021 IRRAp

Simu sous une bonne machine

Simu sous une Machine défectueuse

Théorème de Bayes

Probabilité a prioriVraisemblance

Probabilitéa posteriori

Facteur de normalisation

)|(

)|(),|(),|(

0

000 ISp

IApIASpISAp

),...,,( 21 nRRRS Séquence de tirages successifs :

NbNd

IASp

3

2

3

1),|( 0

Nd robinets défecteux

Nb robinets ok

Sd : séquence de robinetstous défectueux.

)|(

)|(),|(),|(

0

000 ISp

IApIASpISAp

)|(

)|(),|(),|(

0

000 ISp

IBpIBSpISBp

)|(),|()|(),|()|( 00000 IBpIBSpIApIASpISp

),|( 0ISAp d

),|( 0ISBp d

)|(ln 0ISp d

)|(ln 0ISpSéquences simuléessous le modèle I0

Sd : séquence de robinetstous défectueux.

)|(

)|(),|(),|(

0

000 ISp

IApIASpISAp

Théorème de Bayes

Probabilité a prioriVraisemblance

Probabilitéa posteriori

Facteur de normalisation

Mesure la validité globale du modèle, face aux données

)|(

)|(),|(),|(

MDp

MpMDpMDp

Théorème de Bayes

Probabilité a prioriVraisemblance

Probabilitéa posteriori

Facteur de normalisation

Mesure la validité globale du modèle, face aux données

Modèle paramétré par

Données DM

Tirage à pile ou face avec une pièce biaisée.

: probabilité de tirer pile lors d´un tirage quelconque

Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

fp NNMSp )1(),|(

Tirage à pile ou face avec une pièce biaisée.

: probabilité de tirer pile lors d´un tirage quelconque (inconnue)

A priori, peut prendre n´importe quelle valeur entre 0 et 1

)|( Mp distribution a priori uniforme sur [0,1]

Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.

fp NNMSp )1(),|(

?),|( MSp Estimer , sachant la séquence S

)|(

1)1(

)|(

)|(),|(),|(

MSpMSp

MpMSpMSp

fp NN

1

0

)|(),|()|( dMpMSpMSp

1

0 )!1(

!!)1(

pf

pfNN

NN

NNdfp

fp NN

pf

pf

NN

NNMSp )1(

!!

)!1(),|(

1)|( Mp fp NN

pf

pf

NN

NNMSp )1(

!!

)!1(),|(

)|( Mp

),|( MSp

10 piles5 faces

0.66

1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 13. Poser et faire rebondir sur les bords de l´intervalle [0,1]4. recommencer à l´étape 2.

)5.0(1 Unn

5.00

n

II. Monte Carlo: Marche aléatoire

0 1

1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 13. Poser (en faisant rebondir sur les bords de l´intervalle [0,1])

4. calculer

5. accepter avec une probabilité p=Min(1,a)

si accepté :

si refusé :

6. recommencer à partir de 2.

)5.0(* Unn

5.00

Marche aléatoire biaisée

fp

fp

Nn

Nn

Nn

Nn

n

n

MSp

MSpa

)1(

)1(

),|(

),|( ***

*1 nn

nn 1

Echantillonnage de la distributionde probabilité a posteriori

),|( MSp

N

nnN

dMSp1

1

0

1),|( Espérance a posteriori :

Chaines de Markov

Suite de variables aléatoires ,...),...,,( 210 nxxxxà valeurs dans un espace X

Processus sans mémoire

),()|(),...,|( 11101 nnnnnn xxqxxpxxxxp

),( yxq défini sur X2 Une chaine de Markov est entièrement définie par :

son noyau de transition

la distribution marginale de l´état initial )(0 xp

Distribution marginale de l´état n+1 : ),()()(1 yxqxpypx

nn

),()()( yxqxpypx Distribution stationnaire ("point fixe"):

(dans le cas précédent, l´intervalle [0,1])

Distributions stationnaires et bilan détaillé

),( yxqChaine de Markov définie par :

son noyau de transition

la distribution marginale de l´état initial )(0 xp

),()()( yxqxpypx Distribution stationnaire ("point fixe"):

Bilan détaillé : ),()(),()( yxqxpxyqyp

Implique que (.)p est une distribution stationnaire

Chaines de Markov ergodiques

),( yxqUne chaine de Markov définie par :

son noyau de transition

la distribution marginale de l´état initial )(0 xp

est ergodique si, elle possède une distribution stationnaire

)(0 xp (.)np

(.)p

telle que (.)ptend vers ,

Cette distribution stationnaire est alors évidemment unique

Algorithme de Métropolis

),(),( xyqyxq On dispose d´une chaine de Markov ergodique, de noyau symétrique:

On veut échantillonner une distribution non normalisée, définie sur l´espace X :

0)( xr

Xx

xrZ )( facteur de normalisation (inconnu)

Z

xrxp

)()( notre distribution de probabilité cible

)(

)(,1),(),(

xr

yrMinyxqyxqOn construit la chaine de noyau

Alors, cette chaine est ergodique, de distribution stationnaire )(xp

)|(

)|(),|(),|(

MDp

MpMDpMDp

Métropolis et inférence Bayésienne

Probabilité a priori

VraisemblanceProbabilitéa posteriori

Facteur de normalisation

Modèle M, paramétré par

)|(),|()( MpMDpr Chaine de Markov ,...),...,,( 10 n espace d´états

Chaine ayant la probabilité a posteriori comme dist. stationnaireObtention d´un échantillon (10 000 points)Moyennes sur l´échantillon: espérances a posteriori

III. Modèles stochastiques d´évolution moléculaire

Séquences alignéesArbre phylogénétique?

),( lT (topologie + longueurs de branches)Paramètre :

Données : (séquences alignées)DModèle : M

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

A

A G

A C

1. Tirer une lettre parmi {A,C,G,T}(avec probabilités 1/4, 1/4, 1/4, 1/4)

A

l

le

3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4

C

4

1)1(),|( lelACp

2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche :

ll eelAAp 4

1)1(),|(

Modèles stochastiques d´évolution

A

A

C

G

),|( lTCp i

1l

2l3l

4l6l

5l

CiColonne

?

A

A

C

G

5s 5D

),|(),|()|( 2155 lCAplCApCsDp

1l

2l3l

4l6l

5l

4

1)1(

4

1)1( 21 ll ee

A

A

C

G

5s 5D

4

1)1(

4

1)1()|( 2211

55llll eeeeAsDp

1l

2l3l

4l6l

5l

A

A

C

G

5s 5D

)|( 55 AsDp

1l

2l3l

4l6l

5l

)|( 55 CsDp )|( 55 GsDp )|( 55 TsDp

A

A

C

G

6s 6D

)|( 66 AsDp

1l

2l3l

4l6l

5l

)|( 66 CsDp )|( 66 GsDp )|( 66 TsDp

A

A

C

G

6D

1l

2l3l

4l6l

5l5D

iCD 77s6s

5s

)|( 77 AsDp )|( 77 CsDp )|( 77 GsDp )|( 77 TsDp

?

A

A

C

G

6D

1l

2l3l

4l6l

5l5D

iCD 77s

)|( 77 AsDp

TGCAsTGCAs

sDplsspsDplssp,,,

66676,,,

55575

65

)|(),|()|(),|(

6s

5s

A

A

C

G

6D

1l

2l3l

4l6l

5l5D

iCD 77s6s

5s

)|( 77 AsDp )|( 77 CsDp )|( 77 GsDp )|( 77 TsDp

TGCAs

i sDpMCp,,,

77

7

)|(4

1),|(

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

Ci

i

i lTCplTDpDp ),|(),|()|( Vraisemblance :

N sitesP taxonsK=4 caractères

Complexité: NPK2

Algorithme du "pruning"

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

Ci

Modèles stochastiques Bayésiens

i

i MCpMDp ),|(),|(

Prior :

Vraisemblance :

)|( Mp Uniforme

Théorème de Bayes : Distribution a posteriori ),|( MDp

Echantillonnage par Métropolis

*nn

n

*n

1.

2.

3. Reprendre en 1

Accepter avec probabilité

Proposer une modif

selon un noyau symétrique

),(),( ** qq

)|(

)|(,1

*

Dp

DpMinp

n

n

T1

T2

T3

T4

"Node-sliding"

27000

28000

29000

30000

31000

32000

33000

E =-ln L

burn in(discarded)

sample

Monte Carlo Markov chain (MCMC)

)|( Dp Kkk ..1)( ),( kkk lT

Total

T

K

KMDTp ),|(

For any topology T :

~

Chick

CatFishSnailFlyHydraPolyp

Man

posterior consensus

67

87

90

45

78

Chick

CatFishSnailFlyHydraPolyp

A G C G A T C TA G G G A T A TA G G G A T A CA G G C A C A TA C G C A C A CA C C A A C A TA C C A A C A C

Man

Modèles sites rapides/sites lents

A C C G A T A C

Chick

CatFishSnailFlyHydraPolyp

A G C G A T C TA G G G A T A TA G G G A T A CA G G C A C A TA C G C A C A CA C C A A C A TA C C A A C A C

Man

Modèles sites rapides/sites lents

A C C G A T A CC T

C

Chick

CatFishSnailFlyHydraPolyp

A G C G A T C TA G G G A T A TA G G G A T A CA G G C A C A TA C G C A C A CA C C A A C A TA C C A A C A C

Man

C

A C C G A T A CC T

C T

C T

1 substitution

3 substitutions

Chaque site possède une vitesse iv Niivv ..1)( ,

Modèles sites rapides/sites lents

),,( vlT(topologie + longueurs de branches + vitesse en chaque site)

Paramètres :

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

Ci

),,,|( MvlTCp ii

1iv

Chaque site possède une vitesse iv Niivv ..1)( ,

Modèles sites rapides/sites lents

),,( vlT(topologie + longueurs de branches + vitesse en chaque site)

Paramètres :

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

Ci

),,,|( MvlTCp ii1iv

lTDv ,,|

Prendre chaque site un par un

Pour le site i :

Proposer )5.0.(* Randvv ii et faire rebondir sur la limite 0* iv

)|(),,,|(

)|(),,,|( **

MvpMvlTCp

MvpMvlTCpa

iii

iiiCalculer

Accepter le changement avec une probabilité aMinp ,1

Rééchantillonner les vitesses en chaque site

),,( vlT

Échantillon: )|( Dp ~Kkk ..1)( i.i.d.

Echantillonnage alterné

lTDv ,,|vDlT ,|,

),,( kkkk vlT

Consensusmoyen a posteriori

Vitesse moyenne a posteriori

en chaque site

Modèles d´évolution moléculaire

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A T

Man

A C C A A C A T

Problème Phylogénétique

Problème fonctionnel

IV. Détection de modules fonctionnelsdans les séquences

AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG

ARNm

protéine

+1sites de fixationde facteurs de transcription

début de la transcription

)(iQ

5)( iL)(i

jkq

TGCAk

ijkq

,,,

)( 1

0.5 0.4 0.1 0.5 0.2

0.2 0.2 0.7 0.2 0.2

0.1 0.2 0.1 0.2 0.1

0.2 0.2 0.1 0.1 0.5

A

C

G

T

Motif

Longueur

Matrice

AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG

0.5 x 0.4 x 0.7 x 0.5 x 0.5

)(

1

)()( )|(i

j

L

j

ijw

i qQWp

Mot )(..1)( iLjjwW

)1(Q 5)1( L

0.5 0.4 0.1 0.5 0.2

0.2 0.2 0.7 0.2 0.2

0.1 0.2 0.1 0.2 0.1

0.2 0.2 0.1 0.1 0.5

A

C

G

T

ATGCAAACATCCCGACACTAGCACCATCAGCAG

)2(Q 4)2( L

0.3 0.4 0.1 0.5

0.3 0.2 0.7 0.2

0.2 0.2 0.1 0.2

0.2 0.2 0.1 0.1

0.3

0.3

0.2

0.2

background

Annotation A de la séquence S:

)|( ASp

...024

23

22

21

000015

14

13

12

11

00000TCACAGCCCTACAAACGTA qqqqqqqqqqqqqqqqqqq

)0(kq)1(

jkq)2(

jkq

ATGCAAACATCCCGACACTAGCACCATCAGCAG

Annotation A de la séquence S: ),|( MASp

Distribution a priori sur l´ensemble des annotations possibles )|( MAp

probabilité a priori d´apparition du motif i )(iftous les positionnements non-chevauchants équiprobables a priori

)|(

)|(),|(),|(

MSp

MApMASpMSAp

Probabilité a priori

VraisemblanceProbabilitéa posteriori

Facteur de normalisation

Modèle d´annotation M

Echantillonnage de GibbsATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGCAAACATCCCGACACTAGCACCATCAGCAG

)|( SAp

)|( *1 SAp

)|( *2 SAp

)|( *3 SAp

)|( * SAp n

ATGCAAACATCCCGACACTAGCACCATCAGCAG

Annotation A de la séquence S: ),|( MASp

Distribution a priori sur l´ensemble des annotations possibles )|( MAp

probabilité a priori d´apparition du motif i )(iftous les positionnements non-chevauchants équiprobables a priori

Modèle d´annotation M

Les coefficients des matrices sont également inconnus:distribution a priori sur toutes leurs valeurs possibleséchantillonnage conjoint

)1(jkq

Apprentissage automatiquedu dictionnaire de motifs

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGATAGGCACACCAGGGCAGAC

TGTTTGTTCTCACCATTACACCAGGTCA

ACCACCCCGGGCGGCACACTACGGACGAC

0.2 0.4 0.3 0.5 0.5 0.2 0.2

0.3 0.2 0.2 0.2 0.2 0.2 0.2

0.3 0.2 0.2 0.2 0.2 0.1 0.1

0.2 0.2 0.3 0.1 0.1 0.5 0.5

A

C

G

T

)1(jkq

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGATAGGCACACCAGGGCAGAC

TGTTTGTTCTCACCATTACACCACGTCA

ACCACCCCGGGCGGCACACTACGGACGAC

)1(jkq

0.2 0.4 0.3 0.5 0.5 0.2 0.2

0.3 0.2 0.2 0.2 0.2 0.2 0.2

0.3 0.2 0.2 0.2 0.2 0.1 0.1

0.2 0.2 0.3 0.1 0.1 0.5 0.5

A

C

G

T

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGATAGGCACACCAGGGCAGAC

TGTTTGTTCTCACCATTACACCACGTCA

ACCACCCCGGGCGGCACACTACGGACGAC

0.5 0.3 0.6 0.4 0.0 0.4 0.1

0.3 0.5 0.2 0.4 0.5 0.2 0.6

0.3 0.1 0.1 0.1 0.0 0.1 0.2

0.2 0.1 0.1 0.1 0.5 0.3 0.1

A

C

G

T

)1(jkq

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGATAGGCACACCAGGGCAGAC

TGTTTGTTCTCACCATTACACCACGTCA

ACCACCCCGGGCGGCACACTACGGACGAC

0.5 0.3 0.6 0.4 0.0 0.4 0.1

0.3 0.5 0.2 0.4 0.5 0.2 0.6

0.3 0.1 0.1 0.1 0.0 0.1 0.2

0.2 0.1 0.1 0.1 0.5 0.3 0.1

A

C

G

T

)1(jkq

ATGCAAACATCCCGACACTAGCACCATCAGCAG

ATGATAGGCACACCAGGGCAGAC

TGTTTGTTCTCACCATTACACCACGTCA

ACCACCCCGGGCGGCACACTACGGACGAC

0.5 0.3 0.6 0.4 0.0 0.4 0.1

0.3 0.5 0.2 0.4 0.5 0.2 0.6

0.3 0.1 0.1 0.1 0.0 0.1 0.2

0.2 0.1 0.1 0.1 0.5 0.3 0.1

A

C

G

T

)1(jkq

Thompson et al, Genome Research, 2004

Thompson et al, Genome Research, 2004

top related