probabilité a priori vraisemblance probabilité a posteriori facteur de normalisation (performance...

Post on 03-Apr-2015

111 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

)|(

)|(),|(),|(

MDp

MpMDpMDp

Probabilité a prioriVraisemblance

Probabilitéa posteriori

Facteur de normalisation(performance globale du modèle)

Résumé cours précédent1. Théorème de Bayes

2. Méthodes de Monte Carlo: échantillonner la distribution a posteriori

)|( Dp Kkk ..1)( ~ (K = 10 000)

Probabilité a posteriori = fréquence d´apparition dans l ´échantillon

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Man

Modèles stochastiques Bayésiens

données : (D)),( lThypothèse :(alignement)(phylogénie)

modèle : (M)(processus d´évolution par accumulation de mutations)

27000

28000

29000

30000

31000

32000

33000

E =-ln L

burn in(discarded)

sample

Monte Carlo Markov chain (MCMC)

)|( Dp Kkk ..1)( ),( kkk lT

Total

T

K

KMDTp ),|(

For any topology T :

~

Chick

CatFishSnailFlyHydraPolyp

Man

posterior consensus

67

87

90

45

78

Réseaux Bayésiens

• Example introductif

• Définition

• Méthodes de Monte Carlo

• Problème inverse : apprendre la structure du réseau, à partir de données observées– problème n°1 : apprendre les lois locales

– problème n°2 : apprendre la structure globale

• Application : réseaux de régulation génétique

Représenter les dépendances statistiques entre plusieurs variables

essencebougiespropres

démarrageniveauréservoir

),|()|()()(),,,( bedperpbpepdbrep

essencebougiespropres

démarrageniveauréservoir

oui 0.98

non 0.02

oui 0.96

non 0.04

e = oui e = non

b = oui 0.99 / 0.01 0 / 1

b = non 0.01 / 0.99 0 / 1

e = oui e = non

plein 0.39 0.01

mi-plein 0.60 0.01

vide 0.01 0.98

),|( bedp

)(ep )(bp

)|( erp

),|()|()()(),,,( bedperpbpepdbrep

Définition

un ensemble de variables aléatoires),...,,( 21 nxxxx

Un réseau Bayésien est une représentation graphique de ladistribution de probabilité conjointe ),...,,( 21 nxxxp

Elle est caractérisée par deux éléments :

1. un graphe acyclique orienté (à n sommets)

2. n distributions conditionnelles

))(|( iG

i xPaxp

G

où )( iG xPa est l´ensemble des parents de ix

Calcul de la distribution conjointeà partir du graphe

1x 2x 3x 6x

5x4x

)|,( 231 xxxi

),,,,,( 654321 xxxxxxp

),|(),|()|()|()|()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Indépendances conditionnelles:

),|,( 5364 xxxxi ...

Classe d´équivalence : indistinguabilité

Théorème (Pearl et Verma, 1991):

Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles

Classe d´équivalence : indistinguabilité

Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

),,,,,1( 6543211 xxxxxxpp

Echantillonnage de Gibbs(Chaque admet pour valeurs possibles les entiers k=1..K)ix

),,,,,2( 6543212 xxxxxxpp

),,,,,( 654321 xxxxxKxppK ....

Essayer toutes les valeurs possibles pour et recalculer laprobabilité conjointe à chaque fois :

Tirer une nouvelle valeur pour en fonction de ces probabilités

1x

1x

1x 2x 3x 6x

5x4x

Echantillonnage de Gibbs

Appliquer la même procédure à , puis , ... jusqu´à 2x 3x 6x

...

Recommencer un très grand nombre de fois (K=10 000)

KkkX ..1)( ),...,,( 621

kkkk xxxX échantillon : avec

distribué suivant la probabilité conjointe ),,,,,( 654321 xxxxxxp

Par exemple:total

kx

K

Kkxp 6)( 6

1x 2x 3x 6x

5x4x

),,,,,1( 654321 xxxxxxp

),|(),|()|()|()1|()1( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbssimplification des calculs

),,,,,2( 654321 xxxxxxp

),|(),|()|()|()2|()2( 5364352423121 xxxpxxxpxxpxxpxxpxp

...

1x 2x 3x 6x

5x4x

),,,,1,( 654321 xxxxxxp

),|(),|()1|()1|()|1()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbssimplification des calculs

...

),,,,2,( 654321 xxxxxxp

),|(),|()2|()2|()|2()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbs

Calcul de probabilités conditionnelles

On connait la valeur des variables 26, 22, 16.

Calculer alors la probabilité des différentes valeurs possibles pour 8

Calcul de probabilités conditionnelles

Faire un Gibbs en laissant fixes les variables 26, 22, 16.

Mesurer alors la fréquence des différentes valeurs observées en 8

asymptotiquement égales aux probabilités recherchées

Problème inverse :Inférer les lois conditionnelles locales

Données: structure du réseau (G) + table d´observations (D)

Inconnues à estimer: lois de probabilités locales

(G) (D)

1x 2x 3x 6x

5x4x

Lois conditionnelles localespour les réseaux binaires

),|( 536 xxxp

(Chaque admet pour valeurs possibles 0 ou 1)ix

0 0

0 1

1 0

1 1

)1( 6 xp006016106116

3x 5x

))((2 ixPaCard

Nombres de paramètresà déterminer:

: ensemble des paramètresdu réseau

Rappel : tirage à pile ou face : probabilité de tirer pile à un tirage donné

: données observées (10 piles et 5 faces)D

Estimation rapide (efficace si beaucoup d´observations) : 15

10ˆ

Inférence Bayésienne (incertitude mieux prise en compte)

)(p

)|( Dp

0.66

)|(

)|(),|(),|(

MDp

MpMDpMDp

Métropolis sur

1x 2x 3x 6x

5x4x

Estimation rapide des lois conditionnelles locales

),|( 536 xxxp

0 0 5 12

0 1 7 2

1 0 4 0

1 1 1 24

)0( 6 xN

17/12ˆ006

9/2ˆ016

0ˆ106

25/24ˆ116

3x 5x )1( 6 xN

Inférence Bayésienne des paramètres du réseau

)|(

)|(),|(),|(

GDp

GpGDpGDp

D

G Structure du réseau

Table d´observations

Paramètres du réseau

dGpGDpGDp )|(),|()|(

Algorithme de Metropolis

),|(

),|( *

GDp

GDpa

n

n

*1 nn

nn 1

*nn 1. proposer modif

2. calculer

3. accepter avec une proba p=Min(1,a)

si accepté :

si refusé :

4. recommencer à partir de 2.

),|( MSp

N

nnN 1

1

Classificateur Bayésien « naïf »

C

A1 A2 An...

Classe

Attributs )|( CAp i

)(Cp

n

ii CApCAp

1

)|()|(

),...,,( 21 nAAAA

l

lCplCAp

kCpkCApAkCp

)()|(

)()|()|(

Classificateur Bayésien « naïf »méthode d´apprentissage

C

A1 A2 An...

Classe

Attributs )|( CAp i

)(Cp ?

?

Jeu d´apprentissage:

A1 A2 ... An C

item1

item2

...

Application des méthodes mentionnées auparavant

Classificateur Bayésien avec corrélations entre attributs

C

A1 A2 An...

Classe

AttributsA3

n

ii CApCAp

1

)|()|(

),...,,( 21 nAAAA

Cas particulier: le graphe restreint aux attributs est un arbre.

Problème inverse général :inférer la structure du réseau

?

D Table d´observations

G Structure du réseau

Inférence Bayésienne de la structure du réseau

)(

)()|()|(

Dp

GpGDpDGp

DG Structure du réseau

Table d´observations

dGpGDpGDp )|(),|()|(

Paramètres du réseau

(calculable analytiquement)

)(Gp Prior sur les réseaux possibles

Uniforme : trop flexiblePrior pénalisant les réseaux trop riches en liens

Inférence Bayésienne de la structure du réseau

)(

)()|()|(

Dp

GpGDpDGp

DG Structure du réseau

Table d´observations

dGpGDpGDp )|(),|()|(

Paramètres du réseau

Données suffisamment riches pour inférer le réseau avec certitude:rechercher graphe G qui maximise (NP difficile))|( DGp

Sinon : Monte Carlo à travers l´espace des graphes, pour échantillonner la distribution a posteriori )|( DGp

(calculable analytiquement)

Classe d´équivalence : indistinguabilité

Théorème (Pearl et Verma, 1991):

Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles

Classe d´équivalence : indistinguabilité

Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

1x 2x 3x 6x

5x4x

Validation de la méthode par simulations

Cas réel : projets d´études supérieures

SEX : sexeSES : statut socio-économiquePE : encouragement parentalIQ : quotient intellectuelCP : projets d´études supérieures

Application : inférer les réseaux de régulation génétique à partir des

puces à ADN

Cycle cellulaire

division

synthèse d´ADN (duplication du génome)

Application : inférer les réseaux de régulation génétique à partir des

puces à ADN

Mesure de l´expression de 6177 gènes de la levure de boulanger76 mesures au total: 6 séries temporelles sur cellules synchronisées

Explorer les classes d´équivalence de réseaux de 6178 sommets- 6177 sommets correspondant aux gènes analysés- 1 sommet supplémentaire : phase du cycle cellulaire

(contraint comme racine du graphe)Méthode Monte Carlo

Discrétisation des niveaux d´expression de chaque gène-1 : sous-exprimé 0 : normal+1 : sur-exprimé

1x 2x 3x 6x

5x4x

Estimation rapide des lois conditionnelles locales

),|( 536 xxxp

0 0 5 12

0 1 7 2

1 0 4 0

1 1 1 24

)0( 6 xN

17/12ˆ006

9/2ˆ016

0ˆ106

25/24ˆ116

3x 5x )1( 6 xN

Relations de Markov

Gènes dominants (en amont des autres)

Relations de Markov

top related