probabilité a priori vraisemblance probabilité a posteriori facteur de normalisation (performance...

)|(),|(),|(

MpMDpMDp

Probabilité a prioriVraisemblance

Probabilitéa posteriori

Facteur de normalisation(performance globale du modèle)

Résumé cours précédent1. Théorème de Bayes

2. Méthodes de Monte Carlo: échantillonner la distribution a posteriori

)|( Dp Kkk ..1)( ~ (K = 10 000)

Probabilité a posteriori = fréquence d´apparition dans l ´échantillon

Chick A C C G A G A T

CatFishSnailFlyHydraPolyp

A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T

Modèles stochastiques Bayésiens

données : (D)),( lThypothèse :(alignement)(phylogénie)

modèle : (M)(processus d´évolution par accumulation de mutations)

E =-ln L

burn in(discarded)

sample

Monte Carlo Markov chain (MCMC)

)|( Dp Kkk ..1)( ),( kkk lT

KMDTp ),|(

For any topology T :

CatFishSnailFlyHydraPolyp

posterior consensus

Réseaux Bayésiens

• Example introductif

• Définition

• Méthodes de Monte Carlo

• Problème inverse : apprendre la structure du réseau, à partir de données observées– problème n°1 : apprendre les lois locales

– problème n°2 : apprendre la structure globale

• Application : réseaux de régulation génétique

Représenter les dépendances statistiques entre plusieurs variables

essencebougiespropres

démarrageniveauréservoir

),|()|()()(),,,( bedperpbpepdbrep

essencebougiespropres

démarrageniveauréservoir

oui 0.98

non 0.02

oui 0.96

non 0.04

e = oui e = non

b = oui 0.99 / 0.01 0 / 1

b = non 0.01 / 0.99 0 / 1

e = oui e = non

plein 0.39 0.01

mi-plein 0.60 0.01

vide 0.01 0.98

),|( bedp

)(ep )(bp

)|( erp

),|()|()()(),,,( bedperpbpepdbrep

Définition

un ensemble de variables aléatoires),...,,( 21 nxxxx

Un réseau Bayésien est une représentation graphique de ladistribution de probabilité conjointe ),...,,( 21 nxxxp

Elle est caractérisée par deux éléments :

1. un graphe acyclique orienté (à n sommets)

2. n distributions conditionnelles

))(|( iG

i xPaxp

où )( iG xPa est l´ensemble des parents de ix

Calcul de la distribution conjointeà partir du graphe

1x 2x 3x 6x

)|,( 231 xxxi

),,,,,( 654321 xxxxxxp

),|(),|()|()|()|()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Indépendances conditionnelles:

),|,( 5364 xxxxi ...

Classe d´équivalence : indistinguabilité

Théorème (Pearl et Verma, 1991):

Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures

1x 2x 3x 6x

Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles

Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté

1x 2x 3x 6x

),,,,,1( 6543211 xxxxxxpp

Echantillonnage de Gibbs(Chaque admet pour valeurs possibles les entiers k=1..K)ix

),,,,,2( 6543212 xxxxxxpp

),,,,,( 654321 xxxxxKxppK ....

Essayer toutes les valeurs possibles pour et recalculer laprobabilité conjointe à chaque fois :

Tirer une nouvelle valeur pour en fonction de ces probabilités

1x 2x 3x 6x

Echantillonnage de Gibbs

Appliquer la même procédure à , puis , ... jusqu´à 2x 3x 6x

Recommencer un très grand nombre de fois (K=10 000)

KkkX ..1)( ),...,,( 621

kkkk xxxX échantillon : avec

distribué suivant la probabilité conjointe ),,,,,( 654321 xxxxxxp

Par exemple:total

Kkxp 6)( 6

1x 2x 3x 6x

),,,,,1( 654321 xxxxxxp

),|(),|()|()|()1|()1( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbssimplification des calculs

),,,,,2( 654321 xxxxxxp

),|(),|()|()|()2|()2( 5364352423121 xxxpxxxpxxpxxpxxpxp

1x 2x 3x 6x

),,,,1,( 654321 xxxxxxp

),|(),|()1|()1|()|1()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbssimplification des calculs

),,,,2,( 654321 xxxxxxp

),|(),|()2|()2|()|2()( 5364352423121 xxxpxxxpxxpxxpxxpxp

Echantillonnage de Gibbs

Calcul de probabilités conditionnelles

On connait la valeur des variables 26, 22, 16.

Calculer alors la probabilité des différentes valeurs possibles pour 8

Calcul de probabilités conditionnelles

Faire un Gibbs en laissant fixes les variables 26, 22, 16.

Mesurer alors la fréquence des différentes valeurs observées en 8

asymptotiquement égales aux probabilités recherchées

Problème inverse :Inférer les lois conditionnelles locales

Données: structure du réseau (G) + table d´observations (D)

Inconnues à estimer: lois de probabilités locales

(G) (D)

1x 2x 3x 6x

Lois conditionnelles localespour les réseaux binaires

),|( 536 xxxp

(Chaque admet pour valeurs possibles 0 ou 1)ix

)1( 6 xp006016106116

))((2 ixPaCard

Nombres de paramètresà déterminer:

: ensemble des paramètresdu réseau

Rappel : tirage à pile ou face : probabilité de tirer pile à un tirage donné

: données observées (10 piles et 5 faces)D

Estimation rapide (efficace si beaucoup d´observations) : 15

Inférence Bayésienne (incertitude mieux prise en compte)

)|( Dp

)|(),|(),|(

MpMDpMDp

Métropolis sur

1x 2x 3x 6x

Estimation rapide des lois conditionnelles locales

),|( 536 xxxp

0 0 5 12

0 1 7 2

1 0 4 0

1 1 1 24

)0( 6 xN

17/12ˆ006

9/2ˆ016

0ˆ106

25/24ˆ116

3x 5x )1( 6 xN

Inférence Bayésienne des paramètres du réseau

)|(),|(),|(

GpGDpGDp

G Structure du réseau

Table d´observations

Paramètres du réseau

dGpGDpGDp )|(),|()|(

Algorithme de Metropolis

),|( *

*nn 1. proposer modif

2. calculer

3. accepter avec une proba p=Min(1,a)

si accepté :

si refusé :

4. recommencer à partir de 2.

),|( MSp

Classificateur Bayésien « naïf »

A1 A2 An...

Classe

Attributs )|( CAp i

ii CApCAp

)|()|(

),...,,( 21 nAAAA

lCplCAp

kCpkCApAkCp

)()|()|(

Classificateur Bayésien « naïf »méthode d´apprentissage

A1 A2 An...

Classe

Attributs )|( CAp i

)(Cp ?

Jeu d´apprentissage:

A1 A2 ... An C

Application des méthodes mentionnées auparavant

Classificateur Bayésien avec corrélations entre attributs

A1 A2 An...

Classe

AttributsA3

ii CApCAp

)|()|(

),...,,( 21 nAAAA

Cas particulier: le graphe restreint aux attributs est un arbre.

Problème inverse général :inférer la structure du réseau

D Table d´observations

G Structure du réseau

Inférence Bayésienne de la structure du réseau

)()|()|(

GpGDpDGp

DG Structure du réseau

(calculable analytiquement)

)(Gp Prior sur les réseaux possibles

Uniforme : trop flexiblePrior pénalisant les réseaux trop riches en liens

Inférence Bayésienne de la structure du réseau

)()|()|(

GpGDpDGp

DG Structure du réseau

Données suffisamment riches pour inférer le réseau avec certitude:rechercher graphe G qui maximise (NP difficile))|( DGp

Sinon : Monte Carlo à travers l´espace des graphes, pour échantillonner la distribution a posteriori )|( DGp

(calculable analytiquement)

Théorème (Pearl et Verma, 1991):

Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures

1x 2x 3x 6x

Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles

Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté

1x 2x 3x 6x

Validation de la méthode par simulations

Cas réel : projets d´études supérieures

SEX : sexeSES : statut socio-économiquePE : encouragement parentalIQ : quotient intellectuelCP : projets d´études supérieures

Application : inférer les réseaux de régulation génétique à partir des

puces à ADN

Cycle cellulaire

division

synthèse d´ADN (duplication du génome)

Application : inférer les réseaux de régulation génétique à partir des

puces à ADN

Mesure de l´expression de 6177 gènes de la levure de boulanger76 mesures au total: 6 séries temporelles sur cellules synchronisées

Explorer les classes d´équivalence de réseaux de 6178 sommets- 6177 sommets correspondant aux gènes analysés- 1 sommet supplémentaire : phase du cycle cellulaire

(contraint comme racine du graphe)Méthode Monte Carlo

Discrétisation des niveaux d´expression de chaque gène-1 : sous-exprimé 0 : normal+1 : sur-exprimé

1x 2x 3x 6x

Estimation rapide des lois conditionnelles locales

),|( 536 xxxp

0 0 5 12

0 1 7 2

1 0 4 0

1 1 1 24

)0( 6 xN

17/12ˆ006

9/2ˆ016

0ˆ106

25/24ˆ116

3x 5x )1( 6 xN

Relations de Markov

Gènes dominants (en amont des autres)

Relations de Markov

probabilité a priori vraisemblance probabilité a posteriori facteur de normalisation (performance...

Documents

les lois de probabilité

sujets des dossiers d’analyse, probabilité

cours probabilité

statistiques, pourcentages et probabilité

cours de probabilité suquet

statistique et probabilité

5 lois de probabilité discrètes

lois de probabilité et estimation

loi de probabilité : élément central de la statistique la...

processus max-stables, vraisemblance composite et extr mes

cours statistique probabilité

contrÔle a posteriori sur pieces

deug2 probabilité

probabilité et statistiques

mélanges et rapports de vraisemblance

clés - probabilité

Évaluation « a posteriori » d’une mesure de régulation

probabilité : conditionnement et indépendance

lois combinatoires - probabilité

vraisemblance d’une hypoth