Transcript
Page 1: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Modeles hierarchiques bayesiens de differenciationgenetique et recherche de signatures de selection

applications a des jeux de donnees SNP haut-debit

Mathieu Gautier

UMR INRA/CIRAD/IRD/SupAgro CBGP

29 Juin 2011

Page 2: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Recherche de signatures de selection

Forces evolutives gouvernant l’evolution des frequencesalleliques

Mutation (et recombinaison a l’echelle haplotypique) : source de la variabilite

Derive genetique : introduit la stochasticite (Taille finie des populations)

Migration en terme de flux de genes

Selection

Influence differente a l’echelle du genome (Cavalli-Sforza, 1966)

Facteurs demographiques (derive, flux de gene) ⇒ effet global

Selection (mutation et recombinaison) ⇒ effet local

Page 3: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Differentes approches

Principe General

Definition d’un estimateur de la variabilite genetique intra/interpopulation (e.g. FST , EHH)

Recherche d’outliers (relativement a l’attendu neutre)

Distribution theorique (Lewontin et Krakauer, 1973, Bonhomme et al., 2010)

Distribution simulee (Bowcock et al., 1991, Beaumont & Nichols, 1996)

Distribution empirique (Akey et al., 2002)

Modelisation Hierarchique (Bayesienne)

Efficace pour distinguer les effets locus des effets population-specifiquesur la variabilite genetique

La distribution (frequences alleliques) est connue (ou approchable) pour differentsmodeles (demographiques)

Page 4: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

FST et pure-derive

Modele (demographique) de Wright/Fisher

Les populations ont evolue pendant t generations (non chevauchantes) encomplet isolement depuis une population ancestrale commune

Illustration dans le cas de taille de population constante (N)

Evolution des frequences alleliques

P(Xt+1 = j |Xt = i) =(

j2N

)ψj

i (1− ψi )2N−j

ou ψi = i2N

,E[Xt+1|Xt = xt ] = xt et V[Xt+1|Xt = xt ] = 2Nxt (1− xt )

E[Xt ] ≡ E[E[Xt |Xt−1]] = E[Xt−1] = ... = x0 = 2Np0 ⇒ E[pt = Xt2N

] = p0

V[pt ] = p0(1− p0)[1− (1− 1/2N)t ]

Page 5: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

FST et pure-derive

Modele en desequilibre (e.g. temps de fixation)

t(p0) = − 4Ne (1−p0)ln(1−p0)p0

(Kimura et Ohta, 1971)

Si p 1 (e.g. p0 = 12Ne

) ⇒ t(p0) ' 4Ne

(pfix1 = p0, pfix2 = 1− p0)

Evolution de la differentiation

La variabilite des frequences alleliques inter-pop(differentiation) augmente au cours du temps(Vmax = p0(1− p0))

Definition : FST = V (p)p0(1−p0)

= 1− (1− 12N

)t ' t2N

⇔ Mesure de l’avancement du processus dederive (aboutissant a la fixation d’un allele)

Page 6: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Simulations : 8 pops (2Ne = 500), 10000 SNPs (8500 neu, 250 per s class)

t = 50 generations

t = 100 generations

Page 7: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Modelisation hierarchique

cj ∼ β(1, 1)

πi ∼ β(0.7, 0.7)

@@@@R

αij f (αij |πi , cj )

Y,N Yij ∼ Bin(αij ,Nij )

?

Principe

On veut separer l’influence de πi (p0) et cj (derive)

sur la variance des αij

Contraster les αij inter-pop informe sur les πi

Contraster les αij intra-pop informe sur les cj

Distribution a priori sur les αij |πi , cj

αij |πi , cj ∼ N[0,1]

(πi , cjπi (1− πi )

)(Nicholson et al.,2002)

αij |πi , cj ∼ β(πi

1−cjcj

, (1− πi )1−cj

cj

) Prior ”exacte” : eq. de diffusion de Kimura (en prep.)

Page 8: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Comparaisons (4 pops, 300 SNPs, 2Ne=1000)

1 11

11

1 1

1

1 1

1

1

11

11 1 1

10 20 50 100 200 500 1000

0.0

0.2

0.4

0.6

0.8

1.0

model 1 (Tr. Gaussian)

Generation

c va

lue

2 22 2 2

22

22

2

2

2

2

2 22 2 2

3 33 3

3

3 3

33

3

3

3

3

3 3 3 3 3

4 44

44

4 44

44

4

4

4

4 4 4 4 4

t/2NFST=1−(1−1/2N)^t

1 11

11

1 11

1 1

1

1

11

1

1 1

1

10 20 50 100 200 500 1000

0.0

0.2

0.4

0.6

0.8

1.0

model 2 (Beta)

Generation

c va

lue

2 22

2 22 2

22 2

2

2

2

2 2

2

2 2

3 33

33

3 33 3

3

3

3

3

33

33

3

4 44 4

44

44 4

4

4

44

4 4

4

4 4

t/2NFST=1−(1−1/2N)^t

1 11

11

1 11

1 1

1

1

1

1

1

1

1

1

10 20 50 100 200 500 1000

0.0

0.2

0.4

0.6

0.8

1.0

model 3 (Exact)

Generation

t/2N

2 22 2 2

2 2

22 2

2

2

2

2 2

2

2 2

3 33

33

3 33

3 3

3

3

3

3

3

33

3

4 44 4

44 4

44

4

4

4

4

4 4

4

44

t/2N

Page 9: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Identification de locus outliers : PPP-value (Gautier et al., 2010)

Ecart au modele (H0 : echangeabilite des loci)

Mesure de discrepance : T (yij , πi , cj ) =J∑

j=1

[yij−E(yij |πi ,cj )]2

V(yij |πi ,cj )

avec E(yij | πi , cj ) = πi et V(yij | πi , cj ) =πi (1−πi )(1+(nij−1)cj )

nij

Pi = P[T (y r

ij , πi , cj ) > T (yij , πi , cj ) | yij

]Implementation (MCMC)

A chaque iteration t, on echantillonne y rij ∼ Bin(nij , α

tij )

On calcule : Pti =

1 siJ∑

j=1

[Tt (y r

ij , πti , ct

j )− Tt (yij , πti , ct

j )]> 0

0 sinon

Pi = 1N

N∑t=1

Pti

Page 10: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Exemples sur donnees simulees (N=10,000 SNPs, 6 pops)

**

*

**

0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)

0.0

0.2

0.4

0.6

0.8

1.0

A) T=10 (analysis under model 1)

SNP selection type

PP

Pva

lue

*

*

*

*

0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)

0.0

0.2

0.4

0.6

0.8

1.0

B) T=10 (analysis under model 2)

SNP selection type

PP

Pva

lue

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

C) T=10 (model 1 VS model 2)

PPPvalue (model 2)

PP

Pva

lue

(mod

el 1

)

******

**

*

**

*

*

***

*********

*

*

**

*

**

*

*

*

****

**

*

*

*

***

**

*

*****

*

**

*

*

**

*

*

*

*

*

*

*

*

0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)

0.0

0.2

0.4

0.6

0.8

1.0

D) T=100 (analysis under model 1)

SNP selection type

PP

Pva

lue

*

*

*

*

***

*

***

*********

*

**

**

*

*

**

****

***

*

***

*

**

*

**

*

***

*

*****

*

*

*

****

*

*

*

***

0.10 (B) 0.05 (B) 0.02 (B) 0 (N) 0.02 (P) 0.05 (P) 0.10 (P)0.

00.

20.

40.

60.

81.

0

E) T=100 (analysis under model 2)

SNP selection type

PP

Pva

lue

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

F) T=100 (model 1 VS model 2)

PPPvalue (model 2)

PP

Pva

lue

(mod

el 1

)

Page 11: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Le modele en ıle de Wright

Migrant pool ( πi )

Pop JN

J / p

iJ

Pop jN

j / p

ij

Pop 1N

1 / p

i1

m1

mj

mj

mJ

A l’equilibre migration/derive i.e. perte d’alleles due a la derive = gain du a la migration)

pij ∼ β(λijπi , λij (1− πi )

)⇒ E(pij ) = πi et V(pij ) =

πi (1−πi )1+λij

On definit FijST

= 11+λij

et λij =1−F

ijST

FijST

Sous l’hypothese neutre (effect locus αi = 0) : λij = λj = 4Nj mj (4xNimmigrants dans la population j)⇔ echangeabilite des SNPs

Page 12: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Separer les effets locus et pop specifiques (Beaumont and Balding, 2004)

βj ∼ N(µβ = −2, σ2

β = 1.82)

αi ∼ N(0, σ2

α = 1)

@@R

πi ∼ β(0.7, 0.7)

@@R

ηij ηij = −log(λij ) = log(

FijST

1−FijST

) ∼ N(αi + βj , σ2η = 0.52)

pij αij |. ∼ β

(λijπi , λij (1− πi )

)

Y,N Yij ∼ Bin(αij ,Nij )

?

Page 13: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Extension du modele αi 6= 0 (Riebler et al., 2008) voir aussi RJ-MCMC par Foll et Gaggiotti (2008)

P ∼ β(0.2, 0.8)

?

δi ∼ Ber(P)

PPPPPPPq

βj ∼ N(µβ = −2, σ2

β = 1.82)

)

αi ∼ N(0, σ?α

2)

?

πi ∼ β(0.7, 0.7)

@@@R

ηij ηij = −log(λij ) = log(

FijST

1−FijST

) ∼ N(δiαi + βj , σ2η = 0.52)

pij αij |. ∼ β

(λijπi , λij (1− πi )

)

Y,N Yij ∼ Bin(αij ,Nij )

?

Page 14: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Variable auxiliaire et regle de decision (Gautier et al., 2009)

P(δi = 1) = E(P)

δi = 1⇒ le SNP est soumis a selection positive (grand FijST

) ou balancee (petit FijST

).

p(δi = 1) = E(δi ) = EP [E(δi |P)] =∫

P E(δi |P)f (P)dP =∫

P Pf (P)dP = E(P)

⇒proportion a priori de SNPs sous selection= E(P) = 0.20.2+1.8

= 0.1

Le modele est robuste a la prior sur P (see paper)

Derivation simple d’un Facteur de Bayes (Gautier et al., 2009)

Prior odds= P[δi = 1]/[1− P(δi = 1)] = E[P]1−E[P]

Posterior odds= P[δi = 1|data]/[1− P(δi = 1|data)]

BF peut s’exprimer en unite Deciban (BFdB = 10log10( Post. oddsPrior odds

))

Page 15: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

La regle de decision de Jeffreys (Good, 1979)

Odds Ratio BF (dB) Strength of evidence

1 to 3.5 0 to 5 ”Barely worth mentionning”

3.5 to 10 5 to 10 ”Substantial”

10 to 30 10 to 15 ”Strong”

30 to 100 15 to 20 ”Very Strong”

>100 >20 ”Decisive”

Page 16: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Puissance et robustesse

Robustesse

robuste aux ecarts a la panmixie (intra-pop) faibles a moderes (FIS > 0 ou

FIS < 0)

robuste au biais de recrutement des marqueurs

structure des populations ?

Puissance pour un seuil de 15 dB (”strong evidence”)

FDR ' 0

Bonne puissance pour les SNPs soumis a une selection positive moderee a

forte mais moins efficace pour la selection balancee

Si αi >= 2 (⇔ s ' 0.05) : FNR< 30% Si αi >= 3 (⇔ s ' 0.1) : FNR< 10% Si αi <= −2 (⇔ s ' 0.1) : FNR< 70%

Page 17: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

>800 races bovines dans le monde

2 “especes”

Sans bosse : taurins (Bos taurus)

Avec bosse : zebus (Bos indicus)

Au moins 2 foyers de domestication

Croissant Fertile (taurins)

Vallee de l’Indus (Zebus)

Migration sur une echelle mondiale

Histoire liee aux flux migratoires humains

Adaptation a differents environnements(climatiques, modes d’elevage...)

Page 18: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

ACP realisee a partir d’un jeu de donnees comprenant 44,706 SNPs genotypes sur1021 individus appartenant a 47 populations differentes (Gautier et al.,2010)

Page 19: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Adaptation des bovins Ouest-Africaines (Gautier et al.,2009)

∼ 300 ind. issus de 9 pop ouest-africaines :5 taurines (trypanotolerantes), 2 Zebus (trypanosensibles) et 2 hybrides ( ?)

36,320 SNPs :MAF>0.01 (dans au moins une pop. zebu et une taurine) ⇒∼ 1 SNP tous les 70 kb

Page 20: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Resultats

P[δi = 1|data] = 0.186

Page 21: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Combiner l’information de SNPs voisins (a posteriori)

Page 22: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Interpretation biologique

Au total 53 regions identifiees

Principales fonctions biologiques impliquees Reponse immunitaire

e.g. MHC region sous selection balancee

⇒ reponse aux pressions liees aux maladies infectieuses Systeme nerveux :

e.g. regulation de la temperature corporelle, horloge circadienne et reproduction

⇒ nouvelles contraintes environnementales proporietes des poils et de la peau :

e.g. taille des poils (et des cornes), coloration

⇒ Adaptation a la chaleur

Page 23: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Modeliser la dependance spatiale des SNPs

Un modele CAR (Guo et al., 2009)

F ijST = θij = 1− (1− θi )(1− θj ) et log

(θi

1−θi

)= µ+ εi

CAR prior sur les εi : εi |ε−(i) ∼ N

(∑i 6=j

wij

wi+εj ,

1wi+σ

2

)ou wi+ =

I∑j=1

wij

definition des poids : wij =

c1 + c2e

−c3|dij | si j 6= i

0 si j = i

Limites du modele

definition des constantes (c1, c2 et c3), contrainte d’identifiabilite (∑εi = 0)

convergence, temps de calcul

Un modele autoregressif plus simple (en prep.)

extension du modele BB : π(αi |αi−1, τα, ψ)⇒ res. preliminaires satisfaisants

temps de calcul raisonnable

Page 24: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Page 25: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Modele avec selection (Vitalis et al., en prep)

Modele a l’equilibre : migration/derive/selection/sans mutation (Wright,

1969)

f (αij |.) ∝ eσij pij pijθj πi−1

(1− pij )θj (1−πi )−1

C =∫ 1

0 eσij pij pij

θj πi−1(1− pij )

θj (1−πi )−1= M(θj πi , θj , σij )

Γ(θj πi )Γ(θj (1−πi )

Γ(θj )

Estimation des coefficients de selection σij

Signal de selection =⇒ σij 6= 0

Page 26: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Page 27: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Page 28: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Structuration hierarchique des populations

Augmentation du taux de faux positifs a verifier avec lesmethodes Bayesiennes (cf. Excoffier et al.,2009)

Definition (a priori) de groupes de pops (sous reserve qu’ils soient grands)

Coop et al.(2010) (extension du modele de Nicholson et al.,2002)

αij = min(1,max(0, εij )) et εi = εijj

εi ∼ N (πi , πi (1− πi )Ω) avec Ω ∼ IW(J, JIJ )

Page 29: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Comparaison des modeles(36320 SNPs × 9 Pop )

Modeles DIC LPML t en h (100,000 iterations, 2.4 GHz)

ppp nich 1 765 541 -984 271 2,15ppp beta 1 788 464 -988 852 8,02ppp kim 1 780 618 -982 930 47,80riebsnp 1 783 185 -989 347 17,01arscan 1 780 590 -980 954 16,55guo4 1 783 687 -971 453 35,29selestim 1 791 233 -988 129 57,93

Page 30: Gautier m grenoble_2011

Introduction Modeles Demographiques Un exemple d’application Developpements Conclusion

Perspectives

Extension des modeles pour les donnees NGS (e.g. Gompert et al., 2011)

Evaluation (puissance/robustesse) pour differents types deselection :

Hard Sweep Soft sweep Adaptation Polygenique


Top Related