statistiques et séquences

81
Statistiques et séquences Phase 0 Phase 1 Phase 2 p - Document écrit chap. 5 

Upload: others

Post on 27-Oct-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistiques et séquences

Statistiques et séquences

Phase 0 Phase 1 Phase 2

p

-

Document écrit chap. 5 

Page 2: Statistiques et séquences

IntroductionUtilisation prédictive des biais statistiquesModélisation des séquences par des                                        chaines de MarkovModèles de Markov cachés, ou “HMM”

Page 3: Statistiques et séquences
Page 4: Statistiques et séquences

Séquence de dinosaure

● La séquence de Jurassic Park est­elle crédible? ● Comment pouvez­vous, bioinformaticiens, détecter une supercherie ou une erreur?

● Comment faire pour fabriquer de toutes pièces une séquence crédible?

● Quelles sont les applications de ce type d'analyse?

Page 5: Statistiques et séquences

Les séquences biologiques sont­elles aléatoires?

● Il existe des biais dans la distribution des nucléotides ● Ces biais reflètent une histoire évolutive, mélange de pressions sélectives systématiques et de hasard

● Ils peuvent être utilisés à des fins prédictives

Page 6: Statistiques et séquences

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces Griseus

Page 7: Statistiques et séquences

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces griseus

Page 8: Statistiques et séquences

Fréquence des nucléotides

Sur un génome complet, on peut calculer la fréquence dechaque nucléotide sur l'ensemble des deux brins d'ADN. 

Les règles d'appariement Watson­Crick imposent : 

fA = fT   et   fG = fC 

Il y a donc une seule fréquence indépendante, par exemple fG+C = fG + fCOn parle de taux de G+C d'un génome.

Il y a équidistribution ssi fG + fC = 50%

Page 9: Statistiques et séquences

Contenu en G+C des génomes

StreptomycesB pertussis

M lepraeE coli

H sapiensL lactis

A thalianaM genitaliumC botuliniumP falciparum

10         20           30          40           50          60          70          80   

% (G+C)

Page 10: Statistiques et séquences

Distribution des acides aminés dans les protéines

alanine 8.3 leucine 9.0asparagine 4.4 lysine 5.7aspartate 5.3 méthionine 2.4arginine 5.7 phénylalanine 3.9cystéine 1.7 proline 5.1glutamine 4.0 serine 6.9glutamate 6.2 tryptophane 1.3glycine 7.2 tyrosine 3.2histidine 2.2 thréonine 5.8isoleucine 5.2 valine 6.6

En %

Les fréquences sont à peu près les mêmes dans les différents organismes.

Page 11: Statistiques et séquences

Biais d'ordres plus élevés

Analyse de la fréquence des n­uplets

Soit un n­uplet de nucléotides (consécutifs) X1X2...Xn 

Si  fX1X2...Xn > fX1 fX2 ... fXn  n­uplet sur­représenté

Si  fX1X2...Xn < fX1 fX2 ... fXn  n­uplet sous­représenté

Si  fX1X2...Xn = fX1 fX2 ... fXn  neutre

Page 12: Statistiques et séquences

Fréquence des di­nucléotides

Distribution de la fréquencedes di-nucléotides XpY dans dessegments génomiques de 50 kb.

Fréquences normalisées: fXY/fX fY

Gentles & Karlin (2001) Genome Res 11:540

Page 13: Statistiques et séquences

Fréquence des di­nucléotides

CpG est sous-représentéchez les vertébrés

Distribution de la fréquencedes di-nucléotides XpY dans dessegments génomiques de 50 kb.

Fréquences normalisées: fXY/fX fY

Gentles & Karlin (2001) Genome Res. 11:540

Page 14: Statistiques et séquences

Un mécanisme d'élimination desséquences CpG chez les vertébrés

N

NH2

O

N

N

O

O

NH

Dans l'ADN, les cytosines sont sensibles à l'oxidation.Les désoxi-uridines résultantes sont réparées par une machinerie spécialisée.

cytosine uridine

C

G

U

G

G

C

Goxidation excision réparation

oxidation

Page 15: Statistiques et séquences

N

NH2

O

N

N

O

O

NH

Dans les séquences CpG vertébrés, le C est souvent méthylé (70% du génome).La réparation peut alors causer une mutation; d'où une disparition progessive.

5-méthyl-cytosine thymidine

CG

GC

oxidation excision réparation

TG

GC TG

C

G

GC

TG

AC

CG

GC

Un mécanisme d'élimination desséquences CpG chez les vertébrés

Page 16: Statistiques et séquences

Les biais les plus importantssont ceux d'ordre 3

Ils se manifestent dans les régions codantes.

Ils résultent de la structure du code génétique,qui utilise des triplets de nucléotides.

Page 17: Statistiques et séquences

Les contraintes sur la composition des protéinesse répercutent sur les parties codantes de l'ADN

Codons STOP systématiquement évités quand ilssont dans la phase de lecture, sur le brin codant.

Fréquences particulières des différents acides aminés.

Par exemple:  1.3% de Trp 1.3% de codons TGG     2.4% de Met 2.4% de codons ATG

Page 18: Statistiques et séquences

Le code génétique est dégénéré61 codons “sens” pour 20 acides aminés

Page 19: Statistiques et séquences

La cellule exprime des préférencesentre les différents codons synonymes

Ces préférences sont spécifiques de chaque espèce

Page 20: Statistiques et séquences

Fréquence des codons (0/00)

E coli

H sapiens

TTT : Phe   19 TCT : Ser     10 TAT : Tyr   15 TGT : Cys  6TTC : Phe   18 TCC : Ser  10  TAC : Tyr   14 TGC : Cys  5TTA : Leu   10 TCA : Ser    6 TAA : Stop    TGA : StopTTG : Leu   11 TCG : Ser    8 TAG : Stop  TGG : Trp 13CTT : Leu   10 CCT : Pro    6 CAT : His   11 CGT : Arg 25CTC : Leu   10 CCC : Pro        4 CAC : His   11 CGC : Arg 22CTA : Leu    3 CCA : Pro    8 CAA : Gln   13 CGA : Arg  3CTG : Leu      55 CCG : Pro   24 CAG : Gln   30 CGT : Arg  4ATT : Ile   27 ACT : Thr   11 AAT : Asn   16 AGT : Ser  7ATC : Ile   28 ACC : Thr   24 AAC : Asn   25 AGC : Ser 15ATA : Ile    4 ACA : Thr    6 AAA : Lys   37 AGA : Arg  2ATG : Met   27 ACG : Thr      12 AAG : Lys   12 AGG : Arg  1GTT : Val   21 GCT : Ala   18 GAT : Asp   32 GGT : Gly 29GTC : Val   14 GCC : Ala   23 GAC : Asp   23 GGC : Gly 31GTA : Val   12 GCA : Ala   20 GAA : Glu   44 GGA : Gly  7GTG : Val   25 GCG : Ala   33 GAG : Glu   20 GGG : Gly  9

TTT : Phe   16 TCT : Ser     13 TAT : Tyr   13 TGT : Cys 10TTC : Phe   23 TCC : Ser  18  TAC : Tyr   19 TGC : Cys 15TTA : Leu    5 TCA : Ser    9 TAA : Stop    TGA : StopTTG : Leu   11 TCG : Ser    4 TAG : Stop  TGG : Trp 14CTT : Leu   11 CCT : Pro   16 CAT : His    9 CGT : Arg  5CTC : Leu   20 CCC : Pro       20 CAC : His   14 CGC : Arg 11CTA : Leu    6 CCA : Pro   14 CAA : Gln   11 CGA : Arg  5CTG : Leu      43 CCG : Pro    6 CAG : Gln   34 CGT : Arg  4ATT : Ile   15 ACT : Thr   13 AAT : Asn   17 AGT : Ser 10ATC : Ile   24 ACC : Thr   23 AAC : Asn   23 AGC : Ser 19ATA : Ile    6 ACA : Thr   14 AAA : Lys   22 AGA : Arg 10ATG : Met   23 ACG : Thr       7 AAG : Lys   35 AGG : Arg 11GTT : Val   10 GCT : Ala   20 GAT : Asp   22 GGT : Gly 11GTC : Val   16 GCC : Ala   29 GAC : Asp   29 GGC : Gly 25GTA : Val    6 GCA : Ala   14 GAA : Glu   27 GGA : Gly 17GTG : Val   31 GCG : Ala    7 GAG : Glu   41 GGG : Gly 17

Page 21: Statistiques et séquences

L'usage du code génétique suitapproximativement l'évolution

Xénope

Hom

o sa

pie n

sRang des codons chez H sapiensvs leur rang chez le xénope

Page 22: Statistiques et séquences

L'usage du code génétique suitapproximativement l'évolution

Drosophile

Hom

o sa

pie n

s

Page 23: Statistiques et séquences

L'usage du code génétique suitapproximativement l'évolution

Escherichia coli

Hom

o  sa

pie n

s

Page 24: Statistiques et séquences

L'évitement du dinucléotide CpGaffecte l'usage des codons chez l'homme

NCG

NCA

NCC

NCT

0 6 12 18 24 30

Proline (CCN) Thréonine (ACN) Alanine (GCN) Sérine (TCN)

Fréquence chez H sapiens (0/00)

Page 25: Statistiques et séquences

L'usage des codons est corrélé àl'abondance des ARNt isoaccepteurs

E coli dataJ. Mol. Biol. (1996) 260:649

croissancelente

croissancerapide

Page 26: Statistiques et séquences

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

Page 27: Statistiques et séquences

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

En cas de mauvais appariement, l'ARNt est rejeté.

Page 28: Statistiques et séquences

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

Page 29: Statistiques et séquences

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

Le processus se répète jusqu'à l'arrivée d'un ARNt correct.

Page 30: Statistiques et séquences

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

Page 31: Statistiques et séquences

Le nombre moyen d'essais par codon dépendde l'abondance relative de l'ARNt recherché

<nessais>  = [ARNt total][ARNt recherché]

En utilisant préférentiellement les codons correspondant auxARNt les plus abondants, la cellule augmente la vitesse de traduction

Page 32: Statistiques et séquences

Les gènes les plus exprimés sont les “mieux adaptés”(i.e., ils utilisent les ARNt les plus abondants)

Fréquence d'utilisation du codon optimal

Nom

bre 

de m

oléc

ules

de p

roté

ine 

par c

ellu

le quelques gènesde E coli

Le biais d'usage des codons est d'autant plus marquéque le gène est fortement traduit.

(Moyenne=635)

Page 33: Statistiques et séquences

Utilisation prédictive des biais statistiques

Page 34: Statistiques et séquences

Exemples de prédictions statistiques

● Classification des séquences en fonction des propriétésde la distribution des nucléotides 

­ Régions codantes / non­codantes­ Introns / exons ­ Prédictions des cadres de lecture ­ Prédictions du taux d'expression 

● Détection d'erreurs ­ Erreurs de séquençage ­ Insertions / délétions ­ Contaminations par de l'ADN exogène 

● Etudes phylogénétiques ­ Transfert de gènes

Page 35: Statistiques et séquences

Une méthode de détection des régions codantes

Détection des biais de période 3

D = S S   | fN,phase i  ­ fN |

N=A,C,G,T3 phases

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

fA, phase 0  =   11/20  =  0.55

fA              =  24/60   =  0.40

Page 36: Statistiques et séquences

Une méthode de détection des régions codantes

On calcule le score D sur une fenêtre de N triplets de base (N=10 à 100)

On translate progressivement la fenêtre en traçant la valeurdu score en fonction de la position du centre de la fenêtre.

Page 37: Statistiques et séquences

D = S S    | fN,phase i  ­ fN |N=A,C,G,T 3 phases

fréq

uenc

e

La distribution de probabilité de D est différentedans les régions codantes et non­codantes.

Une méthode de détection des régions codantes

Méthode indépendante de la table d'usage des codons

Page 38: Statistiques et séquences

Niveau d'expression d'un gène

Indice d'adaptation des codons (“CAI”) pour un gène donné:

Le CAI  1 lorsque l'usage des codons est optimal

Pour un gène donné, on considère tous ses codons, i = 1, … L, et on définitwi  = fcodon i / fcodon majoritaire     1f = fréquences mesurées pour des protéines de référence fortement 

exprimées 

Indice = ( P wi )1/L  =  moyenne géométrique sur les L codons du gèneL

i

NAR '87

Page 39: Statistiques et séquences

Exemples de CAI chez E coli

Répresseur Metb­galactosidase

phosphofructokinaseARN polymérase

ribosomelipoprotéine

Application: prédiction du niveau d'expressiond'un gène de fonction inconnue

Page 40: Statistiques et séquences

Exemples de CAI chez la levure

Mesures précises et exhaustives de l'expression des protéines de la levure.Nature, 2003, 425:737

Page 41: Statistiques et séquences

Modélisation des séquences d'ADNpar des chaînes de Markov

Page 42: Statistiques et séquences

Une séquence de dinosaure?

Taux de G+C? 60.4%Fréquence de CpG?  fCG/fC fG = 1.14

Pas très crédible...

Page 43: Statistiques et séquences

Comment fabriquer une séquencede dinosaure crédible?

Fréquences des mono­ et dinucléotides chez les vertébrés:

fA = 0.30 fC = 0.21fT = 0.29 fG = 0.21

    A     C   G    TA 0.102 0.055 0.071 0.074C 0.077 0.057 0.010 0.069G 0.059 0.046 0.054 0.048T 0.062 0.057 0.072 0.087

3'

5'

Ajouter itérativement des nucléotides en respectant ces fréquences

Page 44: Statistiques et séquences

Générateur de séquences aléatoires

A partir de la table de fréquences, on a les probabilités conditionnelles:

p(A | C)  =          =  fCA  fC

              fCA    fCA + fCC + fCG + fCT  

  A       C  G  TA 34% 18% 24% 25% 100%C 36% 27% 5% 32% 100%G 28% 22% 26% 23% 100%T 22% 21% 26% 31% 100%

Y   3'

X   5'

Munis d'un générateur de nombres aléatoires, nous pouvons fabriquerune pseudo­séquence respectant la distribution souhaitée.

Yp(Y|X)=1

p(Y|X)

Page 45: Statistiques et séquences

Générateur de séquences aléatoires

A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGT

Page 46: Statistiques et séquences

Générateur de séquences aléatoires

A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGT

Nombre tiréaléatoirement:

34

Page 47: Statistiques et séquences

Générateur de séquences aléatoires

A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGTC

Nombre tiréaléatoirement:

34

Page 48: Statistiques et séquences

Générateur de séquences aléatoires

A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGTC

Page 49: Statistiques et séquences

Générateur de séquences aléatoires

A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGTC

Nombre tiréaléatoirement:

92

Page 50: Statistiques et séquences

Générateur de séquences aléatoires

A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGTCT

Nombre tiréaléatoirement:

92

Processus ou chaîne de Markov

Page 51: Statistiques et séquences

Chaîne de Markov

Processus aléatoire discret:le système passe d'un état ei à un état ei+1 suivant une loi de probabilité p(ei+1| ei)

L'évolution future du système à partir de l'instant i ne dépend pas de l'histoire antérieure, mais seulement de i.

Généralisation aux biais d'ordres plus élevés:le système passe de ei à ei+1 suivant uneloi de probabilité p(ei+1| ei,  ei­1, ..., ei­k+1)

Pas demémoire

Mémoiredes k instants

antérieurs

Page 52: Statistiques et séquences

Pour une séquence donnée, quelle est la probabilité Pqu'elle soit produite par la chaîne de Markov donnée?

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en­1)

  A    C  G  TA 34% 18% 24% 25%C 36% 27% 5% 32%G 28% 22% 26% 23%T 22% 21% 26% 31%

3'

5'

P(AATG) = 0.30 × 0.34 × 0.25 × 0.26   1/151

P(CGCG) = 0.21 × 0.05 × 0.22 × 0.05   1/8658 

fA = 0.30 fC = 0.21fT = 0.28 fG = 0.21

Tests d'hypothèses a posteriori

Page 53: Statistiques et séquences

Les cellules de mammifère en culture peuvent être contaminéespar des mycoplasmes, parasites bactériens intracellulaires.

Si on extrait l'ADN decultures contaminées,on obtient un mélange.

Après séquençage, comment reconnaître l'ADNmammifère de l'ADN mycoplasmique ?

Discrimination entre deux hypothèses: exemple 1

Page 54: Statistiques et séquences

  A    C  G  TA 34% 18% 24% 25%C 36% 27% 5% 32%G 28% 22% 26% 23%T 22% 21% 26% 31%

3'

5'

  A    C  G  TA 42% 15% 17% 26%C 40% 18% 6.5% 36%G 31% 19% 18% 32%T 26% 14% 19% 42%

3'

5'

humain mycoplasme

S = TTCAAATAATCGTGAAATATCTT

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en­1)

Phumain(S)= 4.3 10­15  Pmycoplasme(S) = 18.7 10­15

Discrimination entre deux hypothèses: exemple 1

Page 55: Statistiques et séquences

TTT : Phe   19 TCT : Ser     10 TAT : Tyr   15 TGT : Cys  6TTC : Phe   18 TCC : Ser  10  TAC : Tyr   14 TGC : Cys  5TTA : Leu   10 TCA : Ser    6 TAA : Stop    TGA : StopTTG : Leu   11 TCG : Ser    8 TAG : Stop  TGG : Trp 13CTT : Leu   10 CCT : Pro    6 CAT : His   11 CGT : Arg 25CTC : Leu   10 CCC : Pro        4 CAC : His   11 CGC : Arg 22CTA : Leu    3 CCA : Pro    8 CAA : Gln   13 CGA : Arg  3CTG : Leu      55 CCG : Pro   24 CAG : Gln   30 CGT : Arg  4ATT : Ile   27 ACT : Thr   11 AAT : Asn   16 AGT : Ser  7ATC : Ile   28 ACC : Thr   24 AAC : Asn   25 AGC : Ser 15ATA : Ile    4 ACA : Thr    6 AAA : Lys   37 AGA : Arg  2ATG : Met   27 ACG : Thr      12 AAG : Lys   12 AGG : Arg  1GTT : Val   21 GCT : Ala   18 GAT : Asp   32 GGT : Gly 29GTC : Val   14 GCC : Ala   23 GAC : Asp   23 GGC : Gly 31GTA : Val   12 GCA : Ala   20 GAA : Glu   44 GGA : Gly  7GTG : Val   25 GCG : Ala   33 GAG : Glu   20 GGG : Gly  9

La table d'usage descodons n'est calculéeque pour les tripletsen phase 0 (les codons):

   P0(NN'N'')

C'est insuffisant pour construire le modèle de Markov.

Exemple 2: recherche de la phase codante

Modèle de Markov d'ordre deux:   pi(ek|ek­1 ek­2),  i=phase 

ATGAGTAAGCTGAAAGAGTACAGAp0p1

p2

Phase 0

Phase 2Phase 1

Page 56: Statistiques et séquences

Fréquences des triplets

A partir des probabilités P0(NN'N'') des codons, on peut estimerles probabilités de tous les triplets dans les deux autres phases.

Exemple: TTT en phase 1: NTTTNN

probabilité = P1(TTT) = P0(NTT) x P0(TNN)= [P0(ATT)+P0(CTT)+P0(GTT)+P0(TTT)] x P0(TNN) 

P1(ABC)  = P0(NAB) P0(CNN)P2(ABC)  = P1(NAB) P1(CNN)  

ATGAGTAAGCTGAAAGAGTACAGAP0P1

P2

Phase 0

Phase 2Phase 1

Page 57: Statistiques et séquences

Construction d'un modèle de Markovcomplexe simulant les séquences codantes

p(ek|ek­1 ek­2) = pi(k)(ek|ek­1 ek­2)

ATGAGTAAGCTGAAAGAGTACAGAP0P1

P2

Phase 0

Phase 2Phase 1

On peut maintenant construire un modèle de Markov avec une probabilité de transition ek­2 ek­1   e→ k

qui dépend de la phase courante i(k):

Page 58: Statistiques et séquences

Construction d'un modèle de Markovcomplexe simulant les séquences codantes

Phase 0 Phase 1 Phase 2

p(ek|ek­1 ek­2) = pi(k)(ek|ek­1 ek­2)

ATGAGTAAGCTGAAAGAGTACAGAP0P1

P2

Phase 0

Phase 2Phase 1

On peut maintenant construire un modèle de Markov avec une probabilité de transition ek­2 ek­1   e→ k

qui dépend de la phase courante i(k):

Flèches = transitions entre états

Page 59: Statistiques et séquences

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2,e1) p(e4|e3,e2) ... p(en|en­1,en­2)

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP0P1P2

On peut calculer la probabilité d'une séquence sous chaque hypothèse

Exemple 2: recherche a posteriori de la phase codante

1ère hypothèse:

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP2P0P1

2ème hypothèse:

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP1P2P0

3ème hypothèse:

Page 60: Statistiques et séquences

Exemple: un gène d'E coli

ATGAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGGCGAAATTCGCGCCCCAGGAAGTTCG

25 premiers codons

prob(phase 0) = 10­97 prob(phase 1) = 10­105 prob(phase 2) = 10­104

La phase correcte obtient une probabilité 107

fois supérieure à celle des deux autres.

Prédiction indépendante de la présence de codonsde démarrage ou de codons stop

Probabilités que la séquence soit produite par le modèle en phase 0, 1, 2

Page 61: Statistiques et séquences

S'il y a des erreurs de séquençage,le problème change de nature!

Page 62: Statistiques et séquences

Modèles de Markov cachées, ou “HMM”

Hidden Markov Models

Page 63: Statistiques et séquences

S'il y a des erreurs de séquençage,le problème change de nature

Les erreurs de séquençage et en particulier les insertions/délétionspeuvent fausser la détection des cadres ouverts de lecture

Décalages de phase 

Evénements rares :  fréquence  p    1/1000 

Comment repérer et corriger les erreurs de séquençage ? 

Modèle de Markov de séquence codante avec erreurs:notion de modèle de Markov “caché”

Page 64: Statistiques et séquences

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

L'objet: une séquence supposée codante, pouvantcontenir une petite fraction d'erreurs, sous formed'insertions ou délétions survenues lors du séquençage

Position des erreurs: inconnue

Phase de lecture: inconnue et changeante (rarement)

L'objectif: décoder la séquence, donc identifier lecadre de lecture à chaque position dans la séquence

Le modèle de Markov: doit génèrer des séquences “codantes” plus une petite fraction de décalages de phase

Page 65: Statistiques et séquences

Modèle de séquences codantes avec erreurs de phase

Phase 0 Phase 1 Phase 2Modèle deséquencessans erreurs

Page 66: Statistiques et séquences

Phase 0 Phase 1 Phase 2

On autorise des transitions correspondant aux erreurs de phase:insertions/délétions (en pointillés rouges):

Phase 0 Phase 1 Phase 2Modèle deséquencessans erreurs

Modèle deséquencesavec erreurs

p

p

Modèle de séquences codantes avec erreurs de phase

Page 67: Statistiques et séquences

Modèle de séquences avec erreurs de phase

On autorise des transitions correspondant aux erreurs de phase (pointillés):

Ce modèle permet de générer des séquences, mais pas decalculer des probabilités a posteriori.

En effet, pour un nucléotide donné dans une séquence analysée, il y a 3 états possiblesde la chaîne de Markov (phases 0, 1, 2).

En pratique, on ne “voit” pas l'état détaillé de la chaîne de Markov,seulement le nucléotide produit...

Modèle de Markov caché ou “HMM”

Phase 0 Phase 1 Phase 2

p

p

Page 68: Statistiques et séquences

Modèle de Markov caché

Connaitre la phase codante à chaque position

Phase 0 Phase 1 Phase 2

p

p

Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

Page 69: Statistiques et séquences

Modèle de Markov caché

Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

A chaque étape du processus de Markov, on va1) changer de phase ou non2) produire un nucléotide

Vocabulaire: on dit que le nucléotide est “émis”;à chaque état du modèle correspond une distributionde probabilité pour la production (l'émission) des nucléotides

Phase 0 Phase 1 Phase 2

p

p

Page 70: Statistiques et séquences

Modèle de Markov caché

Connaitre la phase codante à chaque position

Pour une séquence de longueur n, il y a 3n parcours possibles!

Heureusement, il y a....

Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

Phase 0 Phase 1 Phase 2

p

p

Page 71: Statistiques et séquences

La programmation dynamique!

On cherchera le parcours le plus probable,avec une méthode récursive (simple).

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

Phase 0 Phase 1 Phase 2

p

p

Page 72: Statistiques et séquences

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0

phase 1

phase 2

Un chemin qui démarre en phase 0 etavec une insertion et une délétion

ATGAG­TAAG

ATGAGTAAG

Un chemin qui démarre en phase 0et sans aucune erreur de phase

Phase 0 Phase 1 Phase 2 Phase 0 etc

Page 73: Statistiques et séquences

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0

phase 1

phase 2

Un chemin qui démarre en phase 0 etavec une insertion et une délétion

ATGAGTAAG

Un chemin qui démarre en phase 0et sans aucune erreur de phase

Lequel des deux chemins est le plus probable? Facile.Parmi les 39 = 19683 chemins possibles, quel est le plus probable?

Nettement plus difficile.

ATGAG­TAAG

Page 74: Statistiques et séquences

Recherche du chemin le plus probablepar programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i, avec le bon nucléotide n

k émis en k:

remplissage récursif d'une table 3 x n

phase 0

phase 1

phase 2P(1,k)

Page 75: Statistiques et séquences

Recherche du chemin le plus probablepar programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:On calcule la probabilité P(i,k) du meilleur chemin de 1 à k,se terminant dans la phase i (i=0, 1, ou 2):

P(i,k) = max [ P(j,k­1) pj,i(ek|ek­1,ek­2) ]j=0,1,2

On a la relation récursive:

probabilité de transition+émission en supposant une phase j en k­1 et une phase i en k:

pj,i(ek|ek­1,ek­2) = p(j i) → x pi(ek|ek­1,ek­2)                          transition       émission                         ( ou 1­2)  (dépend de i)

Page 76: Statistiques et séquences

Recherche du chemin le plus probablepar programmation dynamique:

algorithme de Viterbi

probabilité en supposantune phase j en k­1et une phase i en k

On a la relation récursive:

i=0

i=1

i=2

k­1 k

Si i = j+1 [3], transition standard;sinon, p

j,i = 

P(i,k) = max [ P(j,k­1) pj,i(ek|ek­1,ek­2) ]j=0,1,2

Page 77: Statistiques et séquences

Algorithme de Viterbi

Pour k = 1,...,n:On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i:

Remplissage d'une table P de dimensions 3 × n :

phase 0    p0(n

0)

phase 1    p1(n

0)

phase 2    p2(n

0)

initialisation

P(i,k) = max [ P(j,k­1) pj,i(ek|ek­1,ek­2) ]j=0,1,2

0   1  2 ...

Page 78: Statistiques et séquences

ATTAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGG CGAAATTCGCGCCCCAGGAAGTTCGCTTAACAGGTCTGGAAGGCGAGCAG CTTGGTATTGTGAGTCTGAGAGAAGCTCTGGAGAAAGCAGAAGAAGCCGG AGTAGACTTAGTCGAGATCAGCCTAACGCCGAGCCGCCGGTTTGTCGTAT

phase 0

phase 1

phase 2

nProbabilitémaximale

sauts de phase

Algorithme de Viterbi

Pour simplifierle dessin, onne montre la

phase que pourune base sur 3.

Exemple: une portion du gène infC de E. colien gris: résultat expérimental; souligné: prédiction de Viterbi

délétion délétion

Page 79: Statistiques et séquences

Ingrédients utilisés:­ la table d'utilisation des codons d'E. coli­ une valeur pour la probabilité p de saut de phase

Grandeurs intermédiaires:­ les tables de fréquence P

i des tri­nucléotides dans les 3 phases i possibles 

­ les probabilités pj,i(ek|ek­1,ek­2)

Relation de récursion et initialisation: simples

Phase 0 Phase 1 Phase 2

p

p

Page 80: Statistiques et séquences

Les HMM ont de très nombreuses applications

Cf chap 5 du livre de cours

Martin et al, BMC Struct Biol, 2006

Page 81: Statistiques et séquences

Les HMM ont de très nombreuses applications

Pour en savoir (beaucoup) plus:Biological sequence analysis:

probabilistic models of proteins and nucleic acidsR Durbin, S Eddy, A Krogh, G Mitchison

● Alignements de séquences● Recherche de gènes● Classification de protéines● Phylogénie

Cf chap 5 du livre de cours

X

Y

M

p

q

1-p

1-2qq

1-p

p