génération aléatoire de structures secondaires darn alain denise (lri) yann ponty (lri) olivier...

31
Génération aléatoire de structures secondaires d’ARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI)

Upload: germain-lambert

Post on 04-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Génération aléatoire de structures secondaires d’ARN

Alain Denise (LRI)Yann Ponty (LRI)Olivier Roques (LaBRI)Michel Termier (IGM)

Page 2: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques.

Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.

Paradigme : comparaison biologie/aléatoire

Page 3: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

>MET1 MET1 upstream sequence, from -702 to -1, size 702TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA>MET2 MET2 upstream sequence, from -800 to -1, size 800GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA>MET3 MET3 upstream sequence, from -800 to -1, size 800AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC>MET6 MET6 upstream sequence, from -222 to -1, size 222GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT>MET14 MET14 upstream sequence, from -800 to -1, size 800TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC>ZWF1 MET19 upstream sequence, from -558 to -1, size 558GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA>MET17 MET25 upstream sequence, from -800 to -1, size 800TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA>MET30 MET30 upstream sequence, from -800 to -1, size 800CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC>MUP3 MUP3 upstream sequence, from -61 to -1, size 61TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA>SAM1 SAM1 upstream sequence, from -548 to -1, size 548AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT

Extraction de promoteurs

Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden]

La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9

Page 4: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL G+ +VK+HGKKV A+++++AH+D++ +++++LS+LH KL 130HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHV---D--DMPNALSALSDLHAHKL ++ ++++H+ KV + +A ++ +L+ L+++H+ K 10LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG

HBA_HUMAN --GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL V+G + + D +++ + M + H -461tlk ILDMDVVEGSAARF-DCKVEGYPDPEVMWFKDDNPVKESRHFQ

BLOSUM50, pénalités de gap –14/-4

Seuils pour la comparaison de séquences

Score

Page 5: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)
Page 6: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Vers des modèles statistico-syntaxiques

Enrichir les modèles par plusieurs types de propriétés des séquences biologiques considérées, pour affiner les résultats de la comparaison biologique/aléatoire.

Ajouter aux paramètre statistiques classiquesdes paramètres structurels (syntaxiques).

Deux types d’approches : • Approches analytiques• Approche expérimentale

Page 7: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

5’

3’

ARN 16SE. coli

Contraintes structurelles : ARN

Problème : comment engendrer des structures secondaires d’ARN ayant des propriétés statistiques données ? (nombre de tiges, longueur des tiges, nombre de boucles internes…)

Page 8: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Objectifs : déterminer des paramètres biologiques pour la mesure de distance (matrices de substitution), étalonner et comparer les algorithmes, définir des seuils d’homologie.

Modèles combinatoires d’ARN et génération aléatoire.

Conception de matrices d’homologie d’après l’étude statistique des mutations dans les ARN.

Comparaison d’ARN[LaBRI, LRI, IGM]

Page 9: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

NNX XXY YYZ

AUG

H SP

Heptamère glissant Structure stimulatrice

5’

3’

Espaceur

E

Modèle de site de décalage [IGM, LRI]

Page 10: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

- ( ( ( ( ( - - - ) ) ) ( - - ( ( - - - - ) ) - - ) - - ) )

c a a a a a c c c b b b a c c a a c c c c b b c c b c c b b

Un langage pour les structures secondaires

S a S b S | c S |

Page 11: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Une grammaire pour les structures secondaires d’ARN

S a S b S | c S |

S cS caSbS caaSbSbS caaaSbSbSbS

caaaaSbSbSbSbS caaaaSbSbSbSbS

caaaaaSbSbSbSbSbS caaaaacSbSbSbSbSbS

caaaaacccbbbaccaaccccbbccbccbb =

S cS caSbS cabS cabcS cabc

Page 12: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)
Page 13: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

aabb accb acbc abab abcc cacb cabc ccab cccc

Génération aléatoire uniforme

S

aSbS cS

Longueur = 45/9 4/9

acSbS abS caSbS ccSaaSbSbS

accSbS acbS abaSbS abcS cacSbS cabS ccaSbS cccS

1/52/5

2/5 1/2 1/2

1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2

? ?

S a S b S | c S |

Page 14: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Génération aléatoire non uniforme contrôlée

aabb accb acbc abab abcc cacb cabc ccab cccc

S

aSbS cS

acSbS abS caSbS ccSaaSbSbS

accSbS acbS abaSbS abcS cacSbS cabS ccaSbS cccS

14/42 28/42

1/148/14

5/14 8/28 20/28

4/8 4/8 1/5 4/5 4/8 4/8 4/20 16/20

S a S b S | c S | + de nucléotides non appariés : Poids (a) = (b)=1 (c) = 2

1 4 4 1 4 4 4 4 16

Longueur = 4

[AD, O.Roques, M.Termier 2000]

Page 15: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

La pondération étant donnée, quelle est la fréquence moyenne i de la lettre xi ?Soit

Alors où et

Les fréquences des lettres étant données, quelle doit être la pondération ?

• Cas rationnel fortement connexe : résoudre un système d’équations algébriques.• Cas algébrique : à traiter…

kxxxw

k

wwwk xxxtwxxxtf ...)(),...,,,( 21

2121

)(][)(][

)( ,

tttt

nx

n

ii

)1,...,1,1,()...,,,,()( 21, t

xxxxtft

i

kxi

)1,...,1,1,()...,,,,()( 21 tt

xxxtftt k

Calculs de fréquences et de pondérations

Page 16: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

GenRGenS

www.lri.fr/~denise/GenRGenS/

Generation of Random Genomic Sequences

Page 17: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

GenRGenSGeneration of Random Genomic Sequences

Modèles Séquences

www.lri.fr/~denise/GenRGenS/

Page 18: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

www.lri.fr/~denise/GenRGenS/

Modèles

Séquences

GenRGenSGeneration of Random Genomic Sequences

- Markov homogène

- Markov hétérogène

- Context-Free Grammars

1.0

- Master generation1.1

1.2

- Expressions régulières(Motifs ProSite)

- Profils Généralisés

- Modélisation desPseudo-Nœuds ???

Page 19: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

www.lri.fr/~denise/GenRGenS/

ARN 3’ Ladder 5’

3’ t3 3’ | 5’ t5 5’ |

3’ 5’

Ladder ARN

Une grammaire pour la structure secondaire d’ARN( Inspirée de Waterman 78 )

Page 20: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ARN 3’ Ladder 5’

Une grammaire pour la structure secondaire d’ARN

Ladder a After_Ladder b

After_Ladder a After_Ladder b

www.lri.fr/~denise/GenRGenS/

After_Ladder After_Ladder

Ladder

Page 21: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ARN 3’ Ladder 5’

Une grammaire pour la structure secondaire d’ARN

www.lri.fr/~denise/GenRGenS/

Ladder a After_Ladder b

After_Ladder a After_Ladder b

| c Bulge Ladder Bulge c Bulge |

Bulge Ladder

After_Ladder

Page 22: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ARN 3’ Ladder 5’

Une grammaire pour la structure secondaire d’ARN

www.lri.fr/~denise/GenRGenS/

Ladder a After_Ladder b

After_Ladder a After_Ladder b| c Bulge Ladder

| d Internal_Loop Ladder Internal_Loop d

Internal_Loop d Internal_Loop | Ladder

Internal_Loop

After_Ladder

| Ladder c Bulge

Page 23: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ARN 3’ Ladder 5’

Une grammaire pour la structure secondaire d’ARN

www.lri.fr/~denise/GenRGenS/

Ladder a After_Ladder b

After_Ladder a After_Ladder b| c Bulge Ladder| d Internal_Loop Ladder Internal_Loop d

| e Loop Loop e Loop |

After_Ladder

Loop

| Ladder c Bulge

Page 24: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ARN 3’ Ladder 5’

Une grammaire pour la structure secondaire d’ARN

Ladder a After_Ladder b

After_Ladder a After_Ladder b| c Bulge Ladder| d Internal_Loop Ladder Internal_Loop d| e Loop

| f Multi_Loop Ladder f Multi_Loop Ladder Next_MLoopMulti_Loop f Multi_Loop |

Next_MLoop Multi_Loop | f Multi_Loop Ladder Next_MLoop

Multi_Loop

Ladder

Ladder Next_Mloop

After_Ladder

| Ladder c Bulge

Page 25: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

www.lri.fr/~denise/GenRGenS/

Génération équiprobable de structures secondaires

a a c c a a a a c c a d d d a a d a f a a f a a d a a e e b b d b b f f a d d a e b d b f f f a e b f b c b f f a d d a d a e e e e b d b d d b f f a a e e b b b d b b d d b b b b b b c c c c c c b c

a a c a f f f f f a e b f a a a a f a f a e e b f f f f a a f f a c c c a c c a d a a e e b b d b b b f a e b f f a d a e b d b f f f b b f b f a e b f b b b b f f f a e e e e b f f b b c b c c c c c

c a a f a e e b f a c a a f f f a c c c a a a a e b b b c c b b f a c a c a e e b b b b c c c b b f f f f f a f f a f a a e b b f f f a d d a e b d b b f a a a a a e b b b c c c c c b c b b f f b b c

c c a a f a a c a e b b c b f a c a f a e e b f f a a f a a e b c b f a d a c a f a d a f a e b f a a e b b b d b f a f a e b f a a a e b b b f b b b d b f f a a d a e b d d b c b b b f f f b b b c b

c a a f f a f a e b f a e b f a f a f a f a c c a a d a c a a e b b b d b b b f f a e b b f a a e e e b b b f f a f a f f a a e b b f f f f f f f a e e e b b f a e e e b f b b f f b f a a e b b f b b

a a a f a a d d d d d d d a a a f a d d a a a a c c a c a f a d d d d d d a d a a e b b d d b d d b f f a e b b b b b b c c c c b d b f f a e e e e e b f f f b b b d d d d d b b f a a e e b c b b b b

a d a f a a c a a e e e e e b c b b c c b f f a d a d a f a f f a f f f f f f f f a a c c a a a e b b c c b b b f f a c c c a e e e e e b b f f b f a e e e e b f f f b f a e e e b f b d b d d b b d b

c a f a e b f f f a a d d d a c c a f a a c c a c c a a e e b c c b b b c c c b f a e b f f f a a e e b b f a e b f f f a a c c a e b b b b b d b b f a a a d d d d d d a f a e e b f a e b b d b b b b

c c c c c c a a a c a a a a c a f a f f a e b f a c a d d d d a f f f a c a a e b c c b b f a e b b d d d d b b f a c c a a a a e b b c b b b f f b f f a a e b c b f a e e e b b b b c c c b b b b c b

a f a c a c c a e b b b f f a f f a a d a e b d d b c c c b f f a a f f a a e b b f f a e e e b b b f f b f a a a d d d d d a a a c c a f a e e b f a a c a e e b b b b b b c c c c c b d d b b b f b c

a f a e b f a a f a c a e e e b b f f f a e b f a e b f f b c c b f a a a f f f a e b f a c a f a a d d d a e b d d b c b f a a c c c a a a a c a e e b b b b b b c b f f f a e b b b f f b b c c b b c

a f f a f a a a e e b b b f a a f f f a f f a e e b f f a c a f f a a c a e e b b c c c c c b f a e e b b b f f b f a e b f a a e b b f b c c c c c c b b f f f a c c a d a c a e e b b d b b b c c c c

a f f f a a e b c b f f f a e e e b f f f a f a f a e b f f a e e b f a f a a c c a e b b b f a c c a a c c a e b b c b b b f f a c a a a e b c b b b b f a d a a a c a e e b b c c b b d d b b f f b c

+ RNAViz

GenRGenS

Page 26: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

www.lri.fr/~denise/GenRGenS/

Génération équiprobable de structures secondaires

Page 27: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

www.lri.fr/~denise/GenRGenS/

Génération équiprobable de structures secondaires- Structures trop complexes

- Trop de bases non appariées

- Trop de Bulges

- Bulges trop gros

- Boucles pas assez grosses

Pondération des terminaux

On contraint ainsi les fréquences des terminaux.

On ne peut pas contraindre les fréquences des Bulges, Loop, … !!!

Page 28: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ARN 3’ Ladder 5’

Introduction de marqueurs dans la grammaire

Ladder ma After_Ladder mb

After_Ladder a After_Ladder b| mc Bulge Ladder| md Internal_Loop Ladder Internal_Loop md

| me Loop| mf Multi_Loop Ladder mf Multi_Loop Ladder Next_MLoop

Next_MLoop Multi_Loop | mf Multi_Loop Ladder Next_MLoop

| Ladder mc Bulge

3’ t3 3’ |

5’ t5 5’ |

Bulge c Bulge |

Loop e Loop |

Internal_Loop d Internal_Loop |

Multi_Loop f Multi_Loop |

www.lri.fr/~denise/GenRGenS/

Page 29: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ma

mb

mc

me

md

mf

a

b

c

d

e

f

0.5

0.5

0.5

0.5

0.2

0.5

1.2

1.2

0.5

0.5

1.2

0.5

Pondérations

Page 30: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

ma

mb

mc

me

md

mf

a

b

c

d

e

f

0.5

0.5

0.5

0.5

0.2

0.5

1.3

1.3

0.7

0.7

1.2

0.5

Pondérations

Page 31: Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Perspectives

• A partir de structures secondaires réelles :

Calculer les fréquences d’apparition des Bulges, Loop …

• Calculer une pondération telles que ces fréquences soient atteintes asymptotiquement.

Recherche d’une pondération adéquate :

Intégration de contraintes thermodynamiques simples :• Grammaire Markovienne pénalisant l’instabilité.