prédiction markovienne in silico des régions constantes et variables des lentivirus aurélia...
TRANSCRIPT
Prédiction markovienne in silico des régions constantes et
variables des lentivirus
Aurélia Boissin-Quillon
Directeurs de thèse : Dr Caroline Leroux (DR,INRA)
Pr Didier Piau (PR, Université Grenoble 1)
UMR754 « Rétrovirus et pathologie comparée »UMR5208 « Institut Camille Jordan »
Famille des Retroviridae Virus enveloppés à ARN Génome constitué de deux copies d’ARN simple brin
Les rétrovirus
gag
pol
env
SU TM
LTR
LTR
Le genre lentivirus
Un genre de la famille des Retroviridae Composé de HIV, EIAV, SRLV, SIV, FIV, BIV Grande variabilité génétique générée lors de la synthèse du matériel génétique
Répartition des mutations le long du génome des lentivirus
Mutations pas réparties de manière homogène Principalement gène env, notamment dans la partie codant la glycoprotéine de surface (SU). SU constituée d'une successionsuccession de régionsde régions constantes (constantes (pas ou peu de variabilité génétique) et de régionset de régions variablesariables (nombreuses mutations).
Réference1234567891011121314
QEYQCKKVNLNSSDSSNPVR------VEDVMNTTEYWGFKWLEC..........T--------------------D......................T--------------------D......................T--------------------D.I....................TT-------------------.......................M--------------------.......................M--------------------.......................M--------------------.................................------......................................------......................................------....I..............................T..------....I.................................------............................TA.N..IS.S------GKGERD..................E...TLKS.NSSIPPIHVED...EG.IM.F........
ENEMVNIND........G........G........V......ND-...............................................................................SV........-
TDTWIPKGCNETWAN.............N.............N.............N............PN.............N........................................................N........................................NG............N...T.........
QPPFFLVQEKGIANTSRIGNCGPTIFL........G.E........................G.E.D......................GE.........................G...T...K..................G..........................G..............................................................................................................................................................................................E..S.......................RVN..A...........
175|
269 295 | |
248 |
V V V
NQTENFKTILVP.........V.......L..............................................................................................................................
............ .....L......
C C C C
Identification de régions C et V chez tous les lentivirus
BIV
V1 V2 V3 V4 V5 V6
(550 aa)
C1 C2 C3 C4 C5 C6 C7
EIAV
V1 V2 V3 V4 V5 V6 V7 V8
(440 aa)C1 C2 C3 C4 C5 C6 C7 C8 C9
SIV
V1 V2 V3 V4 V5
(530 aa)
C1 C2 C3 C4 C5 C6
Le contexte biologique
Grande variabilité de tous les génomes lentiviraux entraîne des modifications de la biologie des virus : Échappement à la réponse immunitaire, virulence, tropisme cellulaire…
L’accumulation de mutations dans les régions variables peut provenir de :
• Taux de mutations localement élevé• Mécanismes de sélection• Combinaison de ces deux phénomènes
Déterminer s’il existe des signatures spécifiques des régions constantes et variables des lentivirus
Objectif
Méthode :Utiliser des outils mathématiques capables de segmenter les séquences en régions constantes et variables afin d’en extraire des caractéristiques de chacun de ces deux types de régions.
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
Un peu de vocabulaire…
TAC
Séquence
Lettre Mot
ACTATATT
Alphabet à 4 lettres : A={A,C,G,T}
Nucléotides Acides aminés
WYI
Alphabet à 20 lettres : A={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
Lettre Mot
LASHMRDP
Nombreuses méthodes de segmentation des séquences :
Modèles de rupture
Modèles de Markov cachés
Comment segmenter lesséquences (nt ou aa)?
Les modèles de Markov cachés
Chaîne de Chaîne de Markov 1Markov 1
Chaîne de Chaîne de Markov 2Markov 2
Chaîne de Chaîne de Markov 2Markov 2
Chaîne de Chaîne de Markov 1Markov 1
La succession des états cachés est décrite par une chaîne de Markov inobservable : la chaîne cachée
Une séquence hétérogène est considérée comme une succession de régions statistiquement homogènes appelées états cachés.
V1 V2C1 C2
Les différents modèles de Markov cachés
• Le modèle M1-M0 :Le modèle M1-M0 :
C
C C C V V C
A C T
Chaîne des états
Chaîne des observations
G
• Le modèle M1-M1 :Le modèle M1-M1 :• Le modèle M1-M5 :Le modèle M1-M5 :
C
T
Les paramètres des modèles de Markov cachés
Un modèle de Markov caché M1-Mm est entièrement défini par :
Le nombre N d’états cachés qui correspond au nombre de types de régions
Le nombre M de lettres différentes dans la séquence Les lois initiales qui permettent de modéliser ce qui se passe au début de la séquence au niveau des états et au niveau des observations
La matrice de transition T de la chaîne des états
La matrice d’émission E de la chaîne des observations
Les matrices de transition T et d’émission E
La matrice de transition TElle modélise la relation entre les états (passage d’un type de région à l’autre)
T(k,l)=P(Si+1=l | Si=k) pour k,l Є S avec ∑l ЄS T(k,l)=1
La matrice d’émission EElle modélise la relation entre les observations et les états.
Soit xi:j = (xi,xi+1,…,xj), alors, pour a1:m+1 Є A et k Є S :
E(k ,a1:m,am+1)=P(Xi+1=am+1 | Xi-m+1:i =a1:m, Si+1=k )
avec ∑am+1 Є A E(k ,a1:m, am+1) = 1
E =
MC
MV
Estimation des paramètres
Soient X(1),..,X(p) p séquences nucléotidiques ou déduites en acides aminés.Soit θ= {T,E} l’ensemble des paramètres du modèle à estimer.
On cherche : θ = argmax P(X(1),…,X(p) | θ)
Deux situations : La séquence des états cachés est connue (alignement) Comptage direct La séquence des états cachés est inconnue Algorithme de Baum-Welch
^
Algorithme de Baum-Welch
Algorithme de Baum-Welch = cas particulier de l’algorithme EM
Algorithme itératif consistant en l’alternance de deux phases:
• Phase E : Estimation de la séquence des états cachés • Phase M : Maximisation de la vraisemblance
A chaque itération, un nouvel ensemble de paramètres θ’ augmentant la vraisemblance est défini.
(expectation-maximisation)
Convergence vers un maximum local
Reconstruction de la séquence des états cachés
Séquence des états cachés les plus probables
Pour tout 1 ≤ i ≤ n et tout k Є S, on calcule : P(Si=k | X)
A C G T G C C TAA A TC TTG
C C C C V V V CCV C VC VVV
A C G T G C C TAA A TC TTG
1 1 1 1 2 2 2 111 2 22 222
Séquence des observations
Séquence des états cachés
Régions C et V
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
Le matériel utilisé
EIAV
V1 V2 V3 V4 V5 V6 V7 V8
187 séquences (GenBank)1200 nt ou 400 aa
Échantillon d’apprentissage : 94
Échantillon de test : 93
Quels modèles de Markov cachés?
Alphabet4 lettres (nt)
20 lettres (aa)
Nombre d’états cachés N
Deux types de régions : C et V N=2
Ordre du modèle mPas de procédure statistique bien définie augmentation progressive
V5V1 V2 V6 V7 V8V3 V4
200 400 800 1000 12000 600
État 2
État 1
nucléotides
Modèle M1-M5 sur les séquences nucléotidiques
Oscillation de la séquence des états cachés
Amélioration de l’estimation de la matrice d’émission Introduction d’une information supplémentaire
La matrice d’émission E va être estimée par comptage direct.
La matrice de transition T va être estimée par une variante de l’algorithme de Baum-Welch.
Algorithme de Baum-Welch avec matrice d’émission fixée
Définition d’un nouvel algorithme
Estimation des matrices d’émission sur chaque type de régions par comptage direct après alignement des séquences d’entraînement
Estimation de la matrice de transition T avec l’algorithme de Baum-Welch dont la phase M a été modifiée pour garder la matrice d’émission E à sa valeur estimée
Assemblage des matrices d’émission de chaque type de régions pour former un estimateur de la matrice E
Description de l’algorithme de Baum-Welch avec matrice d’émission fixée
Influence de l’ordre sur la qualité prédictive
Modèle M1-M0 sur les séquences nucléotidiques
V5V1 V2 V6 V7 V8V3 V4
200 400 800 1000 12000 600
État 2
État 1
nucléotides
V5V1 V2 V6 V7 V8V3 V4
Influence de l’ordre sur la qualité prédictive
Modèle M1-M1 sur les séquences nucléotidiques
V5V1 V2 V6 V7 V8V3 V4
200 400 800 1000 12000 600
État 2
État 1
nucléotides
V5V1 V2 V6 V7 V8V3 V4
Les régions C et V d’EIAV ont des compositions en mots de nucléotides différentes
200 400 800 1000 12000 600
État 2
État 1
nucléotides
V5V1 V2 V6 V7 V8V3 V4
Modèle M1-M5 sur les séquences nucléotidiques
100 200 4000 300
État 2
État 1
acides aminés
V5V1 V2 V6 V7 V8V3 V4
Les régions C et V d’EIAV ont des compositions en mots d’acides aminés différentes
Modèle M1-M1 sur les séquences déduites en acides aminés
Pour résumer :Il existe des modèles de Markov cachés d’ordre 5 sur les nucléotides ou d’ordre 1 sur les acides aminés capables de différencier avec une grande précision les régions C et V d’EIAV
Les régions C d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état
Les régions V d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état, tout en ayant chacune un profil statistique qui lui est propre
Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V
V5V1 V2 V6 V7 V8V3 V4
État 5
État 8
État 9
État 6
État 7
État 3
État 4
État 2
État 1
200 400 800 1000 12006000
Modèle M1-M5 sur les séquences nucléotidiques
nucléotides
Les régions V d’EIAV ont des compositions en mots de nucléotides différentes
Un biais possible : le surentraînement
Exemple de séquence d’apprentissage : séquence précoce
Exemple de séquence de test : séquence tardive
V1 V2 V3 V4
V1 V2 V3 V4
jours post- infection
37 -
38 -
39 -
40 -
41 -
42 -
- 50
- 100
- 150
- 200
- 250
- 0
- 10
0
- 20
0
- 30
0
- 60
0
- 50
0
- 40
0
- 70
0
- 80
0
- 90
0
- 10
00
Tem
per
atur
e °C
séquence tardiveséquence précoce
CKRVNLKKVNLTSSDSSIRVEDVGNTTEYWG
CKEVYWG
Les modèles ne sont pas surentraînés
V5V1 V2 V6 V7 V8V3 V4
État 5
État 8
État 9
État 6
État 7
État 3
État 4
État 2
État 1
200 400 800 1000 12006000
Modèle M1-M5 sur les séquences nucléotidiques
nucléotides
Un autre biais possible : influence de l’ordre et de la position des régions variables
Exemple de séquence d’apprentissage
Exemple de séquence de test
V1 V2 V3 V7 V8
V1 V2 V3 V7 V8V7’
Les modèles ne sont pas influencés par l’ordre ou la position des régions variables
V5V1 V2 V6 V7 V8V3 V4
État 5
État 8
État 9
État 6
État 7
État 3
État 4
État 2
État 1
200 400 800 1000 12006000
nucléotides
V7’
Il est possible de différencier les régions C et V d’EIAV à l’aide de modèles de Markov cachés.
Ces modèles ne sont basés ni sur un alignement de séquences, ni sur l’identification de grands motifs, ni sur l’ordre, la position ou la longueur des différentes régions.
Ces modèles s’appuient sur la composition en mots de nucléotides ou d’acides aminés de chaque type de région.
Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides
aminés des régions C et V
Pour résumer :
Quantification de la séparationdes régions C et V d’EIAV
Définition d’une « distance » entre matrices d’émission :
Soient P et Q les matrices de transition de deux chaînes de Markov et π la mesure stationnaire associée à P.
H(P|Q) = ∑(i,j) π(i) P(i,j) logP(i,j)
Q(i,j)
δ(P,Q)=H(P|Q)+H(Q|P)
Entropie relative :
Entropie relative symétrisée :
Il existe une séparation entre le groupe des régions constantes et le groupe des régions variables.
Test statistique il existe une différence significative entre les régions constantes et variables chaque région possède une signature qui lui est propre.
Etude de la séparation des régions C et V d’EIAV
Etude de la distance entre les régions constantes et variables d’EIAV :
δ(Ci,C) < δ(Ci,Vj) pour tous i et j
δ(Vi,V) < δ(Vi,Cj) pour tous i et j
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus
Exemple : HIV-1
Modèle M1-M5 sur les séquences nucléotidiques
nucléotides
Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus
Exemple : HIV-1
Modèle M1-M1 sur les séquences déduites en acides aminés
acides aminés
Performance des modèles
Lentivirus% d’acides aminés
bien étiquetés
EIAV 96
HIV-1 94
SIV 89
SRLV 96
Un modèle capable de différencier les régions C et V d’HIV-2?
V1/V2 V3 V4 V5
0 100 200 300 400 500
Etat 1
Etat 2
acides aminés
Modèle M1-M1 sur les séquences déduites en acides aminés
Définition des régions C et V d’HIV-2
V1/V2 V3 V4 V5
V1/V2 V3 V4 V5
V1/V2 V3 V4 V5
HIV-1
Homologie
Alignement
Il existe des régions C et V d’HIV-2 qui possèdent des caractéristiques statistiques différentes
0 100 200 300 400 500
Etat 1
Etat 2
acides aminés
Modèle M1-M1 sur les séquences déduites en acides aminés
V1/V2 V3 V4 V5
Il est possible de définir des modèles de Markov cachés capables de différencier
avec une bonne précision les régions constantes et variables des lentivirus
EIAV, HIV, SIV et SRLV.
Les régions C et V possèdent des propriétés statistiques communes
acides aminés
Modèle M1-M1 sur les séquences déduites en acides aminés
acides aminésacides aminésacides aminés
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
Analyse en Composantes Principales
Extraction de mots caractéristiques des régions C et V des lentivirus
Mot caractéristique = mot qui apparaît fréquemment dans un type de région
Méthode d’extraction :
MC = {w / FreqC(w) ≥ sC} MV = {w / FreqV(w) ≥ sV}
On veut définir :
et
séquences constantes (SeqC) majorité de mots MCséquences variables (SeqV) majorité de mots MV
tels que
On maximise P = P(majorité MC | SeqC) + P(majorité MV | SeqV)
Exemples de mots caractéristiques
Extraction de mots de 2 acides aminés caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M1 : (sc,sv)=(75,45)
MC
(216)
AE, AG, AV, AW, AY, CA, CC, CD, CG, CH, CL, CP, CQ, CR, CW, DA, DF, DG, DH, DM, HY, IE, IF, IH, IV, IW, IY, KA, KC, LE, LG, LH, RF, RH, RM, RR, RS, RV, SC, SE, SF, SL, SP, SV, SW, WM, WN, WP, YQ, YV, YY…
MV
(85)
AD, AL, AN, CE, GK, GN, GT, HH, HI, HV, IC, ID, IN, KG, KI, KK, KM, LD, LF, MD, MG, NS, NT, NY, PH, PK, PN, PR, QG, QN, RI, RK, SN, SR, SS, ST, TA, TD, TK, TL, TM, TN, WG, WI, WT, YA, YL, YN, YR, YW…
Extraction de mots de 6 nucléotides caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M5 : (sc,sv)=(75,45)
MC
(2080)
AAAACC, AAAAGC, AAAATT, AAACAG, AAACAT, AAACCC, AATCTA, AATCTC, AATCTG, AATGCC, AATGCG, CGGTTT, CGTATT, CGTCAG, CGTCAT, CGTCCA, CGTCTG, GCCTTT, GCGACA, GCGACC, GCGACG, GCGCAT, GCGCCC, GCGCCT, GCGCTC, GCGCTG, GCGGAA, GCGGCA, GCGGCT, GCGGGT, GCGGTA, TAATTT, TACACA, TTGTGA, TTGTGC, TTGTGG, TTGTTG, TTTAAA, TTTAAC, TTTAAG…
MV
(1007)
AACTAT, AACTCT, AACTGA, AACTGT, AACTTT, AAGACG, CCGTCA, CCTAAC, CCTAAG, CCTACA, CCTAGA, CTAGGT, CTAGTG, CTAGTT, CTGTCG, CTGTTC, CTGTTT, GATATA, GATCTT, GATGAC, GGGATT, GGGCGA, GGGCGC, GGGTAG, GTCGGC, TTAGTC, TTATAA, TTATTG, TTCAAC, TTCAGA...
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
Une reconstruction phylogénétique possible
Une distance entre virus :
Soit d(N|M) le pourcentage d’erreurs commises par le modèle M sur des séquences du virus N.
D(N,M)=d(N|M) + d(M|N)
HIV2
SIV
HIV1
SRLV
EIAV
5EIAV
SRLV
HIV-1
HIV-2
SIV
5
Le contexte biologique
Les outils mathématiques
Modèles prédictifs des régions constantes et variables d’EIAV
Extension des modèles aux autres lentivirus
Extraction de mots caractéristiques
Une autre application des modèles
Conclusions et perspectives
Plan
Conclusions
Mise au point d’une variante de l’algorithme de Baum-Welch permettant une segmentation fine des séquences
Différenciation des régions C et V de tous les lentivirus grâce à leur composition en mots de nucléotides ou d’acides aminés.
Existence une signature spécifique des régions V commune à l’ensemble des lentivirus.
Mise en évidence de mots caractéristiques des régions C et V des lentivirus.
Perspectives
Analyser en détails les motifs caractéristiques des régions constantes et variables
Développer un logiciel permettant d’identifier les régions constantes et variables de nouvelles séquences de lentivirus sans avoir besoin d’aligner ces séquences avec des séquences connues.
Etendre les modèles à d’autres régions du génome ou à d’autres virus ou à la recherche d’autres hétérogénéités « fines »