la comparaison des génomes - institut national de...
TRANSCRIPT
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
La comparaison des génomesApproche informatique
Thomas Faraut
Laboratoire de génétique cellulaireINRA Toulouse
8 octobre 2008 / GDR de cytogénomique
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Plan
1 Comparaison de séquencesBiologie moléculaire et informatiqueLe DotplotAlignementProgrammation DynamiqueMatrices de scoreBlastStatistique de scoreAlignement multiple
2 Comparaison de génomesOrthologie et paralogieEvolution chromosomique
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
L’approche comparative
"Il faut que nous puissions d’abord avoir une idée claire de leurscaractères distinctifs et de leurs propriétés communes"Histoire des Animaux, Aristote (384-322 avant JC)
• L’informatique permet essentiellement d’appliquerefficacement la démarche comparative en biologiemoléculaire.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
L’approche comparative
"Il faut que nous puissions d’abord avoir une idée claire de leurscaractères distinctifs et de leurs propriétés communes"Histoire des Animaux, Aristote (384-322 avant JC)
• L’informatique permet essentiellement d’appliquerefficacement la démarche comparative en biologiemoléculaire.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de séquences
On souhaite comparer les deux séquences suivantes :
• une séquence personnelle
>scac0001b_001_c04.t3.scf 812 0 812 SCFCAAAACTAAAGGAGTATCATGATAAAGAAGTACAAGGTTTACAAGTAAAAGTAACCAAACTGAAAAAGGAACGAATTTTAGATGCACAGAGACTGGAAGAATTCTTCACCAAAAATCAACAGCTGAGAGAGCAACAAAAAGTCCTTCATGAAACCATTAAAGTTTTAGAAGATCGATTAAGAGCAGGATTATGTGATCGCTGTGCAGTAACTGAAGAACATATGCGGAAGAAACAGCAAGAGTTTGAAAATATCCGGCAGCAGAATCTTAAACTTATCACAGAGCTTATGAATGAAAAGAATACTCTACAGGAAGAAAATAAAAAGCTTTCTGAACAGCTGCAGCAGAAAATTGAGAATGATCAGCAGCATCAAGCAACTGATGTTGAATCTGAGGAAGACATTATTCCAGATTCACCAA
• et une séquence annotée>NM_002894 Homo sapiens retinoblastoma binding protein 8 (RBBP8)GACGTCGCGCGGGCTCCCGGGCGGGGCGGGTCCGGCCGCCTCCGAGCCCGGCCGGCAGCCCCCGGCCTTAAAGCGCGGGCTGTCCGGAGGGGTCGGCTTTCCCACCGAGGATTTGGCACTCTGGTGAGGGAAAAGGGCGAAAGAGAAAAGCGAGCAGCCGTCCTTTCACAGCCTCAGAAAGTGCTCGCTTCCCTTCGGGGGCTTTCGCGAATCCCGAGGCAATCTCGGAGGCGGTATTTGACCTGTCCAAAGACGACTTGATACCTCTATAATGTAACAGAAAAGGTCAGAAAATATTAAGCAAGTAGAAGTGTGGAGCATATTAAGCAAGATGAACATCTCGGGAAGCAGCTGTGGAAGCCCTAACTCTGCAGATACATCTAGTGACTTTAAGGACCTTTGGACAAAACTAAAAGAATGTCATGATAGAGAAGTACAAGGTTTACAAGTAAAAGTAACCAAGCTAAAACAGGAACGAATCTTAGATGCACAAAGACTAGAAGAATTCTTCACCAAAAATCAACAGCTGAGGGAACAGCAGAAAGTCCTTCATGAAACCA
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Le DotplotUn une approche exploratoire graphique.
DOTPLOT of: aj251829.pnt Density: 19643.18 May 31, 2002 17:25
COMPARE/Word Word-Size 7 Alphabet: 4 Points: 35,614
y07829.gb_pr ck: 4,498, 1 to 17,284
aj251829.gb_om ck: 9,529, 20,000 to 40,000
0 5,000
10,000
15,000
40,00035,000
30,00025,000
20,000
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
DotplotLa similitude est représentée par le graphique d’une fonctionindicatrice
f (x , y) =
{
1 si la propriété Px,y est vraie0 sinon
G A T C A A CG *T *T *C * *A * * *G *C * *
Px,y ≡ {ax = by}.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
DotplotDOTPLOT of: aj251829.pnt Density: 19643.18 May 26, 2003 16:20
COMPARE/Word Word-Size 10 Alphabet: 4 Points: 1,677
y07829.gb_pr ck: 4,498, 1 to 17,284
aj251829.gb_om ck: 9,529, 20,000 to 40,000
0 5,000
10,000
15,000
40,00035,000
30,00025,000
20,000
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
La comparaison de polymères peut se ramener à la comparaisonde chaînes de caractères sur un alphabet A :
- A = {A, C, G, T} dans le cas de l’ADN.
- A = {A, R, N, . . .} pour la comparaison de protéines.
Dans une perspective évolutive, on considère les 3 mutationsélémentaires :
(a) insertion : insertion d’une ou plusieurs lettres ;
(b) délétion : suppression d’une ou plusieurs lettres ;
(c) substitution : remplacement d’une lettre par une autre.
Définition : On appelle alignement de deux séquences a et b, untableau à 2 lignes et à L colonnes :
a∗
1a∗
2a∗
3 . . . a∗
L
b∗
1b∗
2b∗
3 . . . b∗
L
où a∗
i = ai ou − et a∗(resp b∗) se réduit précisément à a (resp b)si l’on supprimme les indels.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Quel est le meilleur alignement entre les deux séquencessuivantes : ACACTCTA et ACGCACACA ?
A--CACTCTA AC--ACTCTA| |||.| | ou || ||.| |ACGCACAC-A ACGCACAC-A
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Distance d’éditionDéfinition : nombre minimum d’opérations élémentaires àeffectuer pour passer d’une séquence à une autre :
w(a, a) = 0w(a, b) = 1 si a 6= bw(a,−) = w(−, b) = 1
Il est possible de pénaliser différemment substitutions et indels.
Mesure de Similarité ou scoreExemple de mesure de similarité ou score :
α : pour une identité
δ : pénalité pour une substitution
µ : pénalité pour une insertion ou une délétion
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comment calculer le score d’un alignement ?
On effectue simplement la somme des scores ou des distancessur l’ensemble des résidus :
a∗
1a∗
2a∗
3 . . . a∗
L
b∗
1b∗
2b∗
3 . . . b∗
L
où a∗
i = ai ou −.pour la distance :
d(a, b) = ♯substitutions + ♯indels
et pour le score :
S(a, b) = α × ♯identité − δ × ♯substitutions − µ × ♯indels
ou plus généralement
S(a, b) =
L∑
i=1
s(a∗
i , b∗
i )
avec{
s(ai , bj) = score associé à la substitution de a par bs(a,−) = s(−, b) = µ
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
• Trouver le meilleur alignement c’est trouver l’alignement quiminimise la distance d’édition d(a, b) ou qui maximise lescore S(a, b).
• Comment trouver le meilleur alignement entre les deuxséquences ACACTCTA et ACGCACACA ?
Pour deux séquences de 140 résidus il y a 1082 alignementspossibles.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
• Trouver le meilleur alignement c’est trouver l’alignement quiminimise la distance d’édition d(a, b) ou qui maximise lescore S(a, b).
• Comment trouver le meilleur alignement entre les deuxséquences ACACTCTA et ACGCACACA ?
Pour deux séquences de 140 résidus il y a 1082 alignementspossibles.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C ATACAAGAAATACA
* * ** * * ** * **
* * * ** * * ** * *** * * ** * **
* ** * * ** * *** * * ** * *** * * ** * **
* * ** * * ** * **
* * * ** * * ** * **
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
0
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
0
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
6
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
6
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
match = +2 mismatch = -1 insettion/deletion = -2
2
4
2
2
6 4 2
4 5 6 4 2
2 3 7 5 6 4 2
4 5 9 7 5 3 1
2 6 7 11 9 7 5 3 2
4 5 9 10 8 6 7 5 3 1
2 3 7 8 9 7 8 9 7 5 3 1
2 5 6 10 8 6 7 11 9 7 5
3 4 8 8 10 8 9 13 11 9
1 5 6 10 8 9 7 11 15 13
3 4 8 12 10 8 9 13 17
2
2 4 2
2 6 4
4 5
2
4 2
2 6 4
4 8
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
2
4
2
2
6 4 2
4 5 6 4 2
2 3 7 5 6 4 2
4 5 9 7 5 3 1
2 6 7 11 9 7 5 3 2
4 5 9 10 8 6 7 5 3 1
2 3 7 8 9 7 8 9 7 5 3 1
2 5 6 10 8 6 7 11 9 7 5
3 4 8 8 10 8 9 13 11 9
1 5 6 10 8 9 7 11 15 13
3 4 8 12 10 8 9 13 17
2
2 4 2
2 6 4
4 5
2
4 2
2 6 4
4 8
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
2
4
2
2
6 4 2
4 5 6 4 2
2 3 7 5 6 4 2
4 5 9 7 5 3 1
2 6 7 11 9 7 5 3 2
4 5 9 10 8 6 7 5 3 1
2 3 7 8 9 7 8 9 7 5 3 1
2 5 6 10 8 6 7 11 9 7 5
3 4 8 8 10 8 9 13 11 9
1 5 6 10 8 9 7 11 15 13
3 4 8 12 10 8 9 13 17
2
2 4 2
2 6 4
4 5
2
4 2
2 6 4
4 8
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Programmation dynamique
T A C G A G A C T C A A T A C A
T
A
C
A
A
G
A
A
A
T
A
C
A
2
4
2
2
6 4 2
4 5 6 4 2
2 3 7 5 6 4 2
4 5 9 7 5 3 1
2 6 7 11 9 7 5 3 2
4 5 9 10 8 6 7 5 3 1
2 3 7 8 9 7 8 9 7 5 3 1
2 5 6 10 8 6 7 11 9 7 5
3 4 8 8 10 8 9 13 11 9
1 5 6 10 8 9 7 11 15 13
3 4 8 12 10 8 9 13 17
2
2 4 2
2 6 4
4 5
2
4 2
2 6 4
4 8
T A C G A G A C T C A A T A C A
| | | | | | | | | | | |
T A C A A G A - - - A A T A C A
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
On note F (i , j) le score du meilleur alignement entre lesséquences a1 . . . ai et b1 . . . bj . Une relation de récurrence simplelie les F (i , j) :
Fi−1,j−1 Fi−1,j
ց ↓Fi,j−1 → Fi,j
- A C A C T C T A- 0 -2 -4 -6A -2 2 0 -2C -4 0G -6 -2CACACA
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Alignement global : Needlman et Wunsch
Fi−1,j−1 Fi−1,j
ց ↓Fi,j−1 → Fi,j
Fi,j = Max{Fi−1,j−1 + s(ai , bj), Fi−1,j − δ, Fi,j−1 − δ}
Le score de l’alignement global optimal est donné par Fn,m.
F (n, m) = maxalign.
LX
i=1
s(a∗
i , b∗
i )
Solutions :A C − − A C T C T A| | | | | |A C G C A C A C − A
ou
A − − C A C T C T A| | | | | |A C G C A C A C − A
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Alignement local : Smith et Waterman
B
A
Fi,j = Max{ 0 , Fi−1,j−1 + s(ai , bj), Fi−1,j − δ, Fi,j−1 − δ}
Le score de l’alignement local optimal est donné par maxi,j Fi,j .
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Alignement local : Smith et Waterman
B
A
Fi,j = Max{ 0 , Fi−1,j−1 + s(ai , bj), Fi−1,j − δ, Fi,j−1 − δ}
Le score de l’alignement local optimal est donné par maxi,j Fi,j .
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Complexité algorithmique
La complexité algorithmique fournit une mesure du temps (ou del’espace mémoire) associé à l’exécution de l’algorithme enfonction de la taille de l’entrée (ici la longueur des séquences).L’algorithme de programmation dynamique pour l’alignement deséquences est de complexité O(mn) pour le temps et pourl’espace mémoire :
⇒ le temps d’éxécution est proportionnel au produit de lalongueur des séquences.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Les matrices de score
• Pour l’ADN, un score se contentant de différencier lesconservations des substitutions et des insertions/délétionssemble suffisant ;
• Pour les protéines, certaines substitutions sont plusfréquentes (mieux tolérées) que d’autres. Commentconstruire une matrice de score ?⇒ On peut utiliser des alignements confimés pour estimer le taux
de substitution.
On note fab la fréquence du couple (a, b) dans un alignementmultiple confirmé et fa la fréquence du résidu a. On peut définir lescore de la manière suivante :
s(a, b) = log(
fab
fafb
)
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Deux problèmes compliquent la construction des matrices descore :
1 Comment doit-on considérer la mutation de S → F (F → S)dans l’exemple suivant ?
Homme CYEGNGHFSouris CYHGNGDSRat CYHGNGQS
2 La pénalité associée à une substitution donnée dépend de ladistance évolutive entre les deux séquences. Unesubstitution rare est plus probable entre des séquenceséloignées qu’entre des séquences proches.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Les matrices PAMElles sont construites à partir des données suivantes :
- ensemble de séquences présentant un pourcentaged’identité de l’ordre de 85% ;
- alignement multiple de ces séquences ;
La construction d’un arbre phylogénétique à partir de l’alignementpermet d’estimer la fréquence des substitutions de a → b oub → a. On pose
fab = P(b|a, t) × fa
On fixe une unité de temps : 1 PAM (Point Accepted Mutation)=⇒ 1 substitution attendue sur une séquence de 100 acidesaminés. La théorie des chaînes de Markov permet de fournir lesprobabilités P(b|a, t) pour tout t et donc la matrice de score S.La matrice PAMx correspond à une distance évolutive de x PAM.Pour la matrice PAM250, le nombre moyen de substitutions parposition est de 2.5.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Les matrices BLOSUMPour contourner le problème de biais dans l’échantillon deséquences de l’alignement multiple, Henikoff et Henikoff ontproposé une autre approche :
• A partir d’alignements multiples, ils récupèrent des blocssans insertions/déletions.
A B B C D A . . . B B C D AD A B C D A . A . B B C B BB B B C D A B A . B C C A AA A A C D A C . D C B C D BC C B A D A B . D B B D C CA A A C A A . . . B B C C C
• L’étape suivante consiste à regrouper, au sein de chaquebloc, les séquences présentant plus de x% d’identité.
• Les fréquences de substitutions sont alors calculées au seindes blocs pour donner les matrices BLOSUMx .
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Les matrices BLOSUMPour contourner le problème de biais dans l’échantillon deséquences de l’alignement multiple, Henikoff et Henikoff ontproposé une autre approche :
• A partir d’alignements multiples, ils récupèrent des blocssans insertions/déletions.
A B B C D A . . . B B C D AD A B C D A . A . B B C B BB B B C D A B A . B C C A AA A A C D A C . D C B C D BC C B A D A B . D B B D C CA A A C A A . . . B B C C C
• L’étape suivante consiste à regrouper, au sein de chaquebloc, les séquences présentant plus de x% d’identité.
• Les fréquences de substitutions sont alors calculées au seindes blocs pour donner les matrices BLOSUMx .
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Les différentes matrices sont calibrées pour un temps dedivergence donné. Si l’on ne connait pas le temps de divergence,on ne peut pas, a priori, selectionner la matrice la plus adaptée.
Blosum PAM % IdentitéBlosum 90 PAM 100 43%Blosum 80 PAM 120 38%Blosum 60 PAM 160 30%Blosum 52 PAM 200 25%Blosum 45 PAM 250 20%
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Elle permet également d’étbalir une relation entre la matrice et lataille moyenne d’un alignment significatif.
Taille Matrice Pénalités d’indels≤ 35 PAM30 (9,1)35-50 PAM70 (10,1)50-85 BLOSUM60 (10,1)≥ BLOSUM62 (11,1)
Matrices recommandées pour différentes tailles de la séquencerequête
En l’absence d’une information a priori sur la nature del’homologie on conseille généralement l’utilisation de la matriceBLOSUM62.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Pour détecter des similitudes entre une séquence et desséquences présentes dans une banque
• comparer une séquence à l’ensemble des séquences d’unebase de données et considérer qu’un score d’alignementélevé suggère une relation d’homologie.
Problème :
• Il est beaucoup trop lent : ∼ 1 heure pour rechercher lemeilleur alignement entre une séquence de 500 pb et ladivision nr de Genbank (211 820 757 pb).
⇒ Il faut trouver d’autres solutions.
Algorithmes approchés ou heuristiques
- Ils sont beaucoup plus rapides (linéaires en temps :O(m + n))
- Il n’est plus assuré que l’alignement fourni soit lemeilleur.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
FASTA et BLASTLes deux programmes sont une généralisation du Dot-Plot.FASTA figure
• On construit un index de mots de longueur k (k-tuple) pour laséquence requête et la banque ;
• On compare les index et on ne retient que les séquences quipartagent, sur une même diagonale, un nombre important dek-tuple avec la séquence requête ;
• On recherche l’alignement optimal en utilisant pour lesséquences retenues l’algorithme de programmationdynamique restreint à une bande autour de la diagonale.
BLAST figure
• On construit un index flou de mots de longueur k pour laséquence requête et un index exact pour la banque ;
• Comme pour le programme Fasta, on compare les index eton retient les positions des mots qui sont dans les deuxindex.
• On tente de construire un alignement local à partir desoccurences précédentes.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
• Quel sens (valeur) donner à un score d’alignement. Un telscore peut-il être le fait du hasard ?
• On considère une générateur aléatoire de séquences et onnote S le score maximum obtenu à la suite d’un alignementde 2 séquences aléatoires.
On peut montrer que la loi de S se caractérise de la manièresuivante :
P[S > t ] ≈ 1 − exp(−Kmne−λt)
oû m et n sont les longueurs des séquences et K et λ sont desconstantes. C’est un cas particulier de la loi des valeurs extrêmes(loi de Gumbel) :
P[S > t ] = 1 − exp(−e−t)
−2 0 2 4 6 8 10
0.0
0.1
0.2
0.3
t
gum
bel
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
On note E , le nombre attendu (expected value ou e-value)d’alignements locaux de score supérieur ou égal à S :
E = Kmne−λS
Dans le cadre d’une recherche dans une banque, Le programmeBlast considère la banque comme un longue séquence. Lenombre attendu s’écrit alors :
E = KMne−λS
oû M désigne la taille de la banque en résidus.Pour des petites valeurs de E (≤ 0.01), ce nombre est équivalentà la p − value.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Interprétation statistique
Pour répondre à la question sur le röle du hasard on construit letest d’hypothèses suivant :
H0 : Le score observé aurait pu être obtenu à partir deséquences aléatoires.
H1 : Le score observé n’est pas le fait du hasard.
Nous avons modélisé la loi du score sous l’hypothèse H0 mais onne peut modéliser cette dernière sous H1. On devra se contenterde rejeter H0.
• Si la p-value est faible, on rejette l’hypothèse H0. Plus lap-value est faible, plus l’alignement est statistiquementsignificatif. Il reste à comprendre pourquoi l’hypothèse H0 estrejeté (ascendance commune ?).
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Désaccord entre la réalité et la modélisation du hasard
• Les régions de faibles complexité (exemple : CpG) sont endésaccord avec une génération indépendante des résidus ;
Il faut filtrer la requête avec un programme de détection deces régions (DUST pour l’ADN, SEG pour les protéines) ; onutilise généralement l’entropie de Shannon pour mesurer cettecomplexité :
H = −X
i
pi log pi
• Les homologies ne peuvent passer d’une séquence à l’autre.De plus les séquences de la base ne sont pas indépendantesmais peuvent souvent se regrouper en familles.
La taille effective de la banque est donc plus petite que lataille réelle ;
• Dans une chaîne de polymères, les positions ne sont pasindépendantes. Des contraintes sur la succesion des résiduspeuvent se traduire par une similarité indépendante de touteascendance commune.
Pas de solution.
On considère généralement qu’une e(p)-value inférieure à e−5
est significative.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Alignement multiple
• Il n’est pas difficile de généraliser l’algorithme deprogrammation dynamique à n séquences ;
• La complexité reste cependant trop importante pour que plusde 8 séquences puissent être comparées ;
⇒ Il faut utiliser des heuristiques
Alignment progressif
• On aligne progressivement les séquences en commençantpar aligner les séquences proches ;
• L’inconvénient d’une telle démarche est qu’un choix effectuéau début n’est jamais remis en question ;
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
CLUSTALW• Les scores de similarités issus de la comparaison 2 à 2 des N
séquences sont transformés en distances évolutives ;
• Un arbre phylogénétique des séquences est construit en utilisant laméthode de réunion de voisins (Neighbour Joining) à partir de cesdistances évolutives ;
• La progression de l’alignement se fait le long de l’arbre où à chaquenoeud, les séquences sont alignées entre elles, les séquences avecles alignements et les alignements entre eux.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
ProfilsQu’est-ce que PsiBlast ?
• On dispose d’une famille de protéines :CCRF2C ..GDAAKGEKEFN-KCKTCHSIIAPDGTEIV-KGAKTGPNLYGVVGRTAGTYPEFK-YKDSIVCCPC50 QDGDAAKGEKEFN-KCKACHMIQAPDGTDII-KGGKTGPNLYGVVGRKIASEEGFK-YGEGILCCQF2P .AGDAAVGEKIAKAKCTACHDLNKGGPI-------KVGPPLFGVFGRTTGTFAGYS-YSPGYTCCQF2R .EGDAAAGEKVSK-KCLACHTFDQGGAN-------KVGPNLFGVFENTAAHKDNYA-YSESYTConsensus QEGDAAAGEKEFNAKCKACHTINKPGGTDIVGKGAKTGPNLYGVVGRTAGTYAGFKGYGEGYT
• Comment identifier des nouvelles protéines de cette famille ?
On utilise de la même manière la programmation dynamique :
F ∗
i,j = Max{F ∗
i−1,j−1 + s∗
j (bi), F ∗
i−1,j − δ, F ∗
i,j−1 − δ}
où s∗
j (bi) mesure le score de l’alignement du résidu bi avec lacolonne j . La matricie de score est dîte position spécifique.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomesQuels sont les problèmes que pose la comparaison desgénomes ?
• Il est rare que l’on puisse tout aligner ;
• De nouvelles opérations évolutives sont à considérer ;
• Il faut gérer une masse de données considérable (en entréeet en sortie).
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomesQuels sont les problèmes que pose la comparaison desgénomes ?
• Il est rare que l’on puisse tout aligner ;
• De nouvelles opérations évolutives sont à considérer ;
• Il faut gérer une masse de données considérable (en entréeet en sortie).
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomesQuels sont les problèmes que pose la comparaison desgénomes ?
• Il est rare que l’on puisse tout aligner ;
• De nouvelles opérations évolutives sont à considérer ;
• Il faut gérer une masse de données considérable (en entréeet en sortie).
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Dotplot génomique
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Avec les séquences chromosomiques, il n’est plus possibled’utiliser simplement des logiciels tels que Blast.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
L’histoire des gènes n’est pas toujours celle des espèces.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Distinction entre orthologues et paralogues.
• Comprendre l’histoire évolutive des gènes ;
• Annoter les génomes ;
• Inférer la phylogénie à l’aide d’un ensemble de gènes ;
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
L’arbre des gènes n’estpas l’arbre des espèces.
La véritable histoire du gène.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Orthologie :Relation d’homologie résultantd’une spéciation.
Paralogie :Relation d’homologie résultantd’une duplication interne.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Terminologie de Remm et al. (2000).
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
RBHMéthode du reciprocal best hit
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
NarcisseReciprocal best hit implémenté dans Narcisse
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
RBH : inconvénients de la méthode
• Méthode potentiellement très sensible
• Impossibilité de détecter des co-orthologues
• Les pertes de gènes peuvent se traduire par des relationsd’othologie erronées
Il faut passer par des méthodes de réconciliation d’arbres.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
RéconciliationRéconciliation d’arbre
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
RéconciliationL’hitoire de la β-globine
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Arbres réconciliés
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Réarrangements chromosomiques :
• Mutation et fixation ;
• Quelle est la pression de sélection ?
• Quels sont les rôles respectifs des différents remaniementsau cours de l’évolution ?
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Évolution chromosomiqueExploitation du nombre de remaniements comme mesure de ladistance évolutive :
• Dobhzansky et Sturtevant (1936).
• Dutrillaux et coll (1970-1980).
• Sankoff et coll (1980).
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Évolution chromosomiqueHannenhalli et Pevzner.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomes
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomes
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Segments de synténie
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomes
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomes
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomes
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
Comparaison de génomes
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
FASTA retour.
Comparaisondes génomes
Comparaison deséquencesBioinformatique
Dotplot
Alignement
ProgrammationDynamique
Matrices de score
Blast
Statistique de score
Conclusion del’analyse statistique
Alignement multiple
Comparaison degénomesOrthologie etparalogie
Evolutionchromosomique
BLAST retour.