la comparaison des génomes - institut national de...

75
Comparaison des génomes Comparaison de séquences Bioinformatique Dotplot Alignement Programmation Dynamique Matrices de score Blast Statistique de score Conclusion de l’analyse statistique Alignement multiple Comparaison de génomes Orthologie et paralogie Evolution chromosomique La comparaison des génomes Approche informatique Thomas Faraut Laboratoire de génétique cellulaire INRA Toulouse 8 octobre 2008 / GDR de cytogénomique

Upload: others

Post on 09-Feb-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

La comparaison des génomesApproche informatique

Thomas Faraut

Laboratoire de génétique cellulaireINRA Toulouse

8 octobre 2008 / GDR de cytogénomique

Page 2: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Plan

1 Comparaison de séquencesBiologie moléculaire et informatiqueLe DotplotAlignementProgrammation DynamiqueMatrices de scoreBlastStatistique de scoreAlignement multiple

2 Comparaison de génomesOrthologie et paralogieEvolution chromosomique

Page 3: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

L’approche comparative

"Il faut que nous puissions d’abord avoir une idée claire de leurscaractères distinctifs et de leurs propriétés communes"Histoire des Animaux, Aristote (384-322 avant JC)

• L’informatique permet essentiellement d’appliquerefficacement la démarche comparative en biologiemoléculaire.

Page 4: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

L’approche comparative

"Il faut que nous puissions d’abord avoir une idée claire de leurscaractères distinctifs et de leurs propriétés communes"Histoire des Animaux, Aristote (384-322 avant JC)

• L’informatique permet essentiellement d’appliquerefficacement la démarche comparative en biologiemoléculaire.

Page 5: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de séquences

On souhaite comparer les deux séquences suivantes :

• une séquence personnelle

>scac0001b_001_c04.t3.scf 812 0 812 SCFCAAAACTAAAGGAGTATCATGATAAAGAAGTACAAGGTTTACAAGTAAAAGTAACCAAACTGAAAAAGGAACGAATTTTAGATGCACAGAGACTGGAAGAATTCTTCACCAAAAATCAACAGCTGAGAGAGCAACAAAAAGTCCTTCATGAAACCATTAAAGTTTTAGAAGATCGATTAAGAGCAGGATTATGTGATCGCTGTGCAGTAACTGAAGAACATATGCGGAAGAAACAGCAAGAGTTTGAAAATATCCGGCAGCAGAATCTTAAACTTATCACAGAGCTTATGAATGAAAAGAATACTCTACAGGAAGAAAATAAAAAGCTTTCTGAACAGCTGCAGCAGAAAATTGAGAATGATCAGCAGCATCAAGCAACTGATGTTGAATCTGAGGAAGACATTATTCCAGATTCACCAA

• et une séquence annotée>NM_002894 Homo sapiens retinoblastoma binding protein 8 (RBBP8)GACGTCGCGCGGGCTCCCGGGCGGGGCGGGTCCGGCCGCCTCCGAGCCCGGCCGGCAGCCCCCGGCCTTAAAGCGCGGGCTGTCCGGAGGGGTCGGCTTTCCCACCGAGGATTTGGCACTCTGGTGAGGGAAAAGGGCGAAAGAGAAAAGCGAGCAGCCGTCCTTTCACAGCCTCAGAAAGTGCTCGCTTCCCTTCGGGGGCTTTCGCGAATCCCGAGGCAATCTCGGAGGCGGTATTTGACCTGTCCAAAGACGACTTGATACCTCTATAATGTAACAGAAAAGGTCAGAAAATATTAAGCAAGTAGAAGTGTGGAGCATATTAAGCAAGATGAACATCTCGGGAAGCAGCTGTGGAAGCCCTAACTCTGCAGATACATCTAGTGACTTTAAGGACCTTTGGACAAAACTAAAAGAATGTCATGATAGAGAAGTACAAGGTTTACAAGTAAAAGTAACCAAGCTAAAACAGGAACGAATCTTAGATGCACAAAGACTAGAAGAATTCTTCACCAAAAATCAACAGCTGAGGGAACAGCAGAAAGTCCTTCATGAAACCA

Page 6: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Le DotplotUn une approche exploratoire graphique.

DOTPLOT of: aj251829.pnt Density: 19643.18 May 31, 2002 17:25

COMPARE/Word Word-Size 7 Alphabet: 4 Points: 35,614

y07829.gb_pr ck: 4,498, 1 to 17,284

aj251829.gb_om ck: 9,529, 20,000 to 40,000

0 5,000

10,000

15,000

40,00035,000

30,00025,000

20,000

Page 7: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

DotplotLa similitude est représentée par le graphique d’une fonctionindicatrice

f (x , y) =

{

1 si la propriété Px,y est vraie0 sinon

G A T C A A CG *T *T *C * *A * * *G *C * *

Px,y ≡ {ax = by}.

Page 8: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

DotplotDOTPLOT of: aj251829.pnt Density: 19643.18 May 26, 2003 16:20

COMPARE/Word Word-Size 10 Alphabet: 4 Points: 1,677

y07829.gb_pr ck: 4,498, 1 to 17,284

aj251829.gb_om ck: 9,529, 20,000 to 40,000

0 5,000

10,000

15,000

40,00035,000

30,00025,000

20,000

Page 9: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

La comparaison de polymères peut se ramener à la comparaisonde chaînes de caractères sur un alphabet A :

- A = {A, C, G, T} dans le cas de l’ADN.

- A = {A, R, N, . . .} pour la comparaison de protéines.

Dans une perspective évolutive, on considère les 3 mutationsélémentaires :

(a) insertion : insertion d’une ou plusieurs lettres ;

(b) délétion : suppression d’une ou plusieurs lettres ;

(c) substitution : remplacement d’une lettre par une autre.

Définition : On appelle alignement de deux séquences a et b, untableau à 2 lignes et à L colonnes :

a∗

1a∗

2a∗

3 . . . a∗

L

b∗

1b∗

2b∗

3 . . . b∗

L

où a∗

i = ai ou − et a∗(resp b∗) se réduit précisément à a (resp b)si l’on supprimme les indels.

Page 10: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Quel est le meilleur alignement entre les deux séquencessuivantes : ACACTCTA et ACGCACACA ?

A--CACTCTA AC--ACTCTA| |||.| | ou || ||.| |ACGCACAC-A ACGCACAC-A

Page 11: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Distance d’éditionDéfinition : nombre minimum d’opérations élémentaires àeffectuer pour passer d’une séquence à une autre :

w(a, a) = 0w(a, b) = 1 si a 6= bw(a,−) = w(−, b) = 1

Il est possible de pénaliser différemment substitutions et indels.

Mesure de Similarité ou scoreExemple de mesure de similarité ou score :

α : pour une identité

δ : pénalité pour une substitution

µ : pénalité pour une insertion ou une délétion

Page 12: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comment calculer le score d’un alignement ?

On effectue simplement la somme des scores ou des distancessur l’ensemble des résidus :

a∗

1a∗

2a∗

3 . . . a∗

L

b∗

1b∗

2b∗

3 . . . b∗

L

où a∗

i = ai ou −.pour la distance :

d(a, b) = ♯substitutions + ♯indels

et pour le score :

S(a, b) = α × ♯identité − δ × ♯substitutions − µ × ♯indels

ou plus généralement

S(a, b) =

L∑

i=1

s(a∗

i , b∗

i )

avec{

s(ai , bj) = score associé à la substitution de a par bs(a,−) = s(−, b) = µ

Page 13: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

• Trouver le meilleur alignement c’est trouver l’alignement quiminimise la distance d’édition d(a, b) ou qui maximise lescore S(a, b).

• Comment trouver le meilleur alignement entre les deuxséquences ACACTCTA et ACGCACACA ?

Pour deux séquences de 140 résidus il y a 1082 alignementspossibles.

Page 14: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

• Trouver le meilleur alignement c’est trouver l’alignement quiminimise la distance d’édition d(a, b) ou qui maximise lescore S(a, b).

• Comment trouver le meilleur alignement entre les deuxséquences ACACTCTA et ACGCACACA ?

Pour deux séquences de 140 résidus il y a 1082 alignementspossibles.

Page 15: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C ATACAAGAAATACA

* * ** * * ** * **

* * * ** * * ** * *** * * ** * **

* ** * * ** * *** * * ** * *** * * ** * **

* * ** * * ** * **

* * * ** * * ** * **

Page 16: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

Page 17: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

Page 18: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

Page 19: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

0

Page 20: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

0

Page 21: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

6

Page 22: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

6

Page 23: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

match = +2 mismatch = -1 insettion/deletion = -2

2

4

2

2

6 4 2

4 5 6 4 2

2 3 7 5 6 4 2

4 5 9 7 5 3 1

2 6 7 11 9 7 5 3 2

4 5 9 10 8 6 7 5 3 1

2 3 7 8 9 7 8 9 7 5 3 1

2 5 6 10 8 6 7 11 9 7 5

3 4 8 8 10 8 9 13 11 9

1 5 6 10 8 9 7 11 15 13

3 4 8 12 10 8 9 13 17

2

2 4 2

2 6 4

4 5

2

4 2

2 6 4

4 8

Page 24: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

2

4

2

2

6 4 2

4 5 6 4 2

2 3 7 5 6 4 2

4 5 9 7 5 3 1

2 6 7 11 9 7 5 3 2

4 5 9 10 8 6 7 5 3 1

2 3 7 8 9 7 8 9 7 5 3 1

2 5 6 10 8 6 7 11 9 7 5

3 4 8 8 10 8 9 13 11 9

1 5 6 10 8 9 7 11 15 13

3 4 8 12 10 8 9 13 17

2

2 4 2

2 6 4

4 5

2

4 2

2 6 4

4 8

Page 25: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

2

4

2

2

6 4 2

4 5 6 4 2

2 3 7 5 6 4 2

4 5 9 7 5 3 1

2 6 7 11 9 7 5 3 2

4 5 9 10 8 6 7 5 3 1

2 3 7 8 9 7 8 9 7 5 3 1

2 5 6 10 8 6 7 11 9 7 5

3 4 8 8 10 8 9 13 11 9

1 5 6 10 8 9 7 11 15 13

3 4 8 12 10 8 9 13 17

2

2 4 2

2 6 4

4 5

2

4 2

2 6 4

4 8

Page 26: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Programmation dynamique

T A C G A G A C T C A A T A C A

T

A

C

A

A

G

A

A

A

T

A

C

A

2

4

2

2

6 4 2

4 5 6 4 2

2 3 7 5 6 4 2

4 5 9 7 5 3 1

2 6 7 11 9 7 5 3 2

4 5 9 10 8 6 7 5 3 1

2 3 7 8 9 7 8 9 7 5 3 1

2 5 6 10 8 6 7 11 9 7 5

3 4 8 8 10 8 9 13 11 9

1 5 6 10 8 9 7 11 15 13

3 4 8 12 10 8 9 13 17

2

2 4 2

2 6 4

4 5

2

4 2

2 6 4

4 8

T A C G A G A C T C A A T A C A

| | | | | | | | | | | |

T A C A A G A - - - A A T A C A

Page 27: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

On note F (i , j) le score du meilleur alignement entre lesséquences a1 . . . ai et b1 . . . bj . Une relation de récurrence simplelie les F (i , j) :

Fi−1,j−1 Fi−1,j

ց ↓Fi,j−1 → Fi,j

- A C A C T C T A- 0 -2 -4 -6A -2 2 0 -2C -4 0G -6 -2CACACA

Page 28: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Alignement global : Needlman et Wunsch

Fi−1,j−1 Fi−1,j

ց ↓Fi,j−1 → Fi,j

Fi,j = Max{Fi−1,j−1 + s(ai , bj), Fi−1,j − δ, Fi,j−1 − δ}

Le score de l’alignement global optimal est donné par Fn,m.

F (n, m) = maxalign.

LX

i=1

s(a∗

i , b∗

i )

Solutions :A C − − A C T C T A| | | | | |A C G C A C A C − A

ou

A − − C A C T C T A| | | | | |A C G C A C A C − A

Page 29: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Alignement local : Smith et Waterman

B

A

Fi,j = Max{ 0 , Fi−1,j−1 + s(ai , bj), Fi−1,j − δ, Fi,j−1 − δ}

Le score de l’alignement local optimal est donné par maxi,j Fi,j .

Page 30: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Alignement local : Smith et Waterman

B

A

Fi,j = Max{ 0 , Fi−1,j−1 + s(ai , bj), Fi−1,j − δ, Fi,j−1 − δ}

Le score de l’alignement local optimal est donné par maxi,j Fi,j .

Page 31: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Complexité algorithmique

La complexité algorithmique fournit une mesure du temps (ou del’espace mémoire) associé à l’exécution de l’algorithme enfonction de la taille de l’entrée (ici la longueur des séquences).L’algorithme de programmation dynamique pour l’alignement deséquences est de complexité O(mn) pour le temps et pourl’espace mémoire :

⇒ le temps d’éxécution est proportionnel au produit de lalongueur des séquences.

Page 32: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Les matrices de score

• Pour l’ADN, un score se contentant de différencier lesconservations des substitutions et des insertions/délétionssemble suffisant ;

• Pour les protéines, certaines substitutions sont plusfréquentes (mieux tolérées) que d’autres. Commentconstruire une matrice de score ?⇒ On peut utiliser des alignements confimés pour estimer le taux

de substitution.

On note fab la fréquence du couple (a, b) dans un alignementmultiple confirmé et fa la fréquence du résidu a. On peut définir lescore de la manière suivante :

s(a, b) = log(

fab

fafb

)

Page 33: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Deux problèmes compliquent la construction des matrices descore :

1 Comment doit-on considérer la mutation de S → F (F → S)dans l’exemple suivant ?

Homme CYEGNGHFSouris CYHGNGDSRat CYHGNGQS

2 La pénalité associée à une substitution donnée dépend de ladistance évolutive entre les deux séquences. Unesubstitution rare est plus probable entre des séquenceséloignées qu’entre des séquences proches.

Page 34: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Les matrices PAMElles sont construites à partir des données suivantes :

- ensemble de séquences présentant un pourcentaged’identité de l’ordre de 85% ;

- alignement multiple de ces séquences ;

La construction d’un arbre phylogénétique à partir de l’alignementpermet d’estimer la fréquence des substitutions de a → b oub → a. On pose

fab = P(b|a, t) × fa

On fixe une unité de temps : 1 PAM (Point Accepted Mutation)=⇒ 1 substitution attendue sur une séquence de 100 acidesaminés. La théorie des chaînes de Markov permet de fournir lesprobabilités P(b|a, t) pour tout t et donc la matrice de score S.La matrice PAMx correspond à une distance évolutive de x PAM.Pour la matrice PAM250, le nombre moyen de substitutions parposition est de 2.5.

Page 35: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Les matrices BLOSUMPour contourner le problème de biais dans l’échantillon deséquences de l’alignement multiple, Henikoff et Henikoff ontproposé une autre approche :

• A partir d’alignements multiples, ils récupèrent des blocssans insertions/déletions.

A B B C D A . . . B B C D AD A B C D A . A . B B C B BB B B C D A B A . B C C A AA A A C D A C . D C B C D BC C B A D A B . D B B D C CA A A C A A . . . B B C C C

• L’étape suivante consiste à regrouper, au sein de chaquebloc, les séquences présentant plus de x% d’identité.

• Les fréquences de substitutions sont alors calculées au seindes blocs pour donner les matrices BLOSUMx .

Page 36: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Les matrices BLOSUMPour contourner le problème de biais dans l’échantillon deséquences de l’alignement multiple, Henikoff et Henikoff ontproposé une autre approche :

• A partir d’alignements multiples, ils récupèrent des blocssans insertions/déletions.

A B B C D A . . . B B C D AD A B C D A . A . B B C B BB B B C D A B A . B C C A AA A A C D A C . D C B C D BC C B A D A B . D B B D C CA A A C A A . . . B B C C C

• L’étape suivante consiste à regrouper, au sein de chaquebloc, les séquences présentant plus de x% d’identité.

• Les fréquences de substitutions sont alors calculées au seindes blocs pour donner les matrices BLOSUMx .

Page 37: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Les différentes matrices sont calibrées pour un temps dedivergence donné. Si l’on ne connait pas le temps de divergence,on ne peut pas, a priori, selectionner la matrice la plus adaptée.

Blosum PAM % IdentitéBlosum 90 PAM 100 43%Blosum 80 PAM 120 38%Blosum 60 PAM 160 30%Blosum 52 PAM 200 25%Blosum 45 PAM 250 20%

Page 38: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Elle permet également d’étbalir une relation entre la matrice et lataille moyenne d’un alignment significatif.

Taille Matrice Pénalités d’indels≤ 35 PAM30 (9,1)35-50 PAM70 (10,1)50-85 BLOSUM60 (10,1)≥ BLOSUM62 (11,1)

Matrices recommandées pour différentes tailles de la séquencerequête

En l’absence d’une information a priori sur la nature del’homologie on conseille généralement l’utilisation de la matriceBLOSUM62.

Page 39: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Pour détecter des similitudes entre une séquence et desséquences présentes dans une banque

• comparer une séquence à l’ensemble des séquences d’unebase de données et considérer qu’un score d’alignementélevé suggère une relation d’homologie.

Problème :

• Il est beaucoup trop lent : ∼ 1 heure pour rechercher lemeilleur alignement entre une séquence de 500 pb et ladivision nr de Genbank (211 820 757 pb).

⇒ Il faut trouver d’autres solutions.

Algorithmes approchés ou heuristiques

- Ils sont beaucoup plus rapides (linéaires en temps :O(m + n))

- Il n’est plus assuré que l’alignement fourni soit lemeilleur.

Page 40: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

FASTA et BLASTLes deux programmes sont une généralisation du Dot-Plot.FASTA figure

• On construit un index de mots de longueur k (k-tuple) pour laséquence requête et la banque ;

• On compare les index et on ne retient que les séquences quipartagent, sur une même diagonale, un nombre important dek-tuple avec la séquence requête ;

• On recherche l’alignement optimal en utilisant pour lesséquences retenues l’algorithme de programmationdynamique restreint à une bande autour de la diagonale.

BLAST figure

• On construit un index flou de mots de longueur k pour laséquence requête et un index exact pour la banque ;

• Comme pour le programme Fasta, on compare les index eton retient les positions des mots qui sont dans les deuxindex.

• On tente de construire un alignement local à partir desoccurences précédentes.

Page 41: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

• Quel sens (valeur) donner à un score d’alignement. Un telscore peut-il être le fait du hasard ?

• On considère une générateur aléatoire de séquences et onnote S le score maximum obtenu à la suite d’un alignementde 2 séquences aléatoires.

On peut montrer que la loi de S se caractérise de la manièresuivante :

P[S > t ] ≈ 1 − exp(−Kmne−λt)

oû m et n sont les longueurs des séquences et K et λ sont desconstantes. C’est un cas particulier de la loi des valeurs extrêmes(loi de Gumbel) :

P[S > t ] = 1 − exp(−e−t)

−2 0 2 4 6 8 10

0.0

0.1

0.2

0.3

t

gum

bel

Page 42: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

On note E , le nombre attendu (expected value ou e-value)d’alignements locaux de score supérieur ou égal à S :

E = Kmne−λS

Dans le cadre d’une recherche dans une banque, Le programmeBlast considère la banque comme un longue séquence. Lenombre attendu s’écrit alors :

E = KMne−λS

oû M désigne la taille de la banque en résidus.Pour des petites valeurs de E (≤ 0.01), ce nombre est équivalentà la p − value.

Page 43: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Interprétation statistique

Pour répondre à la question sur le röle du hasard on construit letest d’hypothèses suivant :

H0 : Le score observé aurait pu être obtenu à partir deséquences aléatoires.

H1 : Le score observé n’est pas le fait du hasard.

Nous avons modélisé la loi du score sous l’hypothèse H0 mais onne peut modéliser cette dernière sous H1. On devra se contenterde rejeter H0.

• Si la p-value est faible, on rejette l’hypothèse H0. Plus lap-value est faible, plus l’alignement est statistiquementsignificatif. Il reste à comprendre pourquoi l’hypothèse H0 estrejeté (ascendance commune ?).

Page 44: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Désaccord entre la réalité et la modélisation du hasard

• Les régions de faibles complexité (exemple : CpG) sont endésaccord avec une génération indépendante des résidus ;

Il faut filtrer la requête avec un programme de détection deces régions (DUST pour l’ADN, SEG pour les protéines) ; onutilise généralement l’entropie de Shannon pour mesurer cettecomplexité :

H = −X

i

pi log pi

• Les homologies ne peuvent passer d’une séquence à l’autre.De plus les séquences de la base ne sont pas indépendantesmais peuvent souvent se regrouper en familles.

La taille effective de la banque est donc plus petite que lataille réelle ;

• Dans une chaîne de polymères, les positions ne sont pasindépendantes. Des contraintes sur la succesion des résiduspeuvent se traduire par une similarité indépendante de touteascendance commune.

Pas de solution.

On considère généralement qu’une e(p)-value inférieure à e−5

est significative.

Page 45: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Alignement multiple

• Il n’est pas difficile de généraliser l’algorithme deprogrammation dynamique à n séquences ;

• La complexité reste cependant trop importante pour que plusde 8 séquences puissent être comparées ;

⇒ Il faut utiliser des heuristiques

Alignment progressif

• On aligne progressivement les séquences en commençantpar aligner les séquences proches ;

• L’inconvénient d’une telle démarche est qu’un choix effectuéau début n’est jamais remis en question ;

Page 46: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

CLUSTALW• Les scores de similarités issus de la comparaison 2 à 2 des N

séquences sont transformés en distances évolutives ;

• Un arbre phylogénétique des séquences est construit en utilisant laméthode de réunion de voisins (Neighbour Joining) à partir de cesdistances évolutives ;

• La progression de l’alignement se fait le long de l’arbre où à chaquenoeud, les séquences sont alignées entre elles, les séquences avecles alignements et les alignements entre eux.

Page 47: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

ProfilsQu’est-ce que PsiBlast ?

• On dispose d’une famille de protéines :CCRF2C ..GDAAKGEKEFN-KCKTCHSIIAPDGTEIV-KGAKTGPNLYGVVGRTAGTYPEFK-YKDSIVCCPC50 QDGDAAKGEKEFN-KCKACHMIQAPDGTDII-KGGKTGPNLYGVVGRKIASEEGFK-YGEGILCCQF2P .AGDAAVGEKIAKAKCTACHDLNKGGPI-------KVGPPLFGVFGRTTGTFAGYS-YSPGYTCCQF2R .EGDAAAGEKVSK-KCLACHTFDQGGAN-------KVGPNLFGVFENTAAHKDNYA-YSESYTConsensus QEGDAAAGEKEFNAKCKACHTINKPGGTDIVGKGAKTGPNLYGVVGRTAGTYAGFKGYGEGYT

• Comment identifier des nouvelles protéines de cette famille ?

On utilise de la même manière la programmation dynamique :

F ∗

i,j = Max{F ∗

i−1,j−1 + s∗

j (bi), F ∗

i−1,j − δ, F ∗

i,j−1 − δ}

où s∗

j (bi) mesure le score de l’alignement du résidu bi avec lacolonne j . La matricie de score est dîte position spécifique.

Page 48: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomesQuels sont les problèmes que pose la comparaison desgénomes ?

• Il est rare que l’on puisse tout aligner ;

• De nouvelles opérations évolutives sont à considérer ;

• Il faut gérer une masse de données considérable (en entréeet en sortie).

Page 49: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomesQuels sont les problèmes que pose la comparaison desgénomes ?

• Il est rare que l’on puisse tout aligner ;

• De nouvelles opérations évolutives sont à considérer ;

• Il faut gérer une masse de données considérable (en entréeet en sortie).

Page 50: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomesQuels sont les problèmes que pose la comparaison desgénomes ?

• Il est rare que l’on puisse tout aligner ;

• De nouvelles opérations évolutives sont à considérer ;

• Il faut gérer une masse de données considérable (en entréeet en sortie).

Page 51: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Dotplot génomique

Page 52: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Avec les séquences chromosomiques, il n’est plus possibled’utiliser simplement des logiciels tels que Blast.

Page 53: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

L’histoire des gènes n’est pas toujours celle des espèces.

Page 54: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Distinction entre orthologues et paralogues.

• Comprendre l’histoire évolutive des gènes ;

• Annoter les génomes ;

• Inférer la phylogénie à l’aide d’un ensemble de gènes ;

Page 55: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

L’arbre des gènes n’estpas l’arbre des espèces.

La véritable histoire du gène.

Page 56: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Orthologie :Relation d’homologie résultantd’une spéciation.

Paralogie :Relation d’homologie résultantd’une duplication interne.

Page 57: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Terminologie de Remm et al. (2000).

Page 58: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

RBHMéthode du reciprocal best hit

Page 59: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

NarcisseReciprocal best hit implémenté dans Narcisse

Page 60: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

RBH : inconvénients de la méthode

• Méthode potentiellement très sensible

• Impossibilité de détecter des co-orthologues

• Les pertes de gènes peuvent se traduire par des relationsd’othologie erronées

Il faut passer par des méthodes de réconciliation d’arbres.

Page 61: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

RéconciliationRéconciliation d’arbre

Page 62: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

RéconciliationL’hitoire de la β-globine

Page 63: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Arbres réconciliés

Page 64: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Réarrangements chromosomiques :

• Mutation et fixation ;

• Quelle est la pression de sélection ?

• Quels sont les rôles respectifs des différents remaniementsau cours de l’évolution ?

Page 65: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Évolution chromosomiqueExploitation du nombre de remaniements comme mesure de ladistance évolutive :

• Dobhzansky et Sturtevant (1936).

• Dutrillaux et coll (1970-1980).

• Sankoff et coll (1980).

Page 66: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Évolution chromosomiqueHannenhalli et Pevzner.

Page 67: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomes

Page 68: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomes

Page 69: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Segments de synténie

Page 70: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomes

Page 71: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomes

Page 72: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomes

Page 73: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

Comparaison de génomes

Page 74: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

FASTA retour.

Page 75: La comparaison des génomes - Institut national de …narcisse.toulouse.inra.fr/Lgc/GDRCyto/genome_comparison.pdfMatrices de score Blast Statistique de score Conclusion de l’analyse

Comparaisondes génomes

Comparaison deséquencesBioinformatique

Dotplot

Alignement

ProgrammationDynamique

Matrices de score

Blast

Statistique de score

Conclusion del’analyse statistique

Alignement multiple

Comparaison degénomesOrthologie etparalogie

Evolutionchromosomique

BLAST retour.