bio-informatique concepts et matrices des substitutions

38
Bio-informatique Concepts et matrices des substitutions Emese Meglécz [email protected]

Upload: others

Post on 18-Jun-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bio-informatique Concepts et matrices des substitutions

Bio-informatique Concepts et matrices des substitutions

Emese Meglécz [email protected]

Page 2: Bio-informatique Concepts et matrices des substitutions

• Modèles et concepts évolutifs – Mutations, duplications, divergence

– Homologie, orthologie, paralogie, etc …

• Alignements de paires de séquences – Matrices de substitutions

– Dot plots (dottup, dotmatcher)

Contenu du cours

Page 3: Bio-informatique Concepts et matrices des substitutions

Modèles et Concepts Evolutifs

Page 4: Bio-informatique Concepts et matrices des substitutions

Différence entre Similarité et Identité

• % Identité – Proportion de résidus (acide aminés ou nucléotides) identiques entre

les séquences

• % Similarité – Proportion de résidus similaires (pas forcement identiques) entre les

séquences

Identities = 14/26 (54%),

Positives = 15/26 (58%),

VCGMWLDGDIAAVDMFTHVEIDDGEV

V G W+ GDI MFTH DD EV

VAGIWVAGDIRGGPMFTHTAYDDFEV

Page 5: Bio-informatique Concepts et matrices des substitutions

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences nucléiques aléatoires ?

Similarité

Page 6: Bio-informatique Concepts et matrices des substitutions

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences nucléiques aléatoires ? – 4 bases : A, C, G et T

– % Identité attendu entre séquences aléatoires: 1/4 = 25%

Similarité

Page 7: Bio-informatique Concepts et matrices des substitutions

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences protéiques aléatoires ?

Similarité

Page 8: Bio-informatique Concepts et matrices des substitutions

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences protéiques aléatoires ?

– 20 acides aminés

– % Identité attendu entre séquences aléatoires: 1/20 = 5%

Similarité

Page 9: Bio-informatique Concepts et matrices des substitutions

Etudes des événements évolutifs ou phylogénie : Duplication

• Une duplication est une mutation qui génère un dédoublement d'une partie de l'ADN génomique. Elle peut recouvrir l'ensemble du génome (formation de polyploïdes), un chromosome entier, ou un fragment d’ADN plus ou moins grand.

• Les duplications peuvent entraîner l’apparition de copies multiples d'un ou plusieurs gènes, provoquant ainsi une certaine redondance de l'information génétique.

• Dans certains cas, l'une des copies du gène acquiert, par accumulation de mutations, de nouvelles caractéristiques qui lui permettent d'assumer une nouvelle fonction. Ce mécanisme, appelé duplication divergence, est à l'origine de la diversification des fonctions biologiques.

9

Page 10: Bio-informatique Concepts et matrices des substitutions

Etudes des événements évolutifs ou phylogénie : Spéciation

• Processus évolutif qui résulte en la formation d’espèces distinctes à partir d’une espèce unique.

• Les événements de duplication et spéciation suscitent l’apparition de copies multiples à partir d’une seule séquence, soit au sein d’une même espèce (duplication), soit au sein des espèces distinctes dérivées de la spéciation. Ces séquences, dont la similarité résulte d’une séquence ancestrale commune, sont dites homologues.

10

Page 11: Bio-informatique Concepts et matrices des substitutions

Etudes des événements évolutifs ou phylogénie : Transfert horizontal

• Un processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. – Bactéries → bactéries

• Ex : Gènes de résistance entre bactéries

– Bactéries ↔ eucaryote (plantes ou animaux)

– Eucaryote → eucaryote

11

Page 12: Bio-informatique Concepts et matrices des substitutions

• Deux séquences qui descendent d’un ancêtre commun divergent.

• La divergence peut résulter d’une duplication ou d’une spéciation.

• Evénements de mutations – Substitutions

– Délétions + Insertions = indel

Duplication et spéciation

a1 a2

divergence

présent

temps

a

duplication

Séquence ancestrale

b c

divergence

présent

temps

a

Spéciation

Espèce ancestral mutation

Page 13: Bio-informatique Concepts et matrices des substitutions

• La similarité entre deux séquences peut s’interpréter par trois hypothèses alternatives: – Homologie: la ressemblance s’explique par le fait que les deux

séquences divergent d’un ancêtre commun (évolution simple). • Ex : Tous les mammifères ont 4 membres car leur ancêtre commun avait 4 membres

– Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.

• Ex : Colibri et le moro sphinx (insecte) on une trompe pour sucer le nectar des fleurs

– Similarité due au hasard

Similarité, homologie, analogie

Page 14: Bio-informatique Concepts et matrices des substitutions

• Deux séquences sont dites homologues si elles possèdent un ancêtre commun

• L’existence d’un ancêtre commun est inférée à partir de la similarité

Événement évolutif

(spéciation, duplication)

séquence1 séquence2

Ancêtre commun

Définition de l’homologie

Page 15: Bio-informatique Concepts et matrices des substitutions

• Inférence – Avant d’affirmer que deux séquences sont homologues, nous devrions

pouvoir retracer leur histoire jusqu’à leur ancêtre commun.

– Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie.

– Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités, …).

– L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.

Homologie de 2 séquences

Page 16: Bio-informatique Concepts et matrices des substitutions

• L’homologie n’est pas quantifiable – Deux séquences sont homologues ou elles ne le sont pas

– Possèdent ou non des caractères provenant d’un ancêtre commun

– Raisonnement binaire (vrai ou faux)

• La similarité est quantifiable – On peut dire de deux séquences qu’elles sont similaires à 50% ou 75%

• Généralement on infère l’homologie sur base de similarité élevée entre les séquences

Homologie ≠ Similarité

Page 17: Bio-informatique Concepts et matrices des substitutions

Homologie ≠ Similarité (2)

• On observe un certain niveau de similarité entre deux séquences (% identité, % similarité).

• Sur cette base, on évalue des scénarios évolutifs: – cette similarité peut provenir d’une évolution convergente (analogie);

– d’une évolution divergente à partir d’un ancêtre commun (homologie);

– du hasard.

• Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.

Page 18: Bio-informatique Concepts et matrices des substitutions

• Convergence ou simple hasard pour de courtes séquences (quelques résidus) – Similarité et identité élevées (45% et 31%) => signe de homologie

– Longueur de l’alignement courte, ne couvre pas la totalité de la séquence => signe de similarité due au hasard

Similarité sans homologie

Score: 31,2 Expect:2,5 Identities:14/45(31%)

Positives:23/45(51%) Gaps:2/45(4%)

Query 25 FVNQHLCGSHLVEALYLVCGERGFFYTP--KTRREAEDLQVGQVE 67

FV HLCG ++ +++ + FF P + R +A L + Q E

Sbjct 49 FVTTHLCGGSILNNFHVITAAQCFFSNPSGRFRVQAGKLTLNQFE 93

Page 19: Bio-informatique Concepts et matrices des substitutions

• Existence de régions de faible complexité – régions riches en quelques aa

– Cas de la fibroïne [GSGAGA]n

Similarité sans homologie (2)

Page 20: Bio-informatique Concepts et matrices des substitutions

• Globine gamma humaine vs myoglobine humaine

• Le taux d'identité est de 26% (<30% critère simpliste), on conclut que ces séquences ne sont pas homologues.

• La e-valeur (mesure de similarité contre le hasard) est très significative. Un tel niveau de similarité ne peut donc s'expliquer par le simple jeu du hasard.

GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links)

Score = 48.5 bits (114), Expect = 6e-06,

Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%)

Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85

GE L RL +P T FD F +L S + + +K HG VLT+LG +K +

Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68

Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSRY 146

L++ H K + + + + ++ VL +F + Q + K + ++S Y

Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNY 129

Homologie avec faible similarité

Page 21: Bio-informatique Concepts et matrices des substitutions

Wajcmana et Kiger, 2002

Homologie sans ou peu de similarité

Page 22: Bio-informatique Concepts et matrices des substitutions

• Cenancestor (Most Recent Common Ancestor): l'ancêtre commun le plus récent des taxons d’intérêt

• Orthologie: paire de séquences homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation

• A, B et C sont orthologues

Les catégories d’homologies : Orthologie

A (chat) B (souris) C (rat)

Myoglobines

Spéciations

Page 23: Bio-informatique Concepts et matrices des substitutions

• Paralogie: paire de séquences homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique

• Les fonctions de paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction)

• B et C sont paralogues

A (chat) B (souris) C (souris)

Insuline Insuline I Insuline II

Spéciation

Duplication

Les catégories d’homologies : Paralogie

Page 24: Bio-informatique Concepts et matrices des substitutions

• B et C sont paralogues

• A et C ou A et B sont orthologues

• La duplication crée généralement une

redondance fonctionnelle, qui peut

éventuellement ouvrir le champ à une

spécialisation de l’un des paralogues,

voire à l’émergence de nouvelles fonctions.

• Attention, contrairement à une idée

répandue, l’orthologie ne permet pas

forcément de conclure à une

conservation fonctionnelle.

• Si la duplication B-C donne lieu à une divergence fonctionnelle de l’une des deux copies (par exemple C), A et C n’en resteront pas moins orthologues (leur dernier ancêtre commun précède une spéciation), même si leurs fonctions sont distinctes.

A (chat) B (souris) C (souris)

Insuline Insuline I Insuline II

Spéciation

Duplication

Paralogie ou Orthologue

Page 25: Bio-informatique Concepts et matrices des substitutions

• Xénologie: relation entre les deux séquences homologues dont l'histoire, depuis leur dernier ancêtre commun, implique le transfert horizontal (interspécifique) du matériel génétique.

Espèce A Espèce B

Ancêtre de B Ancêtre de A

Les catégories d’homologies : Xénologie

Page 26: Bio-informatique Concepts et matrices des substitutions

Exercice d’homologie

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1

B2

C1

C2

C3

Page 27: Bio-informatique Concepts et matrices des substitutions

Exercice d’homologie

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1

B2

C1

C2

C3

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1 O

B2

C1 O

C2

C3

Page 28: Bio-informatique Concepts et matrices des substitutions

Exercice d’homologie

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3

A1

AB1

B1

B2

C1

C2

C3

A1 AB1 B1 B2 C1 C2 C3

A1 X O O O O O

AB1 X X X X X X

B1 O X P O P P

B2 O X P P O O

C1 O X O P P P

C2 O X P O P P

C3 O X P O P P

Page 29: Bio-informatique Concepts et matrices des substitutions

Exercice d’homologie

A1 AB1 B1 B2 C1 C2 C3

A1 X O O O O O

AB1 X X X X X X

B1 O X P O P P

B2 O X P P O O

C1 O X O P P P

C2 O X P O P P

C3 O X P O P P

Orthologie peut être une relation de 1 à N

A1 [orthologue]-> B1 A1 [orthologue]-> B2

L’orthologie est réciproque.

A1 <-[orthologue]-> B1 L’orthologie n’est pas transitive

A1 <-[orthologue]-> B1 A1 <-[orthologue]-> B2 B1 <-[paralogue]-> B2

Page 30: Bio-informatique Concepts et matrices des substitutions

Exercice d’homologie

A1 AB1 B1 B2 C1 C2 C3

A1 X O O O O O

AB1 X X X X X X

B1 O X P O P P

B2 O X P P O O

C1 O X O P P P

C2 O X P O P P

C3 O X P O P P

A1 AB1 B1 C1 B2 C2 C3

Spéciation

Duplication

Transfert horizontal

A, AB, B, C représentent les espèces 1, 2, 3 les copies des gènes

Page 31: Bio-informatique Concepts et matrices des substitutions

Isomorphisme des arbres (topologie)

A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1

Page 32: Bio-informatique Concepts et matrices des substitutions

Isomorphisme des arbres (topologie)

A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1

Les deux arbres sont identiques !

Page 33: Bio-informatique Concepts et matrices des substitutions

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 1

Page 34: Bio-informatique Concepts et matrices des substitutions

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 1

Spéciation

Duplications

Page 35: Bio-informatique Concepts et matrices des substitutions

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2 paralogues

Seq1 et Seq3 orthologues

Seq1 et Seq4 orthologues

Seq2 et Seq3 orthologues

Seq2 et Seq4 orthologues

Seq3 et Seq4 paralogues

Exercice 1

Spéciation

Duplications

Page 36: Bio-informatique Concepts et matrices des substitutions

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 2

Page 37: Bio-informatique Concepts et matrices des substitutions

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2

Seq1 et Seq3

Seq1 et Seq4

Seq2 et Seq3

Seq2 et Seq4

Seq3 et Seq4

Exercice 2

Spéciation

Duplications

Page 38: Bio-informatique Concepts et matrices des substitutions

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et

déterminez le type d’homologie entre Seq1 et Seq2 orthologues

Seq1 et Seq3 paralogues

Seq1 et Seq4 paralogues

Seq2 et Seq3 paralogues

Seq2 et Seq4 paralogues

Seq3 et Seq4 orthologues

Exercice 2

Spéciation

Duplications