bio-informatique concepts et matrices des substitutions
TRANSCRIPT
Bio-informatique Concepts et matrices des substitutions
Emese Meglécz [email protected]
• Modèles et concepts évolutifs – Mutations, duplications, divergence
– Homologie, orthologie, paralogie, etc …
• Alignements de paires de séquences – Matrices de substitutions
– Dot plots (dottup, dotmatcher)
Contenu du cours
Modèles et Concepts Evolutifs
Différence entre Similarité et Identité
• % Identité – Proportion de résidus (acide aminés ou nucléotides) identiques entre
les séquences
• % Similarité – Proportion de résidus similaires (pas forcement identiques) entre les
séquences
Identities = 14/26 (54%),
Positives = 15/26 (58%),
VCGMWLDGDIAAVDMFTHVEIDDGEV
V G W+ GDI MFTH DD EV
VAGIWVAGDIRGGPMFTHTAYDDFEV
• % Identité ou similarité maximale: 100%
• % Identité entre deux séquences nucléiques aléatoires ?
Similarité
• % Identité ou similarité maximale: 100%
• % Identité entre deux séquences nucléiques aléatoires ? – 4 bases : A, C, G et T
– % Identité attendu entre séquences aléatoires: 1/4 = 25%
Similarité
• % Identité ou similarité maximale: 100%
• % Identité entre deux séquences protéiques aléatoires ?
Similarité
• % Identité ou similarité maximale: 100%
• % Identité entre deux séquences protéiques aléatoires ?
– 20 acides aminés
– % Identité attendu entre séquences aléatoires: 1/20 = 5%
Similarité
Etudes des événements évolutifs ou phylogénie : Duplication
• Une duplication est une mutation qui génère un dédoublement d'une partie de l'ADN génomique. Elle peut recouvrir l'ensemble du génome (formation de polyploïdes), un chromosome entier, ou un fragment d’ADN plus ou moins grand.
• Les duplications peuvent entraîner l’apparition de copies multiples d'un ou plusieurs gènes, provoquant ainsi une certaine redondance de l'information génétique.
• Dans certains cas, l'une des copies du gène acquiert, par accumulation de mutations, de nouvelles caractéristiques qui lui permettent d'assumer une nouvelle fonction. Ce mécanisme, appelé duplication divergence, est à l'origine de la diversification des fonctions biologiques.
9
Etudes des événements évolutifs ou phylogénie : Spéciation
• Processus évolutif qui résulte en la formation d’espèces distinctes à partir d’une espèce unique.
• Les événements de duplication et spéciation suscitent l’apparition de copies multiples à partir d’une seule séquence, soit au sein d’une même espèce (duplication), soit au sein des espèces distinctes dérivées de la spéciation. Ces séquences, dont la similarité résulte d’une séquence ancestrale commune, sont dites homologues.
10
Etudes des événements évolutifs ou phylogénie : Transfert horizontal
• Un processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. – Bactéries → bactéries
• Ex : Gènes de résistance entre bactéries
– Bactéries ↔ eucaryote (plantes ou animaux)
– Eucaryote → eucaryote
11
• Deux séquences qui descendent d’un ancêtre commun divergent.
• La divergence peut résulter d’une duplication ou d’une spéciation.
• Evénements de mutations – Substitutions
– Délétions + Insertions = indel
Duplication et spéciation
a1 a2
divergence
présent
temps
a
duplication
Séquence ancestrale
b c
divergence
présent
temps
a
Spéciation
Espèce ancestral mutation
• La similarité entre deux séquences peut s’interpréter par trois hypothèses alternatives: – Homologie: la ressemblance s’explique par le fait que les deux
séquences divergent d’un ancêtre commun (évolution simple). • Ex : Tous les mammifères ont 4 membres car leur ancêtre commun avait 4 membres
– Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.
• Ex : Colibri et le moro sphinx (insecte) on une trompe pour sucer le nectar des fleurs
– Similarité due au hasard
Similarité, homologie, analogie
• Deux séquences sont dites homologues si elles possèdent un ancêtre commun
• L’existence d’un ancêtre commun est inférée à partir de la similarité
Événement évolutif
(spéciation, duplication)
séquence1 séquence2
Ancêtre commun
Définition de l’homologie
• Inférence – Avant d’affirmer que deux séquences sont homologues, nous devrions
pouvoir retracer leur histoire jusqu’à leur ancêtre commun.
– Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie.
– Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités, …).
– L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.
Homologie de 2 séquences
• L’homologie n’est pas quantifiable – Deux séquences sont homologues ou elles ne le sont pas
– Possèdent ou non des caractères provenant d’un ancêtre commun
– Raisonnement binaire (vrai ou faux)
• La similarité est quantifiable – On peut dire de deux séquences qu’elles sont similaires à 50% ou 75%
• Généralement on infère l’homologie sur base de similarité élevée entre les séquences
Homologie ≠ Similarité
Homologie ≠ Similarité (2)
• On observe un certain niveau de similarité entre deux séquences (% identité, % similarité).
• Sur cette base, on évalue des scénarios évolutifs: – cette similarité peut provenir d’une évolution convergente (analogie);
– d’une évolution divergente à partir d’un ancêtre commun (homologie);
– du hasard.
• Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.
• Convergence ou simple hasard pour de courtes séquences (quelques résidus) – Similarité et identité élevées (45% et 31%) => signe de homologie
– Longueur de l’alignement courte, ne couvre pas la totalité de la séquence => signe de similarité due au hasard
Similarité sans homologie
Score: 31,2 Expect:2,5 Identities:14/45(31%)
Positives:23/45(51%) Gaps:2/45(4%)
Query 25 FVNQHLCGSHLVEALYLVCGERGFFYTP--KTRREAEDLQVGQVE 67
FV HLCG ++ +++ + FF P + R +A L + Q E
Sbjct 49 FVTTHLCGGSILNNFHVITAAQCFFSNPSGRFRVQAGKLTLNQFE 93
• Existence de régions de faible complexité – régions riches en quelques aa
– Cas de la fibroïne [GSGAGA]n
…
Similarité sans homologie (2)
• Globine gamma humaine vs myoglobine humaine
• Le taux d'identité est de 26% (<30% critère simpliste), on conclut que ces séquences ne sont pas homologues.
• La e-valeur (mesure de similarité contre le hasard) est très significative. Un tel niveau de similarité ne peut donc s'expliquer par le simple jeu du hasard.
GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links)
Score = 48.5 bits (114), Expect = 6e-06,
Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%)
Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85
GE L RL +P T FD F +L S + + +K HG VLT+LG +K +
Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68
Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSRY 146
L++ H K + + + + ++ VL +F + Q + K + ++S Y
Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNY 129
Homologie avec faible similarité
Wajcmana et Kiger, 2002
Homologie sans ou peu de similarité
• Cenancestor (Most Recent Common Ancestor): l'ancêtre commun le plus récent des taxons d’intérêt
• Orthologie: paire de séquences homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation
• A, B et C sont orthologues
Les catégories d’homologies : Orthologie
A (chat) B (souris) C (rat)
Myoglobines
Spéciations
• Paralogie: paire de séquences homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique
• Les fonctions de paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction)
• B et C sont paralogues
A (chat) B (souris) C (souris)
Insuline Insuline I Insuline II
Spéciation
Duplication
Les catégories d’homologies : Paralogie
• B et C sont paralogues
• A et C ou A et B sont orthologues
• La duplication crée généralement une
redondance fonctionnelle, qui peut
éventuellement ouvrir le champ à une
spécialisation de l’un des paralogues,
voire à l’émergence de nouvelles fonctions.
• Attention, contrairement à une idée
répandue, l’orthologie ne permet pas
forcément de conclure à une
conservation fonctionnelle.
• Si la duplication B-C donne lieu à une divergence fonctionnelle de l’une des deux copies (par exemple C), A et C n’en resteront pas moins orthologues (leur dernier ancêtre commun précède une spéciation), même si leurs fonctions sont distinctes.
A (chat) B (souris) C (souris)
Insuline Insuline I Insuline II
Spéciation
Duplication
Paralogie ou Orthologue
• Xénologie: relation entre les deux séquences homologues dont l'histoire, depuis leur dernier ancêtre commun, implique le transfert horizontal (interspécifique) du matériel génétique.
Espèce A Espèce B
Ancêtre de B Ancêtre de A
Les catégories d’homologies : Xénologie
Exercice d’homologie
• Définissez le type d’homologie/analogie entre chaque paire des gènes.
– P paralogue
– O orthologue
– X xénologue
– A analogue
Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal
A1 AB1 B1 B2 C1 C2 C3
A1
AB1
B1
B2
C1
C2
C3
Exercice d’homologie
• Définissez le type d’homologie/analogie entre chaque paire des gènes.
– P paralogue
– O orthologue
– X xénologue
– A analogue
Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal
A1 AB1 B1 B2 C1 C2 C3
A1
AB1
B1
B2
C1
C2
C3
A1 AB1 B1 B2 C1 C2 C3
A1
AB1
B1 O
B2
C1 O
C2
C3
Exercice d’homologie
• Définissez le type d’homologie/analogie entre chaque paire des gènes.
– P paralogue
– O orthologue
– X xénologue
– A analogue
Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal
A1 AB1 B1 B2 C1 C2 C3
A1
AB1
B1
B2
C1
C2
C3
A1 AB1 B1 B2 C1 C2 C3
A1 X O O O O O
AB1 X X X X X X
B1 O X P O P P
B2 O X P P O O
C1 O X O P P P
C2 O X P O P P
C3 O X P O P P
Exercice d’homologie
A1 AB1 B1 B2 C1 C2 C3
A1 X O O O O O
AB1 X X X X X X
B1 O X P O P P
B2 O X P P O O
C1 O X O P P P
C2 O X P O P P
C3 O X P O P P
Orthologie peut être une relation de 1 à N
A1 [orthologue]-> B1 A1 [orthologue]-> B2
L’orthologie est réciproque.
A1 <-[orthologue]-> B1 L’orthologie n’est pas transitive
A1 <-[orthologue]-> B1 A1 <-[orthologue]-> B2 B1 <-[paralogue]-> B2
Exercice d’homologie
A1 AB1 B1 B2 C1 C2 C3
A1 X O O O O O
AB1 X X X X X X
B1 O X P O P P
B2 O X P P O O
C1 O X O P P P
C2 O X P O P P
C3 O X P O P P
A1 AB1 B1 C1 B2 C2 C3
Spéciation
Duplication
Transfert horizontal
A, AB, B, C représentent les espèces 1, 2, 3 les copies des gènes
Isomorphisme des arbres (topologie)
A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1
Isomorphisme des arbres (topologie)
A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1
Les deux arbres sont identiques !
Espèce A Espèce B
Seq1 Seq2 Seq3 Seq4
Marquez les spéciations et les duplications sur l’arbre et
déterminez le type d’homologie entre Seq1 et Seq2
Seq1 et Seq3
Seq1 et Seq4
Seq2 et Seq3
Seq2 et Seq4
Seq3 et Seq4
Exercice 1
Espèce A Espèce B
Seq1 Seq2 Seq3 Seq4
Marquez les spéciations et les duplications sur l’arbre et
déterminez le type d’homologie entre Seq1 et Seq2
Seq1 et Seq3
Seq1 et Seq4
Seq2 et Seq3
Seq2 et Seq4
Seq3 et Seq4
Exercice 1
Spéciation
Duplications
Espèce A Espèce B
Seq1 Seq2 Seq3 Seq4
Marquez les spéciations et les duplications sur l’arbre et
déterminez le type d’homologie entre Seq1 et Seq2 paralogues
Seq1 et Seq3 orthologues
Seq1 et Seq4 orthologues
Seq2 et Seq3 orthologues
Seq2 et Seq4 orthologues
Seq3 et Seq4 paralogues
Exercice 1
Spéciation
Duplications
Espèce A Espèce B Espèce A Espèce B
Seq1 Seq2 Seq3 Seq4
Marquez les spéciations et les duplications sur l’arbre et
déterminez le type d’homologie entre Seq1 et Seq2
Seq1 et Seq3
Seq1 et Seq4
Seq2 et Seq3
Seq2 et Seq4
Seq3 et Seq4
Exercice 2
Espèce A Espèce B Espèce A Espèce B
Seq1 Seq2 Seq3 Seq4
Marquez les spéciations et les duplications sur l’arbre et
déterminez le type d’homologie entre Seq1 et Seq2
Seq1 et Seq3
Seq1 et Seq4
Seq2 et Seq3
Seq2 et Seq4
Seq3 et Seq4
Exercice 2
Spéciation
Duplications
Espèce A Espèce B Espèce A Espèce B
Seq1 Seq2 Seq3 Seq4
Marquez les spéciations et les duplications sur l’arbre et
déterminez le type d’homologie entre Seq1 et Seq2 orthologues
Seq1 et Seq3 paralogues
Seq1 et Seq4 paralogues
Seq2 et Seq3 paralogues
Seq2 et Seq4 paralogues
Seq3 et Seq4 orthologues
Exercice 2
Spéciation
Duplications