année trois bio566 biologie ... - École polytechnique · ecole polytechnique edition 2018 année...

88
Ecole Polytechnique Edition 2018 Année trois BIO566 BIOLOGIE COMPUTATIONNELLE Exercices Thomas Simonson 1

Upload: others

Post on 05-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • Ecole Polytechnique Edition 2018

    Année troisBIO566

    BIOLOGIE COMPUTATIONNELLE

    Exercices

    Thomas Simonson

    1

  • 2

  • Table des matières

    pg 4 Mini-exposés

    pg 5 Chapitre I: alignements de séquences

    pg 7 Chapitre II: alignements, suite

    pg 9 Chapitre IV: ARN

    pg 11 Chapitre V: protéines

    pg 15 Chapitre VI: statistiques et séquences

    pg 17 Chapitre VII: génomes et séquençage

    pg 19 Chapitre VIII: réseaux cellulaires

    pg 21 Contrôle écrit 2010

    pg 25 Contrôle écrit 2009

    pg 29 Contrôle écrit 2008

    pg 34 Corrigés des exercices

    pg 55 Corrigés des contrôles écrits

    3

  • Biologie computationnelle: Mini-exposés 2018

    1) Codes génétiques simplifiés ou ancestraux

    2) Crowd sourcing et dessin computationnel de protéines

    3) Séquençage haut débit et microbiote

    4) Le graphe des réactions métaboliques: état des lieux

    Les propositions de sujets sont aussi recevables

    A faire en binomes. Les exposés durent 8' chacun (moins de 8 slides). Pas d'équations SVP. Enchoisir obligatoirement un. Attention, les questions sont obligatoires: chaque élève devra avoirune question à poser à chaque exposé. Présentation des exposés en PC à partir de février. Dates de passage communiquées le 24/1. Le 24/1, ceux qui n'ont pas encore choisi recevront un sujet d'office.

    Palaiseau, décembre 2017

    4

  • Chapitre un: alignements de séquences

    Exc 1) Alignement utilisant l’algorithme de Needleman-WunschOn considère les deux séquences suivantes : x = AAAG y = ACG avec les scores: m = match = 1, s = substitution = -1, d = ouverture ou extension de gap = -2. Calculez le ou les alignements globaux optimaux. Combien en trouvez-vous ?

    Exc 2) Trouvez les (ou des) paramètres qui ont permis de faire l'alignement pour lequel on montre ici la table de construction par programmation dynamique (sans les flèches):

    G A T G A T A G

    0 0 0 0 0 0 0 0 0

    G 0 1 0 0 1 0 0 0 1

    A 0 0 2 0 0 2 0 1 0

    T 0 0 0 3 1 0 3 1 0

    A 0 0 1 1 2 2 1 4 2

    C 0 0 0 0 0 1 1 2 3

    A 0 0 1 0 0 1 0 2 1

    Exc 3) Alignement local utilisant l’algorithme de Smith-WatermanOn considère les séquences protéiques suivantes : x= AWHEA et y = GAWGHEE. Trouver le meilleur alignement local. Utilisez la matrice ci-dessous avec les paramètres « ouverture de gap » = « extension de gap » = –8. Un gap en début d'alignement a un score zéro.

    A E G H WA 5 -1 0 -2 -3E -1 6 -3 0 -3G 0 -3 8 -2 -3H -2 0 -2 10 -3W -3 -3 -3 -3 15

    Trouvez un alignement de score 48 pour z = AWHEAAWHEA et w = GAWGHEEGAWGHEE avec l'aide du résultat précédent.

    Exc 4) a) Quel argument peut-on donner pour justifier, dans un alignement de séquences de protéines, des scores différents pour ouvrir un gap et pour l'étendre?

    5

  • b) Généraliser les relations de récursion de l'algorithme de Needleman-Wunsch au cas où l'ouverture et l'extension de gap ont des scores différents. De combien de tableaux de score avons-nous besoin ? De quels types de pointeurs ?w-c) Extraire des structures de domaines SH3 de la PDB et les comparer visuellement avec le programme pymol. On pourra prendre les structures 1CKA, 1CSK, 1SEM, 1ABO, 2NUZ.Exc 5) a) Quelles propriétés de la glycine et du tryptophane peuvent expliquer leur conservation au cours de l'évolution des protéines? b) Une protéine ancestrale contient une alanine dans une position donnée. D'après la matrice BLOSUM62, quel changement est le plus probable au cours de l'évolution: le A mute en L, ou le A mute en M? [Les éléments de la matrice BLOSUM50 sont: B(A,L)=-2; B(A,M)=-1. Les fréquences de L et M dans les protéines sont de 9.0% et 2.4% respectivement. Les matrices BLOSUM utilisent des logarithmes en base 2.] c) Est-il raisonnable que la matrice BLOSUM est symétrique?d) En quoi la stabilité d'une protéine est ou n'est pas un avantage sélectif?

    *Exc 6) Calcul du nombre d’alignements possibles entre deux séquences de longueur n.a) En 1970, des mathématiciens intéressés par les récursions entières ont montré que si m, n sont des entiers positifs et f une fonction assez régulière, alors la relationf(n, m) = f(n-1,m) + f(n-1,m-1) + f(n,m-1) entrainef(n,m) = Si=0n Cni Cm+in. (cf. Slowinski, Molec. Phylo. Evol., 1998, 10:264).En déduire le nombre d'alignements possibles entre deux séquences de longueur n. Est-ce que cette relation compte vraiment des alignements uniques et non-redondants?b) Il existe une autre méthode de calcul assez différente (Biological Sequence Analysis; R. Durbin, S. Eddy, A. Krogh, G. Mitchinson, 2002, Cambridge U. Press, p 19).On considère deux séquences de longueur n et m. Montrer qu'il y a Cn+mn manières de les intercaler pour produire une séquence de longueur n+m (en respectant l'ordre interne des 2 séquences).c) En prenant des symboles dans un alignement, alternativement dans la séquence du haut et celle du bas, puis en jetant les symboles de gap, montrer qu'il y a une correspondance univoque entre les alignements (avec gaps) et les séquences intercalées ci-dessus. En déduire le nombre d'alignements possibles. Comparer avec l'estimation précédente.

    6

  • Chapitre deux: alignements de séquences, suite

    Exc 1) Faire un alignement global entre PHAla séquence HEAP et l'alignement AE-

    par programmation dynamique avec la matrice de similarité ci-dessous et une pénalité de 5 pour un gap (ouverture ou extension): H E A P

    P -2 -1 -1 7 A -2 -1 5 E 0 5

    H 8 0

    Exc 2) a) Fabriquer un alignement multiple global des séquences CHAT, CAT, HER en utilisant les paramètres ci-dessous et la méthode du cours. Quel est le score final?

    Ouverture de gap = extension de gap = -8C T A E H R

    C 9 0 0 -3 -3 -3T 5 0 -1 -1 -1A 4 -2 -2 -2E 5 0 0H 8 0R 5

    b) Dans la construction d'un alignement multiple, quel argument(s) peut-on donner pour l'utilisation de plusieurs matrices de score différentes?

    Exc 3) a) Trouver les tetrapeptides homologues de la séquence GDNV en utilisant la matrice Blosum50 (ci-dessous) et un seuil de 24, puis 3-4 homologues avec un seuil de 20.

    A R N D C Q E G H I L K M F P S T W Y VG 0 -3 0 -1 -3 -2 -3 8 -2 -4 -4 -2 -3 -4 -2 0 -2 -3 -3 -4D -2 -2 2 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 0 -1 -5 -3 -4N -1 -1 7 2 -2 0 0 0 1 -3 -4 0 -2 -4 -2 1 0 -4 -2 -3V 0 -3 -3 -4 -1 -3 -3 -4 -4 4 1 -3 1 -1 -3 -2 0 -3 -1 5

    b) On s'intéresse à une protéine de séquence x = {x1, x2, ..., xn}. On considère l'alignement (sans gaps) de x avec une séquence aléatoire Y = {Y1, Y2, ..., Yn}. On utilise une matrice de score B. Le score d'alignement S est une valeur aléatoire. Justifier qu'elle suit approximativement une loi gaussienne P(s). Exprimer S en fonction des xi et Yi. Si on considère un grand nombre N de séquences Y, on obtiendra N scores. Comment exprimer le score moyen en fonction des éléments de la matrice B? Même question pour la variance.

    7

  • c) Une recherche BLAST avec x comme requête retourne une séquence y, avec un score de T. Quelle est la probabilité d'obtenir un score T avec une des séquences aléatoires Y?d) On considère deux séquences aléatoires de longueur n, alignées sans gaps avec la séquence x. Les scores d'alignement correspondants, S1 et S2, sont des variables aléatoires gaussiennes (voir questions précedentes). Ecrire la distribution de probabilité à laquelle obéit la variable aléatoire max(S1 , S2).e) On veut détecter des homologues de récepteurs nucléaires dans la banque SwissProt. Nous en connaissons déja plusieurs. Ce jeu de séquences connues contient plus d'information que chacune séparément; nous avons donc intérêt à faire la recherche en exploitant l'ensemble de ces séquences. Comment généraliser BLAST pour ce faire?

    Exc 4) On veut aligner les séquences de deux protéines homologues. Si on connait la structure3D de l'une des deux, comment proposeriez-vous de modifier le score pour ouverture d'un gap, afin de prendre en compte la l'information structurale sans trop changer la complexité de la méthode? Plus généralement, proposer une méthode qui peut s'appliquer même si on ne connait pas l'une des structures.

    Exc 5) A quoi correspondent les noeuds internes d'un arbre phylogénétique? D'après l'arbre phylogénétique ci-dessous, laquelle des affirmations suivantes est vraie ? a) Une algue verte est plus proche d'une algue rouge que d'une mousse. b) Une algue verte est plus proche d'une mousse que d'une algue rouge. c) Une algue verte est aussi proche d'une algue rouge que d'une mousse. d) Une algue verte est liée aux algues rouge mais pas aux mousses.

    Algue AlgueAmibe rouge verte Mousse Pin

    Exc 6) Créer un automate pour reconnaitre le motif d'épissage atatc.

    w-Exc 7) Un premier aperçu de banques de données génomiquesSe connecter au site du « National Center for Biotechnology Information » (NCBI): http://www.ncbi.nih.gov. Choisir le lien « Taxonomy » (sur la gauche de la page), puis

    8

  • « Taxonomy browser », et enfin « Saccharomyces cerevisiae » (levure de bière). Combien a-t-on identifé de gènes dans cet organisme? Combien possède-t-il de chromosomes? Est-ce que son code génétique mitochondrial diffère du code standard? Combien de ses protéines ont-elles des structures 3D connues? Quelle est la taille de son génome? Sur quel chromosome est codé le cytochrome c? Est-ce que cet organisme possède un ou plusieurs globines?w-Exc 8) Les cytochrome c de rat et de souris ont les mêmes séquences d'acides aminés. Le vérifier. On récupérera les séquences à partir de la base de données UniProt (www.uniprot.org). Comparer leurs séquences nucléotidiques. Distinguer introns et exons. Ces gènes possèdent-ils un ou des sites d'épissage classiques? Visualizer la jonction intron-exon sur la structure d'un cytochrome c. Compter le nombre de mutations dans les introns et dans les exons. Peut-on relier le nombre de mutations au temps écoulé depuis que rat et souris ont divergé dans l'évolution? Proposez deux facteurs sélectifs régulant la taille des introns.

    w-Exc 9) Rechercher des pseudogènes du cytochrome c. Pourquoi à votre avis est-ce que les pseudogènes ne comportent souvent pas d'introns?

    9

    http://www.uniprot.org/http://www.uniprot.org/

  • Chapitre trois: structure de l'ARN

    Exc 1) On montre ci-dessous le résultat de la méthode Nussinov pour la prédiction de la structure secondaire d'un ARN par programmation dynamique. Trouver la valeur manquante dans la table et dessiner la structure secondaire de l’ARN :

         A A A C U U U C C C A G G G

    A 0 0 0 0 1 2 3 3 3 3 3 4 5 ?

    A 0 0 0 0 1 2 2 2 2 2 3 3 4 5

    A 0 0 0 1 1 1 1 1 1 2 2 3 4

    C 0 0 0 0 0 0 0 0 1 2 2 3

    U 0 0 0 0 0 0 0 1 1 2 3

    U 0 0 0 0 0 0 1 1 2 3

    U 0 0 0 0 0 1 1 2 3

    C 0 0 0 0 0 1 2 3

    C 0 0 0 0 1 2 2

    C 0 0 0 1 1 1

    A 0 0 0 0 0

    G 0 0 0 0

    G 0 0 0

    G 0 0

    Exc 2) a) Prédire la (les) structure(s) secondaire(s) de l'ARN ci-dessous par la méthode de Nussinov (avec une fonction de score raisonnable): A G C U G G C U. Dessiner au moins 3 structures donnant l'énergie optimale.b) La méthode de Nussinov peut produire des structures avec une paire de bases entre deux bases qui sont adjacentes dans la séquence, ce qui est irréaliste. Modifier les relations de récursion du cours pour obtenir une méthode qui évite ce problème.c) Ecrire en « pseudocode » un algorithme permettant de construire la structure de l'ARN à partir de la table produite selon la méthode de Nussinov.

    10

  • d) Est-ce qu'un brin d'ARN (brin +) et son brin complémentaire (brin -) ont la même structuresecondaire? Quels sont les principaux effets qui favorisent ou bien contredisent cette hypothèse?

    Exc 3) Prédiction de structure secondaire à partir d'un alignement multiple.Un fragment de 40 bases dans l'ARN du virus SARS est soumis à une forte pression sélective. On en déduit qu'il joue un rôle fonctionnel et peut être une cible pour des médicaments antiviraux. Pour prédire sa structure secondaire, on considère l'alignement ci-dessous:

    a) Estimer l'information mutuelle pour la paire formée par la 1ère et la dernière position. On rappelle la formule pour l'information mutuelle: M(i,j) = bi,bj fbi,bj log fbi,bj / fbi fbjComparer à une paire i,j dans un alignement de taille infinie, avec A, C, T, G équidistribués, soit toujours appariés, soit complètement décorrélés.b) Quelles positions ont des mutations corrélées et/ou peuvent former des hélices?

    c) Des expériences d'alkylation montrent quele diméthyl-sulfate réagit avec les bases auxpositions 12, 23, 27, et 38:

    Avec ces informations et l'alignement, proposer une structure secondaire plausible.

    11

  • d) Pourquoi ne peut-on pas utiliser un modèle de Markov caché (simple) pour la prédiction de la structure secondaire d’ARN? Pour un alignement de séquences d'ARN, quelle hypothèse de la méthode de Needleman-Wunsch est violée ?

    w-Exc 4) Récupérer une séquence d'ARN ribosomique 5S. Soumettre la séquence à un moteurde prédiction sur internet (qui implémente par exemple la méthode de prédiction de Zuker). Comparer la prédiction avec la structure secondaire expérimentale (donnée dans le cours). Idem pour un ARNt.

    12

  • Chapitre quatre: structure des protéines

    Exc 1) On montre ci-dessous une hélice alpha en vue stéréo. Deux carbones, C5 et C6, sont montrés sous forme de sphères. Si vous êtes placé de telle sorte que C5 est vers vous, est-ce que C6 est à votre gauche ou votre droite?

    Exc 2) Dans le cours, on trouve un réseau de neurones artificiel qui prédit la structure secondaire de protéines. En entrée, on trouve une série de sept acides aminés; en sortie, l'état prédit pour le résidu central (le 4ème). Pourquoi ce type de réseau n'a-t-il que ~70% de succès? Comment améliorer ces performances? Quelles sont les hypothèses principales de la méthode ? Comment prédire a priori son niveau de performances?

    Exc 3) Un enzyme « parfait » est un enzyme dont la vitesse de réaction est limitée par la vitesse de diffusion Brownienne de son substrat. Suggérer au moins deux mécanismes par lesquels un enzyme peut aller plus vite que cette limite.

    Exc 4) Quel acide aminé autre que Pro a moins de chances que les autres d'apparaitre dans les hélices ? On remplace chimiquement le N-H d'une Ala par un N-CH3; discuter l'effet de cette « mutation » sur la fraction du temps où un polypeptide se replie en hélice.

    Exc 5) On montre ci-dessous un alignement multiple de séquences homologues de la partie C-terminale de la protéine GCN4 de levure. Les acides aminés les plus hydrophobes sont jaunes;très hydrophiles sont bleus; ceux intermédiaires sont violets.

    13

    C5 C5

    C6 C6

  • a) Quel motif périodique peut-on identifier? Sa période correspond à quel élément de structuresecondaire? Avec une projection bien choisie et une vue (très) schématique de la structure, représenter le motif périodique sur la structure. Sachant que la région correspondant à l'aligne-ment est observée sous forme d'un homodimère, représentez schématiquement le dimère, tou-jours en projection. Quel type d'interactions stabilisent le dimère?b) La période du motif dans l'alignement s'écarte légèrement de celle observée typiquement pour cet élément de structure secondaire; l'écart résulte d'interactions entre les deux protomères. Proposez deux types de déformation structurale qui pourraient expliquer cet écart.

    w-Exc 6) Produire un alignement multiple de domaines SH3; analyser la position des gaps dans la structure 3D.

    w-Exc 7) Interactions enzyme:substrat, exemple de l'aspartyl-ARNt synthétaseLes aminoacyl-ARNt synthétases (aaRS) constituent une famille d'enzymes très anciennes, ayant co-évolué avec le code génétique, impliquées dans la synthèse protéique. Elles interviennent dans la traduction en permettant la liaison de l'acide aminé à son ARN de transfert. Elles sont très spécifiques de l'acide aminé en question, ainsi que de l'ARN de transfert qui lui correspond. Il en existe donc une pour chaque type d'acide aminé.

    But: Nous allons nous intéresser plus particulièrement à l'aspartyl-ARNt synthetase (AspRS), le but étant d'identifier des mutations ponctuelles sur cette enzyme afin de réduire son affinité pour son ligand naturel, l'aspartate (Asp) et favoriser sa liaison avec l'asparagine (Asn).Principe: Pour cela, nous envisagerons le probleme en termes de séquences et de structures protéiques. On procédera en deux étapes: 1. Etude des séquences de quelques aaRSs, dont des AspRS, pour identifier les résidus

    conservés et mettre en evidence les caractéristiques propres des AspRS.2. Inspection de la structure de l'AspRS pour identifier le rôle des acides aminés conservés et

    en proposer qui sont de bons candidats pour une mutagénèse.

    A) Analyse de séquences1. Récuperer dans la banque UniProt la séquence de l'AspRS d'E coli-Utiliser “aspartyl-tRNA synthetase” AND “Escherichia coli” comme requête.

    14

  • -Cliquer sur le lien correspondant à la séquence d'AspRS d'E coli.Examiner soigneusement l'entrée SwissProt obtenue (numéro P21889). Bien noter l'adresse dela page web.

    2. Récuperation de séquences homologues: recherche par BLASTL'AspRS d'E. coli comporte trois domaines, dont celui de fixation de l'anticodon de l'ARNt et celui du site actif. Ce dernier correspond aux résidus 107:287 et 421:585. On cherchera des séquences homologues au domaine du site actif.Exécuter BlastP (Blast “Protéique”) en limitant la recherche au sous-ensemble des séquences Swissprot. Récupérer les 3000 premiers résultats. Quelles types de protéines trouve t-on? 3. Faire un 1er alignement avec ~10 séquences.4. Identification des résidus importants: réalisation d'un alignement multipleProposer un choix judicieux de ~30-40 protéines à analyser. Sauver les séquences au format FASTA dans un fichier, aaRS.fasta. Réaliser l'alignement multiple sur le site UniProt (ou le site du EBI) avec ClustalW. Appliquer l'option “Show colors”.

    Identifier des régions fortement conservées qui peuvent représenter le site actif. On sait que des mutations bien choisies aux positions 195 et 233 (numérotation d'E. Coli) réduisent mais n'abolissent pas l'activité enzymatique. Choisir 2-3 positions qui semblent caractéristiques de l'AspRS et de la fixation de l'Asp.

    B) Inspection de la structure de l'AspRSRécupérer le fichier 1COA.pdb dans la Protein Data Bank.Visualiser avec pymol la structure de l'AspRS avec son ligand.Repérer la région du site actif, en s'aidant de l'analyse des séquences ci-dessus. Inspecter le site actif pour affiner le choix d'acides aminés à muter.

    Avec toutes ces informations, proposer des mutations judicieuses pour modifier l'affinité de l'AspRS pour l'aspartate et l'asparagine. Laquelle des deux enzymes vous paraît la plus appropriée comme cible pour ce type d'ingénierie: l'aspartyl-ARNt synthétase (changement Asp → Asn) ou l'asparaginyl-ARNt synthétase (changement Asn → Asp)? Pourquoi?

    15

  • Annexe: Utilisation de pymol pour la visualisation de molécules

    1) Lancement: pymol est installé en salle informatique.

    2) Téléchargement: vous pouvez aussi télécharger pymol sur le site http://sourceforge.net/projects/pymol/files/Legacy/ en choisissant « Older PyMOL builds (pre-1.0) » et l'installer sur votre propre compte ou ordinateur (suivre les instructions; versionslinux, Mac et Windows disponibles en accès libre).

    3) Premières étapes à suivre: a) Ouvrir la structure: pymol pdb1coa.pdb. Le système s'affiche: protéine, ARN, petits ligands.b) Dans le menu « Display », choisir « Sequence » pour afficher la séquence en haut de la fenetre.c) Sur les boutons de droite, associés à l'objet« pdb1coa », choisir S puis « cartoon »: les molécules s'affichent en mode « artistique ». d) Sur la séquence, choisir le 1er ligand: « AMO ». Apparaît une sélection à droite: (sele) sousles boutons « pdb1il2 »; choisir S puis « sticks » pour mieux visualiser le ligand. On peut zoomer (bouton de droite de la souris).e) On va éliminer tout ce qui est trop loin du ligand; c'est un peu compliqué: Sous (sele)-A, choisir « modify », puis « expand » by 16 Angstroms. Sous (sele)-A, choisir « modify », puis « invert » (=sélection complémentaire)Sous (sele)-A, choisir « remove atoms ».On a maintenant un modèle de petite taille (16A) avec lequel travailler.

    4) Quelques commandes pymol utiles:Boutons de la souris: gauche = rotations; droite = zoom; milieu: translations.Sélection de groupes: dans la petite fenetre texte en bas du menu principal, taper « select resnam AMO » ou « select resid 199 » par exemple.Le bouton de gauche de la souris, en combinaison avec la touche « Shift » vous donne également une boite qui sélectionne des atomes. On peut aussi sélectioner directement sur la séquence.Options d'affichage: bouton pdb1coa-S à droite de la fenetre (sticks, spheres, etc).Labellisation de groupes: bouton pdb1coa-L à droite de la fenetre.

    16

    http://sourceforge.net/projects/pymol/files/Legacy/

  • Chapitre cinq: statistiques et séquences

    Exc 1) On construit un modèle de Markov caché (HMM) qui décrit deux types de régions génomiques: des régions riches en CG, des régions riches en AT, et les transitions entre elles. Dans une région riche en CG, les probabilités d'émettre les différents nucléotides sont: pA = pT= 0.1, pC = pG = 0.4. Dans une région riche en AT, on a pA = pT = 0.4, pC = pG = 0.1. On supposera que dans chaque région, les probabilités d'émission ne dépendent pas des nucléotides précédents.(1) Dessinez le modèle et choisissez les probabilités pour avoir des régions de chaque type de longueur moyenne 10. Calculer la probabilité d'avoir, dans une région riche en CG (respectivement riche en AT), la séquence ATA.(2) Ecrire les relations récursives qui donnent la probabilité du chemin le plus probable se terminant dans l'état riche (pauvre) au nucléotide i.(3) Prédire la succession des états pour la séquence suivante: ATTCGGCCTATA

    Exc 2) (1) Considérer la matrice suivante de transition de chaîne de Markov (base i à gauche du tableau, base i+1 en haut). Représentez graphiquement le modèle de Markov. 

    A G T CA 0.1 0.1 0.4 0.4G 0.1 0.7 0.1 0.1T 0.3 0.2 0.2 0.3C 0.6 0.1 0.2 0.1

    On s'intéresse maintenant aux “ilôts CpG” dans les génomes de vertébrés. Ce sont des ré-gions où les CpG ne sont pas méthylés sur C, et donc les dinucléotides CpG sont moins rares qu'ailleurs. On a donc une matrice de transition différente de celle ci-dessus. Un HMM bien choisi peut servir à identifier ces ilôts au sein de longues séquences génomiques.(2) Dessinez un HMM pour prédire les ilots CpG.(3) Exprimer la composition G+C du génome en fonction des probabilités de transition du modèle. Combien le modèle a-t-il de paramètres ajustables? Comment les choisir?(5) Ecrire les relations récursives de Viterbi donnant le chemin le plus probable pour une séquence donnée.

    Exc 6) Quatre codons codent pour la valine: GTT, GTC, GTA et GTG. Que peut-on dire sur leurs fréquences d'utilisation dans une algue extraite d'une source volcanique et d'une algue del'océan arctique?

    17

  • Exc 3) On donne ci-dessous les probabilités conditionnelles p(Y|X) d'observer dans un génome le nucléotide Y, si le nucléotide précédent est X. Calculer les fréquences fX des quatrenucléotides. Proposer 2-3 méthodes. (On ne supposera pas que fA=fT, fC=fG en général.)

    3' A C G T

    A 30% 20% 25% 25%5' C 35% 25% 5% 35%

    G 30% 15% 25% 30%T 20% 20% 25% 35%

    Exc 4) a) Proposer un modèle de Markov qui génère des alignements de séquences (aléatoires!). Le dessiner. b) On suppose qu'on dispose de deux séquences x, y. Comment exploiter le modèle pour obtenir un bon alignement ? En quoi est-ce que le modèle est un HMM ? c) Donner une expression pour la probabilité des chemins optimaux (chemin le plus probable à travers le modèle étant données x, y). d) La comparer aux relations de Needleman-Wunsch pour les probabilités d'un alignement. Comment interpréter cette correspondance entre méthodes ? En quoi la formulation par le HMM généralise (légèrement) la méthode de Needleman-Wunsch vue en cours ?

    Exc 5) On tire à pile ou face, en utilisant parfois une pièce truquée. Dessiner un HMM adéquat; choisir des paramètres; générer un jeu expérimental de 20 tirages. Appliquer la méthode de Viterbi pour retrouver les tirages truqués; comparer à l'expérience. Quelle est la probabilité d'obtenir avec une pièce juste le nombre de faces observé expérimentalement?

    Exc 7) Pour expliquer (partiellement) les faibles taux de CpG dans les génomes de vertébrés, on évoque en cours un mécanisme de dommage oxidatif puis de réparation de l'ADN. Ce mécanisme fait apparaître un avantage à utiliser l'ADN et non l'ARN pour stocker et transmettre l'information génétique; lequel? Pour confirmer ou infirmer l'importance du mécanisme proposé (méthylation/oxidation/réparation) pour le taux de CpG, proposer quelques indices à chercher dans le/les génomes, vertébrés ou autres.

    Exc 8) Dans le cours, à partir d'un alignement de deux séquences, on infère un ancêtre commun possible, en utilisant le moins de mutations possibles (hypothèse « parcimonieuse »).Par exemple, pour une position où S et Y sont alignés, on suppose que l'ancêtre a S ou Y à cette position. D'après la structure du code génétique, pensez-vous que ces deux possibilités (S ou Y ancestral) sont équiprobables? En quoi est-ce que le code génétique est optimisé pour être robuste par rapport aux mutations accidentelles qui ont lieu dans l'évolution?

    18

  • Chapitre six: génomes et séquençage

    Exc 1) Dans l'exemple du cours de lecture de la carte physique, comment localiser une séquence avec moins de 30 expériences au lieu des 64 annoncées?

    Exc 2) Regarder /commenter un schéma du génome du VIH. Que se passera-t-il si la protéine env se trouve non-exprimée, par suite d'une mutation de l'ADN?

    Exc 3) a) On casse (par ultrasons) un génome de longueur G en fragments de longueur L (supposée constante). On clone N de ces fragments pour former une banque génomique. Pour une base donnée b du génome, montrer que la probabilité de n'appartenir à aucun clone est exp(-c), avec c = NL/G = la « redondance » ou « couverture » de notre banque.b) Quelle sera la longueur totale des gaps (trous) pour un génome de G = 2 Mpb avec une couverture c = 8?c) Si la longueur typique des clones est de L = 500 bases, combien va-t-on obtenir de gaps? d) Pour un génome complexe, pour simplifier le problème, on pourrait en principe séquencer chaque chromosome séparément; pourquoi est-ce qu'on ne le fait pas en pratique?

    Exc 4) Une méthode récente d'identification par empreinte génétique (Jeffreys, 2004) exploite l'existence d'une région particulière de notre génome, D1S8, qui comprend plusieurs centainesde répétitions d'une séquence de 19 paires de bases. Dans cette séquence répétée, une base est hypervariable. Ainsi, chaque exemplaire peut contenir ou non un site de restriction pour l'enzyme HaeIII. L'enchainement des séquences avec ou sans site de restriction est unique à chaque individu, et constitue un « code-barre» de son ADN: voir la Figure ci-dessous (les deux couleurs correspondent aux séquences avec ou sans le site HaeIII). De plus, les deux chromosomes d'un même individu présentent des enchainements différents, ce qui augmente la variabilité. Pour lire ce code-barre, on procède par PCR. On utilise trois «amorces»: une quicorrespond à une séquence commune hors de la région répétée (à gauche de la Figure); deux qui correspondent aux deux variantes de la séquence répétée (présence ou absence du site HaeIII). On amplifie l'ADN avec une paire d'amorces: l'amorce commune et l'une des amorcesvariables. On obtient un ensemble de fragments qui va de la séquence commune jusqu'à chaque séquence complémentaire de la 2ème amorce. Les fragments sont séparés sur gel et donnent le code-barre de l'individu. a) Dessiner les gels qu'on obtiendrait à partir de la Figure ci-dessous.

    19

  • b) On considère un gel de fragments de restriction (Gel 1 ci-dessous), obtenu à partir de la région D1S8 en utilisant l'enzyme de restriction HaeIII, à partir de deux parents (colonnes P, M) et de leur enfant (colonne E). Les fragments migrent du haut en bas de la figure (i.e., les fragments les plus petits sont en bas). Expliquer l'apparence du gel. Doit-on invoquer des mutations ou recombinaisons pour expliquer les différences parent/enfant?

    c) On considère maintenant le Gel 2 (à droite). Un procès oppose une mère (M) à l'individu X.Est-ce qu'à partir des données du gel, on peut prouver que X n'est pas le père de E?d) Supposez que vous connaissiez votre propre séquence génomique (en pratique, il suffit de connaitre les régions où il y a classiquement un polymorphisme entre individus, par exemple les régions utilisées pour des « tests d'ADN »). Quels seraient les arguments pour déposer ces données ou non dans une banque de données nationale? Quelles restrictions aimeriez-vous imposer quant à leur utilisation?

    20

    M P E

    Gel 1 Gel 2

    M X E

  • Chapitre sept : Evolution moléculaire

    Exc 1) Possibilité de réalisation d'un gène “double”Les génomes viraux comprennent parfois (après intégration dans le génome hôte) des gènes codés sur les deux brins de l'ADN et qui se “chevauchent” ou se “font face” sur l'ADN (cf les gènes rev et env du VIH par exemple). On va analyser la possibilité de fabriquer artificiellement une paire de protéines codées de cette manière.

    a) Dans le code génétique, la 3ème base du codon est peu importante. Si on admet qu'elle est arbitraire, combien de nucléotides peut-on choisir librement par paire de codons?

    b) En analysant le code génétique, montrer que le choix du 2ème nucléotide d'un codon permet d'imposer un caractère hydrophile ou hydrophobe.

    c) En déduire qu 'il est possible de coder sur les deux brins deux suites d'acides aminés dont lecaractère hydrophile ou hydrophobe peut être choisi librement (mais pas l'identité précise des acides aminés). Trouver (dans la litérature scientifique) une/des estimations de la probabilité que des séquences bien choisies de ce type se replient.

    d) Quel est l'intérêt de fabriquer des codages chevauchants?

    e) Combien y a-t-il de positionnements possibles pour les deux ORFs sur les deux brins d'ADN? Quels sont les positionnement plus ou moins favorables?

    f) Pour une protéine donnée A, codée par l'ORF A, choisir un positionnement pour une ORF B chevauchante dans laquelle on va chercher à coder une protéine B. Produire un programme pour convertir la séquence de A en codons, puis déterminer les codons de l'ORF chevauchanteB et les acides aminés de B.

    g) Pour un ensemble de codages de A, quelles sont les chances de produire une ORF B sans codons STOP? Comment tester le caractère structuré ou non de B?

    h) Comment choisir des protéines candidates A, B?

    i) Proposer une stratégie pour construire un gène double. Proposer les protocoles de calcul.

    j) Implémenter et appliquer le protocole à une ou plusieurs paires candidates.

    21

    5'

    3'

    3'

    5'

  • Exc 2) Evolution neutre d'une protéine : un modèle physique simpleOn considère une protéine essentielle P chez une bactérie B. On fait les hypothèses suivantes : P évolue par mutations ponctuelles seulement ; les mutations qui maintiennent le repliement de P sont neutres ; les autres sont léthales. Dans un premier temps, on suppose que les autres gènes ne mutent pas. On considère une très grande population de bactéries B, qui possèdent chacune un variant particulier de P. A l'instant t, la population qui possède le variant i de la protéine P est notée n i(t). Cette population évolue au cours des générations par suite de morts, naissances, et mutations. A chaque génération t-1, t, t+1,..., on suppose que chaque individu a une probabilité p de subir une mutation (viable ou non) à un site de P (et tous les sites ont la même probabilité de muter), une probabilité d de mourir, et une probabilité b de donner naissance à un clone identique. On décrit donc l'évolution du système par l'équation (1):

    (1) ni(t+1) = ni(t)(1+b-d-p) + (p/L) j~i nj(t),où la somme est sur les variants j viables qui diffèrent de i par une mutation ponctuelle.a) Justifier très brièvement la forme du dernier terme à droite (qui contient la somme).b) On suppose que la population globale est strictement conservée au cours du temps, les naissances et morts se compensant parfaitement. En déduire une expression reliant b-d aux populations.c) Montrer qu'on a la relation : ij~i mj(t) = j nj(t) mj = , où la 1ère somme est sur tous les variants viables de P et mj représente le nombre de mutants ponctuels viables de j. Que représente ? Réécrire (1) sous une forme (1') où apparait et non plus b-d.d) Déduire l'équation (2) qui décrire l'état stationnaire, où les ni ne varient plus au cours du temps.

    On introduit maintenant une structure de réseau : les nœuds sont les variants viables ; deux nœuds i,j sont reliés s'ils sont mutants ponctuels l'un de l'autre (« j~i »). On introduit une matrice M où chaque ligne/colonne représente un nœud ou variant, avec Mij =1 si i,j, sont reliés, zéro sinon. On appelle M la matrice d'adjacence du réseau. e) Réécrire l'équation (2) sous forme matricielle à l'aide de M. Montrer qu'à l'état stationnaire, la liste des ni est vecteur propre de M. Quelle est la valeur propre associée ?f) Pour le réseau très simple (R) ci-contre, écrire M et vérifier (R) o ––– o ––– oque (1, 21/2, 1) est vecteur propre. Comment expliquer que le i 1 2 3nœud central (i=2) a une population plus grande que les autres ?

    g) La Figure à gauche montre un exemple de réseau plus complexe. La population à l'état stationnaire est représentée parle niveau de gris : plus sombre = plus peuplé. On montre également la concentration en fonction du nombre n de mutations (relatives au variant le plus peuplé), soit pour les variants individuels (points), soit en moyenne pour chaque valeur de n (ligne continue). Pourquoi est-ce que la population est forte au centre du réseau et faible aux bords ?

    22

  • h) M est une matrice carrée aux élément positifs ou nuls. Etant donnée cette structure particulière, justifier qu'il y a bien un vecteur propre qui peut s'interpréter comme une liste de populations : lequel ? On montre facilement (mais ce n'est pas demandé ici) que ce vecteur propre correspond au seul état stationnaire stable.

    Chapitre huit: réseaux cellulaires

    Exc 1) Réseau de régulation de gènes et biologie synthétique (exercice par T. Gaillard)L'opéron lactose est un ensemble de gènes impliqué dans le métabolisme du lactose chez labactérie Escherichia coli. Les gènes de l'opéron lactose sont régulés en fonction de ladisponibilité en glucose et en lactose, permettant à la bactérie de s'adapter aux conditions dumilieu. Nous considérons ici une version simplifiée de l'opéron lactose comprenant deuxgènes structuraux, lacZ qui code pour l'enzyme b-galactosidase permettant de digérer lelactose et lacY qui code pour une perméase, transporteur membranaire du lactose etanalogues. La transcription de l'opéron est régulée par le gène régulateur lacI, qui code pour lerépresseur LacI. Lorsque du lactose est présent dans la bactérie, l'allolactose, un produit de ladégradation du lactose, se fixe au répresseur LacI, provoquant un changement de conformationqui empêche sa fixation à l'opérateur. Enfin, le TMG (thiométhyl-b-galactoside) est unanalogue du lactose non métabolisable, utilisé pour activer la transcription de l'opéron lactose.Il peut traverser la membrane en présence de la perméase LacY.

    Dans cet exercice, on utilisera le langage de programmation Python et la fonctionintegrate.odeint de la librairie scipy qui permet de résoudre un système d'équationsdifférentielles. Les graphiques seront tracés avec la librairie matplotlib.

    23

  • 1) Activation simpleOn considère un gène b codant pour la protéine B, activé par le facteur de transcription A.Énumérer les réactions entre les espèces. Établir l'équation différentielle régissant laconcentration de B. On considérera la concentration de A constante et on se placera dans lecadre suggéré par les données disponibles. Étudier l'évolution de la concentration de B aucours du temps. On dispose des valeurs (arbitraires) suivantes:concentration initiale de A : [A]0 = 6 concentration initiale de B : [B]0 = 0taux de synthèse de B : k = 10 taux de dégradation moléculaire de B : g = 1constante de dissociation de A sur le promoteur de b : Kd = 5

    2) Réseau de régulation simplifié de l'opéron lactoseProposer un modèle du réseau de régulation simplifié de l'opéron lactose décrit ci-dessus. Onétablira tout d'abord les équations différentielles régissant la concentration en TMGintracellulaire, LacZ et LacY. La concentration en LacI sera considérée constante et on fera leshypothèses suggérées par les données disponibles.

    On étudiera ensuite l'évolution temporelle du système. Le TMG est ajouté parl'expérimentateur à t=0 à une concentration de 3, puis enlevé à t=20. On ajoute ensuite duTMG à une concentration de 20 à t=30 puis on le retire à t=50. Enfin, on ajoute à nouveau duTMG à une concentration de 3 à t=60. On dispose des valeurs suivantes pour les paramètres :taux d'import de TMG par molécule de LacY et de TMG extracellulaire : 1 = 0,037taux de synthèse de LacI : 2 = 166,1

    24

  • taux de synthèse de LacZ et LacY : 3 = 100,5constante de dissociation de LacI sur le promoteur de l'opéron : Kd1 = 1constante de dissociation du TMG sur LacI : Kd2 = 1paramètre de Hill pour la liaison du TMG à LacI : n = 2taux de dégradation moléculaire du TMG : 1 = 0,3taux de dégradation moléculaire de LacI : 2 = 1taux de dégradation moléculaire de LacZ : 3 = 0,8taux de dégradation moléculaire de LacY : 4 = 1

    3) Intérêt biologiqueExpliquer l'intérêt biologique du réseau étudié. En réalité, le réseau prend également encompte la présence de glucose dans le milieu, source d'énergie plus facilement exploitable,pour réguler le métabolisme du lactose. Concevoir une extension du réseau pour faireintervenir la régulation par le glucose.

    4) Application au stockage d'informationEn considérant que la concentration en TMG extracellulaire est l'entrée et la concentration enb-galactosidase la sortie, montrer que le système possède deux états et mettre en évidence unphénomène d'hystérésis. Imaginer comment le système pourrait être utilisé pour stocker del'information (écriture et lecture). Discuter de la mise en œuvre et des limitations.

    25

  • Ecole Polytechnique Edition 2013

    Année troisBIO554

    BIOLOGIE COMPUTATIONNELLE

    Contrôles 2008, 2009, 2010, 2016

    Thomas Simonson

    26

  • Ecole Polytechnique Département de BIOLOGIE

    Biologie Computationnelle — BIO 566Promotion X2013 — Contrôle du 17 février 2016

    Durée de l’épreuve : 2 heures. Les trois parties sont (presque) indépendantes. Tous lesdocuments papier sont autorisés. L'énoncé comprend quatre pages.

    PARTIE A) Les 3 exercices de cette partie sont indépendants.

    A1) a) Appliquer la méthode de Nussinov à l'ARN suivant, GACAGGUU, pour trouver une ou plusieurs structures secondaires d'énergie minimale (de score maximal). On utilisera la fonction descore suivante: +1 pour les paires de Watson-Crick et les paires G-U; score de 0 pour les régions non-appariées; paires de bases interdites entre bases successives i, i+1, autorisées autrement. En construisant récursivement le tableau des scores, on utilisera la convention suivante pour annoter les cases: la valeur du score est entourée si ce score peut être obtenu par union de deux sous-structures (même s'il peut également être obtenu d'une autre manière). On n'utilisera pas d'autres annotations ou pointeurs. Dessiner deux structures optimales.

    b) Pourquoi est-ce qu'on ne peut pas utiliser un modèle de Markov caché simple pour replier les structures d'ARN?

    A2) Dans la méthode récursive de Needleman-Wunsch pour aligner deux séquences de protéine, quand on utilise des scores différents pour l'ouvertureet l'extension de gaps, nous avons introduit 3 tableaux de score: M, Ix, Iy. A mesure qu'on les remplit, les tableaux doivent être annotés avec des pointeurs bien choisis, si l'on veut pouvoir reconstruire l'alignement optimal à la fin des opérations par une étape de “tracé inverse”. La méthode est illustrée ci-contre avec les séquences x=HP, y=PH (H/P pour hydrophobe/ polaire) et la matrice de score s(H,H)=s(P,P)=2, s(H,P)=s(P,H)=-2,c=-2, e=-1 (ouverture/extension de gap). Dans la

    Table ci-contre, chaque case préremplie contient (verticalement) Ix(i,j), M(i,j), Iy(i,j). Le symbole “na” indique un score non-défini. Remplir les 3 cases manquantes. [NB: sur sa copie, ne dessiner que ces 3 cases] Certains pointeurs sont déja indiqués. Indiquer quels autres types de pointeurs sont nécessaires. Décrire l'algorithme de tracé inverse sous sa forme générale.

    A3) Pour prédire la structure d'une boucle à la surface d'une protéine, une méthode classique est de rechercher des boucles candidates dans la Protein Data Bank qui ont une longueur compatible

    27

    . H P

    -2 -3 . na na na na

    na na P na -2 -2 na

    na H na -3

    Ix(i,j)

    M(i,j)I

    y(i,j)

  • et un positionnement compatible de leurs extrémités, de sorte qu'on peut les “greffer” sur la protéine à prédire (à de petits ajustements près). Quelles sont les deux hypothèses principales de cette approche?

    28

  • PARTIE B) Evolution neutre d'une protéine : un modèle physique simpleOn considère une protéine essentielle P chez une bactérie. On fait les hypothèses suivantes : P évolue par mutations ponctuelles seulement ; les mutations viables (supposées connues) sont neutres ; les autres sont léthales. On suppose que les autres gènes ne mutent pas. On considère une très grande population de N bactéries, possédant chacune un variant (viable) particulier de P. A l'instant t, le nombre d'individus qui portent le variant i est notée ni(t). La population évolue au cours des générations par suite de morts, naissances, et mutations. A chaque génération t, chaque individu a uneprobabilité p de subir une mutation (viable ou non) à un site de P (et tous les sites ont la même probabilité de muter), une probabilité d de mourir, et une probabilité b de donner naissance à un cloneidentique. On décrit donc l'évolution du système par l'équation (1):

    (1) ni(t+1) = ni(t)(1+b-d-p) + (p/L) j~i nj(t),où la somme est sur les variants j viables qui diffèrent de i par une mutation ponctuelle (« j~i »)B1) Justifier brièvement la forme du dernier terme à droite (qui contient la somme).B2) On suppose que la population globale est strictement conservée au cours du temps, les naissanceset morts se compensant parfaitement. En déduire une expression reliant b-d aux populations ni.B3) Montrer qu'on a la relation : ij~i nj(t) = i ni(t) mi = N , où la 1ère somme est sur tous les variants viables i de P et mi représente le nombre de mutants ponctuels viables de i. Que représente ? Réécrire (1) sous une forme où apparait et non plus b-d.B4) Déduire l'équation (2) qui décrit l'état stationnaire, où les ni ne varient plus au cours du temps. On introduit maintenant une structure de réseau : les nœuds sont les variants viables ; deux nœuds i,j sont reliés s'ils sont mutants ponctuels l'un de l'autre (« j~i »). On introduit une matrice carrée M avec une ligne/colonne par variant, avec Mij =1 si i,j, sont reliés, zéro sinon. On appelle M la matrice d'adjacence du réseau. B5) Réécrire l'équation (2) sous forme matricielle à l'aide de M. Montrer qu'à l'état stationnaire, la liste des ni est vecteur propre de M. Quelle est la valeur propre associée ?B6) Pour le réseau très simple ci-contre, écrire M et vérifier que (1,21/2,1) est vecteur propre. Comment expliquer que le nœud central (i=2) o ––– o ––– oa une population plus grande que les autres ? i 1 2 3

    B7) On montre à gauche un exemple de réseau plus complexe R (carrés = noeuds). La population à l'état stationnaire est représentée par le niveau de gris : plus sombre = plus peuplé. On montre également la population en fonction du nombre n de mutations (relatives au variant leplus peuplé), soit pour les variants individuels (points), soit

    29

    R

  • en moyenne pour chaque valeur de n (ligne continue). Pourquoi est-ce que la population est forte au centre du réseau et faible aux bords ?B8) M est une matrice carrée aux élément positifs ou nuls. Etant donnée cette structure particulière, justifier qu'il y a bien un vecteur propre qui peut s'interpréter comme une liste de populations ; que pouvez-vous dire de la valeur propre associée ? On montre facilement (mais ce n'est pas demandé ici) que ce vecteur propre correspond au seul état stationnaire stable.

    30

  • PARTIE C) Composition C+G des génomes: mutation vs. sélection Chez les bactéries, la composition C+G des génomes varie fortement, de 17 % à 75 % environ. Ces variations sont le résultat d'effets multiples, qui influencent la fréquence des mutations et/ou leur fixation dans la population, et qui sont difficiles à quantifier séparément. Une approche récente est d'éliminer largement l'effet de la sélection en étudiant les mutations ponctuelles (SNPs) entre plusieurs souches d'une même espèce bactérienne, avec des populations assez petites et sur des échelles de temps assez courtes. Cette approche et d'autres montrent que les mutations C+G → A+T sont plus fréquentes que A+T → C+G (cf Hershberg& Petrov, Plos Genetics 2010).

    C1) Supposons qu'on étudie un locus polymorphe au sein d'un ensemble de souches bactériennes différentes. Pour caractériser un éventuel biais « directionnel » en faveur des mutations C+G → A+T, il est essentiel de reconnaître parmi les allèles en présence celui qui est l'allèle ancestral. Proposer ou rappeler deux méthodes simples pour le faire.

    C2) Sur un ADN de 2 millions de bases, il y a une déamination de C toutes les 3h environ, 100 fois plus que pour A ou G. Cette déamination peut être corrigée par un enzyme de réparation, l'uracil glycosylase. Chez les vertébrés, rappeler pourquoi la propensité de C à la déamination entraine, malgré la réparation, un nombre particulièrement élevé de mutations de C ou G vers A ou T (dont une partie seulement reste fixée dans la population).

    C3) Chez les bactéries, comment expliquer que, malgré l'enzyme de réparation, une fraction de ces déaminations n'est pas corrigée, surtout dans des conditions de croissance rapide ? Il s'en suit un nombre plus élevé de mutations C+G → A+T que l'inverse. Etant donné ce biais mutationnel, les bactéries à fort taux C+G doivent subir une pression sélective en faveur de G+C.

    C4) Compte-tenu de la structure des 4 nucléotides A, C, G, T, pensez-vous que la vie à température élevée peut être une pression sélective pour ou contre un fort taux C+G ?

    C5) Plus généralement, proposer un ou deux autres mécanismes par lesquels la stabilité plus ou moins grande des paires Watson-Crick peut être un avantage ou un désavantage sélectif.

    C6) Dans une région codante, les mutations C+G → A+T ont une influence subtile mais systématique sur la composition des protéines, les rendant (en moyenne) légèrement plus hydrophobes, par exemple, et modifiant légèrement la stabilité des structures secondaires. Ces biais seront plus ou moins délétères selon la position au sein de la protéine. Pour un ensemble de bactéries et de protéines on a mesuré le ratio R entre les nombres de mutations non-synonymes et synonymes pour des acides aminés peu, moyennement, ou très exposées au solvant, obtenant des valeurs entre 0.16 et 0.28 (environ 4-6 mutations synonymes pour un non-synonyme). Laquelle de ces valeurs est associée, selon vous, aux positions très exposées et laquelle aux positions très enfouies dans la structure 3D?

    C7) La structure du code génétique fait que certaines codons possèdent plus de mutations

    31

  • synonymes que d'autres. Quel est le contenu G+C des codons qui ont une dégénerescence 4 à leur 3ème position ? Une représentation du code génétique est rappelée sur la page suivante.

    C8) Le fait qu'un codon a plus de mutations synonymes, ce n'est pas vraiment une propriété qui peut être soumise à pression sélective : pourquoi ? En vous inspirant de la partie B ci-dessus, indiquer cependant un mécanisme qui permet de peupler préférentiellement, au sein d'une population bactérienne, un variant d'une protéine dans lequel il y a beaucoup de codons dégénérés.

    32

  • Ecole Polytechnique Département de BIOLOGIE

    Biologie Computationnelle — BIO 554Promotion X2008 — Contrôle du 13 décembre 2010

    Durée de l’épreuve : 2 heuresLes 3 parties sont indépendantes. Tous les documents sont autorisés.

    PARTIE A: (8 points) Les exercices de cette partie sont indépendants.A1) Dans l'arbre phylogénétique de l'hémoglobine du cours, reproduit ci-dessous, quel est l'argument pour mettre la translocation en haut du processus? (cf. cours I)

    A2) Un enzyme « parfait » est un enzyme dont la vitesse de réaction est limitée par la vitessede diffusion Brownienne de son substrat dans l'espace 3D. Suggérer au moins deuxmécanismes par lesquels un enzyme peut aller plus vite que cette limite.

    A3) Pour expliquer les faibles taux de CpG dans les génomes de vertébrés, on évoque en coursun mécanisme de dommage oxidatif puis de réparation de l'ADN. Ce mécanisme fait apparaître un avantage à utiliser l'ADN et non l'ARN pour stocker et transmettre l'information génétique; lequel?

    A4) Lorsqu'on a établi la carte physique du génome humain, pourquoi ne pas avoir fait unecartographie séparément pour chaque chromosome, une approche qui parait a priori plussimple qu'une cartographie simultanée de tout le génome?

    A5) Est-ce qu'un brin d'ARN et son brin complémentaire ont la même structure secondaire? Quels sont les principaux effets qui favorisent ou contredisent cette hypothèse?

    33

    Gène ancestralduplicationdivergence

    translocationduplicationset divergence

    bez yz a2a1zD dybq1Chromosome 11Chromosome 22

  • A6) Dans la méthode progressive d'alignement multiple vue en cours, on doit effectuer une série d'alignements séquence-séquence, séquence-profil, ou profil-profil, dans un ordre déterminé par un arbre guide. Ecrire un algorithme qui permet de faire ces alignements successifs dans le bon ordre.PARTIE B: (8 points) Quelques idées sur les alignements structurauxOn veut aligner les séquences x et y de deux protéines homologues. Si les structures 3D de ces protéines sont connues, on s'efforcera d'utiliser cette information, et on fera un alignementdit « structural ». Ces méthodes sont essentielles pour constituer des classifications struc-turales des protéines.

    B1) Rappeler les relations de récursion qui sont utilisées dans la méthode « rigoureuse » de Needleman-Wunsch pour aligner les séquences x et y. On se placera dans le cas où on choisit une pénalité -d pour l'ouverture de gap et une pénalité différente -e pour l'extension d'un gap (d, e entiers positifs). On notera s la matrice de score utilisée. Pour simplifier, ici et dans tout le problème, on ne s'intéressera qu'aux alignements globaux (pas locaux).

    B2) On revient à une situation plus simple en choisissant la même pénalité pour l'ouverture et l'extension d'un gap. Par contre, on décide que cette pénalité dépendra de l'acide aminé qui précède le gap: soit une pénalité -ai si le gap se trouve entre les acides aminés xi et xi+1 dans la séquence x, ou une pénalité -bj si le gap le gap se trouve entre les acides aminés yj et yj+1 dans la séquence y. Adapter les relations de récursion de Needleman-Wunsch à ce cas. Peut-onfaire la même généralisation si l'ouverture et l'extension de tous ces gaps ont des scores différents, comme au (B1)? On aurait alors des scores de gap qui dépendent de la séquence (x ou y), la position dans la séquence (i ou j), et la nature du gap (ouverture ou extension).

    B3) Si maintenant on connait la structure 3D de x et y, comment proposeriez-vous d'attribuer les scores de gap pour prendre en compte au moins partiellement l'information structurale?

    B4) On sait que la méthode de Needleman-Wunsch permet d'aligner des objets plus compliqués que des suites de lettres, dès lors que la fonction de score s(i,j) a les bonnes propriétés; par exemple la méthode peut s'appliquer à l'alignement de deux profils ou alignements. Rappeler quelles sont la ou les propriétés que doit respecter s pour être compatible avec Needleman-Wunsch (pour être « NW-compatible »).

    B5) On se propose de prendre en compte l'information structurale pour améliorer non seulement le traitement des gaps (comme ci-dessus), mais aussi le calcul du score s(i,j) pour aligner deux acides aminés xi et yj. Proposer une description (ou codage) des acides aminés

    34

  • qui soit plus riche que leur seul type, qui soit compatible avec Needleman-Wunsch, et qui incorpore plusieurs informations structurales. Proposer une méthode pour définir une fonctionde score S (qui reste NW-compatible) à partir de cette description. Indiquer une stratégie (simple et brève) pour optimiser une telle fonction de score.

    B6) Considérons un acide aminé xi dans la structure 3D d'une protéine; appelons dik la distance entre son C et le C d'un autre acide aminé xk de la même protéine. Une manière de décrire (« coder ») l'acide aminé xi est de dresser la liste de ces distances, soit Xi = {dik, k = 1,..,n}, où n est la longueur de la protéine (et de sa séquence x). On définit le codage analoguepour la séquence y et la protéine correspondante. Pour évaluer la similarité entre Xi et Yj, une difficulté se présente: ce sont deux listes de longueurs différentes, et on ne connait pas la correspondance entre leurs éléments. Proposer une méthode pour vaincre cette difficulté et évaluer la similarité entre Xi et Yj. En déduire une méthode pour faire l'alignement structural de x et y, en intégrant l'information de distances que nous venons de décrire.

    PARTIE C: (8 points) Quelques considérations sur la relation séquence/structureC1) La méthode de prédiction de structure la plus simple est celle de Nussinov, qui prédit la structure secondaire des ARN. Utiliser cette méthode pour replier l'ARN suivant: GACAGGUU. On prend comme convention que les scores positifs sont favorables; on cherchedonc le ou les repliements qui maximisent le score. On attribue un score de +1 aux appariements A-U, G-C, et G-U, et zéro aux autres. On autorise les appariements entre des nucléotides séparés par au moins un autre nucléotide dans la séquence (boucles de longueur un ou plus). Les nucléotides dans les boucles contribuent zéro au score. Indiquer deux repliements de score optimal, ainsi que la table de Nussinov qui a permis de les obtenir.

    C2) Pour l'ARN, une méthode nettement plus réaliste est celle de Zuker, qui prend en compte d'autres effets que l'appariement; notamment l'empilement plus ou moins favorable des paires de base adjacentes dans une hélice, et la contribution des boucles de différents types et longueurs à la stabilité. Un extrait de la table de Freier-Turner, ci-dessous, donne la contribution des nucléotides dans une boucle « terminale » (en bout d'hélice) à la stabilité. Plus précisément, pour une boucle de longueur n, la table donne une estimation de la contribution dG en kcal/mol de la boucle à l'énergie libre de repliement de la molécule:longueur n de la boucle 1 2 3 4 5 6 7 8 9 10 15 20 contribution dG à la stabilité 10 9 7 6 4 4 4 4 4 5 6 7

    Expliquer pourquoi les petites boucles sont très déstabilisantes. Proposer une explication pourl'augmentation de dG quand n devient grand (n > 9).

    35

  • C3) Pour la structure secondaire des protéines, les approches sont différentes. Elles se basent en général sur une analyse empirique de courtes séquences de sept acides aminés, et proposent un classement pour l'acide aminé central (le 4ème): appartient à une hélice, à un feuillet, à une boucle. Ces approches donnent la bonne prédiction pour environ 75% des acides aminés. Une limitation évidente est de ne prendre en compte que le voisinage proche de chaque acide aminé. Il est intéressant de quantifier l'importance de cette approximation, et de déterminer si elle suffit pour expliquer le taux d'erreurs de 25%. Cela peut se faire sans tropde difficultés en analysant les structures de la Protein Data Bank, ou PDB. Proposer donc une méthode pour estimer la limite supérieure du taux de succès d'une méthode idéale (basée sur les séquences de longueur 7).

    C4) Dans une prédiction de structure 3D d'une protéine, on ne fait plus un simple classement, mais on propose un modèle 3D atomique détaillé. Dans une modélisation « par homologie » (ou similarité), une étape distincte est de prédire la conformation de boucles individuelles, connaissant leur contexte et notamment la structure de la chaine principale aux extrémités de la boucle. Une approche courante est de chercher dans la PDB des boucles de longueur et de forme compatibles, et de séquence similaire. Quelles sont les deux principales hypothèses qu'implique cette approche?C5) La prédiction de structure à partir de la séquence s'appelle le problème du repliement. Le problème « inverse » est très intéressant: prédire la (ou les) séquences compatibles avec un arrangement particulier de la chaine principale. En général, on fera une exploration de l'espacedes séquences possibles, en s'efforçant d'identifier celles qui confèrent une bonne stabilité à la protéine obtenue. Une telle stratégie suppose que les séquences des protéines sont sélectionnées pour maximiser leur stabilité, ce qui n'est évidemment pas le cas. Suggérer des raisons pour lesquelles la stabilité d'une protéine peut être un avantage sélectif ou, au contraire, un désavantage.

    36

  • Ecole Polytechnique                                                                 Département de BIOLOGIE

    Biologie Computationnelle  —  BIO 554Promotion X2007 — Contrôle du 7 décembre 2009

    Durée de l’épreuve : 2 heuresLes trois parties sont indépendantes. Tous les documents sont autorisés.

    L'énoncé comprend quatre pages.

    PARTIE    A: (8 points) Chaque question devrait susciter une réponse courte (24 lignes auplus)

    A1) En construisant un alignement multiple, on aligne d'abord les séquences les plus similaires, puis les moins similaires: pourquoi?

    A2) Nous avons vu qu'un algorithme d'alignement tel que Needleman-Wunsch peut s'appliquer aussi bien à des séquences de protéines ou d'ADN. Quelle est l'hypothèse de la méthode qui n'est plus vérifiée pour le cas de séquences d'ARN?

    A3) Pourquoi la chaine polypeptidique, quand elle traverse l'intérieur d'une protéine globulaire, adoptetelle le plus souvent une organisation en hélice alpha ou brin beta?

    A4) Dans un modèle de mécanique moléculaire, quels sont les deux termes d'énergie qui mesurent l'interaction entre deux atomes appartenant à deux molécules différentes (eg, protéine et ligand)?

    A5) Comment localiser une séquence dans une carte physique de notre génome?

    A6) Qu'entend-on par un « rotamère » d'une chaine latérale de protéine?

    A7) Pourquoi une matrice de score pour les alignements de séquence (eg, BLOSUM) doit-elleavoir une valeur moyenne proche de zéro?

    A8) Quatre codons codent pour la valine: GTT, GTC, GTA et GTG. Que peut-on prédire surleurs fréquences d'utilisation dans une algue extraite d'une source volcanique et dans unealgue de l'océan arctique?

    37

  • 38

  • PARTIE B: (10 points) Les deux exercices de cette partie sont indépendants.B1) On montre ci-dessous un alignement multiple de séquences homologues de la partie C-terminale de la protéine GCN4 de levure. Les acides aminés les plus hydrophobes sont jaunes (ou oranges); les plus hydrophiles sont bleus (ou violets).

    a) Quel motif périodique peut-on identifier? Sa période est proche d'une période de quel élé-ment de structure secondaire? b) Avec une projection bien choisie et une vue (très) schématique de la structure, représenter le motif périodique sur la structure. c) Sachant que la région de la protéine correspondant à l'alignement est observée sous forme d'un homodimère, représentez schématiquement le dimère, toujours en projection. Quel type d'interactions sont mises en jeu pour stabiliser l'association du dimère?d) Le motif repéré dans l'alignement a une période qui s'écarte légèrement de celle observée typiquement pour cet élément de structure secondaire; cet écart résulte des interactions entre les deux protomères. Proposez deux types de déformation structurale pour expliquer cet écart.B2) On va construire un modèle de Markov qui produit des alignements de paires de séquences. Le modèle va générer simultanément deux séquences aléatoires, alignées.a) Proposer une architecture simple pour le modèle. Pour réduire le nombre de paramètres, on pourra décider qu'une colonne avec un gap dans la séquence x ne peut suivre directement une colonne avec un gap dans y, et inversement. Combien y atil de probabilités de transition indépendantes?b) On appelle x et y les deux séquences générées. On notera vE(i,j) la probabilité du chemin “optimal”: le chemin le plus probable se terminant dans l'état E, et pour lequel les derniers éléments émis sont xi et yj. Ecrire les relations de récursion de Viterbi pour ce cas, reliant les probabilités vE(i,j) (pour les différents états E du modèle) aux probabilités de chemins optimaux plus courts.c) En principe, étant données deux séquences a et b, on peut utiliser le modèle pour identifier l'alignement le plus probable de a avec b. Comparer les relations de Viterbi obtenues cidessus avec les relations de la méthode de NeedlemanWunsch et établir la correspondance entre les paramètres qui apparaissent dans les deux formalismes. On rappelle les relations de NeedlemanWunsch pour le cas où l'ouverture et l'extension d'un gap ont des coûts différents, c et e, respectivement:

    M(i,j) = max{ M(i1,j1) + s(xi,yj),  Ix(i1, j1) + s(xi,yj),  Iy(i1, j1) + s(xi,yj) }Ix(i, j) = max{ M(i1, j) c,  Ix(i1, j) e }Iy(i, j) = max{ M(i, j1) c,  Iy(i, j1) e }

    39

  • PARTIE C: (10 points) Quelques considérations sur le code génétique.

    C1) Une protéine ancestrale contient une sérine dans une position donnée. D'après la matrice BLOSUM62, quel changement est le plus probable au cours de l'évolution: le S mute en Y, ou le S mute en W? [Les éléments de la matrice BLOSUM62 sont: B(S,Y)=-2; B(S,W)=-3. Les fréquences de Y et W dans les protéines sont de 3.2% et 1.3% respectivement. Les matrices BLOSUM utilisent des logarithmes en base 2.]

    C2) A partir d'un alignement de deux séquences, on infère un ancêtre commun, avec le moins de mutations possibles (hypothèse « parcimonieuse »). Par exemple, pour une position où S et Y sont alignés, on suppose que l'ancêtre a S ou Y à cette position. Au niveau de l'ADN, cela suppose une mutation d'un codon S vers un codon Y, ou l'inverse. En tenant compte de la structure du code génétique, expliquez pourquoi, au niveau de l'ADN, ces deux possibilités ne sont pas équiprobables.[On pourra supposer que les différents codons Y et S ont à peu près la même abondance, et que les mutations de nucléotides individuels (A C G T) ont toutes la même ↔ ↔ ↔probabilité au niveau de l'ADN.] Comment expliquer alors le fait que la matrice BLOSUM soit symétrique, B(S,Y) = B(Y,S)?

    C3) On montre ci-dessous le code génétique standard; les acides aminés sont colorés avec la convention: très polaire = bleu; polaire = violet; hydrophobe = jaune; aromatique = orange. En quoi le code est-il optimisé pour être robuste par rapport aux mutations accidentelles qui ont lieu chez un organisme ou une population? Proposer une mesure simple de sa robustesse, comparée à d'autres codes possibles, et une méthode pour l'estimer numériquement.

    40

    GlyGlu

    Asp

    Ala

    Val

    Arg

    Ser

    Lys

    Asn

    Thr

    MetIle Arg

    GlnHis

    Pro

    Leu

    Trp

    Cys

    Tyr

    SerLeuPhe

  • C4) Pour un gène fortement exprimé, un facteur sélectif important est la vitesse de traduction. Rappeler la définition du « codon adaptation index », ou CAI; rappeler un facteur sélectif principal qui rend un codon « optimal » ou « non-optimal » au sens du CAI.

    C5) On a observé récemment des gènes dans lesquels alternent des segments à fort CAI (300-600 codons) et d'autres à faible CAI (~100 codons). Quel peut être l'intérêt d'une telle organisation?

    C6) L'extension d'un acide aminé du polypeptide en cours de synthèse suppose la rencontre et l'interaction d'un ARNt avec le complexe ribosome:ARNm, puis l'allongement de la chaine polypeptidique, puis leur dissociation. Indiquer deux propriétés de l'ARNt qui contribuent à larapidité de ce processus. L'une aura été discutée à la question C4. En quoi le choix du triplet de bases du codon va-t-il influencer la 2ème?

    41

  • Ecole Polytechnique                                                                   Département de BIOLOGIE

    Biologie Computationnelle  —  BIO 554Promotion X2006 — Controle du 16 décembre 2008 

    Durée de l’épreuve : 2 heuresLes trois parties sont indépendantes. Tous les documents sont autorisés.

    PARTIE     A:  (10 points  sur 30)  Ces  questions  devraient  susciter  une réponse courte  (24lignes chacune au plus)

    A1) Comment tester expérimentalement la validité d'un alignement multiple?

    A2) Quelles sont les interactions qui donnent lieu aux régions “interdites” dans le diagramme de Ramachandran?

    A3) A quoi correspondent les noeuds internes d'un arbre phylogénétique?

    A4) Justifier l'utilisation de scores différents pour l'ouverture et l'extension d'un gap dans un alignement de deux séquences de protéines.

    A5) Rappeler la définition de la valeur “E” qui caractérise chaque séquence homologue retournée par une recherche BLAST dans une banque de séquences comme SwissProt.

    A6) Pourquoi ne peuton utiliser un modèle de Markov caché (HMM) pour prédire la structure secondaire d'ARN?

    A7) Pourquoi faiton généralement l'hypothèse de positions indépendantes dans un alignement de séquences? Citer une variante où on abandonne (partiellement) cette hypothèse.

    A8) Quelle est la propriété de l'eau qui est la plus importante pour le repliement des protéines?

    A9) Qu'estce qu'un pseudonoeud dans une structure d'ARN?

    A10) Qu'estce qu'un pseudogène?

    A11) D'où vient la faible fréquence de dinucléotides CpG chez les vertébrés?

    42

  • PARTIE B: (10 points sur 30) Les exercices de cette partie sont indépendants entre eux.

    B1) Parmi les quatre protéases suivantes, lesquelles sont orthologues? Paralogues? Trypsine etélastase humaine; trypsine et chymotrypsine de cheval.

    B2) D'après la matrice BLOSUM50, quel changement est plus probable dans une protéine au cours de l'évolution: W changé en Y, ou L changé en V?

    B3) Fabriquer un alignement multiple global des séquences CHAT, CAT, HER en utilisant les paramètres ci-dessous et la méthode du cours. Quel est le score final?

    Ouverture de gap = extension de gap = -8

    C T A E H RC 9 0 0 -3 -3 -3T 5 0 -1 -1 -1A 4 -2 -2 -2E 5 0 0H 8 0R 5

    B4) On cherche dans une banque de séquences des homologues de la séquence x = {x1, x2, ..., xn}, en utilisant la méthode BLAST (qui produit des alignements locaux sans gaps) et une matrice de substitution M. On récupère un homologue possible y; la région alignée avec xa une longueur m et donne un score S. Calculer la probabilité P d'obtenir un score égal ou supérieur en tirant dans une collection de séquences aléatoires. On admettra que la somme d'un grand nombre de variables aléatoires indépendantes suit une loi normale.

    B5) La méthode de Nussinov utilisée pour prédire la structure secondaire d'un ARN peut produire des structures avec un appariement entre deux bases qui sont adjacentes dans la séquence, ce qui est irréaliste. Modifier les relations de récursion indiquées dans le cours pour obtenir des boucles de longueur deux au minimum. (Une solution « graphique » est acceptable mais pas obligatoire.)

    B6) Les vertébrés n'ont pas beaucoup plus de gènes que les organismes simples (à peine un ordre de grandeur de plus que les bactéries). Pourtant, leur protéome est bien plus riche. Quelle est l'origine de la complexité du protéome des vertébrés?

    43

  • PARTIE C: (10 points sur 30) Quelques considérations sur les protéines membranaires.

    C1) On s'intéresse à une protéine membranaire qui joue le role d'un récepteur. A partir de la séquence du récepteur humain, on effectue une recherche BLAST dans la banque SwissProt. La famille du récepteur étant peu caractérisée, on adopte un critère stringent pour identifier leshomologues potentiels, et on obtient un échantillon de cinq séquences homologues seulement.Cet échantillon contient évidemment plus d'informations que la seule séquence de départ. Proposer une méthode (simple) pour enrichir cet échantillon et trouver des homologues supplémentaires. La méthode pourra etre appliquée plusieurs fois. Quel est le danger d'une application trop “poussée” (trop d'itérations)?

    C2) Les protéines membranaires résident dans une membrane lipidique d'une épaisseur de 30 Å environ. Cet environnement hydrophobe impose une contrainte importante sur la structure, et la diversité structurale des protéines membranaires est bien moindre que celle des protéines globulaires, solubles. Selon vous, quels sont les modes d'organisation préférés de la chaine principale dans l'espace membranaire? Justifiez.

    C3) Proposer une méthode simple pour repérer les protéines transmembranaires à partir de leur seule séquence. On admettra qu'à l'intérieur de la membrane, les élements de structure secondaire ont tendance à s'aligner à peu près perpendiculairement au plan de la membrane, ne pouvant s'écarter de cette orientation que de 30 degrés au maximum.

    C4) Une méthode plus sophistiquée utiliserait une Chaine de Markov Cachée, ou HMM.a) Proposer un HMM pour prédire la structure secondaire d'une protéine (on distinguera hélices a, brins b, boucles). Combien le modèle a-t-il de paramètres ajustables? b) On paramètre le modèle pour avoir des hélices a d'une longueur moyenne de N = 20 acides aminés (ce qui correspond à l'épaisseur d'une membrane lipidique). Quel sera alors l'écart-type s de la longueur des hélices prédites? (On pourra supposer que la protéine est très longue.)c) Est-ce que la valeur de s est satisfaisante dans le cas des protéine membranaires? Une paramétrisation du modèle optimisée pour les segments membranaires ne sera pas optimale pour des protéines globulaires (ni pour les domaines hors-membrane de protéines partiellement membranaires); donner (au moins) un argument (simple) pour le prouver.

    C5) a) Proposer un HMM capable de traiter les protéines qui ont à la fois des domaines transmembranaires et d'autres solubles. Combien votre modèle a-t-il de paramètres ajustables?b) Selon vous, quelles sont les principales limitations des HMMs simples discutés ici pour la prédiction de structure secondaire?

    44

  • C6) Les protéines (membranaires comprises) doivent généralement interagir avec d'autres molécules pour réaliser leur fonction biologique. Du point de vue thermodynamique, quel est l'effet, très général, qui s'oppose toujours à l'association entre deux molécules? Pourquoi cet effet est-il moins pénalisant quand les deux partenaires sont dans une membrane?

    C7) Un récepteur membranaire est souvent capable de détecter une molécule dans le milieu extracellulaire (un “messager”) et de transmettre un signal jusqu'à l'intérieur de la cellule. Ce signal peut etre le résultat d'une activité enzymatique intracellulaire, déclenchée indirectementpar le messager. Dans certains cas, le signal est produit grace à un changement de conformation de la protéine, par exemple des réorientations d'hélices transmembranaires. Si vous aviez à fabriquer un transducteur de signal transmembranaire, et si le messager à détecterest une molécule suffisamment grande et bifonctionnelle, à quel mécanisme pourriez-vous faire appel?

    45

  • Ecole Polytechnique Edition 2013

    Année troisBIO554

    BIOLOGIE COMPUTATIONNELLE

    Corrigés des exercices et des contrôles

    Thomas Simonson

    46

  • ECOLE POLYTECHNIQUE DÉPARTEMENT DE BIOLOGIE

    Computational Biology – BIO554 – Solutions to exercises and exams

    Chapter ONE: sequence alignment

    1. We obtain the dynamic programming table below. The left and upper edges corre-

    spond to alignments of the first part of either sequence with a list of gaps: A−, AA

    −−,

    A, −−

    AC, and so on. The rest of the table is filled using the recursion seen in class.

    A A A G

    0 -2 -4 -6 -8

    A -2 1 -1 -3 -5

    C -4 -1 0 -2 -4

    G -6 -3 -2 -1 -1

    The three optimal alignments are:

    A A A G A A A G A A A G

    - A C G A - C G A C - G

    2. It is easy to check that this example uses the same scoring scheme as Exc 1: 0 for

    a gap at the beginning of the alignment; -2 for any other gap; +1 for a match and

    -1 for a substitution. The optimal alignment (score = 4) isG A T A

    G A T A.

    3. We obtain the dynamic programming table below. The left and upper edges cor-

    respond to alignments with gaps, which are given a score of zero, according to the

    recursion seen in class. The idea is that we are willing to accept regions at the

    beginning or end of the sequences that do not originate from the common ancestor:

    separate domains for example; this does not affect our belief in the hypothesis of a

    common ancestor.

    47

  • G A W G H E E

    0 0 0 0 0 0 0 0

    A 0 0 5 0 0 0 0 0

    W 0 0 0 20 12 4 0 0

    H 0 0 0 12 18 22 14 6

    E 0 0 0 4 10 18 28 20

    A 0 0 5 0 4 10 20 27

    The best alignment isA W G H E

    A W - H Ewhose score is 28. Notice that adding an

    additional column EAat the end would actually reduce the score (to 27).

    For the two longer sequences, the best alignment isA W G H E E G A W G H E

    A W - H E - A A W - H E

    4. a) Gaps tend to occur at the surface of proteins, for example in the loops that

    connect elements of secondary structure. Thus, by opening a gap at a given posi-

    tion, we are making an assumption that implies, with a high probability, a surface

    location. This in turn means that extending the gap (moderately) should not have

    much further effect on our confidence in the working hypothesis (a common ances-

    tor). Therefore, the gap extension cost should be much lower than the gap opening

    cost. In practice, an affine gap penalty will correctly “push” gaps out of buried

    regions while not over-penalizing unconserved surface loops.

    b) Let M(i, j) be the score of the optimal alignment of (x1, ..., xi) and (y1, ..., yj)

    ending with a match xiyj. Let Ix(i, j) be the score of the optimal alignment ending

    with a gap xi−, and Iy(i, j) the score of the optimal alignment ending with a gap

    yj.

    Let −c and −e be the gap creation and extension scores. We have the recursion:

    M(i, j) = max [M(i− 1, j − 1) + s(xi, yj), Ix(i− 1, j − 1) + s(xi, yj), Iy(i− 1, j − 1) + s(xi, yj)]Ix(i, j) = max [M(i− 1, j) − c, Ix(i− 1, j) − e, Iy(i− 1, j) − c]Iy(i, j) = max [M(i, j − 1)− c, Ix(i, j − 1)− c, Iy(i, j − 1)− e]

    Notice that the 3rd possibility for Ix(i, j) corresponds to an alignment ending with:−xiyj−

    ; the 2nd possibility for Iy(i, j) is similar. Such alignments can only be optimal

    if the gap contributions, −e − c or −2c, give a better score than a match xiyj. This

    48

  • will never occur with ordinary scoring matrices s and gap penalties, which verify

    −e− c < minx,y s(x, y). Therefore, these two possibilities can be left out, giving:

    M(i, j) = max [M(i− 1, j − 1) + s(xi, yj), Ix(i− 1, j − 1) + s(xi, yj), Iy(i− 1, j − 1) + s(xi, yj)]Ix(i, j) = max [M(i− 1, j) − c, Ix(i− 1, j) − e]Iy(i, j) = max [M(i, j − 1)− c, Iy(i, j − 1)− e]

    5. a) Trp is large, planar, and mostly hydrophobic. No other amino acid has its

    particular size and shape, and so any subsitution must lead to some structural rear-

    rangement, and may require other, correlated mutations nearby. Gly is even more

    unusual: it has no sidechain, so that it allows unusual structures. Most importantly,

    it can occupy many more backbone conformations than other amino acids, as shown

    by its particular Ramachandran map. Thus, it allows tight turns in short surface

    loops (so-called beta turns). It also allows many more backbone conformations to

    be explored when the protein is in its unfolded state, which contributes unfavorably

    to the protein’s stability (the unfolded state is stabilized entropically).

    b) The mutation probabilities P can be deduced from the definition of the Blosum

    matrix B and the amino acid abundancies: B(x, y) = log2 (P (x, y)/qxqy), so that

    P (x, y) = qxqy2B(x,y). We have qL = 9.0, qM = 2.4, so that

    P (A,L)P (A,M)

    = 9.0×2−3

    2.4×2−2≈ 1.9:

    A is more likely to mutate into L than into M, even though B(A,L) < B(A,M).

    c) This is a broad and complex question. Briefly, proteins should be stable enough

    to maintain their structure and perform their function before unfolding and being

    digested or forming aggregates. But they must not be too stable, since the cell needs

    to respond to changes in its environment in a dynamic way. Another interesting

    aspect is that a very stable protein is more likely to maintain its structure even

    if it undergoes random point mutations; some protein folds tolerate more diverse

    sequences than others. We say that they are “designable”.

    6. a) Consider the usual dynamic programming table for the sequences x and y. Let

    f(i, j) be the number of possible sequence alignments between the subsequences

    x1x2 · · ·xi and y1y2 · · · yj . Each of these alignments can be represented as a paththrough the table; all these paths terminate in the (i, j) cell. Each one passes

    through one and only one of the 3 neighboring cells: (i − 1, j − 1), (i − 1, j), or(i, j − 1). Therefore, f verifies the given recursion. For i = j = n, the solutionis f(n, n) =

    ∑ni=1C

    inC

    nn+i. This counting includes some odd arrangements of gaps,

    such as −xy−

    and x−−y

    , which might be considered physically irrelevant or redundant.

    b) Consider a sequence of n +m boxes; there are Cnn+m ways to choose n of these,

    49

  • and only one way to fill them with the sequence x1x2 · · ·xn (keeping the sequenceorder intact). The other m boxes can then be filled with y in just one way.

    c) We limit ourselves to some discussion. For simplicity, assume n = m. Starting

    from any alignment of x and y, we can fill the n + n boxes, using the given rule,

    in a unique way. However, some alignments, like x1−−y1

    and x1y1

    will give the same

    box arrangement. Therefore, f(n, n) > Cnn+n. Conversely, from an arrangement of

    our 2n boxes, we can always construct an alignment, by adopting a rule for gap

    placement. For example, we could choose to draw symbols from the boxes going

    left to right, putting xi symbols above and yj below, and making a match whenever

    possible; for example x1x2y1y2 → x1x2−−y1y2

    . This “greedy match” rule would not allow

    things like x1−−y1

    . In fact, this rule eliminates paths through the table that include

    right angle turns of the type: “step horizontally right then vertically down”. This

    is a harmless limitation, so that our method probably includes all the physically

    meaningful alignments: fphysical(n, n) & Cn2n. The distinction between f(n, n) and

    fphysical(n, n) is somewhat academic, since they both increase exponentially with n,

    as shown below.

    5 10 15 20 25Log@C2 n

    nD

    5

    10

    15

    20

    25

    30

    35

    LogfHn,nL

    n=5

    n=10

    n=15

    n=20

    slope = 1.280

    slope = 1

    50

  • Chapter TWO: sequence alignment, continued

    1. We obtain the dynamic programming table below. Notice that the gap penalty is

    -10 when two gap symbols are aligned with one amino acid, or two amino acids

    with one gap symbol, but -5 when a gap symbol is aligned with one amino acid and

    another gap (bottom left). Notice that the scores in the table correspond to the

    alignment done here; they do not include the score to create the initial alignment,PHAAE−

    , which is -6. Thus, the final score is -15 = -9 - 6.

    - H E A P

    -- 0 -10 -20 -30 -40

    PA -10 -4 -12 -16 -24

    HE -20 -2 +1 -9 -19

    A- -25 -7 -4 +1 -9

    The final alignment isP H A -

    A E - -

    H E A P

    ց ց ց →

    .

    2. The best pairwise alignment isC H A T

    C - A T, with a score of +10. The guide tree

    evidently has the form:

    CHATCAT

    HER

    and the dynamic programming table is:

    - C H A T

    - C - A T

    - 0 -16 -24 -40 -56

    H -16 -6 -14 -28 -42

    E -32 -22 -14 -18 -30

    R -48 -38 -30 -18 -20

    The final alignment is

    C H A T

    C - A T

    H - E R

    ց → ց ցIts score is -10 (-20 from the table

    and +10 from the initial pairwise align-

    ment).

    Notice that although the method is not guaranteed to find the best multiple align-

    ment, this solution is optimal (there are only 3 alternatives to check, corresponding

    to the 3 possible pairs that can be chosen for the first alignment step).

    3. a) Comparing GDNV to itself gives a Blosum50 score of 28 = 8+8+7+5: 8 8 7 5G D N V

    . If

    we tolerate scores as low as 20, we allow 33 single mutations (scores in parentheses):

    51

  • G → A, N, or S (20); D → N, E (22), Q, S (20); N → D (23), H, S (22), Q, E, G,K, T (21), A, R (20); V → I (27), M, L (24), A, T (23), C, F, Y (22), S (21), R, N,Q, E, K, P, W (20). Ten double mutants are also allowed: V → I can be combinedwith D → N, E (21) or with N → D, H, S, Q, E, G, K, T (scores of 20–22). Witha threshold of 20, there are 44 homologous tetrapeptides in all, including GDNV

    itself (and 4 with a threshold of 24: GDNV, GDNI, GDNM, and GDNL).

    b) The discrete random variable S is a sum of n independent, random scores. When

    n becomes large, we know from the central limit theorem that S converges towards

    a normal law (convergence in a strong sense; see the textbook “Aléatoire” by S.

    Méléard for details). In practice, by analogy with a binomial distribution, we may

    expect that S is essentially normal as soon as n is greater than 10.

    We have S =∑

    i B(xi,