Download - THESE - prabi.ibcp.fr
1
N° d’ordre : Année 2002
THESE
présentée
devant L’UNIVERSITE CLAUDE BERNARD- LYON 1
pour l’obtention
Du dipôme de doctorat (arrété du 30 mars 1992)
présentée et soutenue publiquement par
M. Mounir ERRAMI
Le 20 novembre 2002
Titre :
Analyse statistique des structures tridimensionnelles de protéines et validation de familles structurales à bas taux d’identité.
Directeur de thèse : PR. GILBERT DELÉAGE
JURY
Dr. Jacques CHOMILIER, Rapporteur Dr. Olivier POCH, Rapporteur Dr. Laurent DURET Pr. Bernard ROUX Pr. Gilbert DELÉAGE Pr. Michel VAN DER REST Pr. Gilbert DELÉAGE
2
INTRODUCTION ................................................................................................................................................. 6
1. RAPPELS BIBLIOGRAPHIQUES............................................................................................................. 9
1.1. LES BASES DE DONNEES PROTEIQUES ....................................................................................................... 9 1.1.1. Les bases de séquences protéiques .................................................................................. 10
1.1.1.1. Les bases généralistes ............................................................................................................ 10 1.1.1.2. Les bases spécialisées : bases de domaines protéiques et d’alignements multiples............... 16 1.1.1.3. Les bases de données intégrées.............................................................................................. 18
1.1.2. Les bases de données structurales ................................................................................... 20 1.1.2.1. Protein Data Bank.................................................................................................................. 21 1.1.2.2. Les bases de données articulées autour de la PDB ................................................................ 22
1.1.3. DBcat : Le catalogue des bases base de données en biologie. ........................................ 26 1.1.4. Les systèmes d’interrogation des bases de données ........................................................ 27
1.2. OUTILS BIOINFORMATIQUES D’ANALYSE DES SEQUENCES PROTEIQUES.................................................. 27 1.2.1. Recherche d’homologie par comparaison de séquences ................................................. 28
1.2.1.1. Définitions ............................................................................................................................. 28 1.2.1.2. Alignement par paire de séquences........................................................................................ 28 1.2.1.3. Application : recherche d’homologie dans les bases de séquences. ...................................... 35
1.2.2. Autres outils de recherche d’homologie. ......................................................................... 38 1.2.2.1. Recherche de motifs (pattern)................................................................................................ 38 1.2.2.2. Utilisation des profils............................................................................................................. 39 1.2.2.3. Analyse de la compatibilité de structures secondaires. .......................................................... 39 1.2.2.4. Utilisation des structures tridimensionnelles. ........................................................................ 41
1.3. ETUDE D’UNE FAMILLE DE PROTEINES : ALIGNEMENTS MULTIPLES........................................................ 41 1.3.1. Algorithme d’alignement multiple progressif .................................................................. 42
1.3.1.1. CLUSTALW ......................................................................................................................... 42 1.3.1.2. MultAlin ................................................................................................................................ 42 1.3.1.3. Autres programmes d’alignement multiple progressif........................................................... 42
1.3.2. Algorithmes d’alignement multiple itératif et simultané.................................................. 43 1.3.3. Validation des méthodes d’alignement multiple .............................................................. 44
1.4. OUTILS BIOINFORMATIQUES D’ETUDE DES STRUCTURES SECONDAIRES DES PROTEINES......................... 45 1.4.1. Les structures secondaires des protéines et le diagramme de Ramachandran................ 45 1.4.2. Moyens d’attribution des structures secondaires des protéines à partir des structures
tridimensionnelles. ......................................................................................................................... 46 1.4.2.1. DSSP...................................................................................................................................... 47 1.4.2.2. Autres outils d’attribution automatique des structures secondaires. ...................................... 47
1.4.3. Prédiction des structures secondaires des protéines ....................................................... 47 1.4.3.1. Méthodes de statistiques linéaires.......................................................................................... 48
3
1.4.3.2. Méthodes basées sur l’homologie.......................................................................................... 49 1.4.3.3. Méthodes basées sur l’apprentissage ..................................................................................... 50 1.4.3.4. Apport de l’information biologique et méthodes consensuelles. ........................................... 50
1.5. OUTILS BIOINFORMATIQUES D’ETUDE DES STRUCTURES TRIDIMENSIONNELLES DES PROTEINES. ........... 50 1.5.1. Les structures tridimensionnelles des protéines .............................................................. 50
1.5.1.1. Ponts disulfures...................................................................................................................... 51 1.5.1.2. Interactions électrostatiques & liaisons hydrogènes .............................................................. 52 1.5.1.3. Interactions hydrophobes....................................................................................................... 52
1.5.2. Prédiction des structures tridimensionnelles ................................................................... 53 1.5.2.1. Modélisation moléculaire par homologie .............................................................................. 53 1.5.2.2. Threading............................................................................................................................... 53
1.6. OUTILS BIOINFORMATIQUES D’ANALYSE SPECIALISEE DES PROTEINES................................................... 53 1.6.1. Profils physico-chimiques................................................................................................ 53 1.6.2. Détection de motifs coiled-coils (super hélices) .............................................................. 54 1.6.3. Détection de motifs hélice-coude-hélice (fixation à l’ADN) ............................................ 54 1.6.4. Prédiction de segments trans-membranaires................................................................... 54
2. ANALYSE DE LA CONSERVATION DES ACIDES AMINES A ROLE STRUCTURAL AU SEIN
DES PROTEINES. .............................................................................................................................................. 56
2.1. STRATEGIE GLOBALE.............................................................................................................................. 57 2.2. MATERIELS ET METHODES...................................................................................................................... 57
2.2.1. Matériel informatique ...................................................................................................... 57 2.2.2. Les langages de programmation C/C++ et la fonction system()..................................... 58
2.2.2.1. Le C ....................................................................................................................................... 58 2.2.2.2. Le C++................................................................................................................................... 59 2.2.2.3. La fonction system() .............................................................................................................. 60
2.2.3. Le langage Tcl et le package Tk....................................................................................... 60 2.2.4. Protéines de structures connues ...................................................................................... 61 2.2.5. Création de la base de données d’interactions, modifications du programme DSSP ..... 61 2.2.6. Recherche de protéines homologues aux protéines de la PDB........................................ 68
2.2.6.1. Recherche d’homologie ......................................................................................................... 68 2.2.6.2. Constitution des sous-bases de séquences ............................................................................. 68
2.2.7. Calcul des alignements multiples..................................................................................... 71 2.2.8. Calculs statistiques .......................................................................................................... 71
2.2.8.1. Conservation des interactions ................................................................................................ 71 2.2.8.2. Paires d’acides aminés témoins ............................................................................................. 72 2.2.8.3. Paramètres statistiques étudiés............................................................................................... 74 2.2.8.4. Analyse de la conservation des glycines................................................................................ 75
2.2.9. Implémentation des concepts et définition des objets en C++ ........................................ 77
4
2.2.9.1. Matérialisation des interactions ............................................................................................. 77 2.2.9.2. Recherche d’homologie et alignement multiple .................................................................... 79 2.2.9.3. Prédictions des structures secondaires ................................................................................... 80 2.2.9.4. Calcul de la conservation des interactions dans les alignements multiples. .......................... 80 2.2.9.5. Schéma récapitulatif .............................................................................................................. 83
2.3. RESULTATS ............................................................................................................................................ 84 2.3.1. Développement logiciel.................................................................................................... 85
2.3.1.2. Extractblast ............................................................................................................................ 85 2.3.1.3. BioRead ................................................................................................................................. 91
2.3.2. Conservation des acides aminés dans les alignements multiples .................................... 95 2.3.2.1. Conservation des ponts disulfures ......................................................................................... 95 2.3.2.2. Conservation des interactions électrostatiques. ..................................................................... 96 2.3.2.3. Conservation des interactions hydrophobes......................................................................... 107 2.3.2.4. Conservation des glycines. .................................................................................................. 114
2.4. CONCLUSION ET DISCUSSION DES RESULTATS CONCERNANT LA CONSERVATION DES ACIDES AMINES AU
SEIN DES ALIGNEMENTS MULTIPLES. ................................................................................................................ 115 2.5. PERSPECTIVES ...................................................................................................................................... 119
3. VALIDATION DES FAMILLES STRUCTURALES A BAS TAUX D’IDENTITE, A L’AIDE
D’ALIGNEMENTS MULTIPLES ET DES PREDICTIONS DE STRUCTURES SECONDAIRES. ...... 122
3.1. MATERIEL ET METHODES. .................................................................................................................... 122 3.1.1. Stratégie. ........................................................................................................................ 122 3.1.2. Alignements de référence. .............................................................................................. 123
3.1.2.1. SSSD.................................................................................................................................... 123 3.1.2.2. BAliBASE ........................................................................................................................... 123
3.1.3. Compatibilité des structures secondaires ...................................................................... 124 3.1.4. Prédiction des structures secondaires ........................................................................... 124 3.1.5. Calculs des alignements témoins et des paramètres SOV.............................................. 125
3.2. RESULTATS .......................................................................................................................................... 127 3.2.1. Comparaison des SOV réels et des SOV témoins........................................................... 127
3.2.1.1. SSSD.................................................................................................................................... 127 3.2.1.2. BAliBASE ........................................................................................................................... 128
3.3. EXEMPLE D’APPLICATION BIOLOGIQUE ................................................................................................ 131 3.4. DISCUSSION...................................................................................................................................... 133
4. CONCLUSION GENERALE................................................................................................................... 136
5. ANNEXES.................................................................................................................................................. 138
5
6
Introduction
Les protéines, macromolécules essentielles à la vie, sont constituées d’acides aminés. Pour
chaque protéine, les acides aminés qui la constituent s’enchaînent les uns à la suite des autres dans un
ordre précis, dicté par le code génétique. Cet enchaînement constitue la structure primaire ou séquence
de la protéine. La séquence d’une protéine est une mine d’informations, qu’il incombe au biologiste
d’exploiter au mieux. Les méthodes prédictives actuelles apportent un complément particulièrement
utile aux résultats qui peuvent être obtenus par des approches expérimentales biochimiques classiques.
Toutefois une méthode prédictive nécessite des connaissances obtenues par l’expérience pour la mise
au point d’algorithmes de prédiction. Les techniques biochimiques modernes ont permis d’obtenir très
rapidement un nombre impressionnant de données concernant un nombre tout aussi impressionnant de
macromolécules biologiques. Sans parler des programmes internationaux de séquençage de génomes
complets. L’utilisation de l’informatique a permis de stocker efficacement cette « monstrueuse »
quantité de données : il est assez simple de retrouver une information précise à l’aide de systèmes
d’interrogation particulièrement puissants. Par ailleurs, toutes ces données sont mises à la disposition
de toute la communauté scientifique via Internet, probablement la plus grande révolution
technologique du siècle écoulé. Toutes ces données ont pu être mises à profit pour l’élaboration de
méthodes prédictives diverses, utilisant des algorithmes souvent assez complexes. Là encore l’apport
de l’informatique est incontestable en ayant permis d’implémenter ces algorithmes. Ainsi le stockage,
la vitesse de calcul et la mise à disposition des connaissances font de l’informatique un outil
indispensable dans le domaine des la recherche scientifique, à tel point que dans le domaine de la
Biologie, une discipline en est née : la Bioinformatique.
Les enjeux de la Bioinformatique sont divers. D’une façon générale, elle apporte une assistance
aux biologistes, et leur permet d’avoir très rapidement des informations précises, à l’aide des méthodes
prédictives sur la base de connaissances établies. C’est souvent une première étape, une orientation
pour aider le biologiste à mettre au point un protocole expérimental, une stratégie. Par conséquent les
techniques bioinformatiques ne remplacent pas les techniques biochimiques, elles en sont
complémentaires.
Devant la croissance explosive du nombre de séquences comparativement aux structures
tridimensionnelles, il est indispensable de disposer d’outils d’analyse des séquences aidant à la
prédiction ou à la caractérisation des rôles fonctionnels et surtout structuraux des acides aminés et leur
importance au sein des protéines. Il existe deux principaux moyens pour s’assurer de l’importance des
acides aminés au sein d’une protéine. Le premier est purement expérimental et consiste à muter l’acide
aminé (par mutagenèse dirigée par exemple) et à étudier l’effet de la mutation sur les propriétés
physico-chimiques de la protéine (activité, vitesse de catalyse, stabilité à la température ou à des
agents dénaturants...). Cette première méthode est certes fine et élégante, mais aussi relativement
7
longue et coûteuse car elle est « lourde » puisqu’il n’est pas possible d’automatiser une telle
procédure. Chaque acide aminé doit faire l’objet d’une investigation qui lui est propre. Ces techniques
sont utilisables à « petite échelle » et ne permettent d’étudier que quelques acides aminés d’une
protéine. La seconde, complémentaire de la première consiste à étudier la conservation des acides
aminés au sein d’une famille protéique. L’importance structurale et/ou fonctionnelle des acides aminés
doit se traduire par une plus forte conservation de ces derniers dans les familles protéiques. Ceci
revient à étudier cette conservation au sein d’alignements multiples. Quelles que soient les techniques
employées, les très nombreuses expériences de ce type ont permis de dégager certains principes de
base comme la conservation des zones hydrophobes dans le cœur des protéines (Markiewics et al.,
1994 ; Rennell et al. ; 1991…), la conservation des caractéristiques physico-chimiques des sites actifs
(Lesk & Chothia, 1980…), ou encore la conservation des résidus polaires aux interfaces protéiques
(Hu et al., 2000…). Il y a eu donc beaucoup d’études qui portent chacune sur un aspect bien précis
quant à l’importance des acides aminés au sein des protéines. La première partie de mon travail de
thèse consiste en l’étude de la conservation des acides aminés impliqués dans les interactions telles
que les ponts disulfures (ou cystines), les interactions électrostatiques et les interactions hydrophobes.
Les études menées jusqu’ici ne considèrent qu’un seul type d’interaction voir quelques acides aminés,
et par ailleurs aucune n’est exhaustive puisqu’elles se cantonnent pour la quasi-totalité d’entre elles à
l’étude de quelques protéines. Concernant l’étude de la conservation des interactions électrostatiques
par exemple, Musafia et al. (1995) utilisent 94 protéines, Schueler et Margalit (1995) quant à eux
utilisent 8 familles protéiques. Cependant, on retrouve déjà dans ces travaux, l’étude de l’influence de
l’accessibilité et des structures secondaires dans la conservation des acides aminés. Pour notre part,
nous avons mis en place une stratégie originale pour l’étude statistique exhaustive des structures
tridimensionnelles. Nous établissons les relations entre les alignements multiples de séquences et la
conservation de caractéristiques structurales particulières au sein de protéines. Nous montrons
notamment que les acides aminés impliqués dans les ponts disulfures, les interactions hydrophobes ou
électrostatiques sont particulièrement conservés dans les alignements multiples, suggérant l’apport
potentiel des alignements multiples pour la prédiction des structures tridimensionnelles. Lors de ce
travail, nous avons montré que les alignements les plus informatifs sont constitués de séquences
apparentées faiblement similaires. Cependant il n’est pas aisé de valider des familles structurales à
faible similarité. La seconde partie de mon travail de thèse a eu pour but d’apporter une solution à ce
problème…
Les protéines peuvent être regroupées en familles et sous-familles, caractérisées par des
repliements, des sites et des fonctions caractéristiques. L’un des fondements essentiels sur lequel cette
classification s’établit est la comparaison des séquences protéiques sous la forme d’alignements
multiples, qui permettent d’établir rapidement des prédictions sur les fonctions biologiques, ou même
d’établir des relations phylogénétiques entre les protéines. Ces alignements multiples, offrent à travers
8
l’analyse de la conservation des résidus, un moyen rapide de caractériser une protéine. Il est plus aisé
d’établir ces relations d’homologie qui lient les protéines lorsque les séquences sont similaires et
présentent une identité élevée (>30%), simplement parce que l’homologie est d’autant plus évidente
que les séquences sont similaires. Ceci n’implique pas que des protéines non similaires ne sont pas
homologues. Toute la difficulté est de valider les familles protéiques lorsque la similarité est faible.
Différentes approches existent, mais elles ont essentiellement comme support l’alignement de deux
protéines. Une approche consiste à exploiter la transitivité de l’homologie et ainsi utiliser une ou des
protéines « relais » pour établir les relations entre protéines, à bas taux d’identité (Teichman et al.,
2000). Une autre solution a été d’améliorer les algorithmes de recherche de similarité pour les rendre
plus sensibles, c’est le cas de PSI-BLAST (Altschul et al., 1997). Enfin, une plus récente consiste à
utiliser l’information des structures secondaires prédites pour valider la parenté structurale qui lie deux
protéines à bas taux d’identité (Geourjon et al., 2001). En effet, les prédictions de structures
secondaires sont connues pour être des informations particulièrement efficaces pour améliorer les
processus de reconnaissance du repliement tridimensionnel (fold recognition) que ce soit par
modelisation ab initio ou par threading. Différentes méthodes de prédiction de structure
tridimensionnelles basées sur les séquences et utilisant les structures secondaires prédites existent
comme GenTHREADER (Jones et al., 1999) ou encore TOPITS (Rost, 1995). Depuis 1998, toutes les
méthodes de reconnaissance du repliement efficaces (pour revue, Proteins, supplément 3, 1999)
mettent à profit les prédictions de structures secondaires, montrant que les structures secondaires
prédites peuvent être particulièrement utiles pour la prédiction des structures tridimensionnelles et
donc pour établir les relations structurales entre des protéines de structure inconnue. Un autre outil
bioinformatique particulièrement utile pour établir ces relations consiste à calculer et à analyser des
alignements multiples. Dans ce domaines, quelques méthodes existent telles que AL2CO pour
analyser la conservation des positions (Pei et al., 2001), la méthode de Hertz & Stormo (1999) qui
consiste à établir la signification statistique des alignements multiples, ou encore la méthode décrite
par Thompson (et al., 2001) qui utilise une fonction de scoring : norMD. Dans la seconde partie du
travail de thèse, une nouvelle méthode d’analyse des alignements multiples est proposée. Celle-ci
consiste à exploiter les prédictions des structures secondaires, dans le but de détecter les séquences
« intruses » dans un alignement multiple alors que l’identité entre les séquences ne distinguent pas ces
intrus des autres séquences des alignements multiples.
Afin de resituer le cadre du travail présenté, quelques uns des divers outils bioinformatiques
disponibles dans le domaine de l’étude des protéines seront présentés. Ce premier chapitre de rappels
bibliographiques sera aussi l’occasion de souligner l’importance des bases de données protéiques qui
ont permis le développement de méthodes et d’algorithmes d’analyses des séquences protéiques qui
aident à caractériser les protéines sur les plans biochimique, structural et physiologique.
9
1. Rappels bibliographiques
Le premier réflexe du biologiste qui vient d’obtenir la séquence de sa protéine d’intérêt est
d’essayer de tirer toutes les informations possibles afin d’approcher ses caractéristiques physico-
chimiques, structurales et fonctionnelles. La Bioinformatique permet dans un premier temps, grâce
aux bases de données biologiques d’accéder à toute l’information disponible sur un champ d’étude
précis, une molécule précise, très rapidement. Ces bases de données, fréquemment mises à jour,
permettent le développement de méthodes et outils bioinformatiques dont le but est justement
d’exploiter la séquence protéique afin d’en « prédire » diverses informations. Il est possible à partir
d’une séquence protéique, de rechercher des protéines homologues, des similarités, des sites
fonctionnels ou des signatures potentielles, qui peuvent apporter une idée sur la fonction possible
d’une nouvelle protéine. A l’aide des outils d’alignements multiples, c’est tout un groupe de protéines
qui peut être étudié afin d’en faire ressortir des caractéristiques communes ou une étude
phylogénétique. Ensuite il y a l’étude structurale : l’analyse de la structure secondaire (le premier
niveau d’organisation structurale d’une protéine), est généralement le point de départ de l’étude d’une
structure protéique avant de passer à l’étude de sa structure tridimensionnelle. Parallèlement il est
possible de faire des recherches plus spécialisées : la prédiction de zones hydrophobes, de zones
accessibles, de zones trans-membranaires, de motifs structuraux… La Bioinformatique offre donc
beaucoup de méthodes, qui sont autant de moyens de caractériser une protéine nouvelle, et aide ainsi à
mieux comprendre les mécanismes qui régissent son fonctionnement. Ces quelques rappels
bibliographiques sont l’occasion de faire un tour d’horizon des principaux outils bioinformatiques à la
disposition de la communauté scientifique dans le domaine de la Biologie et plus particulièrement
dans le domaine de l’étude des protéines.
1.1. Les bases de données protéiques
L’évolution de la Biochimie et de la Biologie moléculaire ont généré un afflux massif de données
qui ont été stockées et centralisées pour une meilleure accessibilité. Cette centralisation des
connaissances, afin qu’elles soient profitables à tous, n’aurait pu se faire sans Internet, formidable
outil de communication qui à travers une interface web permet d’échanger l’information à l’échelle
planétaire.
Ces bases de données sont un élément essentiel et indispensable dans le domaine de l’analyse des
protéines. Elles représentent la source d’information la plus complète et pertinente pour les
biologistes. Elles sont aussi l’un des fondements sur lequel s’appuie le développement des méthodes
bioinformatiques d’analyse de séquence. L’utilité incontestable de ces bases de données se traduit par
une évolution de leur taille quasi exponentielle pour beaucoup d’entre elles, montrant l’intérêt qu’elles
10
suscitent et le point d’honneur que mettent les biologistes à les enrichir aux profit de tous. Il faut aussi
ajouter que l’évolution des bases de données a été possible grâce l’évolution du matériel informatique
d’une part et la mise au point de systèmes d’interrogation performants d’autre part.
1.1.1. Les bases de séquences protéiques
1.1.1.1. Les bases généralistes
Les bases dites généralistes sont des bases de données ayant comme « unité de base » la protéine.
Celles-ci contiennent généralement la séquence protéique entière, ainsi que d’autres informations
jugées utiles pour les biologistes.
1.1.1.1.a. SWISS-PROT
La base de données SWISS-PROT (Bairoch et al., 2000 – URL 1) a été créée par Amos Bairoch
en 1986 au sein du département de Biochimie Médicale à l’Université de Genève. Elle est maintenue
depuis 1987 en collaboration avec l’EMBL (European Molecular Biology Laboratory). C’est le fruit
d’un partenariat entre le SIB (Swiss Institute of Bioinformatics) et l’EBI (European Bioinformatics
Institute), antenne de l’EMBL située à Hinxton en Grande Bretagne.
Sa qualité en a fait sa renommée. Les séquences protéiques de SWISS-PROT sont annotées par les
auteurs ou des experts extérieurs, ce qui garantie une information pertinente et sure. La redondance y
est très faible, c’est donc une base « propre » : toutes les données issues des recherches d’auteurs
différents mais portant sur une même séquence sont fusionnées. Enfin, elle dispense pour chaque
entrée de nombreuses références croisées avec beaucoup d’autres banques (60 environ).
Au sein de SWISS-PROT chaque entrée (ensemble de données relatives à une séquence protéique)
possède un identifiant (champ ou « line-type » ID) ainsi qu’un numéro d’accession (champ AC)
uniques permettant de retrouver aisément une séquence. Chaque entrée est constituée de deux types de
données : « un noyau de données » (core data) qui constitue le minimum de données autour duquel
s’articule le second type de données : les annotations. Le « noyau de données » contient la séquence
(champ SQ), les références bibliographiques (champs RN, RT, RF, RA, RX) et les données
taxonomiques (source(s) biologique(s) relatives à cette séquence). Les annotations (champs KW, CC,
FT), renseignent sur la fonction, les modifications post-traductionnelles, les domaines et sites
fonctionnels, les structures secondaires et quaternaires, les similitudes avec d’autres protéines, les
maladies associées, les variants etc…
11
ID STRI_STRGR STANDARD; PRT; 348 AA.
AC P09400;
DT 01-MAR-1989 (Rel. 10, Created)
DT 01-MAR-1989 (Rel. 10, Last sequence update)
DT 16-OCT-2001 (Rel. 40, Last annotation update)
DE Streptomycin biosynthesis protein strI (EC 1.-.-.-).
GN STRI.
OS Streptomyces griseus.
OC Bacteria; Firmicutes; Actinobacteria; Actinobacteridae;
OC Actinomycetales; Streptomycineae; Streptomycetaceae; Streptomyces.
OX NCBI_TaxID=1911;
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=N2-3-11;
RX MEDLINE=91375432; PubMed=1654502; [NCBI, ExPASy, EBI, Israel, Japan]
RA Mansouri K., Piepersberg W.;
RT "Genetics of streptomycin production in Streptomyces griseus:
RT nucleotide sequence of five genes, strFGHIK, including a phosphatase
RT gene.";
RL Mol. Gen. Genet. 228:459-469(1991).
CC -!- PATHWAY: STREPTOMYCIN BIOSYNTHESIS.
CC -!- SIMILARITY: BELONGS TO THE GFO/IDH/MOCA FAMILY.
CC --------------------------------------------------------------------------
CC This SWISS-PROT entry is copyright. It is produced through a collaboration
CC between the Swiss Institute of Bioinformatics and the EMBL outstation -
CC the European Bioinformatics Institute. There are no restrictions on its
CC use by non-profit institutions as long as its content is in no way
CC modified and this statement is not removed. Usage by and for commercial
CC entities requires a license agreement (See http://www.isb-sib.ch/announce/
CC or send an email to [email protected]).
CC --------------------------------------------------------------------------
DR EMBL; Y00459; CAA68521.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
DR PIR; S17779; S17779.
DR InterPro; IPR000683; GFO_IDH_MocA.
DR InterPro; Graphical view of domain structure.
DR Pfam; PF02894; GFO_IDH_MocA_C; 1.
DR ProDom [Domain structure / List of seq. sharing at least 1 domain]
DR BLOCKS; P09400.
DR DOMO; P09400.
DR PRESAGE; P09400.
KW Streptomycin biosynthesis; Oxidoreductase; NAD.
FT NP_BIND 2 32 NAD (BY SIMILARITY).
SQ SEQUENCE 348 AA; 36709 MW; B95BCC443EEABDF6 CRC64;
MRVGIVGAGR MGRLHARTLL ELPDPPDLVV HDVDPDGAHR LAQELAAGTK AQVTVERELA
DTVTKADAIV VATPATQRRA PLLAAARAGL PVFCEKPLTA DETEAAELVE ALAHTRLHVG
FQRRCDPEYQ RLRELIAAGE LGRVLLVRCT AFDHRPPADA YEETAGDIFT DCLIHDIDAV
HWLTGQPTVA VQADGARLLA GSGYDVATAV LTLADGARAV LSASRLDPHG YDHRVEVLGT
KGSLSVGLDA RTPLRLLGQD GTGCPPGPGA QPAYQDFTDR FEAAYRREVL AFVRTVTEGA
PSPCTGQEAL RAQRVAAAAG RAARTGTRVE LDPAPHGAPA ALVAGAAR
//
Figure 1 : Exemple du format de données de SWISS-PROT pour une protéine
A ce jour, la version la plus récente de SWISS-PROT est la version 40.25 du 2 Août 2002. Elle
contient 112657 entrées. Au total 7487 espèces différentes sont représentées, de façon inégale puisque
12
environ 45% des entrées proviennent de 20 espèces. Notons aussi que 18 espèces servent de modèles :
un soin tout particulier leur est apporté dans le domaine de l’annotation, le but étant d’être aussi
exhaustif que possible, aidé par les programmes de séquençage dont leur génome fait l’objet. Par
ailleurs, les séquences protéiques de l’espèce humaine, sont à la base d’un projet tout particulier mis
en place en 1999 qui consiste en l’annotation du protéome humain : Human Proteomic Initiative ou
HPI (O’Donovan et al., 2001). HPI à été crée dans l’espoir de fournir une documentation spécifique et
détaillée pour toutes les séquences protéiques issues du séquençage du génome humain. Dans la
version 40 de SWISS-PROT, l’annotation de 8300 séquences résulte de ce projet.
L’évolution exponentielle du nombre d’entrées au sein de la base SWISS-PROT représente un
véritable challenge dans la mesure où il faut malgré tout maintenir l’annotation et la faible redondance
qui font la qualité de cette base, et incorporer rapidement les nouvelles séquences. Ceci nécessite, pour
chaque entrée une analyse fine et représente par conséquent un frein à la croissance SWISS-PROT. Ce
paradoxe, selon lequel SWISS-PROT doit être le reflet des connaissances actuelles qui croissent très
vite et l’annotation qui doit persister a pu être contourné grâce à une base de données annotée
automatiquement : TrEMBL.
1.1.1.1.b. TrEMBL & ClusTr : 2 bases associées à SWISS-PROT
La base de données TrEMBL (Translation of EMBL nucleotide database, Bairoch et al., 2000 -
URL 2) est née en 1996 afin de faire face à l’énorme quantité de données issue des différents
programmes de séquençage de génomes entiers. Les séquences y sont annotées automatiquement et
constituent un complément à la base de données SWISS-PROT. Les séquences protéiques de TrEMBL
sont issues de la traduction des séquences codantes (CDS) de la base nucléotidique de l’EMBL, puis
une étape préliminaire d’annotation automatique des séquences traduites est effectuée. Ces annotations
sont ensuite revues et mises au niveau du standard SWISS-PROT en vue le leur incorporation dans
SWISS-PROT. Ainsi TrEMBL permet en accélérant l’annotation, non seulement de maintenir la
qualité de la documentation des entrées mais aussi de mettre à disposition rapidement les séquences
nouvelles issues de séquençage de génomes.
La version 21.6 de TrEMBL du 2 Août 2002 contient environ 750000 séquences. TrEMBL est
organisée en deux sections SP-TrEMBL et REM-TrEMBL : SP-TrEMBL (SWISS-PROT-TrEMBL)
contient environ 680000 entrées potentiellement incorporables à SWISS-PROT. Chacune d’entre elles
possède un numéro d’accession SWISS-PROT (AC), et pourront être incorporées dans la version
ultérieure de SWISS-PROT. Les séquences restantes soit 70000 séquences, constituent REM-TrEMBL
(REMaining-TrEMBL), et ne seront pas incorporées à SWISS-PROT car appartenant à une des 6
catégories suivantes :
- séquences d’Immunoglobuline ou de récepteur de lymphocyte T,
- séquences synthétiques,
13
- séquences issues de brevets,
- fragments de moins 8 acides aminés,
- traduction de CDS ne codant pas de véritable protéine,
- séquences protéiques tronquées.
Avant leur incorporation dans SWISS-PROT, les entrées de SP-TrEMBL subissent un processus de
« sélection » en deux étapes : la première consiste éliminer la redondance (O’Donovan et al., 1999) en
fusionnant automatiquement les séquences à l’aide d’outils tels que le score CRC (Cyclic Redundancy
Check) et la méthode LASSAP (LArge Scale Sequence compArison Package ; Glemet et al. 1997 ;
Codani et al. 1995). Une seconde étape vise à élever le niveau de l’annotation en utilisant d’autres
bases de données telles que PROSITE (base de motifs protéiques ; Hofmann et al, 1999) ou ENZYME
(Bairoch et al.,2000).
Une troisième base de données est associée à TrEMBL et SWISS-PROT : la base CluSTr
(Clusters of SWISS-PROT and TrEMBL proteins ; Kriventseva et al., 2000 - URL 3). Elle est
construite sur la base de la similarité qu’il existe entre les différentes séquences de SWISS-PROT et de
TrEMBL, en regroupant les séquences (clustering) selon une méthode en deux étapes : la première qui
est la comparaison de toutes les séquences deux à deux en utilisant l’algorithme de Smith & Waterman
(cf §1.2.1.2.a page 28). Puis une seconde étape à l’aide de LASSAP pour le regroupement final. Il en
résulte la constitution de différents groupes de séquences ayant des niveaux de similarité différents.
Ses domaines d’applications principaux sont la prédiction de la fonction protéique, l’annotation
automatique de nouvelles séquences (Fleischmann et al., 1999), la diminution de la redondance au
sein des bases de données de séquences protéiques (O’Donovan et al., 1999) - aspect dont profitent
d’ailleurs SWISS-PROT et TrEMBL - , la recherche de nouvelles familles protéiques, l’analyse de
protéomes (Apweiler et al., 2001), l’aide à l’analyse phylogénétique. La documentation des données
CluSTr intègre des informations quant à la présence de domaines ou sites fonctionnels provenant de
bases de données spécialisées telles que InterPro, PROSITE, PRINTS, Pfam, ProDom. ClusTr propose
aussi des références croisées avec des bases à caractère structurale telles que HSSP et PDB (§1.1.2.1
page 21).
1.1.1.1.c. PIR-PSD & les bases associées
La base PIR-PSD (Protein Information Ressource – Protein Sequence Database ; Barker et al.
2001 - URL 4) est l’une des premières base de données biologiques informatisées puisqu’elle est
disponible sur Internet depuis 1984. Elle a été mise en place par le NBRF (National Biomedical
Research Foundation - Georgetown University) et fait suite à la publication de « l’Atlas of Protein
Sequence and Structure » maintenue par Margaret Dayhoff de 1965 à 1978. Depuis 1988, le JIPID
(Japan International Protein Information Database) et le MIPS (Munich Information center for
Protein Sequence) se sont associés au NBRF dans la gestion et le maintien de PIR-PSD.
14
PIR-PSD est une base de séquences protéiques annotées, non redondante et proposant des
références croisées vers d’autres bases. Les principales sources de documentation de PIR-PSD sont les
traductions de séquences nucléotidiques contenues dans les bases GenBank, EMBL, DDBJ (Dna
Databank of Japan) ainsi que les publications et soumissions directes par les chercheurs. Les
séquences sont ensuite comparées, les informations sont fusionnées pour minimiser la redondance,
puis annotées. Les séquences sont également classées par :
• super-familles : deux familles appartiennent à la même super-famille si les longeurs
des séquences des deux familles sont comparables, et si les domaines fonctionnels sont
présents et retrouvés dans le même ordre au sein des séquences des deux familles ;
• familles : deux séquences sont de la même famille si elles ont des longueurs proches et
au moins 50% d’identité de séquences, ce seuil étant appliqué pour PIR-PSD (la
classification est automatisée) ;
• domaines d’homologie (informatif sur le plan de l’évolution des séquences) ;
• motifs de séquence (informatif sur la conservation de sites particuliers et de la
fonction).
L’intérêt de cette classification (Barker et al., 1996) à la fois structurale, séquentielle et fonctionnelle a
pour but de faciliter la caractérisation d’une séquence nouvelle et de mettre en avant les relations
séquence-structure-fonction. Ceci permet aussi de détecter et de corriger d’éventuelles erreurs dans les
annotations des génomes dont les séquences sont issues. Cette classification nécessite de réaliser des
alignements multiples de séquences, qui sont stockés au sein d’autre bases de données :
• MIPS-ProtFam, contient des alignements automatiques.
• PIR-ALN, contient des alignements contrôlés.
PIR-PSD dans sa version 73.02, qui date du 2 Août 2002, compte 283224 entrées réparties en 4 sous-
ensembles : PIR1 à PIR4 . PIR1 et PIR2 contiennent plus de 99% des entrées de PIR-PSD, les
séquences ont fait l’objet d’une analyse poussée, elles sont fortement annotées (avec un léger plus
pour PIR1). PIR3 contient les séquences en attente d’annotation en vue de leur intégration éventuelle à
PIR1 ou PIR2. Enfin PIR4 contient des séquences « non naturelles » (annotées selon la même
procédure que PIR1 et PIR2) : traduction de pseudo-gènes, ORFs (Open Reading Frame ou phase
ouverte de lecture) non exprimées, séquences synthétiques, etc…
Autour de PIR-PSD s’articulent plusieurs autres bases de données qui ne seront pas décrites dans
le détail:
• ProClass (Huang et al., 2000) qui classe les séquences non-redondantes de PIR-PSD et
de SWISS-PROT en fonction des super-familles de PIR et de motifs PROSITE
particuliers.
• iProClass (WU et al., 2001), base de donnée intégrée qui prend en compte les données
portant sur la famille, les caractéristiques structurales et fonctionnelles qui proviennent de
15
nombreuses bases : PIR-PSD, ProClass, PIR-ALN, PIR-RESID, SWISS-PROT, TrEMBL,
Pfam, BLOCKS, PRINTS, PROSITE, PDB et COG. Le haut niveau d’intégration permet
d’obtenir une information plus complète (que ces bases considérées individuellement ne
fournissent pas).
• PIR-RESID (Gravelli, 1999 ; Gravelli et al., 2001) liste les modification post-
traductionnelles documentées par des informations à caractère chimique, structurale et
bibliographique.
• PIR-NLR3D (Gravelli et al., 2001), contient des séquences annotées sur la base des
informations tridimensionnelles fournies par la PDB.
• PIR-NREF, récente base puisque la première version date du 23 octobre 2001. C’est
une base de données non redondante de références protéiques qui intègre (à l’image de
iProClass) des informations provenant des bases : PIR-PSD, SWISS-PROT, TrEMBL,
GenPept, RefSeq et PDB. Elle sera utilisée comme source principale à la réalisation des
version future de iProClass.
1.1.1.1.d. Autres bases de séquences protéiques
Il existe diverses autres bases de données dont nous citerons :
• GenPept : base de séquences issues de la traduction de CDS contenues dans la base de
séquences nucléiques GenBank ;
• ProtoMap (Yona et al., 2000) : classification hiérarchique automatique des protéines
de SWISS-PROT et TrEMBL ;
• KIND (Kallberg et Persson, 1999) : base de séquences non redondante construite à
partir de SWISS-PROT, PIR-PSD, TrEMBL et GenPept.
• IMGT (Lefranc, 2001) et Kabat (Johnson et al., 2001) : base de séquences de protéines
à caractère immunologique ;
• PMD (Kawabata et al., 1999) : base de séquences mutantes naturelles ou artificielles ;
• Base de séquences protéiques dédiées à des modèles biologiques : YPD (Hodges et al.,
1999) dédiée à Saccharomyces cerevisiae, WormPD (Costanzo et al., 2000) dédiée à
Caenorhabditis elegans, ou encore DAtA (Palm et al., 2000) dédiée à Arabidopsis
thaliana.
• HCVDB (Hepatitis C Virus Database ; Combet, 2000, URL 29) dédiée aux séquences
nucléotidiques et protéiques des virus de l’hépatite C
16
1.1.1.2. Les bases spécialisées : bases de domaines protéiques et d’alignements
multiples.
Le processus d’analyse de séquence fait intervenir diverses étapes dont l’une d’entre elle est la
comparaison de la séquence nouvelle avec les séquences dans les bases de données qui viennent d’être
décrites. Mais il convient aussi d’étudier des aspects précis, des point plus particuliers tels que la
présence de domaines fonctionnels, la recherche de sites permettant de classer la protéine au sein
d’une famille protéique, examiner la possibilité de modifications post-traductionnelles, de propriétés
physico-chimiques précises etc... Afin de pouvoir étudier ces aspects, de nombreuses bases de données
dites spécialisées ont vu le jour.
1.1.1.2.a. PROSITE
PROSITE (Hofmann et al., 1999 - URL 5) créée en 1988 contient dans sa version 17.18, du 3
Août 2002 un total de 1147 entrées décrivant 1567 motifs et profils caractérisant une particularité
biologique précise, structurale ou fonctionnelle. Cette base est très utilisée pour déterminer à quelle
famille fonctionnelle appartient une protéine, ainsi que les différentes signatures présentent au sein de
cette protéine.
Les outils de recherche et de caractérisation des motifs sont très puissants, mais ne permettent pas
d’identifier avec suffisamment de pertinence des motifs ayant des séquences divergentes, et
appartenant à une même famille. C’est le cas de certains motifs fonctionnels caractéristiques des
protéines de la famille des Immunoglobulines, des Globines ou encore des protéines à domaine SH2
ou SH3 (intervenant par exemple dans la transduction des signaux cellulaires). C’est pour répondre à
ce problème que les profils ou matrices pondérées ont été introduits dans PROSITE en 1994. Ils
consistent à l’attribution, pour chaque motif, d’une table de scores et de coûts en fonction de
l’occurrence des acides aminés et de gaps à chaque position dans le motif. Le but étant d’autoriser les
mutations et d’arriver à classer une protéine possédant des motifs peu conservés, néanmoins
caractéristiques d’une famille protéique particulière.
Les motifs et profils de PROSITE sont utilisés pour l’annotation des entrées d’autres bases de
données telles que SWISS-PROT.
1.1.1.2.b. ProDom
ProDom (Corpet et al., 2000 - URL 6) est une base de domaines protéiques définis à l’aide de
familles protéiques sous la forme d’alignements multiples. La construction des familles est
automatisée et se fait à partir des séquences contenues dans SWISS-PROT et SP-TrEMBL, ainsi que
d’alignements de la base Pfam. Les alignements de ProDom sont construits à l’aide de PSI-BLAST,
outil permettant de détecter des similarités entre des séquences protéiques (§1.2.2.2 page 39). La
17
procédure étant automatisée, des paramètres (consistancy indicators) ont été introduits afin d’estimer
la signification biologique du regroupement des séquences :
• le diamètre (diameter) obtenus à partir des deux membres les plus éloignés d’une
même famille : plus celui-ci est petit, plus la famille est homogène. Ce paramètre
caractérise le groupe ;
• le rayon de giration (radius of gyration) qui caractérise chaque séquence au sein du
groupe. Il permet de savoir si une portion de séquence se rapproche ou au contraire
s’éloigne du consensus issu du groupe.
Au jour du 13 Août 2002, la version 2001.3 de ProDom contient 373869 familles de domaines
protéiques (dont 108076 familles avec au moins 2 séquences).
ProDom facilite la compréhension de l’arrangement des domaines au sein des familles protéiques
complexes, et permet de mettre en évidence les homologies qui peuvent exister entre des protéines
modulaires de même familles mais aussi de familles différentes.
1.1.1.2.c. Pfam
Pfam (Bateman et al., 2000 - URL 7) est une base de données d’alignements multiples de
séquences et de profils HMM (Hidden Markov Models) classés par famille protéique. Chaque famille
est représentée par deux alignements multiples : le premier constitué de quelques membres
représentatifs de la famille et le second constitué de toutes les protéines de cette famille au sens de
Pfam : des profils HMM sont construits (à l’aide de l’outil HMMER) et sont ensuite utilisés pour
classer les séquences contenues dans la base séquences protéiques Pfamseq (elle même construite à
partir de SWISS-PROT et SP-TrEMBL). Pfam est divisée en deux sous-bases : Pfam-A contient des
alignements ayant fait l’objet d’une vérification manuelle et Pfma-B qui contient des alignements
générés automatiquement mais non vérifiés.
Le but premier de Pfam est de faciliter la classification et l’annotation automatiques de séquences
protéiques nouvelles.
1.1.1.2.d. DOMO et PRINTS-S
DOMO (Gracy & Argos, 1998 - URL 8), à l’image de ProDom, est une base décrivant les
domaines que l’on peut rencontrer au sein de différentes familles protéiques. Les familles et les
domaines sont définis sur la base de la similarité entre les séquences . Celles-ci sont présentées sous la
forme d’alignements multiples. DOMO utilise les séquences de SWISS-PROT et PIR-PSD, si elles
sont non redondantes, complètes et ne comptent pas plus 1000 acides aminés. DOMO, comme
ProDom est construite automatiquement : détection, regroupement et recherche de similarités locales
précèdent le calcul des alignements multiples des domaines et ainsi la constitution des familles
protéiques.
18
PRINTS-S (Attwood et al., 2000 - URL 9) est une base d’empreintes (fingerprints). Une
empreinte est un ensemble de motifs conservés au sein d’alignements multiples. Ces empreintes
permettent de travailler sur des séquences relativement divergentes, présentant des motifs peu
conservés mais ayant une signification biologique. De fait, PRINTS-S est une source d’informations
indiquée pour l’étude des super-familles de protéines.
1.1.1.3. Les bases de données intégrées
Les bases intégrées (ou unifiées) apportent une solution au problème de la spécialisation des bases
conventionnelles et l’éclatement de l’information qui en découlent. Ces bases intégrées sont
construites à partir de plusieurs autres bases ce qui permet de centraliser les informations, d’avoir des
bases représentatives des connaissances sur les familles protéiques et d’outrepasser les différents
systèmes de classifications des protéines en familles ainsi que les formats de présentation adoptés par
les autres bases. Par ailleurs, ce type de base permet de détecter les incohérences entre les bases et aide
à améliorer leur qualité, par une classification plus fiable et une annotation plus pertinente. Si chaque
base a un domaine d’application fort, chacune possède aussi des manques. Les unifier revient à pallier
les faiblesses des unes par les points forts des autres.
1.1.1.3.a. InterPro
Le projet InterPro (Apweiler et al., 2001 - URL 10) résultant d’une initiative internationale vise à
unifier les bases de signatures et de domaines ProDom, Pfam, PRINTS et PROSITE.
L’intégration des données commence par la fusion des informations contenues dans chacune des
bases : les membres de ces bases sont comparés et ceux qui décrivent des domaines, signatures ou
profils communs, sont fusionnés et constituent ainsi une entrée InterPro unique avec un numéro
d’accession unique. Chaque entrée InterPro contient :
• une description de la famille protéique, des domaines, des répétitions internes, des
modification post-traductionnelles ;
• une liste des signatures, motifs, profils HMMs ou empreintes associés à la famille ;
• une annotation résumée à partir des bases membres ;
• des exemples de séquences représentatives ;
• les références bibliographiques ;
• des liens vers d’autres bases comme SWISS-PROT et TrEMBL.
InterPro propose ainsi une définition des familles protéiques sur la base des systèmes de classification
adoptés par d’autres bases, représentant en cela une source de choix pour l’annotation des séquences.
A ce titre, L’EBI a choisi d’utiliser InterPro et entend ainsi rehausser le niveau de l’annotation
automatique de la base TrEMBL (Fleischmann et al., 1999). InterPro peut aider à définir de nouvelles
signatures ou des groupes de séquences pour lesquelles une signature s’avère utile, et ainsi mieux
19
caractériser des familles qui ne sont pas clairement définies. Une autre application est l’analyse de
protéomes eucaryotes : Drosophila melanogaster, Caenorhabditis elegans, et Saccharomyces
cerevisiae (Rubin et al., 2000).
1.1.1.3.b. MetaFam
MetaFam (Silverstein et al., 2001a ; Silverstein et al., 2001b ; Shoop et al., 2001 - URL 11), est
une base de données unifiée, intégrant de façon non redondante, les séquences issues de SWISS-
PROT, PIR, GenPept, TrEMBL et NRL3D. Les séquences y sont regroupées en familles et super-
familles (family superset). Le classement des séquences est fondé sur les regroupements effectués au
sein de dix autres bases de données dont Pfam, DOMO, PRINTS-S, PROSITE, PIR-ALN, Blocks+,
ProtoMap etc…
MetaFam procède pour les regroupements en trois étapes : la première consiste éliminer les
redondances en attribuant des clés uniques après comparaison des séquences. Ensuite les familles
auxquelles appartiennent ces séquences sont recherchées dans les dix bases de données et sont
comparées deux à deux (une famille définie dans DOMO est comparée à une famille définie dans PIR.
Puis PIR/Pfam, puis DOMO/Pfam etc…). Des pourcentages de ressemblances entre les familles deux
à deux sont calculés et sont représentés graphiquement à l’aide de MetaFamView (Figure 2).
Figure 2 : interface graphique MetaFamViewer.
20
L’avantage de ce type de représentation réside dans sa convivialité : il est facile d’accéder à
toutes les informations sur les familles et séquences protéiques disponibles dans toutes les bases de
données sur lesquelles MetaFam s’appuie. La seule critique que l’on peut faire, est la lenteur de
chargement des informations au sein de l’interface graphique.
MetaFam est un outil particulièrement intéressant pour la classification et l’annotation d’une
séquence nouvelle et la comparaison entre familles. MetaFam permet d’accéder depuis une base de
données unique à une grande quantité d’informations dispensées dans d’autres bases. Son utilité ne
sera pas des moindres si l’on en juge par l’énorme quantité de données qui est (et sera) issue des
programmes de séquençage de génomes entiers.
1.1.1.3.c. Blocks+
Blocks+ (Henikoff et al., 1999 ; Henikoff et al., 2000 - URL 12) est une extension de la base
Blocks (Henikoff et Henikoff, 1996) qui contient des alignements de séquences « non gappés » définis
en fonction des familles de PROSITE. Blocks+ intègre en plus et de façon non redondante les familles
définies dans Pfam, PRINTS, ProDom et DOMO.
Blocks+ à une couverture plus large des familles protéiques que les bases sur lesquelles elle
s’appuie, en outre ceci permet de détecter des omissions dans ses bases membres et de les combler par
l’ajout de nouvelles familles. De plus pour certaines familles protéiques la classification est plus
cohérente, comme par exemple les protéines de la famille SNF2 qui interviennent dans la régulation de
la transcription et dans le « remodelage » de la chromatine chez les eucaryotes : cette famille est
reconstituée dans Blocks+, alors qu’elle est éclatée dans ProDom, Pfam et Domo.
1.1.2. Les bases de données structurales
Si l’étude de la séquence d’une protéine est un aspect important pour l’identifier, la caractériser, et
approcher sa fonction, l’étude de sa structure tridimensionnelle représente un point fondamental pour
réellement comprendre les mécanismes biochimiques, à l’échelle atomique, qui régissent sa fonction.
La structure tridimensionnelle d’une protéine se définit par l’arrangement dans l’espace de ses atomes
constitutifs. Il faut souligner l’importance de la connaissance des structures tridimensionnelles, tant
dans le domaine de la recherche fondamentale pour comprendre les mécanismes à la base de la vie,
que dans la recherche appliquée pour la mise au point de nouvelles molécules thérapeutiques (Drug
design), pouvant aider à traiter les dysfonctionnement de certaines protéines à la base de pathologies
graves, voire mortelles et pour certaines encore incurables.
La Résonance Magnétique Nucléaire (RMN) et la cristallographie, sont les deux techniques
utilisées pour déterminer expérimentalement la structure tridimensionnelle d’une protéines. Les
21
structures ainsi déterminées sont regroupées dans une base de données principale : la Protein Data
Bank (PDB).
1.1.2.1. Protein Data Bank
La PDB (Berman et al., 2000 - URL 13) a été mise en place en 1971 au Brookhaven National
Laboratories (BNL) en tant qu’archives des structures des macromolécules biologiques et comptait
alors sept structures. Depuis 1998, le maintien de cette base est sous la responsabilité du Research
Collaboratory for Structural Bioinformatics (RCSB).
Dès le début des années 80, l’évolution des techniques de détermination de structure
tridimensionnelles et des systèmes de communication ont permis une forte croissance de la PDB :
aujourd’hui, dans sa version la plus récente du 6 Août 2002, elle compte en effet environ 17300
structures de protéines déterminées expérimentalement. Pour beaucoup d’entre elles, ces protéines ont
un taux d’identité de séquence élevé lorsqu’elles sont alignées deux à deux. On considère qu’au delà
du seuil de 25% d’identité de séquence, deux protéines ont des structures tridimensionnelles quasiment
superposables (Doolittle, 1981 ; Rost, 1999). A ce titre et sauf cas particulier, ce seuil est le minimum
requis pour prédire la structure d’une protéine nouvelle à partir d’une structure déjà existante. Si on ne
considère que les protéines ayant moins de 25% d’identité de séquence alignées deux à deux, la PDB
ne contient plus qu’environ 2000 chaînes, qui sont réellement représentatives des connaissances
structurales protéiques actuelles.
L’évolution de la PDB est très loin de suivre l’évolution des bases de données de séquences. C’est
la conséquence directe des nombreuses difficultés que soulèvent les techniques de détermination de
structures que sont la RMN et la cristallographie/diffraction aux rayons X (§1.5.1 page 50). Si la PDB
ne compte qu’un faible nombre d’entrées comparativement aux bases de séquences, elle n’en demeure
pas moins une base de grande qualité. Les entrées de la PDB contiennent en plus des coordonnées
atomiques, toutes les informations techniques concernant l’expérimentation ayant permis sa
détermination (source, séquence, cofacteur protéique ou prosthétiques, description qualitative de la
structure, conditions précises de la cristallisation ou de la solution, traitement des données, affinement
des structures, logiciels utilisés…). Les structures déposées dans la PDB sont soumises à une
validation qui consiste à une vérification très poussée de la structure (en plus de celle effectuée par les
auteurs) : mesures d’angles, de liaisons, vérification de la stéréochimie, des distances entre atomes et
contacts… Par ailleurs des informations quant à la qualité de la structure sont disponibles, une
essentielle est la résolution exprimée en Å : la structure est d’autant plus précise que celle-ci est petite.
Afin de maintenir la haute qualité de cette base de données, un format particulier d’organisation des
données a été mis au point : le format mmCIF (macromolecular Cristallographic Information File ;
Bourne et al., 1997), permettant une description plus détaillée des structures. Ce format plus souple, et
évolutif, évite les incohérences au sein des fichiers de données. Citons aussi le projet d’uniformisation
22
des données (Bath et al., 2001), qui vise à convertir les fichiers au formats PDB précédents (encore
utilisés par de nombreux logiciels) au format mmCIF, conversion qui ne peut être automatisée dans ce
sens (alors que l’inverse est possible) et qui requiert donc un travail manuel et contraignant.
1.1.2.2. Les bases de données articulées autour de la PDB
Beaucoup de bases exploitent les données structurales contenues dans la PDB pour les classifier
dans un but précis, autrement que descriptif. Ces bases, qui pour certaines tendent à regrouper les
protéines à travers leurs caractéristiques structurales et séquentielles, trouveront une grande part de
leur application dans le cadre de la génomique structurale. La génomique structurale, désigne le
parcours nécessaire, qui à partir d’un gène, permet d’arriver à la structure tridimensionnelle d’une
protéine, par le biais de méthodes prédictives et des connaissances structurales, qui ne sont pas
exhaustives : il est généralement admis que seules quelques centaines de repliement uniques sont
connus (entre 600 et 700) alors que le nombre de repliement possibles s’élèverait à un, voire plusieurs
milliers de repliements possibles (1000 à 10000 ; Chothia, 1992 ; Zhang & DeLisi, 1998 ; Orengo et
al., 1999 ; Wolf et al., 2000…). La génomique structurale va aider à combler ce vide, puisque parmi
les séquences issues des génomes, seront choisies celles susceptibles d’avoir un repliement unique
pour être étudiées en RMN ou cristallographie. Ensuite, à l’aide des structures et par
comparaison/regroupement, il sera possible d’attribuer une fonction à ces protéines et de les replacer
dans les voies métaboliques cellulaires. Toutefois, deux questions restent sans réponse : combien de
repliements uniques devront être connus avant de pouvoir prédire la structure de la quasi-totalité des
protéines ? Dans quelle mesure peut-on avoir confiance dans l'attribution de la fonction à partir de la
structure ? Dans certains cas la comparaison des séquences pour résoudre la structure et la fonction
risquent d’être délicats : les homologues structuraux très distants sur le plan de leur séquence, mais
ayant des fonctions proches ou identiques…
1.1.2.2.a. SCOP : Structural Classification Of Protein
La base SCOP (Lo Conte et al., 2000 - URL 14) est une classification des protéines de structure
connue, sur la base de leur séquence, leur fonction et leur structures secondaire et tertiaire. L’unité
véritable de la classification au sein de SCOP est le domaine protéique (zone séquentielle ayant une
structure et/une fonction indépendante du reste de la molécule, et que l’on peut retrouver dans d’autres
protéines), permettant une classification aisée des protéines mono-domaine (généralement les
protéines petites et moyennes). En ce qui concerne les protéines multidomaines, la classification est
moins aisée : l’identification des domaines structuraux n’est pas simple et par ailleurs les protéines
multidomaines n’ont généralement que quelques uns de leurs domaines en communs. D’où la
nécessité d’intégrer parallèlement à l’information structurale, l’information évolutive. SCOP adopte
une classification basée sur une hiérarchie à trois niveaux. Le premier est la famille protéique : deux
23
protéines sont de la même famille si elles ont au moins 30% d’identité de séquences, ou si elles ont des
structures et des fonctions très proches (ex : les globines), l’origine commune (en terme d’évolution)
est évidente. Le second niveau est la super-famille : deux familles sont de la même super-famille si
leur structure et leur fonction suggèrent un ancêtre commun dans leur parcours évolutif (ex : les
domaines constants et variables des Immunoglobulines). Le dernier niveau est le repliement (common
fold) : les familles et super-familles ont un repliement commun si elles ont les mêmes éléments de
structure secondaire, arrangées de la même façon. Les deux premiers niveaux mettent en commun les
protéines ayant des parcours évolutifs reliés ou semblables avec des caractéristiques fonctionnelles
communes, alors que le dernier met en commun les protéines ayant subit un processus évolutif
chimique et physique, ayant favorisé l’émergence, en leur sein, de zones ayant des caractéristiques
structurales communes identifiables indépendamment de la séquence et/ou de la fonction.
Cette classification a aboutit à quatre groupes de protéines:
• la classe « toute-α » regroupe les domaines qui sont très majoritairement en hélice α ;
• la classe « toute-β » regroupe les domaines qui sont très majoritairement en feuillet β ;
• la classe « α/β » regroupe les domaines dans lesquels il y a une alternance entre les
feuillets et hélices ;
• la classe « α+β » regroupe les domaines constitués des deux types de structures sans
aucune régularité dans la disposition.
SCOP est une base construite manuellement par inspection visuelle et comparaison des structures
fournissant une classification des protéines sur la base des relations structurales ainsi que sur la base
de leur parcours évolutif probables.
1.1.2.2.b. CATH-PFDB
CATH-PFDB (Class, Architecture, Topology, and Homologous superfamily - Protein Family
DataBase ; Orengo et al., 1999 ; Pearl et al., 2001 - URL 15) est une classification hiérarchique
(Figure 3) sur la base des similarités de séquence et de structure des protéines de la PDB. On peut
distinguer dans cette hiérarchie quatre niveaux de classification :
• le niveau C (Class) relatif à la composition en structure secondaire et l’arrangement de
celles-ci. Il y a trois classes principales : α, β, α & β.
• le niveau A (Architecture) relatif à l’arrangement globale et l’orientation spatiale des
structures secondaires sans prendre en compte leur connectivité ;
• le niveau T (Topology) qui définit les familles de repliement (fold families) sur la base
à la fois de l’arrangement des structures secondaires mais aussi de la connectivité des
structures, de leur disposition les unes à la suite des autres ;
• le niveau H (Homologous superfamily) qui regroupe les protéines, qui sur la simple
comparaison de leur structures tertiaires et secondaires, semblent avoir un ancêtre
24
commun. Les protéines y sont regroupées en familles (sequence families - niveau S). Les
protéines d’un même niveau S présentent de fortes similitudes dans leur séquences, et par
conséquent dans leur structure.
Ce type de regroupement permet à partir des informations structurales, de replacer une protéine dans
sa famille et sa super-famille et ainsi de caractériser sa fonction. Par exemple, en ce qui concerne les
protéines enzymatiques, les auteurs ont montré que dans 96% des cas, un repliement (niveau H et S)
correspondait à une fonction, suggérant que la simple classification d’une protéine sur la base de sa
structure permet d’émettre une hypothèse sur sa fonction probable. Il est facile de comprendre l’intérêt
de cette classification dans le cadre de la génomique structurale.
Figure 3 : représentation schématique des niveaux de classification (C)lasse, (A)rchitecture, (T)opologie
adoptés dans la base CATH (source URL 15)
1.1.2.2.c. DaliDD/FSSP
La base de données FSSP (Fold Classification based on Structure-Structure alignment of
Proteins ; Holm & Sander, 1996 ; Holm & Sander, 1998 - URL 16) est une classification structurale
des protéines de la PDB (dont la structure tridimensionnelle est connue). Toutes les chaînes protéiques
de plus de 30 résidus sont regroupées après avoir été toutes comparées entre elles donnant lieu, pour
chaque famille protéique, à deux groupes principaux : le premier constitué de séquences homologues
présentant au moins 25% d’identité de séquences et le second constitué de séquences représentatives
ne présentant pas une telle homologie (de sorte que la parenté ne peut pas être établie sur la base de
l’étude des séquences uniquement). Les structures des chaînes représentatives sont ensuite comparées
25
entre elles pour l’établissement de la classification des repliements, selon une méthode de
regroupement hiérarchique, donnant lieu à des alignements structuraux. Chaque entrée de la base
FSSP contient deux alignements structuraux : l’alignement de la séquence objet avec les séquences
représentatives de son groupe et l’alignement de cette séquence avec les séquences des protéines qui
lui sont homologues. La base FSSP contient, dans sa version du 16 juin 2002, 3242 familles de
séquences représentant 30624 structures protéiques. La classification est maintenue automatiquement à
l’aide de Dali et de DaliDD.
Le dictionnaire de domaine Dali (DaliDD, Dietmann et al., 2001 - URL 17) est une taxonomie
numérique des structures de la PDB. DaliDD est constitué de façon automatisée sur la base de la
comparaison des structures, des fonctions et des séquences. Les domaines sont délimités selon les
critères de compacité et de récurrence (Holm & Sander, 1998b). Chaque domaine à un numéro de
classification du type DC_l_m_n_p, où (l) est l’attracteur dans l’espace des repliements, (m) la
topologie du repliement, (n) la famille fonctionnelle, (p) la famille de séquence. Le plus haut niveau de
la classification (niveau l) regroupe les domaines en fonction de leur composition en éléments
structure secondaire et leur motifs structuraux « super-secondaires ». Pour couvrir l’espace des
repliements sur la base des connaissances structurales actuelles, cinq attracteurs (modèle de domaine à
structure secondaire, super-secondaire et tertiaire précises) ont été définis pour le niveau l (Figure 4).
Figure 4 : Archétype des structures des cinq attracteurs de Dali (source URL 18)
Bien que regroupant la plus grande partie des domaines connus, ces cinq premiers attracteurs ne
permettent pas de classer tous les domaines. A ces cinq premiers attracteurs s’ajoutent deux classes
supplémentaires pour les domaines qui sont proches de plusieurs attracteurs, regroupés dans la classe
6, ou pour les domaines qui n’ont aucun lien avec aucun des attracteurs, regroupés dans la classe 7.
Certains de ces domaines, pourront être classés, en fonction de l’évolution des connaissances
structurales et la définition de nouveaux attracteurs. Le second niveau (niveau m) est basé sur la
topologie du repliement. Ce niveau est définit en fonction de l’orientation des éléments des structures
secondaires. Les domaines sont regroupés si l’orientation et la disposition spatiale des éléments de
structure secondaire sont suffisamment proches, c’est-à-dire si le Z-score calculé par Dali (programme
d’alignement des structures tridimensionnelles des domaines) est supérieur à 2 (score seuil déterminé
Attracteur 1 α/β
Attracteur 2 Tout-β
Attracteur 3Tout-α
Attracteur 4 Tonneaux β anti-
parallèles
Attracteur 5α+β
26
empiriquement). Dans ce cas, les domaines ont la même composante (m) dans leur numéro de
classification.
1.1.2.2.d. Autres bases s’articulant autour de la PDB
Bien que n’ayant pas le souci d’être exhaustif, nous citerons dans ce paragraphe quelques autres
bases de données structurales.
PALI (Phylogeny and ALIgnment of homologous protein structures ; Balaji et al., 2001 - URL 19)
est une base de données qui présente des alignements structuraux de séquences et des arbres
phylogénétiques. Les relations mises en avant par PALI aident à mieux comprendre l’influence des
séquences et de leur mutation sur l’évolution des structures.
HOMSTRAD (HOMologous STRucture Alignment Database ; Mizuguchi et al., 1998) que l’on
peut qualifier d’équivalent structural de la base de donnée de séquence Pfam (voir §1.1.1.2.c, page 17).
HOMSTRAD est une base d’alignements structuraux, calculés à l’aide de COMPARER (Zhu et al.
1992). Les alignements sont regroupés en 800 familles. Chaque famille est composée de séquences
ayant au minimum 90% d’identité. La structure de meilleure résolution est utilisée en tant que
structure représentative de la famille.
MODBASE (Sánchez et al., 2000 - URL 21) est une base proposant des modèles structuraux
générés par le processus MODPIPE incluant PSI-BLAST (§1.2.2.2 page 39) et MODELLER (programme
de modélisation moléculaire à partir d’un alignement ; Sali & Overington, 1994).
CAMPASS (CAMbridge database of Protein Alignments organised as Structural Superfamilies ;
Sowdhamini et al., 1998 - URL 22) s’appuie sur la base SCOP (§1.1.2.2.a page 22) pour regrouper les
séquences en familles et super-familles sous la forme d’alignements de séquences calculés par
COMPARER, et corrigés pour certains par le programme SEA (Sowdhamini et al., 1996).
1.1.3. DBcat : Le catalogue des bases de données en biologie.
Afin de compléter cette brève présentation de quelques unes des bases de données les plus
utilisées dans le domaine de la protéomique, signalons l’existence de DBcat (URL 23), catalogue des
bases de données en Biologie, hébergé par le serveur national InfoBioGen. Devant la spécialisation
des données, et la création des nombreuses bases de thématique diverses, DBcat, projet en
collaboration avec l’EBI, se propose de maintenir une liste aussi exhaustive que possible des bases de
données biologiques. DBcat est une base de données, qui pour chacune de ses entrées propose : une
description de la base, le domaine auquel elle appartient, les noms des auteurs, les références
bibliographiques à citer, les adresses web, ftp et postale.
27
Domaine Nombre d’entrées
ADN 87
ARN 29
Protéine 94
Génome 58
Cartographie 29
Structure de protéine 18
Littérature 43
Divers 153
Total 511
Table 1 : domaines et nombre des bases de données listées dans DBcat (2 Août 2002).
1.1.4. Les systèmes d’interrogation des bases de données
Un effort intense a été fourni dans le stockage et la gestion des données, donnant lieu aux
nombreuses bases de données dont quelques unes ont été décrites. Ce résultat, dans la collecte des
données, est une véritable réussite de la recherche scientifique. Cependant, une telle quantité
d’information n’est réellement profitable que si elle est facilement accessible. D’où la nécessité de
systèmes d’interrogation de bases de données, permettant à l’aide de critères précis de retrouver une
information particulière et pertinente dans cette masse colossale de données. Il existe plusieurs
systèmes d’interrogation, pour certains bénéficiant d’une interface web et permettant à l’aide de mots
clefs concernant des champs (auteur, source, fonction…) et d’opérateurs logiques tels que AND (et),
OR (ou), NOT (non), de retrouver aisément une information concernant un sujet précis, de réaliser des
regroupements pour étudier un problème particulier… Ces systèmes comme ACNUC (Gouy et al.,
1985), Entrez (Wheeler et al., 2001) ou SRS (Etzold et al., 1996) sont particulièrement efficaces. SRS
est probablement l’un des plus intéressants, car associé à une interface Web, il est adaptable à
n’importe quelle base de données, pour peu que celle-ci soit stockée sous la forme de fichier texte
ASCII. En outre, ce système permet l’interrogation simultanée de plusieurs banques de données.
1.2. Outils bioinformatiques d’analyse des séquences protéiques
Les outils bioinformatiques disponibles offrent plusieurs alternatives : comparer la séquence
d’intérêt à celles qui sont connues, rechercher des motifs particuliers ou signatures fonctionnelles
permettant de rattacher la protéine à une famille fonctionnelle. Ensuite il peut être judicieux d’aligner
ces protéines par le calcul d’un alignement multiple afin de mettre en exergue les régions conservées,
28
offrant une base de travail pour l’étude expérimentale approfondie de sa fonction. D’autres outils
bioinformatiques permettent de prédire les régions hydrophobes (trans-membranaire par exemple), des
régions accessibles (antigènes potentiel pour la synthèse d’anticorps de détection), des régions
d’interaction avec d’autres molécules comme les motifs d’interaction avec l’ADN. Ainsi la
Bioinformatique offre un panel d’outils dans le domaine de l’analyse de séquence des protéines, qui
judicieusement combinés sont des moyens efficaces et rapides pour l’étude d’une protéine dont seule
la séquence est connue. Néanmoins les déductions obtenues in silico doivent être vérifiées par des
approches expérimentales in vitro et in vivo.
1.2.1. Recherche d’homologie par comparaison de séquences
1.2.1.1. Définitions
Le terme « homologie » sous-entend que les séquences (protéiques ou nucléiques) ont dans leur
évolution un ancêtre commun. C’est une notion purement qualitative, et transitive (si A est homologue
à B et B est homologue à C, alors C est homologue à A). L’homologie peut concerner des protéines
existant chez différentes espèces, ces protéines sont alors qualifiées de protéines orthologues.
L’homologie peut aussi concerner des protéines d’une même espèce, ces protéines sont des protéines
paralogues. L’homologie est à ne pas confondre avec la similarité, qui est une notion quantitative
indiquant à quel degré deux séquences se ressemblent. La similarité est exprimée le plus souvent sous
la forme d’un pourcentage calculé à partir de l’alignement des séquences d’intérêt, soit en considérant
la conservation stricte des mêmes résidus aux mêmes positions des séquences (identités), soit en
considérant la conservation des mêmes propriétés physico-chimiques aux mêmes positions (acide,
basique…). Lorsque deux protéines sont fortement similaires, elles sont homologues. En revanche
l’absence de similarité ne signifie pas que les protéines ne sont pas homologues.
La comparaison de séquence peut se faire soit de façon globale sur toute la longueur des séquences
par alignement, soit de façon locale, par la recherche de courtes portions de séquence présentant une
ou plusieurs caractéristiques particulières (domaine, signature, site, région hydrophobe…) avec des
outils de recherche plus spécialisés.
1.2.1.2. Alignement par paire de séquences
1.2.1.2.a. Principe et algorithme
Aligner deux séquences revient à les « superposer » physiquement de façon à pouvoir les
comparer et à faire ressortir les régions identiques, qui au cours de l’évolution ont été conservées. Ce
procédé repose sur l’hypothèse de la micro-évolution par mutation ponctuelle. On peut observer trois
types de mutations à l’origine de la divergence des séquences protéiques : les substitutions, les
insertions et les délétions. Au sein d’un alignement, les insertions et les délétions (indels) sont le plus
29
souvent matérialisées par un le caractère (-) ou par le caractère (.). Aligner deux séquences de façon
optimale consiste à positionner les indels de façon à faire correspondre un maximum d’acides aminés
entre les deux séquences à l’aide d’une matrice de substitution (§1.2.1.2.a.i page 31), soit sur la base
de l’identité stricte, soit sur la base de la conservation d’une propriété particulière (taille, polarité,
hydrophobie, réactivité chimique…).
La technique principalement utilisée pour trouver l’alignement optimal de deux séquences est
l’algorithme de programmation dynamique introduit par Needleman & Wunsch (1970). Considérons
un graphe à deux dimensions : une pour chacune des deux séquences. Aligner de façon optimal ces
deux séquences, revient à trouver à l’intérieur de ce graphe le meilleur chemin pour le traverser,
position par position, sachant qu’une insertion ou délétion se matérialise par un portion verticale ou
horizontale, alors que la conservation se matérialise par une portion parallèle à la diagonale. La
programmation dynamique est basée sur le raisonnement suivant : chaque sous-chemin qui termine à
un point situé sur le chemin optimal est lui même le chemin optimal qui conduit jusqu’à ce point. En
d’autres termes le chemin optimal peut être trouvé par extension des sous-chemins optimaux. A l’aide
de cet algorithme, tel qu’il a été définit par Needleman & Wunsch, l’alignement optimal doit inclure
les séquences dans leur intégralité. L’alignement obtenu est global. Ce type d’algorithme fonctionne
bien lorsque les séquences présentent des similitudes sur toute leur séquence. Cependant les protéines
ayant une organisation modulaire (Baron et al., 1991 ; Doolittle & Bork , 1993) se prêtent beaucoup
moins à ce type d’alignement car seuls certains domaines peuvent être conservés et/ou peuvent
apparaître selon un ordre différent. Ensuite Beaucoup d’autres algorithmes heuristiques ont été publiés
jusqu’à ce que Smith & Waterman (1981) proposent leur version modifiée de l’algorithme de
programmation dynamique, qui est aujourd’hui l’un des fondements sur lequel s’appuie l’alignement
de séquences et les applications qui en découlent. Cet algorithme, a stratégie locale, vise à identifier à
l’intérieur du graphe (donc à l’intérieur des séquences) tous les segments communs par des étapes
d’extension, et relie les principaux segments, de telle sorte que mathématiquement, il n’y ait pas de
meilleur alignement entre ces deux séquences. Cette méthode repose sur un système de calculs de
scores (scoring) représentés par une matrice, où chaque élément représente le taux de similarité
existant entre les deux portions de séquences se terminant par cet élément (Figure 5).
30
0 b1 b2 … bj-1 bj bj+1 … bm-1 bm
0 0 0 0 … 0 0 0 … 0 0
a1 0
a2 0
… …
ai-1 0 Hi-1,j-1 Hi-1,j
ai 0 Hi,j-1 Hi,j
ai+1 0
… …
an-1 0
an 0 Hn,m
Figure 5 : matrice de similarité entre deux séquences (tiré de Smith & Waterman, 1981).
Les deux séquences étudiées sont représentées par deux ensembles : A=(a1, …, ai, …, a n) et
B=(b1, …, bj, …, bm). L’algorithme permet d’obtenir une matrice de scores H qui va indiquer le lieu et
la taille des indels à placer pour aligner les deux séquences de façon mathématiquement optimale. Afin
de se préserver des valeurs négatives, il est postulé que :
Hk,0 = H 0,l = 0 avec 0 ≤ k ≤ n et 0 ≤ l ≤ m
La méthode consiste à trouver le chemin qui maximisera le score au sein de cette matrice, sachant
qu’un saut vertical ou horizontal matérialise une insertion. Les insertions sont pénalisantes : à chaque
insertion est appliquée la pénalité Wk=r+kt où r est la pénalité d’ouverture d’un gap (insertion), t la
penalité d’extension sur une position de ce gap et k la longueur du gap. Généralement la pénalité
d’extension est plus faible (1-2) que la pénalité d’ouverture (10-15 avec la matrice BLOSUM62), de
façon à mimer les processus évolutifs qui tendent à privilégier une insertion unique plus longue, plutôt
que de nombreuses petites insertions. Pour chaque position dans la matrice le score s(ai,bj) est tiré
d’une matrice similarité appropriée (cf §1.2.1.2.a.i page 31). Chaque élément de la matrice Hi,j
représente la similarité entre deux segments, l’un se terminant par ai, l’autre par bj et est caractérisé
par :
{ }{ }
−
−
+
=
−
−
−−
llji,
kjk,i
ji1j1,i
ij
WHMAX
WHMAX
)b,S(aH
MAXH
Ce qui signifie que la valeur du score de similarité pour les fragments se terminant par ai et bj est
obtenue comme suit :
• si les acides aminés sont similaires alors Hi-1,j-1 + S(a i,bj) s’applique ;
• si l’acide aminé ai est la terminaison d’une suppression de longueur k acides aminés
alors MAX{Hi-k,j- Wk } s’applique ;
31
• si l’acide aminé bj est la terminaison d’une suppression de longueur l acides aminés
alors MAX{Hi-l,j- Wl } s’applique ;
• sinon les acides aminés a i et bj n’appartiennent pas à des segments similaires et un 0
est appliqué de façon à éviter les valeurs négatives.
L’alignement optimal correspond au chemin qui maximise le score. Le chemin est reconstitué à partir
de plusieurs segments optimaux obtenus à l’aide des scores de similarité Hi,j de plus fortes valeurs. Ces
valeurs marquent la fin des segments optimaux. Pour retrouver le début de chaque segment il est
nécessaire de « remonter » la matrice jusqu’à obtenir la valeur 0. Ce processus est répété afin d’obtenir
tous les segments qui sont alors reliés entre eux pour obtenir l’alignement mathématiquement optimal
avec la matrice de substitution choisie.
1.2.1.2.a.i. Matrices de substitutions
La comparaison des séquences implique la comparaison des acides aminés qui les constituent. Les
matrices de substitutions sont des échelles qui quantifient la ressemblance entre les acides aminés. La
plus simple d’entre elle est la matrice identité, qui répond à la loi du tout ou rien. Cependant celle-ci ne
prend pas en compte le fait que certains acides aminés ont des propriétés biochimiques proches
(l’acide glutamique et l’acide aspartique par exemple), expliquant les mutations conservatrices
observées dans les protéines homologues. Il est donc plus intéressant de posséder une échelle graduée,
plus fine, prenant en compte la nature biochimique des acides aminés (plus que leur simple nom) et
donc plus pertinente du point de vue biologique.
1.2.1.2.a.ii. Les matrices PAM
Les matrices PAM (Point-Accepted-Mutation ; Dayhoff et al., 1978) sont les premières qui furent
largement utilisées pour la comparaison des séquences. Il en existe plusieurs selon la divergence
observée, générée au cours de l’évolution. La première PAM1 est établie sur 1 PAM. L’unité PAM
représente la divergence pour laquelle 1% des acides aminés ont changé, c’est une distance dans
l’échelle de l’évolution, totalement indépendante du temps nécessaire pour observer ces changements
(le modèle est Markovien). Si les changements étaient purement aléatoires, la fréquence des
substitutions serait déterminée par la fréquence des résidus (background frequencies Bfreq).
Cependant, dans les protéines homologues, la fréquence des mutations observées (target frequencies
Tfreq) sont biaisées par les mutations qui n’influent pas sur la fonction de la protéine (mutation
conservatrice ou acceptée). Les scores donnés par les matrices PAM sont proportionnels au logarithme
du rapport Bfreq/Tfreq. L’utilisation du logarithme népérien est simplement mathématique et permet
d’accélérer la vitesse des calculs pour obtenir les autres matrices PAM. En effet, seule la matrice
PAM1 est obtenue à partir de l’observation des mutations au sein de protéines homologues (1%
d’acides aminés mutés). Ensuite, c’est par extrapolation que les autres matrices sont obtenues à
32
différentes distances en multipliant la matrice PAM1 par elle-même, comme PAM250 pour une
distance de 250 PAM (matrice PAM1 élevée à la puissance 250) ou encore PAM 200 à une distance
de 200 PAM. La matrice PAM250 (Figure 6) autorise 250 mutations pour une séquence de 100 acides
aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à
environ 20% d'identité (il est possible de diverger au maximum jusqu’à 6% d’identité par
extrapolation pour PAM800 et plus). Plusieurs matrices PAM sont disponibles (Altschul, 1991). Selon
la divergence observée entre les séquences, différentes matrices PAM sont à utiliser (Figure 7). Ainsi
pour réaliser une recherche dans les bases de données, PAM120 est indiquée. Les matrices à moins
forte valeur de PAM sont plus appropriées pour comparer des séquences homologues (ou suspectées
comme telles) et inversement. D’une manière générale, c’est surtout PAM250 qui est la plus utilisée
lorsque l’on n’a pas d’a priori sur l’homologie qui lie les séquences ou lorsqu’elles sont divergentes.
Figure 6 : matrice PAM250. Chaque élément Mij est égal à la valeur logarithmique du rapport Bref/Tref multipliée par 10 et
arrondie à l’entier le plus proche. Mij≈10*(log10(Bfreq/Tfreq)ij).
1.2.1.2.a.iii. Les matrices BLOSUM
Les matrices de substitutions BLOSUM (BLOcks SUbsitution Matrix) sont basées sur la même
idée que les matrices PAM mais ont été créées avec une approche différente, notamment pour
l’estimation des fréquences Tfreq (Henikoff & Henikoff, 1992). Les matrices sont établies en utilisant
les alignements locaux de la base de données Blocks (cf §1.1.1.3.c p20), contenant des séquences plus
divergentes que celles utilisées pour l’établissement des matrices PAM, mais possédant des régions
communes similaires. Les matrices BLOSUM ne sont pas définies par extrapolation, mais sur la base
d’une observation réelle. Il existe plusieurs matrices BLOSUM selon le taux d’identité maximal entre
les séquences, ainsi BLOSUM62 à été établie par l’observation des séquences ayant au maximum 62%
d’identité entre elles. Comme pour les matrices PAM, selon l’homologie liant les séquences à aligner
Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr ValA R N D C Q E G H I L K M F P S T W Y V
Ala A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0Arg R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2Asn N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2Asp D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2Cys C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2Gln Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2Glu E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2Gly G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1His H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2Ile I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4
Leu L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2Lys K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2Met M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2Phe F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1Pro P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1Ser S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1Thr T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0Trp W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6Tyr Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2Val V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4
33
on utilisera des versions différentes de BLOSUM : les matrices BLOSUM de faible valeur sont
équivalentes aux matrices PAM de forte valeur et sont indiquées pour comparer des séquences
distantes (Figure 7). Comparativement aux matrices PAM, les matrices BLOSUM donnent
généralement des résultats plus cohérents du point de vue biologique. Ceci tient principalement au fait
que les matrices PAM incluent des séquences entières avec des régions qui peuvent être très
divergentes, alors que les matrices BLOSUM utilisent des alignements locaux (même si les séquences
intégrales sont plus divergentes, il y a une meilleure cohérence biologique). De plus, les matrices
BLOSUM étant plus récentes, elles incluent plus de données biologiques que les matrices PAM.
1.2.1.2.a.iv. Les matrices physico-chimiques et structurales
Ces matrices sont obtenues en comparant les propriétés physico-chimiques des acides aminés,
comme par exemple leur caractères hydrophile ou hydrophobe. C’est le cas des matrices
d’hydrophobie (Levitt, 1976 ; Kyte & Doolittle, 1982) basées sur des mesures d’énergie libre de
transfert des résidus depuis l’eau vers l’éthanol, ou encore la matrice de structure secondaire (Levin et
al., 1986) basée sur la propension d'un acide aminé à être dans une conformation donnée. L’évolution
constante du nombre de structures tridimensionnelles connues a permis le développement de matrices
basées sur l’observation des structures comme la matrice de Johnson & Overington (1993) obtenue à
partir de l’étude de 235 structures réparties en 65 familles. D’autres existent comme SDM et HSDM
(Prlic et al., 2000). Celles-ci ont été obtenues à l’aide de 122 paires de protéines homologues (URL
27). Ce type de matrice est indiqué pour l’étude de protéines homologues à faible similarité.
1.2.1.2.a.v. Choix et efficacité des matrices
Bien que de nombreuses matrices existent, il n’existe pas de matrice idéale. La matrice à choisir
pour comparer des séquences dépend évidemment de la nature des séquences et seul le biologiste peut
choisir la matrice qui conviendra le mieux à ses travaux. Il peut être bon d’utiliser pour une même
comparaison, différentes matrices. Très schématiquement, on peut conférer aux matrices PAM et
BLOSUM les domaines d’application suivant :
Figure7
Figure 7 : domaines d’utilisation des matrices PAM et BLOSUM
Testées à l’aide des programmes de recherche de similarité tels que BLAST ou FASTA (§1.2.1.3 page
35), les matrices basées sur les comparaison de séquences comme la matrice BLOSUM, ou les
matrices structurales donnent de meilleurs résultats que les matrices PAM (Johnson & Overington,
BLOSUM 45 PAM 250
BLOSUM 80 PAM 1
BLOSUM 62PAM 120
Séquences moins divergentes
Séquences plus divergentes
Recherche dans les bases de données
34
1993 ; Henikoff & Henikoff, 1993 ; Pearson 1995 ; Henikoff & Henikoff, 2000). Selon le « contexte
local » au sein des séquences, il peut être intéressant de changer de matrice, en fonction par exemple
des structures secondaires et de l’accessibilité des résidus comparés (Koshi & Goldenstein, 1995).
1.2.1.2.b. Score et signification statistique des alignements
Les matrices de similarité confèrent à la comparaison des séquences un caractère biologique,
puisqu’elles sont établies sur la base des propriétés biochimiques et structurales des résidus. Pour
chaque alignement, il est possible de calculer un score qui témoigne de la qualité avec laquelle les
séquences ont été alignées avec la matrice choisie. Cependant il reste utile de vérifier si l’alignement
observé, avec un score donné, témoigne d’une réelle homologie entre les séquences et à une véritable
signification biologique. Ceci est indispensable pour la recherche de séquences homologues au sein
des bases de données. Il faut estimer le score maximal qui serait le fruit du hasard, obtenu avec des
séquences de même composition et dans les mêmes conditions. Pour les alignements globaux, il n’y a
pas de théorie mathématique capable d’expliquer, et donc de prévoir, la distribution des scores. Le seul
moyen d’estimer cette distribution est empirique : il faut calculer des alignements avec des séquences
générées aléatoirement, de même longueur et de même composition puis en déduire les scores (Fitch,
1983). En revanche, il est possible de simplifier le problème en étudiant la distribution des scores
obtenus avec des alignements locaux non gappés (Hight Scoring Pair, HSP), pour lesquels cette
distribution peut être exprimée mathématiquement (Karlin & Altschul, 1990). La distribution aléatoire
des scores pour les HSPs peut être estimée à l’aide d’une fonction de distribution de valeur extrême
(extreme value distribution) montrant que le score normalisé S’ est :
S’ = λS-ln(nm)
où S est le score de similarité nominal, n et m les longueurs des séquences. Les deux paramètres, λ et
K, sont des constantes déterminées analytiquement et dépendent de la matrice de substitution et de la
fréquence des résidus dans les séquences. Ayant un score S’, la probabilité (p-value) qu’un alignement
présente un score identique (x) ou meilleur de façon hasardeuse est donné par la relation :
P(S’ ≥ x)=1-exp(-Kmn.e-λx)
Plus cette probabilité est faible, plus l’alignement est statistiquement significatif, pointant une
probable homologie biologique. A cette probabilité, il faut relier la valeur E (Expected value) qui
représente le nombre d’alignements attendus pouvant avoir un score égal ou supérieur, toujours par le
biais du hasard :
E(S’ ≥ x)= Kmn.e-λx
Une valeur de E faible, permet d’affirmer l’homologie qu’il existe entre les séquences comparées, la
réciproque n’est pas vraie : une valeur de E forte ne permet pas d’infirmer la possibilité d’une
homologie entre les séquences. Ces paramètres sont souvent utilisés dans les programmes de
recherches de similarité comme BLAST et FASTA (§1.2.1.3 page 36) et sont utiles pour juger la
35
pertinence des résultats issus du criblage des bases de données. Dans ce cas, les résultats sont
directement dépendants de la qualité de la base de données criblée : ils sont d’autant meilleurs que la
redondance est faible.
Si cette théorie est valable pour les alignements non gappés, elle semble aussi s’appliquer aux
alignements gappés, mais cela n’a pas été vérifié de façon formelle, d’ailleurs les paramètres λ et K ne
peuvent pas être calculés, ils sont estimés à l’aide de simulations informatiques (Waterman &
Vingron, 1994 ; Altschul & Gish, 1996).
1.2.1.3. Application : recherche d’homologie dans les bases de séquences.
L’algorithme de Smith & Waterman permet d’aligner de façon optimale deux séquences et ainsi
analyser leur parenté biologique. En comparant à l’aide de cet algorithme une séquence d’intérêt avec
toutes celles qui sont présentes dans les banques, il est possible de retrouver dans une base de
séquences, les protéines qui lui sont proches. Le programme SSEARCH (Smith & Waterman, 1981),
implémentation directe de l’algorithme de Smith & Waterman, est justement utilisé à ce titre et
garantit des résultats sûrs. Néanmoins, cet algorithme demande beaucoup de temps de calcul et de
ressources mémoire, créant ainsi une forte limitation dans l’emploi du programme SSEARCH pour la
recherche d’homologie dans les bases de données. Il y a deux solutions à ce problème. La première
consiste à utiliser un matériel approprié et spécifique, dédié à ce type de recherche rendant la vitesse
d’exécution inégalable (Shpaer et al., 1996). Mais ce gain se fait au détriment de l’universalité du
programme puisqu’il faut disposer de ce matériel précis. La seconde solution, plus universelle et donc
beaucoup plus intéressante consiste à combiner l’algorithme de programmation dynamique avec des
étapes heuristiques, de façon à minimiser le nombre des calculs à réaliser et ainsi augmenter
l’efficacité de l’algorithme. L’efficacité dont il s’agit ici se traduit par le meilleur compromis entre
vitesse d’exécution, sensibilité et spécificité. Une meilleure sensibilité autorisera une meilleure
détection pour les paires de séquences qui sont très éloignées mais reliées sur le plan biologique, en
d’autres terme une meilleure sensibilité permet de détecter plus de « vrais positifs ». La spécificité
évitera d’inclure les séquences qui ne sont pas reliées parmi celles qui le sont, donc, une spécificité
plus grande, évitera la détection des « faux positifs ». Mathématiquement ces notions sont traduites de
la façon suivante :
Sensibilité = VP/(VP+FN)
Spécificité = VN/(VN+FP)
avec VP, le nombre de vrais positifs (séquences détectées et effectivement reliées), FN le nombre des
faux négatifs non détectés (séquences non détectées mais reliées), FP le nombre des faux positifs
détectés (séquences détectées mais non reliées) et VN le nombre de vrais négatifs (séquences non
détectées et non reliées). Un programme est d’autant meilleur que spécificité, sensibilité et vitesse
d’exécution sont élevées, ce qui n’est pas chose aisée à développer, si l’on considère la taille toujours
36
croissante des bases de données. Le fait d’introduire des étapes heuristiques permet surtout
d’augmenter la vitesse de calcul et d’obtenir les résultats dans un temps raisonnable. Cependant, ces
étapes font appel à des approximations qui provoquent une légère perte en sensibilité (tous les vrais
positifs ne sont pas détectés).
Une des stratégies employée par ces méthodes heuristiques consiste à décomposer une séquence en de
courtes successions de lettres appelées mots (word). Ces méthodes, introduites au début des années 80
(Wilbur & Lipman, 1983) sont basées sur la recherche et la comparaison des mots. Le succès des
programmes BLAST et FASTA, les deux implémentations heuristiques les plus connues, tient au fait
qu’elles sont particulièrement rapides pour une sensibilité qui reste très acceptable. Elles sont basées
sur l’idée simple que deux séquences reliées ont au moins un mot en commun (word hit).
1.2.1.3.a. FASTA
Le programme FASTA (Pearson & Lipman, 1988 ; Pearson, 1990) détecte les alignements
optimaux entre les séquences à l’aide d’une matrice de substitution. L’algorithme FASTA fait
intervenir plusieurs étapes. La première consiste à détecter toutes les identités entre les séquences.
L’emploi d’une table de recherche (lookup table) facilite et accélère cette phase. Puis une étape de
filtration vise à ne considérer que les alignements locaux pour lesquelles un nombre minimal de lettres
consécutives sont alignées. Ce nombre est fixé par le paramètre ktup, permettant ainsi une sélection
des alignements locaux à examiner : ceux-ci doivent avoir au moins ktup lettres consécutives alignées.
Par conséquent, plus ktup est élevé, plus la vitesse augmente (puisque l’on sélectionne moins
d’alignement). Cependant, ce gain en rapidité se fait au détriment de la sensibilité car en augmentant la
valeur de ktup, il est plus difficile (ou impossible) de détecter les séquences reliées mais éloignées.
Pour chaque alignement obtenu, FASTA attribue un score init1 selon une méthode heuristique, en
fonction de la densité en identités partagées. Seuls les segments représentant les alignements avec les
scores les plus élevés sont conservés. Ceux qui sont situés sur la même diagonale sont fusionnés et un
nouveau score initn est calculé pour l’ensemble, le score init1 est attribué au segment le mieux aligné.
Ensuite, un alignement local optimum est calculé dans une bande étroite du graphe, centré sur le
segment de score init1 et englobant les autres, en autorisant les insertions/délétions. Un score opt est
attribué à chaque alignement local ainsi obtenu. Les alignements optimaux sont ensuite recalculés avec
l’algorithme de Smith & Waterman. Pour chaque séquence sujette identifiée par FASTA, seul
l’alignement optimal est fourni à l’utilisateur. FASTA donne le résultat de la recherche sous la forme
d’un fichier texte qui présente toutes les séquences sujettes trouvées dans la base de données de
recherche (Figure 8).
37
…
…
…
>>sw||GALR_ECOLI (P03024) Galactose operon repressor. (343 aa)
initn: 105 init1: 78 opt: 147 Z-score: 194.3 bits: 42.9 E(): 0.00053
Smith-Waterman score: 147; 26.549% identity (27.273% ungapped) in 113 aa overlap (5-117:3-112)
10 20 30 40 50 60
Exampl MKKITIYDLAELSGVSASAVSAILNGNWKKRRISAKLAEKVTRIAEEQGYAINRQASMLR
:: :.:.:.:::...:: ..:.. : . : .:: : : .: : .: :
sw||GA MATIKDVARLAGVSVATVSRVINNSPKASEAS-RLA--VHSAMESLSYHPNANARALA
10 20 30 40 50
70 80 90 100 110 120
Exampl SKKSHVIGMIIPKYDNRYFGSIAERFEEMARERGLLPIITCTRRRPELEIEAVKAMLSWQ
.. ....:... .. .::.... :..: . : . .: . . : .:.. ..
sw||GA QQTTETVGLVVGDVSDPFFGAMVKAVEQVAYHTGNFLLIGNGYHNEQKERQAIEQLIRHR
60 70 80 90 100 110
…
…
…
Figure 8 : exemple d’un résultat obtenu par FASTA. Un même recherche FASTA sur une séquence requête
permet d’obtenir plusieurs alignements avec plusieurs séquences sujettes. Un seul alignement est représentée ici.
FASTA fournit depuis sa version 2.0, une évaluation quant à la signification des résultats par le biais
du Z-score. Le Z-score est obtenu de la façon suivante :
varb.ln(n))(aSZ +−=
Le Z-score est la régression linéaire, représentée par le terme (a + b ln(n)), calculée à partir d’un
échantillon de séquence de la banque qui ne comprend pas les séquences reliées ayant un fort score. Le
terme var est la variance des scores normalisés. La distribution du Z-score suit une distribution de
valeur extrême, et l’on peut en déduire une valeur E (Expected value) qui donne le nombre
d’alignements attendus avec un score égal ou supérieur, avec une séquence de longueur (d) donnée et
dans une base de taille donnée (D).
Plus la valeur de E est faible et plus le résultat trouvé par FASTA est pertinent.
1.2.1.3.b. BLAST
BLAST (Basic Alignment Search Tool ; Altschul et al., 1990) a amélioré la recherche de
similarité et a permis d’évaluer la signification statistique des alignements. Une innovation apportée
par BLAST est la recherche de mots voisins (neighborhood words) : un mot est trouvé (hit) si le score
dD)eexp(1x)E(Z
0,57721,282Z ∗−−=>−−
38
calculé (à l’aide d’une matrice de substitution) est supérieur ou égale à un score T. Cette stratégie
permet de rechercher des mots de plusieurs lettres (valeur élevé de ktup) donc d’améliorer la rapidité
du programme. T est le paramètre déterminant pour la rapidité et la sensibilité, ktup est rarement
modifié (ktup = 3) : si T est élevé, alors le nombre de hits sera réduits et la recherche sera
particulièrement rapide. A l’inverse si T est faible, la recherche sera plus lente, mais les protéines
reliées les plus distantes pourront être trouvées.
BLAST recherche des mots, puis étend l’alignement entre les séquences aux deux extrémités
(HSP). Cette extension est réalisée tant que le score de l’alignement est supérieur à un score seuil S
(que l’utilisateur peut fixer). Ce processus d’extension représente 90% du temps de calcul de BLAST.
Depuis la version 2.0 du programme, les gaps sont traités de manières explicite, améliorant la
sensibilité de la recherche : les résidus au centre d’une HSP servent de graine (seed) pour initier un
processus de programmation dynamique qui étend l’alignement à gauche et à droite (avec introduction
de gaps). Dans ce processus, les cellules du graphe qui sont utilisées ne font pas chuter le score de
l’alignement locale d’une valeur trop importante (qui reste inférieure à un seuil). Ce qui signifie, que
contrairement à FASTA, BLAST ne se limite pas à la bande diagonale du graphe de recherche. Ce
processus est répété pour toutes les HSPs, permettant d’identifier tous les alignements gappés non
chevauchants. BLAST est donc plus exhaustif que FASTA (qui lui ne fournit que le meilleur
alignement). BLAST existe dans une version itérative plus sensible : PSI-BLAST (§1.2.2.2 page 39).
1.2.2. Autres outils de recherche d’homologie.
1.2.2.1. Recherche de motifs (pattern)
La présence d’un motif (suite de résidus précis dans un ordre précis) dans les séquences de
protéines peut être le signe d’une fonction précise ou d’une particularité biologique. La recherche de
tels motifs, sous la forme d’expressions régulières peut permettre de replacer une protéine dans sa
famille protéique. Tout le problème est d’être suffisamment spécifique tout en étant flexible et en
autorisant la recherche de motifs dégénérés. La solution la plus simple consiste à autoriser un certain
nombre de mutations dans le motif. Mais si pour des raisons biologiques, des positions sont plus
importantes que d’autres et doivent être strictement conservées, cette solution est peu efficace. Il faut
pénaliser plus lourdement la mutation des positions les plus importantes. Ceci a été mis à profit au sein
de l’algorithme PATTINPROT (Blanchet, 1999). PATTINPROT définit deux scores : Sc0 qui la
fréquence du motif (en fonction de sa composition) et Scseuil = 10 τ log Sc0. τ est le taux de similarité
minimal voulu lors de la recherche, τ est inférieur à 1. Scseuil est supérieur à Sc0. Un motif est trouvé
dans une séquence si son score calculé est compris entre Sc0 et Scseuil. Le score est calculé sur une
fenêtre de la taille du motif. Si le résidu à la position i satisfait le motif, le score de la position i est
égale à celui de la position i-1. Sinon Sc(i)=Sc(i-1)/P(i) où P(i) est la pénalité à la position i. Donc Sc(i)
39
augmente d’autant plus que P(i) est petit. Si Sc(i) > Scseuil, la fenêtre est déplacée sinon la séquence
correspondant au motif est donnée pour résultat à l’utilisateur. L’innovation consiste à prendre pour
pénalité la fréquence de la position : si plusieurs résidus sont autorisées à la même position i, alors la
pénalité est la somme des fréquences. Donc P(i) est d’autant plus grand. Par conséquent, Sc(i)
augmentera moins vite pour les positions dégénérées que lorsque la position doit être strictement
conservée (P(i) sera faible). Ainsi PATTINPROT favorise les motifs où les positions strictes sont
conservées, pour une meilleure pertinence biologique.
1.2.2.2. Utilisation des profils
Les profils sont représentés par des matrices de scores spécifiques de la position (PSSM, Position-
Specific Scoring Matrix). Ces matrices sont bidimensionnelles, les lignes sont les positions, les
colonnes représentent les résidus possibles. Les profils ressemblent aux matrices de similarité avec
l’utilisation d’un score à chaque case (entre chaque résidu de la séquence et les 20 autres possibles) : si
le score est positif, il y a une similarité, sinon il y a une dissimilarité. Les profils sont plus complexes
que les matrices de substitution. Ils fournissent, sous la forme de deux colonnes supplémentaires, des
pénalité d’insertion d’un gap et son extension, à chaque position. Selon leur mode de détermination
(matrices utilisées) il existe des profils moyens et des profils évolutifs (ces derniers étant plus
sensibles). Les profils constituent un moyen simple de représenter l’information contenue dans un
alignement de séquences homologues (Gribskov & Veretnik, 1996).
Le programme PSI-BLAST (Position Specific Iterative BLAST), version modifiée de BLAST
utilise des profils. Une première recherche est effectuée par BLAST. A l’issue de cette recherche, une
matrice PSSM est calculée à partir des résultats obtenus. Cette matrice remplace la matrice de départ
pour effectuer une nouvelle recherche. Le cycle est répété plusieurs fois. Si aucune nouvelle séquence
répondant au profil n’est trouvé, alors le cycle s’interrompt, le programme a « convergé ». Ce
programme est très sensible, c’est l’un des meilleurs outils de détection d’homologues distants à partir
des séquences protéiques.
1.2.2.3. Analyse de la compatibilité de structures secondaires.
Les structures secondaires représentent le premier niveau d’organisation structurale des protéines
(§1.4.1 page 45). Les acides aminés ont pour beaucoup des chaînes latérales hydrophobes. La chaîne
peptidique est hydrophile. Ce caractère amphipathique déstabilisant est compensé par la formation,
localement, de configurations régulières en hélice (la plus fréquente étant l’hélice α) ou en feuillet.
Un moyen d’outrepasser la divergence des séquences pour retrouver la parenté entre les protéines,
est d’analyser la compatibilité des structures secondaires. Cette quantification est possible grâce au
facteur de compatibilité de structure secondaire SOV (Zemla et al., 1999) :
40
[ ]
×
+×= ∑ ∑
∈ CE,H,i S(i)
len(Sq)St)maxov(Sq,
St)(Sq,St)minov(Sq,N1100Sov
δ
où N est la longueur de l’alignement sans les gaps ; len est longueur du segment ; H, E et C les trois
états de structures secondaires (Helix, Extended, Coil), minov est la longueur de chevauchement des
structures secondaires entre la séquence requête Sq et la séquence cible St ; maxov la longueur
maximale de chevauchement des structures secondaires entre Sq et St et δ est défini par :
δ(Sq,St)=min{(maxov(Sq,St)-minov(Sq,St)) ; minov(Sq,St) ; len(Sq/2) ; len(St/2)}
minov
E SS R Séquence 1
E SS R Séquence 2
maxov
Figure 9 : représentation des paramètres maxov et minov. ESSR représente un élément de structure
secondaire.
Alors qu’il est reconnu que le seuil d’identité minimal pour la sélection d’une empreinte structurale
afin de modéliser la structure d’une séquence protéique doit être de 25 à 30%, l’utilisation du
paramètre SOV au sein de la méthode PROCSS (PROtein Compatibility from Secondary Structure ;
Geourjon et al., 2001) permet d’abaisser ce seuil à 10% avec l’apport de l’information contenue dans
les structures secondaires. En effet, à bas taux d’identité (en dessous de 25%), les similarités de
séquences ne sont plus suffisantes pour apporter les preuves de la parenté structurale entre deux
séquences. Le SOV apporte une dimension supplémentaire qui permet d’éclater l’information
contenue dans l’alignement d’une paire de séquences, autorisant un pouvoir discriminant plus fort. Il
devient alors possible de valider les homologues structuraux à bas taux d’identité comme le montre la
Figure 10. En effet, nous pouvons constater qu’en appliquant un seuil de 60% pour le paramètre SOV,
il est possible d’établir la parenté structurale qui peut exister entre deux séquences même lorsque le
taux d'identité se situe entre 10 et 30%.
Le paramètre SOV est un outil particulièrement intéressant dans la mesure où il apporte une nette
amélioration des processus de modélisation moléculaire par homologie en augmentant le nombre
d’empreintes potentiellement utilisables. A ce titre, le paramètre SOV est utilisé dans les processus de
modélisation moléculaires automatiques dispensés à travers le web comme Geno3D (Combet et al.,
41
2002 - URL 31) au sein du serveur d’analyse de séquence NPS@ (URL 28 ; Network Protein
Sequence analysis ; Combet et al., 2000).
0 10 20 30 40 50 60 70 80 90
100
0 10 20 30 40 50 60
Figure 10 : Distribution des paires de protéine en fonction de la compatibilité des structures secondaires
expérimentales mesurée en utilisant le paramètre Sov. (faux : cercles, vrais : croix).
1.2.2.4. Utilisation des structures tridimensionnelles.
Les structures sont plus conservées que les séquences. L’utilisation des structures
tridimensionnelles permet de d’identifier des relations biologiques entre des protéines. Ceci peut être
particulièrement intéressant lorsque les séquences ont trop divergé pour être analysées à l’aide d’un
alignement significatif. Dans ces conditions, l’information d’une structure tertiaire peut servir de base
pour générer un profil, contre lequel la compatibilité d’une séquence est testée (threading, Bowie et
al., 1991).
1.3. Etude d’une famille de protéines : alignements multiples
La recherche d’homologie permet de constituer un jeu de séquences de protéines apparentées.
L’étape suivante, consiste à aligner toutes ces protéines ensemble, afin de mettre en avant les
caractéristiques conservées (sites, propriétés biochimiques, zones particulières…) et de mieux
comprendre les processus évolutifs ayant produit ces séquences. Différentes stratégies existent pour
aligner des séquences : progressive, itérative, locale et globale (pour revue : Thompson et al., 1999 ;
Notredame, 2002).
42
1.3.1. Algorithme d’alignement multiple progressif
L’algorithme de programmation dynamique garantit l’alignement optimal entre des séquences.
Pour des raisons de temps et de besoins en ressources mémoires, son usage se limite à l’alignement
d’un petit nombre de séquences. Pour aligner un nombre plus élevé de séquences, plusieurs
algorithmes heuristiques ont été développés, comme les algorithmes progressifs (Feng & Doolitle,
1987 ; Barton & Sternberg, 1987). L’approche progressive consiste à élaborer graduellement un
alignement multiple en exploitant les relations phylogénétiques entre les séquences (Sankoff, 1975).
Une première étape consiste à décomposer un alignement de N séquences en N alignements de 2
séquences, en appariant les protéines les plus proches entre elles par programmation dynamique (après
avoir réalisé Nx(N-1)/2 comparaisons). L’étape suivante consiste à aligner toutes ces paires. Cette
approche, heuristique et progressive a l’avantage d’être simple, rapide, et sensible. Cependant elle ne
garantit pas l’alignement optimal.
1.3.1.1. CLUSTALW
A partir de la comparaison des séquences par paires, CLUSTALW calcule une matrice de
distances utilisée pour construire un dendogramme (arbre de distance) selon l’algorithme des plus
proches voisins (neighbour joining ; Thompson et al., 1994). Cet arbre sert de base à la construction
de l’alignement multiple. Au fur et à mesure de la construction de l’alignement, les gaps sont crées, en
tenant compte des pénalités d’insertion et d’extension entrées par l’utilisateur. Généralement les
pénalités privilégient les extensions de gaps, plutôt que de nombreuses insertions. D’autres pénalités
spécifiques des positions sont calculées en fonction de la nature des résidus présents à chaque position
et à partir d’une table de pénalisation déduite d’alignement structuraux (Pascarella & Argos, 1992).
Enfin, les caractéristiques physico-chimiques locales sont prises en compte (e.g. insertion de gaps plus
facile dans les zones hydrophiles).
1.3.1.2. MultAlin
MultAlin (Corpet, 1988) est basé sur le même principe que CLUSTALW, avec des étapes
supplémentaires : à partir des paires alignées, une nouvelle matrice est construite et utilisée pour
reconstruire l’alignement multiple. L’approche est répétée plusieurs fois, jusqu’à ce que le processus
converge. Généralement peu de cycles suffisent (2 ou 3).
1.3.1.3. Autres programmes d’alignement multiple progressif
D’autres programmes existent et différent essentiellement par le mode de calcul du dendogramme
qui sert à construire l’alignement multiple :
43
• MULTAL (Taylor, 1988), utilise un algorithme de branchement séquentiel (sequential
branching) pour créer un arbre, en alignant d’abord deux séquences, puis ajoute à cette
paire les séquences les unes après les autres.
• MULTALIGN (Barton & Sternberg, 1987) et PILEUP créent l’arbre à l’aide de la
méthode UPGMA (Unweighted Pair-Group Method using Arithmetic average; Sneath &
Sokal, 1973)
• PIMA (Smith & Smith, 1992) aligne les motifs les plus conservés, par programmation
dynamique locale.
1.3.2. Algorithmes d’alignement multiple itératif et simultané.
L’approche progressive, rapide et simple, est avantageuse. Cependant, si au cours du processus
progressif, des résidus sont mal alignés, une correction ne pourra pas être réalisée. Ceci est encore plus
sensible lorsque les séquences sont très divergentes. Plusieurs autres programmes d’alignement
multiple adoptent d’autres approches que l’approche progressive.
L’algorithme MSA (Multiple Sequence Alignment ; Lipman et al., 1989 ; Gupta et al., 1995)
adopte une stratégie simultanée : la programmation dynamique est appliquée de façon simultanée aux
paires de séquences et à l’ensemble des séquences. La première étape consiste à calculer le graphe
standard de programmation dynamique pour toutes les paires parmi N séquences. Pour tous les
sommets, un coût est calculé pour l’alignement multiple optimal passant par ces sommets. Ensuite, un
graphe de programmation à N dimensions est considérés, mais MSA ne prend en compte que les
sommets compatibles avec ceux des graphes par paires.
SAGA (Sequence Alignment by Genetic Algorithm ; Notredame & Higgins, 1996 ) utilise un
algorithme génétique : SAGA mime les processus évolutifs supposés avoir conduit la séquence
ancestral vers les séquences à aligner, le but étant d’optimiser la fonction de cohérence COFFEE
(Consitency based Objective Function For Alignement Evaluation ; Notredame et al., 1998). COFFEE
mesure la qualité de l’alignement en vérifiant la cohérence entre l’alignement multiple et les paires
alignées selon CLUSTALW. La méthode T-COFFEE (Notredame et al., 2000) utilise aussi ce
principe, les alignements produits sont de meilleur qualité et la perte de vitesse est faible.
DIALIGN (Morgenstein et al., 1998) réalise l’alignement multiple en comparant des segments
plutôt que les résidus, un peu comme une matrice de points. Les segments sont ensuite incorporés à
l’alignement par une approche itérative.
PRRP (Gotoh, 1996) optimise un alignement multiple progressif à l’aide d’une approche itérative :
un alignement global est divisé en deux sous-groupes de séquences. L’étape est répétée avec les sous-
groupes et ainsi de suite. Ensuite les groupes sont alignés. DCA (Divide and Conquer Alignment ;
Stoye et al., 1997) utilise une approche identique.
44
HMMT (Eddy, 1995) utilise un recuit simulé (simulated annealing) pour établir un modèle
probabiliste Markovien des mutations, capable de représenter les séquences à aligner.
Progressif
Itératif
Local Global
PIMA
DIALIGN SAGA HMMT
MULTAL CLUSTAL
MULTALIGN PILEUP
PRRP
Figure 11 : Schéma représentant quelques programmes d’alignement multiple en fonction des stratégies
qu’ils adoptent (source Thompson et al., 1999).
1.3.3. Validation des méthodes d’alignement multiple
Beaucoup d’algorithmes différents existent. Chacun d’entre eux à ses forces et ses faiblesses. Un
moyen de vérifier la qualité des programmes est de les tester sur des alignements multiples de
référence, comme ceux de BAliBASE (Thompson et al., 1999 ; Bahr et al., 2001 ; §3.1.2.2 page 123)
ou encore les alignements structuraux utilisés dans l’étude de Briffeuil (et al., 1998). Ce type de
validation est un point indispensable au développement de nouvelles méthodes d’alignement multiple.
En ce qui concerne l’utilisateur, il doit s’assurer de la validité d’un alignement, voire tester plusieurs
programmes et analyser les résultats. Il peut par exemple coupler l’information des séquences à celle
des structures secondaires ou repérer de sites particuliers, afin de mieux positionner les gaps et ainsi
obtenir un alignement plus pertinent et plus informatif.
45
1.4. Outils bioinformatiques d’étude des structures secondaires des
protéines.
1.4.1. Les structures secondaires des protéines et le diagramme de Ramachandran
La nature des atomes de la chaîne peptidique (H, N, C, O) permettent aux atomes d’établir entre
eux des liaisons hydrogènes, qui vont favoriser la stabilité des structures protéiques. Lorsque ces
liaisons établissent un réseau régulier, on observe des éléments de structure secondaire. Les plus
fréquents sont l’hélice α et les brins β (Pauling & Corey, 1951).
L’hélice α se forme lorsque des liaisons hydrogènes s’établissent entre les résidus en position i et
les résidus en position i+4. Ce sont les hélices les plus fréquentes. Il en existe d’autres : hélices 310
(liaisons entre les résidus i et i+3), ou hélices π (liaisons entre les résidus i et i+5).
Les brins β n’existent pas à l’état isolés mais s’assemblent pour former des feuillets (super-
structure secondaire). Ces feuillets sont parallèles ou anti-parallèles suivant l’orientation des brins β
qui les composent. La formation des feuillets se fait par un réseau de liaisons hydrogènes entre des
résidus qui sont en général plus éloignés dans la séquence protéique que dans le cas des hélices α.
Figure 12 : représentation du réseau de liaisons hydrogènes (pointillés) d’une hélice αααα
(à gauche) et d’un
feuillet ββββ
anti-parallèle (à droite).
Des paramètres géométriques représentant les degrés de libertés d’une chaîne péptidique
permettent de définir l’état de structure secondaire des acides aminés (Figure 13-A). Les acides aminés
ont tendance à adopter des valeurs d’angles (Φ,Ψ) appartenant à des intervalles précis (Ramachandran
et al., 1968 ; Figure 13-B). L’observation statistique de ces paramètres pour les protéines de structures
connues, à permis la définition de règles structurales exploitées par les programmes d’attribution
automatique de structure secondaire.
46
Φ
Ψ
Φ
Ψ
C αααα N
O
C A )
B )
Figure 13 : A) angles (Φ,Ψ) sur le squelette carbonné. B) diagramme de Ramachandran pour la protéine
pdb1aos (réalisé avec Swiss PDB Viewer). Chaque point représente la valeur du couple (Φ,Ψ) pour un acide
aminé. Ce diagramme est composé de trois régions principales : les régions très favorables, les régions
favorables et les régions défavorables. Les régions très favorables et favorables correspondent aux éléments de
structures secondaires réguliers. Les régions défavorables représentent les couples (Φ,Ψ) tels que les contraintes
stériques (dues à la présence de la chaîne latérale) sont énergétiquement défavorables et par conséquent rarement
observés. Ce diagramme est utile pour valider les modèles structuraux (90% des résidus doivent se trouver dans
les régions très favorables).
1.4.2. Moyens d’attribution des structures secondaires des protéines à partir des
structures tridimensionnelles.
Il est assez simple de déterminer la position des structures secondaires à partir des structures
tridimensionnelles des protéines. Plusieurs programmes existent, ils s’accordent assez bien sur la
localisation et l’identification des structures secondaires. Cependant ils s’accordent rarement sur la
localisation exact (début et fin) de ces éléments.
47
1.4.2.1. DSSP
DSSP (Dictionary of Secondary Structures of Proteins ; Kabsch & Sander, 1983), est le
programme d’attribution automatique le plus ancien et le plus connu. DSSP recherche les liaisons
hydrogènes et détecte les réseaux réguliers pour localiser les éléments de structures secondaires. La
détection des liaisons est établie à l’aide du calcul d’énergie, en fonction de la distance (d) entre le
donneur et l’accepteur et de l’angle (θ) formé par « accepteur - donneur – hydrogène » :
E= 332 x q1q2 x (1/d(ON) + 1/d(OH) – 1/d(CN))
avec : q1 et q2 charges partielles sur les atomes accepteurs et donneurs, d représente la distance en Å
entre atomes. Si E est inférieure à -0,55 Kcal/mole, DSSP détecte une liaison hydrogène (la liaison
hydrogène idéale a une énergie de -3 Kcal/mole, avec d=2,9Å et θ=0°). En plus d’attribuer les
structures secondaires, DSSP donne d’autres informations, comme par exemple l’accessibilité des
résidus ou encore la localisation des ponts disulfures.
1.4.2.2. Autres outils d’attribution automatique des structures secondaires.
Il existe plusieurs autres outils d’attribution de structures secondaires, différents quant à la
définition des éléments de structure secondaire qu’ils emploient, mais aussi quant à l’algorithme
d’attribution des structures.
DEFINE (Richards et al., 1988) utilise les distances entre les résidus et plus particulièrement entre
les carbones α de la chaîne principale. STRIDE (Frishman et al., 1995) analyse la disposition des
liaisons hydrogènes couplée à la mesure d’angles dièdres (torsional angles). Enfin nous citerons P-
SEA (Protein Secondary Element Assignment ; Labesse et al., 1997), qui utilise les valeurs de distance
entre les carbones α ( i à i+3 et i à i+4), ainsi que la mesure de différents angles (dièdres, et α). P-
SEA réalise une première attribution à partir des distances, puis une seconde à partir des angles. Le
consensus issu des deux attributions est retenue comme attribution finale.
Devant ces nombreux algorithmes, des méthodes consensuelles ont été testées. L’étude menée par
Colloc’h (et al., 1993) utilise un consensus issu de DSSP, DEFINE et P-Curve (Sklenar et al., 1989)
sur un ensemble de 154 protéines, et montre que ce type de méthode consensus atténue les désaccords.
Il en résulte une prédiction de meilleure qualité.
1.4.3. Prédiction des structures secondaires des protéines
La prédiction des structures secondaires est particulièrement informative, que ce soit pour replacer
une protéine dans sa famille structurale, pour élaborer un modèle tridimensionnel notamment pour
affiner les alignements entre l’empreinte et la séquence nouvelle ou encore pour aider à résoudre les
48
structures par RMN. La prédiction des structures secondaires représente donc une part importante de
l’étude structurale d’une protéine.
1.4.3.1. Méthodes de statistiques linéaires.
1.4.3.1.a. Méthode Chou & Fasman
Cette méthode (Chou & Fasman, 1978) est l’une des premières méthodes tentant d’établir les états
de structure secondaire des séquences protéiques. Elle repose sur les préférences des résidus à être
dans un état conformationnel particulier (hélice, feuillet, apériodique). Ces préférences sont définies
selon des règles purement empiriques. La qualité de prédiction pour trois états (Q3) est de 52%. Donc
assez faible puisqu’elle fait à peine mieux que le hasard. Cette méthode a l’avantage d’être simple,
rapide et facilement compréhensible par les biologistes.
1.4.3.1.b. Méthodes GOR
Il existe quatre versions de méthodes GOR ( I à IV). Elles sont toutes basées sur la théorie de
l’information directionnelle, qui prend en compte l’environnement des résidus à prédire. Dans sa
première version, la méthode GOR (Garnier et al., 1978) considère l’information apportée par les 8
résidus précédents et suivants, qui encadrent le résidu à prédire (environnement, préférences
structurales et nature biochimique). Plusieurs versions ce sont succédées, jusqu’à la version IV
(Garnier et al., 1996), qui prend en compte l’information de toutes les paires possibles dans la fenêtre
de 17 résidus. GOR IV a un Q3 de 64,4%.
1.4.3.1.c. Méthode DPM
DPM (Double Prediciton Method ; Deléage & Roux, 1987) réalise ses prédictions en deux étapes.
Une première phase de prédiction est réalisé à l’aide de paramètres de type Chou & Fasman. Ensuite,
une seconde prédiction est réalisée pour définir la classe structurale de la protéine. Ces deux phases
permettent d’obtenir des paramètre optimums pour la prédiction finale, avec un Q3 moyen de 61,3%.
1.4.3.1.d. Méthode DSC
DSC (King & Sternberg, 1996) est une méthode statistique qui combine différent aspects de la
prédiction des structures secondaires (effets de bord, préférences structurales, hydrophobie, position
des insertions et délétions dans les alignements multiples…) en un vecteur à dix composantes. Ces
vecteurs sont mis à profit pour la prédiction des éléments de structures secondaires. Le Q3 de cette
méthode est de 70,1%.
49
1.4.3.1.e. Méthode PREDATOR
PREDATOR (Frishman & Argos, 1996) exploite l’information contenue dans les structures
tridimensionnelles. L’algorithme prédit les résidus potentiellement impliqués dans des liaisons
hydrogènes au sein d’une séquence protéique. Cette prédiction statistique est établie sur l’occurrence
(observée dans une base de structures) des résidus à être pris dans des ponts β (β-bridge) pour le
prédiction des feuillets β, ou dans des liaisons (i/i+4) pour la prédiction des hélices α. Le Q3 de
PREDATOR est de 68% et peut atteindre 75% si l’on intègre l’information apportée par des séquences
similaires (à la séquence à prédire).
1.4.3.2. Méthodes basées sur la similarité
1.4.3.2.a. Méthode de Levin
Cette méthode (Levin et al., 1988) est basée sur le concept des plus proches voisins (nearest
neighbour) : de courtes séquences similaires ont tendance à adopter des repliements semblables. La
séquence à prédire est découpée en heptapeptides à l’aide d’une fenêtre glissante. Ces derniers sont
comparés à une bibliothèque d’héptapeptides à l’aide d’une matrice de similarité spécifique. L’état
structural de chaque résidu est attribué en fonction de cette comparaison, à l’aide d’un score. La
qualité de prédiction est de 62,2%.
1.4.3.2.b. Méthode SIMPA96
SIMPA96 (Levin, 1997) est une amélioration de la méthode de Levin. La matrice de similarité
utilisée est BLOSUM62 (§1.2.1.2.a.iii page 32), la fenêtre considérée est de 13 à 17 résidus, et le
calcul des scores est amélioré. La qualité de prédiction est de 67,7% et peut atteindre 72,8% en
utilisant un alignement multiple de séquences similaires à la protéine à prédire.
1.4.3.2.c. Méthodes SOPM & SOPMA
SOPM (Self Optimized Prediction Method, Geourjon & Deléage, 1994) est basée sur la méthode
des plus proches voisins (comme les méthodes de Levin). L’algorithme de cette méthode optimise les
paramètres de prédiction à l’aide d’une sous-base de séquences similaires, spécialement construite
pour la protéine à prédire. Le Q3 de SOPM est de 69%. SOPMA (Geourjon & Deléage, 1995) est une
évolution de SOPM : SOPMA prend en compte l’information contenue dans l’alignement multiple des
séquences de la même famille que la protéine dont on veut prédire la structure, apportant ainsi des
informations biologiques utiles pour l’amélioration de la prédiction, puisque le Q3 moyen atteint
72,5%.
50
1.4.3.3. Méthodes basées sur l’apprentissage
1.4.3.3.a. Méthode PHD
PHD (Rost et al., 1994) utilise un double niveau de réseaux de neurones à couche cachée. PHD se
fonde sur l’information contenue dans un alignement multiple de séquences reliées à la séquence à
prédire sous la forme d’un profile dérivé qui sert d’entrée au réseau de neurone de premier niveau. Ce
réseau de neurones de premier niveau prédit les structures secondaires, le réseau du deuxième niveau
corrige cette prédiction en intégrant les prédiction sur les résidus adjacents de façon à supprimer les
prédictions aberrantes (HEHH => HHHH). Le Q3 de cette méthode est de 72,5%. PHD peut aussi être
utilisée pour prédire les hélices trans-membranaires (PHDhtm) et calculer l’accessibilité des résidus
(PHDacc).
1.4.3.3.b. Méthode HNN
HNN (Hierarchical Neural Networtk ; Guermeur, 1997) utilise également un double réseau de
neurones. C’est une amélioration de la méthode de Qian & Snejnowski (1998). L’architecture
algorithmique est mieux adaptée, et la méthode s’aide de paramètres physico-chimiques pour la
prédiction des états structuraux. Le Q3 est de 65,4% en utilisant la seule séquence à prédire.
1.4.3.4. Apport de l’information biologique et méthodes consensuelles.
Les méthodes utilisant l’information apportée par des séquences similaires à la protéines à prédire
sont plus performantes (DSC, SOPMA, PHD, SIMPA), ce qui montre l’utilité de replacer une protéine
dans sa famille pour mieux la caractériser. Un autre moyen d’améliorer les prédictions consiste à
utiliser des consensus (Table 19 page 125) ou encore de combiner les méthodes par régression linéaire
multiple (Guermeur et al., 1999 ; Pan, 2001).
1.5. Outils bioinformatiques d’étude des structures tridimensionnelles
des protéines.
1.5.1. Les structures tridimensionnelles des protéines
La structure tridimensionnelle est la structure active et fonctionnelle de la protéine. Elle
correspond à l’agencement des atomes dans l’espace. Grâce au repliement, des résidus éloignés dans la
séquence, peuvent être regroupés dans l’espace pour former un site catalytique, une zone d’interaction
particulière…
51
L’un des plus grands défis de la Bioinformatique dans le domaine de la protéomique est la
prédiction de la structure tridimensionnelle d’une protéine sur la base de sa seule séquence. Les
méthodes expérimentales de détermination des structures tridimensionnelles des protéines que sont la
RMN et la cristallographie ont des limites difficilement surmontables. La première difficulté est liée à
la surproduction de la protéine, afin d’obtenir au minimum 10 mg d’un échantillon extrêmement pur et
dans un état natif (la protéine doit être fonctionnelle, ce qui garantit un bon repliement). Ce qui est
d’autant plus difficile lorsqu’il s’agit de surproduire des protéines multimériques, membranaires, ou
ayant des modifications post-traductionnelles (puisque les micro-organismes utilisés ne sont pas
capables de les reproduire). Sans oublier qu’il faut enrichir les échantillons (sans les dénaturer) en
atomes lourds pour la détermination des phases en cristallographie (processus essentiel dans
l’interprétation des cartes de diffraction) et en 15N, 13C, 2D pour avoir des spectres lisibles en RMN.
Ensuite il faut considérer les difficultés inhérentes aux techniques de détermination des structures, qui
sont lourdes (du fait de l’appareillage qu’elles nécessitent), coûteuses en temps et en argent, et très
délicates dans leur mise en oeuvre : l’étude des peptides de plus de 50kDa (500 acides aminés) pose
problème en RMN, même si les évolutions récentes ont permis de repousser cette limite dans certains
cas jusqu’à 150kDa (Pervushin et al. 1997 ; Riek et al., 1999). Quant à la cristallographie, le principal
obstacle réside dans l’obtention d’un cristal de bonne qualité et permettant d’obtenir des cartes de
diffraction interprétables, et cette phase est plus un art qu’une science… Dès lors, les méthodes
prédictives sont particulièrement intéressantes, et sur la base des connaissances structurales actuelles il
est possible d’obtenir par prédiction des structures tridimensionnelles des protéines proches des
structures réelles. Mais là encore il y a plusieurs limites dont une importante : tous les repliements
(folds) uniques ne sont pas encore connus, et le seul moyen de les déterminer sont la RMN et la
cristallographie (et dans une moindre mesure la microscopie électronique), le tout étant de choisir les
protéines pouvant avoir un repliement encore inconnu. Le séquençage de génomes eucaryotes sera
particulièrement utile puisqu’il fournira un nombre important de séquences candidates. Les séquences
permettront de savoir à l’avance si une protéine a des chances d’avoir un repliement encore inconnu.
Ainsi les efforts des cristallographes et « RMNistes » seront concentrés sur les protéines pouvant avoir
un fold encore non déterminé afin de compléter nos connaissances structurales et de pouvoir prédire
« plus et mieux » les structures de nouvelles protéines.
1.5.1.1. Ponts disulfures
Le groupement thiol (-SH) d’une cystéine, peut s’oxyder et se lier à un autre groupement thiol
porté par une autre cystéine proche dans l’espace. Se forme alors un pont disuflure ou cystine, qui a un
rôle fondamental dans la stabilisation des structures tridimensionnelles protéiques. Ce sont les seuls
acides aminés qui permettent l’établissement, au sein des protéines, de liaisons covalentes entre des
52
acides aminés distants dans la séquence, mais proches dans l’espace. Ces ponts peuvent servir à la
multimérisation en unifiant différentes chaînes peptidiques, comme les chaînes A et B de l’insuline.
1.5.1.2. Interactions électrostatiques & liaisons hydrogènes
Les seuls ponts disulfures ne sont pas suffisants à l’établissement des structures tridimensionnelles
protéiques. D’autres interactions existent comme les interactions entre les acides aminés chargés
(ioniques) ou par des liaisons hydrogènes.
A chaque interaction électrostatique est associé un potentiel énergétique défini par :
Eij = 332.qi.qj/(D.rij)
avec q : charge sur l’atome, D : constante diélectrique du milieux, rij : distance entre les atomes
impliqués. Cette formule montre que l’énergie d’interaction n’est favorable (donc négative) que si qi et
qj sont opposées. Cette énergie varie de façon inversement proportionnelle à la distance entre les
atomes impliqués. Enfin Eij est d’autant plus élevée (en valeur absolue) que la constante diélectrique
est faible, donc que l’environnement est hydrophobe (comme dans le cœur des protéines). Du point de
vue énergétique, il est plus favorable d’apparier des acides aminés de charges opposées, plutôt que de
les laisser isolés. Un tiers des résidus chargés sont impliqués dans des interactions électrostatiques
(Burley & Petsko, 1985).
Les liaison hydrogènes, entre les chaînes latérales et le solvant ou entre atomes de chaînes latérales
sont stabilisantes. Les liaisons hydrogènes intra-protéiques sont d’autant plus stabilisantes qu’elles
sont enfouies. L’énergie de liaison varie de façon inversement proportionnelle à la distance entre
atomes élevée à la puissance 10.
1.5.1.3. Interactions hydrophobes
Les interactions hydrophobes sont fondamentales pour le repliement des protéines. Ces
interactions sont provoquées par la tendance qu’ont les atomes et les groupements non polaires à fuir
le milieu aqueux environnant pour des raisons thermodynamiques. Cette fuite permet aux éléments
hydrophobes de se regrouper et de diminuer leur surface de contact avec le solvant. Dans une protéine,
cela se traduit généralement par l’exposition des chaînes latérales polaires à la surface et
l’enfouissement des chaînes latérales hydrophobes dans le cœur. L’énergie de liaison varie de façon
inversement proportionnelle à la distance entre atomes élevée à la puissance 6.
Cet effet hydrophobe est un paramètre déterminant dans la mesure où il gouverne les premières
phases du repliement. Les résidus hydrophobes, vont rapprocher les acides aminés tels que les
cystéines et les résidus chargés pour que les interactions puissent se faire (Tsai et al.,1997, Dill et al.,
1993). Plusieurs travaux ont mis en évidence que la caractère hydrophobe est bien conservé qu’il soit
exposé ou enfoui, suggérant un rôle important de l’effet hydrophobe dans le maintien et la stabilité des
structures protéiques.
53
1.5.2. Prédiction des structures tridimensionnelles
1.5.2.1. Modélisation moléculaire par homologie
Les protéines homologues, avec des séquences fortement similaires ont des structures
tridimensionnelles proches. Il est donc possible d’utiliser la structure connue, d’une protéine
homologue qui sert d’empreinte. Les coordonnées atomiques de cette empreinte sont affectées à la
séquence nouvelle. Le seuil de similarité nécessaire pour réaliser cette modélisation est variable, et
dépend de la longueur de l’alignement (Sander & Schneider, 1991). Cependant, nous pouvons décrire
trois cas principaux :
• plus de 60% d’identité entre les séquences : la modélisation est automatique ;
• entre 30 et 60% d’identité, la modélisation est manuelle ;
• à moins de 30%, la modélisation n’est pas raisonnable, il est nécessaire de disposer
d’autres arguments.
Dans ce dernier cas, le plus fréquent, et sans doute le plus intéressant, d’autres éléments sont
nécessaires pour valider le choix de l’empreinte. L’étude de la compatibilité des structures secondaires
(Geourjon et al., 2001 ; §1.2.2.3 page 39) peut permettre dans certains cas d’abaisser le seuil d’identité
à 10% entre l’empreinte et la protéine d’intérêt. Si toutefois, on ne dispose pas d’une empreinte
réunissant les conditions adéquates, il est aussi possible de réaliser une modélisation par fragments, en
utilisant différentes empreintes selon le segment de la protéine à modéliser (Jones & Thirup, 1986 ;
Levitt , 1992). Le programme COMPOSER (Blundell et al., 1987) a été développé dans ce but. En fin
de processus une étape de régularisation du modèle est nécessaire. Le plus souvent, ceci est réalisé par
minimisation d’énergie sur la base de la chimie théorique (distances et angles de liaison).
1.5.2.2. Threading
Le threading (ou enfilage) consiste à utiliser les motifs structuraux connus pour y « enfiler » la
séquence. On estime que pour une séquence dont on ne connaît pas la structure et pour laquelle il
n’existe pas d’empreinte satisfaisante, il y a une chance sur deux que son repliement soit déjà connu.
Par threading, on identifie les repliements les mieux adaptés à une séquence en utilisant des profils
dérivés de structures tridimensionnelles connues (Bryant & Lawrence, 1993).
1.6. Outils bioinformatiques d’analyse spécialisée des protéines
1.6.1. Profils physico-chimiques
Ces méthodes consiste à définir de manière statistique, en utilisant une fenêtre glissante, les
caractéristiques physico-chimiques d’une séquence. Il existe une cinquantaine d’échelle physico-
54
chimiques (URL 30), les plus connues sont : l’hydrophobie (Kyte & Doolittle, 1982), l’antigénie
(Hopp & Woods, 1983), l’hydrophilie (Parker et al., 1986), le caractère trans-membranaire (Argos et
al., 1982).
1.6.2. Détection de motifs coiled-coils (super hélices)
Ces motifs sont des hélices oligomérisées enroulées les unes autour des autres pour former des
super hélices. Ces motifs sont caractéristiques des protéines de fixation à l’ADN ou des protéines
trans-membranaires des enveloppes de virus. Dans ces structures, les résidus présents toutes les sept
positions sont équivalents : les coiled-coils sont des répétitions d’héptapeptides, dans lesquels les
résidus 1 et 4 assurent les contacts entre hélices, les autres constituent les surfaces.
Plusieurs programmes de prédiction des coiled-coils existent : COILS (Lupas et al., 1991),
PAIRCOIL (Berger et al., 1995) et MULTICOIL (Berger et al., 1997). Afin d’établir avec le plus de
certitude possible la présence ce coiled-coils, il est conseillé de combiner ces programmes : COILS est
moins spécifique, alors que PAIRCOIL/MULTICOIL sont moins sensibles.
1.6.3. Détection de motifs hélice-coude-hélice (fixation à l’ADN)
La méthode Dodd & Egan (1990) fournit un score de prédiction lorsqu’un motif de fixation à
l’ADN est détecté. Ce score est basé sur l’utilisation d’une matrice de scores dérivée de 91 séquences
présentant un motif hélice-double-hélice.
1.6.4. Prédiction de segments trans-membranaires
Ces segments sont assez souvent en hélices et assez rarement sous forme de brin β (en forme de
barrils). La prédiction de ce type de segments est intéressante que ce soit pour l’élimination de
protéine membranaire pour une étude structurale expérimentale (très difficile), ou encore pour
déterminer la localisation cellulaire d’une protéine. Il existe plusieurs méthodes, parmi les plus
efficaces : PHDhtm (Rost et al., 1996) et SignalP (Nielsen et al., 1999), deux méthodes
d’apprentissage. SignalP prédit les peptides signaux d’ancrage à la membrane (à l’aide d’un modèle
probabiliste Markovien). PHDhtm permet en plus de prédire la topologie des protéines en précisant les
résidus intra et extra cellulaires. Une autre méthode plus récente est basée sur le point d’inversion
d’ondelette (wavelet change-point ; Lio & Vannuci, 2000). Le principe est la détection de doubles
inversions brutales des propriétés hydrophobes d’une séquence pour localiser les portions trans-
membranaires.
55
56
2. Analyse de la conservation des acides aminés à rôle structural
au sein des protéines.
Partant du constat selon lequel les structures sont plus conservées que les séquences (Chothia &
Lesk, 1986), nous espérons montrer une plus forte conservation des acides aminés impliqués dans des
interactions. Nous savons aujourd’hui que deux protéines homologues (ayant au moins 30% d’identité
de séquence) adoptent des structures tridimensionnelles proches. Cependant les mécanismes
moléculaires qui régissent cette loi sont encore inconnus. Ceci devient d’autant plus intrigant lorsque
l’on sait que des protéines peuvent être homologues avec des taux d’identité pouvant descendre
jusqu’à 10% après évolution. Une façon d’apporter une réponse à cette question, consiste à démontrer
qu’à de tels taux d’identité, les acides aminés impliqués dans des interactions sont préférentiellement
conservés, permettant ainsi de garder la propriété structurale.
Il n’existe aucune étude exhaustive de la conservation des acides aminés impliqués dans les
interactions, réalisée pour toutes les protéines de structures connues, et pour ces trois types
d’interaction. C’est pourquoi nous avons réalisé une telle étude. Grossièrement, notre stratégie
(détaillée dans le paragraphe suivant) vise à analyser la conservation des interactions au sein
d’alignements multiples contenant une protéine de structure connue ainsi que les protéines qui lui sont
apparentées, dont les structures ne sont pas forcément connues. Cette étude est entièrement
automatique, la rendant exhaustive et objective. Le but de cette étude est de mettre en avant les
relations séquence-structure qui aideront à déterminer des règles structurales ayant un double emploi
potentiel :
• apporter les premières bases à la mise en place d’algorithme de prédiction des
interactions faibles au sein des structures, à partir de la séquence, et éventuellement en
considérant d’autres aspects obtenus par prédiction (hydrophobie, structures
secondaires…). Ce type d’algorithme serait d’une aide considérable non seulement pour
faire avancer la modélisation ab initio, mais aussi pour étayer les techniques de validation
des modèles structuraux que l’on peut obtenir avec des techniques de modélisation
moléculaire, par homologie, ou sous contraintes RMN, ou encore par des techniques de
threading ;
• apporter des éléments de validation des alignements multiples contenant une ou
plusieurs structures connues. En effet, l’observation de la conservation des acides aminés
impliqués dans les interactions, sera un argument supplémentaire pour la validation
automatique des alignements multiples et des familles protéiques. Par ailleurs, les
informations apportées par cette étude, peuvent être intégrées au sein des programmes
d’alignements multiples, pour aider à calculer des alignements plus pertinents du point de
vue biologique.
57
2.1. Stratégie globale
Afin de déterminer les relations séquence-structure, un procédé automatique original a été mis en
place (Figure 14).
Figure 14 : stratégie d’analyse de la conservation des interactions au sein des alignements multiples.
Ce procédé, entièrement automatisé a été construit dans un souci d’exhaustivité. Le programme global
fait intervenir différents sous-programmes. Ainsi, à partir d’un fichier PDB contenant la structure
d’une protéine, l’analyse de la conservation des interactions au sein de la famille protéique de cette
protéine, est automatique. Ce procédé est donc applicable à tous les fichiers PDB, permettant une
analyse exhaustive de toutes les protéines de structures connues. Nous allons maintenant présenter les
outils mis en place et utilisés afin de réaliser notre étude statistique.
2.2. Matériels et méthodes
2.2.1. Matériel informatique
Les différents programmes développés l’ont été sous trois systèmes différents : IRIX (Silicon
Graphics) LINUX (Redhat) et Windows (Microsoft). Les systèmes IRIX et LINUX sont des
Recherche de séquences similaires
Sous-base de séquences
Base de données d’interactions
Analyse de la conservation des
interactions
Ponts disulfures
Interactions Hydrophobes
Ponts Salins
Alignement Multiple
Extractblast & Extractfasta
Structure tridimensionnelle (fichier PDB).
DSSP modifié
58
implémentations du système d’exploitation UNIX. Ce système est très intéressant pour le
développement car il est robuste, et présente une capacité multitâche. Quant à Windows, il fût utilisé
pour le développement de l’interface graphique BioRead.
Nom de la machine Type et OS Programmes utilisés
Pc-bioinfo 2 PC MEDION
Windows 98
Pentium III 650 Mhz
Disque 5 GO et RAM 192 MO
Microsoft Office
Visual Studio
Rasmol, SwissPDBViewer
Netscape communicator
Mktclapp/Tcl-Tk
Pc-mod PC GATEWAY
Windows 98
Redhat Linux
Pentium II G6-450 Mhz MMX
Disque 10 G0 et RAM 256 MO
Staroffice
gcc (compilateur)
AnTheProt
Saab Origin 2000 SGI
IRIX 6.4
Quadri-processeurs R10 000 à 195 Mhz
Disque 54 MO et RAM 1000 MO
CC (compilateur C++)
cc (compilateur C)
FASTA, BLAST, SSEARCH,
CLUSTALW, MPSA
Table 2 : matériels informatiques utilisés pour le développement au laboratoire.
2.2.2. Les langages de programmation C/C++ et la fonction system()
2.2.2.1. Le C
Le langage C est une langage de troisième génération, typé, structuré et compilé. Il fût développé à
partir de 1970 par Denis Ritchie aux laboratoires Bell. Ce langage est lui-même dérivé de deux autres
langages antérieurs le B et le BPCL. Le C utilise le typage de données en procurant des types pré-
définis (void, int, double…). Le C permet aussi à l’utilisateur de définir de nouveaux types de
données à l’aide du mot clé typedef ou même des structures entières de données (typedef
struct). Un des avantages du C est qu’il est compilé. Il n’est donc pas lié à un matériel donné. Ceci
est d’autant plus vrai qu’il existe une version normalisé du C : Cansi définie par l’American National
Standardization Institute. Cette normalisation a permis d’établir une version « universelle du C » et à
éliminer toute les variantes de ce langage qui représentaient un obstacle au caractère portable des
programmes écrits en C : un même programme peut être exécuté sur des machines différentes, à
condition que les fichiers sources soient soumis à une phase de compilation sur ces machines. La
compilation consiste à traduire les instructions écrites en C (de haut niveau) en langage machine (de
59
bas niveau). Une autre des caractéristiques intéressante du C est l’existence d’un pré-processeur, qui
permet l’inclusion de fichier d’en-tête (#include <stdlib.h>), la définition de lexème (#define
SALTBRIDGE_DIST 3.0) ou la compilation conditionnelle par définition d’une constante symbolique
appropriée (#ifdef OS_UNIX), utile pour différencier les différents systèmes d’exploitations (UNIX,
Windows, LINUX…).
Le C propose des fonctionnalités de gestion dynamique des ressources mémoire à l’aide de
fonction d’allocation (malloc, calloc, realloc) et de libération (free). Ces fonctions font du C
un langage particulièrement puissant, car il permet d’utiliser la mémoire en fonction des besoins, pour
mettre à profit toutes les ressources disponibles, sans gaspillage inutile. De plus le C permet d’utiliser
des pointeurs sur des zones mémoires, aidant à obtenir des processus très rapides puisque cela évite les
phases de copie des données.
Ce langage a été utilisé au cours de ce travail, notamment pour modifier DSSP (§1.4.2.1 page 47),
un programme d’attribution des structures secondaires écrit en C.
2.2.2.2. Le C++
Le C++ est une extension du C développée par Bjarne Strousup au début des années 80. Le C++
fournit des fonctionnalités qui ré-haussent le C, offrant en plus des possibilités pour la programmation
orientée objets (POO). Le C++ repose sur quatre piliers de la POO : l’encapsulation, le masquage,
l’héritage et le polymorphisme.
• l’encapsulation et le masquage des données : il est possible de regrouper plusieurs
données et fonction au sein d’une classe ou objet. Ainsi les données sont encapsulées, ce
qui améliore la cohérence du programme. Le C++ permet aussi de masquer des données et
donc de les protéger, évitant ainsi les modifications provoquées par des anomalies du
programme. Les classes permettent de modéliser les objets de la vie courante et aident à
établir une architecture plus claire et plus efficace ;
• l’héritage et le polymorphisme : l’héritage permet de définir une nouvelle classe en
utilisant une classe déjà définie. Ces notions améliorent la réutilisabilité du code, le rendant
très souple. Ainsi, il est toujours possible d’améliorer le code, ou de définir de nouveaux
objets adaptés, sans pour autant modifier tout le programme. Le polymorphisme ou
héritage multiple, résout les problème lié à l’héritage simple, « en croisant » différents
objets pour obtenir un nouvel objet (oiseau + cheval = pégase).
Le C++ comme le C est livré avec des bibliothèques standards indispensables au programmeur.
Elles réunissent les fonctions couramment utilisées : gestion entrées/sorties, fonctions mathématiques,
gestion des chaînes de caractères, dates…
60
2.2.2.3. La fonction system()
La fonction system(char *) est très utile, car elle permet d’exécuter un programme depuis un
autre. Lorsque l’instruction system(ligne_de_commande) est rencontrée, le programme principal
stoppe momentanément son exécution, le temps que l’instruction ligne_de_commande s’exécute.
Après exécution, le programme principal reprend son exécution.
2.2.3. Le langage Tcl et le package Tk
Le langage Tcl et un langage de script, interprété et relativement simple. Il offre plusieurs
fonctionnalités : manipulation de variables, définition de fonctions, exécution conditionnelle, gestion
de boucle. Voici l’exemple d’une fonction qui prend en entrée un nombre n et une puissance p et qui
fournit le résultat np. proc power {n p} { #définition de la fonction power
set result 1 # on fixe result = 1
while {$p > 0} { # tant que le contenu de p est supérieur à 0
set result [expr $result * $base] # result = result * n
set p [expr $p - 1] # on décrémente p de -1
}
return $result #renvoi du résultat.
}
Cet exemple illustre la simplicité du langage Tcl. Pour accéder au contenu d’une variable, il faut
ajouter le signe ‘$’ devant le nom de cette variable. La fonction expr exécute une opération
mathématique, la fonction set est utilisée pour affecter une valeur à une variable. La fonction proc
exécute une boucle p fois et multiplie le nombre n par lui même à chaque boucle.
Les commandes Tcl ont trois sources principales. La première sont les commandes fournies
avec l’interpréteur Tcl lui-même (builtin commands). La deuxième source sont les procédures
(fonctions) que l’on définit à l’aide du mot clé proc, comme pour la fonction power. Enfin la dernière
source sont les commandes personnelles que l’on peut écrire selon un mécanisme d’extension en C et
C++. Les « packages » regroupent plusieurs commandes définies par le mécanisme d’extension. Ceci
permet d’utiliser les packages appropriés à l’application que l’on veut développer. L’extension la plus
connue est l’extension Tk, qui fournit des fonctionnalités graphiques. Il est ainsi assez facile de définir
rapidement les éléments graphiques qui vont constituer une application. En deux lignes de code, il est
possible de créer un bouton, lorsque l’on clique dessus l’application se ferme :
instruction pour définir le bouton et la fonction associée :
button .b –text {bouton de sortie} –command exit #défini l’élément
pack .b #affiche l’élément :
61
Figure 15 : création d’un bouton de commande en Tcl/Tk. Un clique sur le bouton provoque la sortie de
l’application et la fermeture des fenêtres.
La combinaison Tcl/Tk allie la simplicité du codage et la rapidité de la mise en place d’éléments
graphiques. De plus, le code est facilement portable, puisqu’il suffit simplement de disposer de la
librairie Tcl/Tk appropriée au système d’exploitation. Ce langage a été utilisé pour le développement
de BioRead. Le langage Tcl/Tk n’est utilisé que pour gérer l’environnement graphique, mais les
fonctions plus complexes sont écrites en C++ (pour une exécution plus rapide)…
2.2.4. Protéines de structures connues
Nous avons utilisé toutes les protéines de structure connue (en janvier 2000) ayant moins de 25%
d’identité de séquences deux à deux, soit un total de 1567 protéines dans cette étude (Annexe C)
2.2.5. Création de la base de données d’interactions, modifications du programme
DSSP
Nous avons crée une banque de données qui répertorie les interactions dans les protéines, à l’aide
d’une version modifiée du programme DSSP ( §1.4.2.1 page 47). DSSP donne la structure secondaire
des protéines à partir de leur structure tridimensionnelle. Ce choix représente un double avantage. Tout
d’abord, il n’est pas nécessaire de coder un programme spécifique pour relire les fichiers PDB,
puisque DSSP le fait. Ensuite, DSSP permet de calculer l’accessibilité des résidus, qui est l’un des
paramètres que nous avons pris en compte. La modification du programme ne s’est pas avérée simple,
puisqu’à la base, DSSP a été écrit en Pascal et a été traduit en Fortran, puis en langage C. Si bien que
le code source en langage C est difficile à lire et à comprendre. Le seul fichier à modifier est le fichier
DsspCMBI.c. La plus grande difficulté a été de placer correctement les modifications pour arriver à
récupérer les informations intéressantes, sans alourdir le programme ni trop le ralentir.
Quelles que soient les interactions considérées, celles-ci ont été définies sur la base de la proximité
spatiale entre les groupements chimiques des acides aminés. Pour chaque acide aminé les atomes des
groupements qui ont été considérés sont listés Table 3.
62
Table 3 : atomes considérés pour la recherche de contacts et types affectés aux résidus.
Pour les résidus non listés, le type considéré est le type NUL. Les coordonnées atomiques (x, y, z) des
atomes des groupements chimiques présentés Table 3 sont utilisées dans la recherche des contacts.
En ce qui concerne le stockage de données, celui-ci a été organisé au sein de structures ou objets.
Bien que le langage C ne soit pas fortement orienté objet, il permet de définir des structures de
données en regroupant les données au sein d’une même entité, qui peut être considérée comme un
objet. J’ai donc défini une structure myAA (Code 1) : typedef struct myAA{
char name;
char LeterTo3Code[5]; /*nom a trois lettres de l'AA*/
long position; /*position dans la PDB=position vraie*/
char chain; /*identifiant chaine*/
char Grpname[5]; /*Groupement(Grpt) atomique*/
float Grpcoord[3]; /*coordonnées du Grpt atomiques */
ABTYPE type; /*type ACIDE,BASE,CYS,HYDROPHOBE ou NUL*/
char altlocation; /*idem PDB*/
char iCode; /*idem PDB*/
BOOL AAtag; /*étiquette de marquage*/
long resnumero; /*donne le numéro un au premier aa*/
/* A noter que chaque aa a deux atomes chargés au max. Chaque atome a trois
coordonnées*/
}myAA; /*structure d'un objet Grpt d' un AA ex : NH2 de l'ARG ou OE1 de
ASP*/
Code 1 : structure de données d’un objet myAA. Les lignes ent /* et */ sont des commentaires. Ce code a été
placé dans le fichier DsspCMBI.c
Nom de l'AA Synonyme Atomes fonctionnels à rechercher dans le fichier PDB Type pour programmationGly G GLYArg R NH1, NH2 BASEAsp D OD1, OD2 ACIDECys C SG CYSGlu E OE1, OE2 ACIDEHis H ND1, CD2, CE1, NE2 BASEIle I CD1 HYDROPHOBE
Leu L CD1, CD2 HYDROPHOBELys K NZ BASEMet M CE HYDROPHOBEPhe F CD1, CD2, CE1, CE2, CZ HYDROPHOBETrp W CD1 ,CD2, CE2, CE3, CZ2, CZ3, NE1, CH2 HYDROPHOBEVal V CG1, CG2 HYDROPHOBE
63
Un objet myAA (Code 1) est en réalité un atome de groupement chimique particulier. Par exemple
l’acide glutamique donnera lieu à deux objets myAA, un premier pour l’atome OE1 et un second pour
l’atome OE2. Les éléments contenus dans myAA sont le nom de l’acide aminé à une lettre (char
name), ses coordonnées (tableau à 1 dimension et 3 cases : float Grpcoord[3]), son type
chimique (ABTYPE type), le numéro du résidu dans la séquence (long resnumero), et pour des
raisons techniques, l’étiquette de marquage (BOOL AAtag). Le programme DSSP lit le fichier PDB
ligne à ligne grâce à la fonction de lecture :
myAA * Readcard(cardcontents *cardinfo, struct LOC_Inputcoordinates *LINK)
Cette dernière a été modifiée pour construire les objets myAA et pour renvoyer un pointeur sur ces
objet myAA. A chaque appel de la fonction Readcard(), un objet myAA est crée, stocké en mémoire
et un pointeur et renvoyé par la fonction Readcard() pour être récupéré dans la fonction appelante
comme nous le verrons plus loin. Avant de rechercher les interactions, il faut stocker en mémoire tous
les objets myAA que l’on trouve dans un fichier PDB. Pour chaque fichier PDB, tous les objets myAA
sont stockés sous la forme d’un tableau de pointeurs (dont la taille en mémoire est définie de façon
dynamique) : myAA **pmyAA. La fonction Inputcoordinates() de DSSP appelle la fonction
readcard() en boucle, pour chaque ligne du fichier PDB. Les objets myAA, sont stockés dans un
tableau au sein de la fonction Inputcoordinates().
64
myAA **Inputcoordinates(long *lchain_, int *ipmyAA)
{
...
int imyAA=0
myAA *thismyAA=NULL; /*pointeur sur un objet myAA*/
myAA **pmyAA=NULL; /*tableau de pointeurs sur objet myAA*/
...
do{/*debut de la boucle pour la lecture du fichier PDB*/
thismyAA=Readcard(&cardinfo, &V) ;/*création d’un objet myAA*/
...
/*réallocation dynamique de mémoire pour le tableau pmyAA*/
pmyAA=(myAA **) realloc (pmyAA,(imyAA+1)*sizeof(myAA *));
/*stockage du pointeur thismyAA à la suite dans le tableau*/
pmyAA[imyAA]=thismyAA;
/*incrémentation du nombre d’éléments dans le tableau*/
imyAA++ ;
...
}while ( !(finish || limit))/*fin de la boucle de lecture*/
...
*ipmyAA=imyAA ;/*stockage du nombre d’éléments dans le tableau pmyAA*/
return pmyAA ;/*renvoie du tableau myAA pour le récupérer à la sortie de
la fonction Inputcoordinates*/
}
Code 2 : principales modifications apportées à la fonction Inputcoordinates() de DSSP.
Pour simplifier, les modifications de la fonction Inputcoordinates() ont plusieurs rôles :
• récupérer un pointeur sur chaque objet myAA crée lors de l’appel en boucle de la
fonction readcard() ;
• compter le nombre de ces objets pour allouer de façon dynamique la taille du tableau
de pointeur pmyAA ;
• stocker tous les pointeur au sein du tableau pmyAA ;
• renvoyer à la fin du traitement le tableau pmyAA pour l’utiliser ensuite lors de la
recherche des contacts.
Ensuite il faut définir les structures pour les interactions. C’est la structure pmyAApair
(Code 3).
65
typedef struct pmyAApair{
myAA *myAA_bas; /*AA bas de l’intéraction*/
myAA *myAA_acd; /*AA acd de l’intéraction */
int tagsalt; /*étiquette numérique de l’intéraction*/
float dist; /*distance entre les 2 aas de l’intéraction*/
SALTYPE slt_type; /*type INTRA- ou INTER- chaine*/
BOOL is_acdtagged; /*repère pour accélérer Printout()*/
BOOL is_bastagged; /*repère pour accélérer Printout()*/
BOOL is_tagged; /*repère pour accélérer Printout()*/
int acdacc; /*accessibilité de l'AA acd*/
int basacc; /*accessibilité de l'AA bas*/
char acd_struct; /*structure secondaire de l'AA acd*/
char bas_struct; /*structure secondaire de l'AA*/
int bas_reseqnum; /*numérotation aa_bas colonne 1 DSSP*/
int acd_reseqnum; /*numérotation aa_acd colonne 1 DSSP*/
float fglypsi; /*uniquement pour les glycines*/
float fglyphi; /*uniquement pour les glycines*/
}pmyAApair; /*structure d'un objet interaction*/
Code 3 : structure de données d’un objet pmyAApair
Cette structure a été définie au départ pour les interactions électrostatiques, expliquant la nomenclature
utilisée. Elle a été appliquée à tous les types d’interaction (hydrophobes et disuflures). Cette structure
contient deux pointeurs sur deux objets myAA (*myAA_acd et *myAA_bas), puisque chaque
interaction est considérée comme comptant deux acides aminés, ou deux groupements chimiques. Afin
de ne considérer que les interactions intra-chaîne, le type d’interaction (SALTYPE slt_type) est
stocké, il est soit intra-chaîne (INTRA) soit inter-chaîne (INTER). Le stockage des valeurs
d’accessibilité des acides aminés se fait au niveau de la structure pmyAApair (int acdacc et int
basacc) et non pas au niveau des acides aminés myAA. Ceci peut sembler absurde, mais la faible
commodité du code permet difficilement de faire autrement. En effet, le calcul de l’accessibilité est un
traitement ultérieur à la lecture du fichier PDB, il n’est donc pas possible de les stocker à la volée lors
de la création des objets myAA. Par ailleurs, ceci évite de faire appel au pointeur *myAA_acd ou
*myAA_bas non seulement pour stocker l’information, mais aussi pour la restituer au moment
opportun. Le traitement est moins lourd et surtout un peu plus rapide. C’est pourquoi j’ai préféré ce
type de stockage, sans parler du gain de temps à éviter la résolution de problèmes liés à la conception
du programme DSSP.
L’étape suivante consiste à effectuer la recherche de contacts. Nous disposons maintenant d’un tableau
contenant les pointeurs sur les objets myAA et leurs coordonnées, ainsi que d’une structure
66
matérialisant les interactions entre les atomes. Les interactions sont détectées par un calcul de distance
entre les atomes chimiques de tous les objets myAA stockés. En considérant les coordonnées
atomiques, la distance entre deux atomes appartenant à deux objets myAA distincts myAA1 et myAA2
de coordonnées respectives x1, y1, z1 et x2, y2, z2 est la suivante :
D=[(x1-x2)2+ (y1-y2)2 + (z1-z2)2]1/2
Cette opération est effectuée entre tous les objets myAA du tableau deux à deux. Sans oublier de
considérer le type de groupement et le seuil de distance en fonction du type d’interaction. Nous avons
choisi d’établir la présence des interactions uniquement sur la base des distances entre atome pour
deux raisons. La première est purement pratique. La distance entre les atomes est le paramètre le plus
important dans la définition de l’énergie d’une interaction. Prendre en compte la valeur de la constante
diélectrique du milieu aurait compliqué les algorithmes pour un résultat sans doute très proche voir
identique. De plus, définir les interactions sur la base des énergies nécessite la définition d’un seuil
énergétique, qui aurait été arbitraire. La seconde raison de ce choix est que nous voulons analyser la
conservation corrélée des acides aminés en contact dans l’espace, la distance est donc un paramètre
suffisant. Nous avons procédé à l’analyse visuelle d’une cinquantaine de structures pour vérifier que
les contacts ainsi déterminés étaient effectivement observés. L’interaction électrostatique est
considérée comme existante si un objet myAA de type ACIDE est au maximum à 3.0 Å d’un objet
myAA de type BASE. En ce qui concerne les interactions hydrophobes, les deux objets myAA de type
HYDROPHOBE doivent être à un maximum de 3.3 Å. Enfin, concernant les ponts disulfures, la
distance entre deux atomes de souffre des groupements thiol (atomes SG selon la nomenclature PDB)
doit être au maximum de 3.0 Å.
Ces paramètres ont donné naissance à trois fonctions de recherche d’interaction, une pour chaque type
d’interaction. Les trois sont basées sur le même modèle. Elle reçoivent en entrée le tableau de
pointeurs sur les objets myAA et retourne un tableau de pointeurs sur les interactions pmyAApair,
listant ainsi toutes les interactions trouvées dans une structure protéique. Ces fonctions de recherche
gèrent elles aussi les ressources mémoire de façon dynamique.
pmyAApair ** saltpair_seek(myAA **pmyAA, int imyAA, int *i2aapair)
pmyAApair ** SSbond_seek(myAA **pmyAA, int imyAA, int *i2aapair)
pmyAApair ** Allpair_seek(myAA **pmyAA, int imyAA, int *i2aapair)
Bien que DSSP repère déjà les ponts disulfures, il nous a parut bon de les répertorier en utilisant ces
modifications, de façon à vérifier la fiabilité des modifications. Nous avons constaté que la fonction
67
SSbond_seek permet de retrouver les ponts disulfures indexés par DSSP, prouvant que les
modifications sont parfaitement valides et fonctionnelles (résultats non présentés).
L’avant-dernière étape, consiste à récupérer l’accessibilité des résidus après que celle-ci ait été
calculée par DSSP. Le moyen le plus simple a été de la stocker lors de l’écriture du fichier sortie de
DSSP généré à l’aide de sa fonction printout(). Ce fichier résultat contient l’accessibilité totale des
résidus en Å2. C’est dans cette fonction que quelques lignes de codes ajoutées affectent à chaque objet
pmyAApair l’accessibilité calculée des résidus, ainsi que les éléments de structures secondaires
auxquels appartiennent les acides aminés impliqués. La dernière étape consiste à renvoyer le résultat.
Les modifications apportées ont permis de récupérer les informations recherchées sur la sortie standard
selon la forme suivante :
> chemin/nom du fichier PDB
Séquence du de la protéine de la PDB
TRUE : AA1 position1- AA2 position2 Dist = acc1: acc2: ss1: ss2:
Le tag « TRUE » ou « FALSE » indiquent s’il y a interaction ou non, selon la distance entre les
fonctions chimiques. AA1 et AA2 sont les résidus contenant les fonctions chimiques en question. Dist
est la distance entre les fonction chimique en Å. Acc1 et acc2 sont les valeurs d’accessibilité des
résidus 1 et 2 en Å2. Ss1 et Ss2 sont les éléments de structures secondaires auxquels appartiennent les
acides aminés 1 et 2. Un exemple de sortie pour la recherche des interactions électrostatiques est
présenté Figure 16.
>/bioinfo/db/Pdb/Entries/PDB1a9o.ent
MQNGYTYEDYQDTAKWLLSHTEQRPQVAVICGSGLGGLVNKLTQAQTFD...
TRUE : GLU 183 - LYS 270 Dist = 2.818 acc1:39 acc2:70 Ss1: Ss2:H
TRUE : ASP 215 - ARG 210 Dist = 2.734 acc1:13 acc2:67 Ss1:S Ss2:H
FALSE : GLU 8 - HIS 230 Dist = 15.699 acc1:96 acc2:8 Ss1:H Ss2:H
Figure 16 : exemple de fichier résultat donné par le programme DSSPm
Le programme DSSP est appelé en boucle sur tous les fichiers PDB. Un petit programme
loop_dssp_PDB a été écrit dans ce but. Il prend en entrée un listing des entrées PDB, il génère un
fichier résultat listant les interactions pour toutes les protéines de la PDB, selon le modèle détaillé
précédemment. Notre base de données est constituée de trois fichiers résultats générés à l’aide de
DSSPm :
• allPDB25CYS qui répertorie les ponts disulfures dans les protéines de la PDB.
• allPDB25HYD3.3 qui répertorie les interactions hydrophobes dans les protéines de la
PDB.
• allPDB25SB3.0 qui répertorie les interactions électrostatiques dans les protéines de la
PDB.
68
Les modifications apportées au programmes DSSP représentent un peu plus de 2100 lignes de codes
en langage C, réparties en différents endroits dans le fichier DsspCMBI.c. Ce nouveau programme
obtenu sera référencé dans la suite du rapport sous le nom de DSSPm.
2.2.6. Recherche de protéines homologues aux protéines de la PDB
2.2.6.1. Recherche d’homologie
Afin de constituer une sous-base de séquences apparentées, pour chaque protéine de la PDB, une
recherche d’homologie dans la base de données SWISSPROT+SPTrEMBL a été effectuée pour
chacune d’entre elles en utilisant deux programmes principaux : BLAST et FASTA. BLASTp permet
de rechercher les similitudes locales, alors que FASTA permet de rechercher les similitudes globales.
Les paramètres de recherche utilisés sont les paramètres standards, par défaut. Ces programmes
génèrent des fichiers résultats sous des formes difficilement utilisables. Il a donc fallu relire ces
fichiers, re-formater les données, puis extraire les séquences intéressantes. Ainsi pour chaque protéine
de la PDB, le but est de constituer à partir des résultats des BLAST et FASTA, une sous-base de
séquences échantillonnée, non redondante, que l’on espère être pertinente du point de vue biologique.
Les fichiers résultats de BLAST et FASTA étant écrits dans différents formats, deux programmes
différents ont été mis au point pour relire et traiter les résultats : Extractblast et Extractfasta. Les
premiers résultats ont vite montré que l’emploi de BLAST était plus indiqué. De plus, devant le
nombre élevé de fichier BLAST et FASTA à analyser manuellement ou plutôt visuellement lors du
développement d’Extractblast et Extractfasta, j’ai choisi de développer une interface graphique
relativement simple, dont le but était uniquement de faciliter la tâche : BioRead. Ces programmes
ayant été utilisés, nous les décrirons brièvement ici et donnerons quelques informations quant aux
paramètres utilisés pour comprendre comment les sous-bases de séquences ont été constituées à l’aide
d’Extractblast. La description complète des programmes utilisés (Extractblast, Extractfasta et
BioRead) se trouve dans la partie « Résultats » de ce rapport.
2.2.6.2. Constitution des sous-bases de séquences
Cette phase vise à constituer à partir des résultats BLAST une sous-base de séquences non
redondante. Cette sous-base se veut être un échantillon représentatif des séquences proches existantes
dans les bases de données de recherche. Une procédure de sélection automatique des séquences,
adaptée aux résultats obtenus pour chaque protéine a été effectuée grâce à Extractblast. Voici la ligne
de commande utilisée : Extractblast –i BlastFile –o outFile –r remFile –Z –e 1e-6 –a start –z stop
–l len –T
69
Ces paramètres ont fait l’objet de nombreux tests et d’une longue phase de développement afin de les
optimiser pour obtenir les meilleurs résultats. Voici le détail des paramètres :
• l’option –i permet de spécifier le fichier BLAST à traiter ; BlastFile représente le
nom (chemin complet) du fichier BLAST à traiter ;
• l’option –o permet de spécifier le fichier qui contiendra les séquences sélectionnées ;
outFile représente le nom (chemin complet) du fichier contenant la sous-base issue de
l’extraction ;
• l’option –r évite la redondance en éliminant toutes les séquences identiques. Les
séquences éliminées sont stockées dans le fichier remFile ;
• l’option –Z est utilisée pour ne sélectionner qu’une séquence trouvée par BLAST avec
une E-value de 0. Il arrive que plusieurs séquences soient trouvées avec une E-value nulle,
elles sont donc très proches voire identiques. Cette option permet de ne prendre qu’une
seule de ces séquences. Là encore le but étant de diminuer la redondance.
• l’option –e spécifie la E-value seuil, au dessus de laquelle les séquences ne sont plus
sélectionnées. Lors de cette étude, le seuil est fixé de manière classique à 1e-6. Lorsque
des séquences sont trouvées par BLAST avec une E-value inférieure à ce seuil, celles-ci
sont considérées comme reliées et faisant partie de la même famille protéique. Elles sont
donc sélectionnées.
• Les options –a et -z permettent de spécifier un segment particulier sur la protéine
requête. Seront sélectionnées les séquences qui auront des régions communes avec ce
segment. Lorsqu’une structure protéique PDB compte plusieurs interactions, ces options
permettent de spécifier le segment protéique qui les contient toutes. Comme par exemple
pour les ponts disulfures :
Figure 17 : schématisation d’une séquence de structure connue et de deux ponts disulfures 35-
172 et 80-220.
La Figure 17 schématise une séquence avec deux ponts disulfures. Dans ce cas les bornes
fixées seront –a 30 –z 225. On étend à +/- 5 acides aminés de chaque côté (dans la
mesure du possible) afin d’éviter les effets de bord dans les alignements multiples qui
seront calculés avec ces séquences. Ici, la portion 30-225 contient toutes les interactions.
Toutes les protéines ayant une région commune à celle-ci seront ainsi sélectionnées.
S S
CYS 80 CYS 220
S S
CYS 35 CYS 172 Séquence PDB
70
• l’option –l spécifie la longueur seuil. Seules les séquences ayant une portion
commune avec la séquence requête, et ayant une longueur supérieure ou égale à cette
longueur seront sélectionnées. Avec la protéine schématisée Figure 17 , le seuil serait égal
à (225-30+1), soit une longueur minimale de 196. Ceci nous assure d’avoir dans les
alignements, les portions homologues à celles qui contient toutes les interactions dans la
structure PDB. De plus, les alignements obtenus ne contiendront que peu de gaps dans les
portions d’intérêt.
• Enfin l’option –T, appelle une fonction d’échantillonnage. Cette option permet de
réaliser, à partir des résultats de la recherche BLAST, un échantillon représentatif des
séquences trouvées. La fonction d’échantillonnage réalise une sélection par palier : une
seule séquence est sélectionnée par palier p donné par la formule :
∑−=
=
+
−+−=
1ni
1i
)1i()i(
1n)Elog()Elog(p
Avec E = E-value tel que 0 < E ≤ 1e-6, n le nombre des séquences vérifiant la condition
précédente. La valeur du palier p, est l’écart moyen entre les log(E) successifs des
séquences. Dès lors que les valeurs –log(E) entre deux séquences sont distantes de p, alors
la seconde séquence est sélectionnée, et est utilisée comme référence pour la sélection de la
séquence suivante, etc…
Finalement, sont sélectionnées toutes les séquences vérifiant toutes ces conditions. Pour récapituler
voici les conditions de sélection pour la constitution des sous-bases de séquences apparentées à la
protéine PDB de départ :
• si plusieurs séquences ont une E-value nulle, une seule d’entre elles est sélectionnée ;
• une seule séquence est sélectionnée par palier p, tant que E-value ≤ 1e-6 ;
• sont sélectionnées toutes les séquences ayant un segment homologue à la protéine de la
PDB, équivalent à celui qui contient toutes les interactions du type considéré, avec une
taille minimum ;
• chaque segment de séquence de la sous-base constituée est unique ; la redondance en
est absente ;
• cette sous-base contient la protéine PDB de départ.
Ce choix de sélection est issu d’une longue phase de test et de mise au point pour optimiser les
paramètres présentés. Ces paramètres ont été définis notamment pour maximiser la conservation des
cystéines impliquées dans les ponts disulfures. Les conditions de sélection devaient refléter la très
nette conservation de ces cystéines, comparativement aux cystéines réduites. Nous avons d’ailleurs pu
constater que ces évolutions étaient aussi visibles sur la conservation des autres interactions. Citons
par exemple le paramètre de palier p. Au départ celui-ci était fixe ( p = 1 ; p = 1,1 ; p = 1,2…). Les
résultats obtenus (non présentés) ont montré qu’il était préférable de l’adapter aux résultats de
71
recherche BLAST, au cas par cas. D’où la définition d’un palier p pour chaque fichier. De même pour
la valeur seuil de E qui fût fixée à 1e-6. De nombreux tests ont montré que cette valeur est la plus
propice à de meilleurs résultats. Quand à la définition de la longueur minimum et des bornes (spécifiée
avec les options –a et -z ), là encore, ces paramètres ont été optimisés pour des résultats plus
probants. Ce processus de sélection des séquences est une phase très critique, dans la mesure où il
conditionne la représentativité des séquences dans les alignements multiples, la qualité des
alignements qui seront obtenus, et donc la qualité des statistiques qui seront calculées quant à la
conservation des acides aminés impliqués dans les interactions. Le but de cette phase de sélection est
de permettre d’obtenir des alignements multiples représentatifs des homologies présentes dans les
bases de données de recherche. Nous les voulons aussi divergents que possible afin d’autoriser des
mutations, en espérant que celles-ci n’affecteront que dans une moindre mesure, les acides aminés
impliqués dans les interactions considérées. Il devrait s’en suivre une plus forte conservation de ces
derniers par rapport aux mêmes acides aminés libres…
2.2.7. Calcul des alignements multiples
Pour chaque protéine de la PDB, la sous-base de séquences est utilisée pour calculer un
alignement multiple à l’aide de CLUSTALW dans sa version 1.8, avec les paramètres standards. On
obtient ainsi pour chacune des protéines de la PDB, un alignement de protéines qui lui sont proches, et
qui ont en commun la portion contenant les interactions d’un type particulier (hydrophobes,
électrostatiques, disulfures). Ces alignements vont être utilisés pour le calcul des statistiques,
notamment la conservation des acides aminés impliqués dans ces interactions.
Concernant l’étude des cystéines, la coexistence des cystéines réduites et des cystéines oxydées
étant rares, nous avons été contraints d’utiliser des alignements différents pour l’analyse de ces deux
populations de cystéines.
2.2.8. Calculs statistiques
2.2.8.1. Conservation des interactions
Les interactions sont définies sur la base de la distance existant entre deux groupements
chimiques. Ces interactions sont repérées à l’aide du programme DSSPm (DSSP modifié) et stockées
dans une banque de données. Nous avons étudié trois types principaux d’interactions : les interactions
électrostatiques, les interactions hydrophobes et les ponts disulfures.
Lorsqu’une interaction a été repérée dans une structure protéique et listée à l’aide DSSPm dans le
fichier résultat adéquat (allPDB25CYS, allPDB25HYD3.3 ou allPDB25SB3.0), la première étape vise
à identifier l’interaction au sein de l’alignement multiple correspondant. On considère que l’interaction
72
est conservée dans une séquence si les deux acides aminés impliqués dans l’interaction sont présents,
ou si des acides aminés de même type les remplacent (mutations compensatrices). Les types des acides
aminés sont répertoriés dans la Table 3 (page 62). La Figure 18 représente un alignement (fictif) et une
interaction électrostatique répertoriée dans la séquence PDB entre les acides aminés R10 et D40. Dans
cet alignement cette interaction est conservée à 50%. On s’intéresse donc à la conservation corrélée
d’un couple d’acides aminés et non pas à la conservation des acides aminés individuellement. La
conservation f (ou fréquence) d’une interaction peut être exprimée mathématiquement selon la
formule :.
fa(i)b(j)=Na(i)b(j)/n
avec n le nombre de séquences dans l’alignement, Na(i)b(j) le nombre de séquences de l’alignement où
un acide aminé de type a est présent à la position i et un acide aminé de type b est présent à la position
j. Les types considérés dépendent de l’interaction en question (Table 3 page 62). Dans le cas des
interactions électrostatiques, les permutations sont considérées comme une conservation : D10-K40
équivaut à R10-E40.
La représentation mathématique de f sous-entend que chaque interaction est considérée comme binaire
(implique deux acides aminés), ce qui en pratique n’est pas totalement vrai (sauf pour les ponts
disulfures), puisque les interactions électrostatiques et les interactions hydrophobes peuvent être plus
complexes et peuvent faire intervenir plus de deux acides aminés (trois ou quatre, voire davantage).
Considérer plusieurs positions pour une interaction est l’un des travaux qu’il faudra réaliser, cependant
ceci risque de compliquer singulièrement les programmes, que ce soit pour leur détection, le calcul
statistique ou encore pour la réalisation de témoins de comparaison. La complexité des interactions est
un paramètre relativement lourd à considérer, et pourra l’être ultérieurement, si toutefois les résultats
encouragent une telle démarche.
séquence PDB ALTERTHTPRTLKMIEVAGIPVVELMDSKSPCLDIAVGFDNFEAAR
séquence 2 DATGATNPDKISALCQQAGVPTVNLDLPGS--LSPSVISDNYGGAK
séquence 3 IFTDTQGQIKISKHANECGLPTIHTPSKTK--LQPSVFYCVFPGSK
séquence 4 KDDAGPCDINILGECNLSGEFWLVKPLLER--LGIRVRADIPGDAR
| | | | |
numérotation 1 10 20 30 40
Figure 18 : alignement fictif d’une séquence PDB avec trois autres séquences. Les rectangles représentent
les positions impliquées dans une interaction électrostatique au sein de la structure PDB (entre R10 et D40).
2.2.8.2. Paires d’acides aminés témoins
« Il faut comparer ce qui est comparable ». Puisque nous nous sommes intéressés à la conservation
corrélée des acides aminés en interaction deux à deux, les témoins doivent reproduire ce schéma. Il
73
s’agit de constituer des paires d’acides aminés témoins, contenant des acides aminés non impliqués
dans une interaction. Ce paires sont réalisées de façon aléatoire. Les témoins réalisés ici, le sont pour
des raisons statistiques uniquement, et n’ont aucune signification biologique. Concernant les cystéines,
les paires témoins ont été réalisées avec des cystéines réduites. En ce qui concerne les interactions
électrostatiques et hydrophobes, nous avons utilisé deux méthodes pour réaliser ces paires témoins. La
première a consisté à repérer les acides aminés de même type et suffisamment distants. Les valeurs de
distance choisies l’ont été arbitrairement : ont été considérées les acides aminés distants de 15 à 16 Å.
La limite inférieure nous assure d’avoir des acides aminés trop éloignés pour être en contact. La
distance supérieure a été fixée de façon à minimiser le nombre de paires témoins. Par ailleurs nous
avons fixé une limitation : un résidu ne peut pas faire partie de deux paires témoins différentes. Cette
phase a pu être réalisée grâce au programme DSSPm. Le résultat donné par DSSPm présente des
interactions marquées de deux étiquettes (Figure 16, page 67). L’étiquette « TRUE » marque les
interactions vraies, l’étiquette « FALSE » marque les paires témoins formées d’acides aminés distants
de 15 à 16 Å.
Par la suite, nous nous sommes rendu compte que cette façon de faire n’était pas adaptée, notamment
pour les interactions électrostatiques : compte tenu de la taille des protéines, il est possible que deux
acides aminés distants de 15 à 16 Å l’un de l’autre, soient à la surface, opposés l’un à l’autre. Or, les
acides aminés chargés, présents à la surfaces des protéines, ont un rôle essentiel dans leur solvatation
au sein des milieux biologiques aqueux. Ces paires témoins peuvent être particulièrement conservées
et ainsi provoquer une minimisation des différences de conservation entre ces témoins et les
interactions. Nous avons donc opté pour une seconde méthode de constitution des témoins : tous les
acides aminés d’un type donné et non impliqués dans une interaction, sont répertoriés au sein des
séquences. Des paires sont formées par brassage aléatoire des positions. Plusieurs brassages sont
effectués. L’effet du nombre de brassage est pris en compte. Les conservations témoins ont été
calculées après 10, 100, 1000 brassages. Un brassage est une étape au cours de laquelle on forme des
paires entre tous les acides aminés au hasard. Lorsque on réalise 10 brassages, cette opération est
réalisée 10 fois. La conservation des paires témoins est calculée après chaque brassage. La
conservation témoin finale est une moyenne de toutes les conservations calculées après chaque
brassage. Par exemple, lorsqu’ on a répertorié n acides aminés de type ACIDE et n acides aminés de
type BASE dans une structure PDB, on a n(n-1) paires témoins possibles. Après 10 brassages nous
avons 10n(n-1) paires témoins, après 100 brassages 100n(n-1) paires témoins et après 1000 brassages,
1000n(n-1) paires témoins, qui servent au calcul de la conservation témoin moyenne. Cette seconde
méthode a permis d’améliorer légèrement les résultats.
74
2.2.8.3. Paramètres statistiques étudiés
2.2.8.3.a. Identité et conservation globale dans les alignements
Il était bon de connaître l’influence de l’identité moyenne et de la conservation globale des acides
aminés dans les alignements. En effet, on peut s’attendre à des variations selon la valeur de ces taux.
L’identité a été estimée en comptant le nombre de positions strictement conservées (inchangées)
dans l’alignement. Ce nombre est divisé par la longueur de l’alignement, donnant ainsi le taux
d’identité.
La conservation globale a été estimée à l’aide du programme AL2CO (Pei et al., 2001). AL2CO
est un programme qui calcule un indice de conservation pour chaque position d’un alignement en
fonction de la fréquence des acides aminé. Afin de privilégier la ressemblance structurale des acides
aminés pour le calcul de l’indice de conservation, nous avons utilisé la matrice structurale HSDM
(Homologous Structure-Derived Matrix, Prlic et al., 2000). La ligne de commande utilisée est la
suivante :
Al2CO –i inFile –o outFile –c 2 –s hsdm
AL2CO génère un fichier résultat (outFile), qui donne un indice de conservation pour chaque
position. Un indice moyen est calculé pour chaque alignement. Dans un premier temps nous avons
vérifié les possibilités du programme AL2CO à calculer un indice de conservation représentatif de
l’alignement. Pour cela, AL2CO a été utilisé sur les alignements test de BAliBASE, et comparé au
résultats obtenus sur les alignements équivalents (avec les mêmes séquences) calculés par
CLUSTALW. Les résultats (non présentés) montrent que l’indice de conservation est légèrement
meilleur pour les alignements de BAliBASE, démontrant la capacité du programme à calculer un
indice représentatif de l’alignement. Ceci montre par ailleurs l’efficacité du programme d’alignement
multiple CLUSTALW, qui calcule des alignements proches de ceux de BAliBASE (ayant fait l’objet
d’optimisations manuelles). Le programme AL2CO a donc été utilisé sur les alignements calculés pour
les protéines de la PDB.
L’étude de ces paramètres permet d’analyser la corrélation entre la conservation des interactions
dans les alignements et l’indice de conservation globale, ou l’identité d’un alignement. Les notions
d’indice de conservation globale et d’identité étant proches, nous nous attendons à obtenir des résultats
cohérents entre ces deux paramètres.
2.2.8.3.b. Accessibilité des résidus au solvant
Le programme DSSP calcule l’accessibilité des résidus selon l’algorithme de Lee & Richards
(1971). Cet algorithme (geodesic sphere integration algorithm) consiste à échantillonner la surface de
la protéine au moyen d’une sphère de 1,4 Å de diamètre (équivalent au diamètre d’une molécule
75
d’eau). L’accessibilité calculée représente la surface totale des résidus, en Å2 en contact avec cette
sphère. L’accessibilité totale d’un résidu est la somme des accessibilités de ses atomes. L’accessibilité
relative d’un résidu est sa surface accessible divisée par sa surface totale.
2.2.8.3.c. Structures secondaires
Les structures secondaires ont été prédites pour toutes les protéines des alignements, puisque dans
chaque alignement, toutes les protéines à l’exception de la protéine PDB n’ont pas de structure
connue. En revanche pour la protéine PDB, bien qu’ayant sa structure, il est plus cohérent de prédire
sa structure secondaire, plutôt que de la déterminer à partir de la structure tridimensionnelle, comme
DSSP le fait. Les prédictions de structures secondaires ne sont pas fiables à 100%. Les méthodes
utilisées réalisent par endroit de mauvaises prédictions (30% environ). Ces erreurs sont reproductibles
selon la configuration locale des séquences. Par conséquent, il est plus judicieux de prédire toutes les
séquences, même celles issues de la PDB, de façon à reproduire les mêmes erreurs aux mêmes
endroits. Cette constatation rejoint les résultats de Geourjon et al. (2001) : l’utilisation des structures
secondaires prédites est plus fiable et plus sensible que l’utilisation des structures secondaires
observées (obtenues avec DSSP) pour établir les relations d’homologie entre des protéines distantes de
structures tridimensionnelles connues. Par ailleurs, nous avons choisi d’utiliser trois méthodes
prédictives basées sur des algorithmes et des théories différentes (§1.4.3 page 47) DSC, SOPMA et
PHD. La prédiction finale retenue est un consensus calculé à partir des trois méthodes. Ce consensus
donne de meilleurs résultats, puisqu’il a tendance à conserver les accords entre les méthodes et à
atténuer les désaccords. (Table 19 page 125).
2.2.8.4. Analyse de la conservation des glycines
L’architecture logicielle bioinformatique mise en place nous a permis d’établir un diagramme de
Ramachandran pour tous les résidus de la PDB (Figure 19). Cette analyse nous a conduit à définir
assez grossièrement les régions favorables et défavorables du diagramme de Ramachandran (Figure
20). De par sa petite taille, la glycine est le seul résidu capable d’adopter des combinaisons d’angles
(Φ,Ψ) qui le situent dans les zones interdites du diagramme de Ramachandran. Il nous semble donc
intéressant de voir si cette spécificité est à l’origine d’une conservation préférentielle des glycines
situées dans ces zones interdites du diagramme comparativement aux glycines ayant des valeurs de
combinaison d’angles (Φ,Ψ) plus favorables.
76
Figure 19 : diagrammes de Ramachandran pour les alanines, phényl-alanines et glycines de la PDB
réalisés à l’aide de DSSPm. Les zones encadrées en noires représentent les zones favorables. Les glycines
témoins ont été choisi dans ces zones, les glycines d’intérêt ont été choisies à l’extérieur de ces zones.
77
Le Code 3 (page 65) présente la structure d’un objet pmyAApair, utilisé pour modifier le
programme DSSP. Deux variables float fglypsi et float fglyphi sont utilisées pour stocker
les valeurs d’angles et ainsi repérer les glycines intéressantes et les glycines témoins. C’est l’une des
fonctionnalités qui a été ajouté au programme DSSPm.
Figure 20 : Définition simplifiée de la zone défavorable du diagramme de Ramachandran. Les glycines
intéressantes ont été choisies dans cette zone, les glycines témoins ont été choisies dans les zones représentées en
blanc. Cette zone a été définie après observation des diagrammes réalisés pour tous les résidus de la PDB
(Figure 19).
2.2.9. Implémentation des concepts et définition des objets en C++
Cette partie technique a pour but d’expliquer le travail effectué pour agencer toutes les étapes qui,
à partir d’une structure PDB, permettent d’obtenir la conservation des interactions dans un alignement
multiple contenant la séquence PDB et certaines protéines qui lui sont apparentées. Nous montrerons
aussi, que le procédé mis en place a permis de réaliser une étude statistique exhaustive sur toutes les
protéines de la PDB présentant entre elles moins de 25% d’identité de séquence.
2.2.9.1. Matérialisation des interactions
Le langage C++ est un langage fortement orienté objet. Les objets sont définis au sein de classes
qui contiennent des données spécifiques à l’objet, mais aussi des fonctions qui lui sont propres. C’est
-180
-90
0
90
180
-180 -90 0 90 180
-37,5
-10
100
138,75 30 97,5
-138
Angle Ψ (degrés)
Angle Φ (degrés)
78
le principe de l’encapsulation des données. Pour chaque protéine de la PDB, une première phase
consiste à récupérer et stocker les informations concernant les interactions présentes dans la base de
données générée à l’aide de DSSPm. Ces données sont stockées dans un objet de classe totseq
(Code 4). La fonction readtotfile_one_seq() est fondamentale. Celle-ci permet de construire un
objet totseq à partir de la base de donnée, et de remplir ses champs de données qui sont la séquence
PDB et le nom de la protéine (char * seq ; char * nomseq), les positions des résidus en
interactions sotckées dans deux tableaux d’entiers (int * pos1 ; int * pos2). Sont stockées
également dans des tableaux, les accessibilités de ces acides aminés (int * acc1, int * acc2),
ainsi que les éléments de structures secondaires auxquels appartiennent ces acides aminés (char *
secondstruct1, char * secondstruct2).
class totseq
{
public:
void deftot_entry(char*,char*,int*, int*, bool*, int*, int*, char*,
char*, int );
char* lire_entryseq(){return seq;}
char* lire_entrynom(){return nomseq;}
int liretotcouple(){return totcouple;}
int min;
int max;
friend void readtotfile_one_seq(char* argvinput, char* argvoutput,
char * runfile) ;
void Delete_Totseq();
private:
char * seq;
char * nomseq;
int * pos1;
int * pos2;
int * access1;
int * access2;
char * secondstruct1;
char * secondstruct2;
bool * value;
int totcouple;
};
Code 4 : définition d’un objet totseq, dans le fichier totfile.h
79
La fonction readtotfile_one_seq() est au centre de tout le procédé : en plus de construire l’objet
totseq équivalent à chaque protéine et ses interactions, elle appelle toutes les fonctions qui vont dans
un premier temps effectuer la recherche BLAST, puis effectuer la sélection à l’aide d’Extractblast,
réaliser l’alignement, et effectuer les calculs de conservation des interactions au sein de ce dernier. Ces
étapes, à l’exception de l’analyse statistique, sont effectuées grâce à l’utilisation de la fonction
system(ligne_de_commande_unix) (§2.2.2 page 58).
2.2.9.2. Recherche d’homologie et alignement multiple
Nous possédons un objet totseq qui matérialise pour chaque protéine les interactions. Après
avoir crée l’objet totseq, la fonction readtotfile_one_seq()appelle le programme BLAST.
Avant l’appel de BLAST, la séquence de la protéine PDB en question est écrite au format adéquat
dans un fichier (seqout) qui servira d’entrée au programme BLAST. L’appelle du programme se fait
à l’aide de la ligne de commande suivante : system("blastall2.0.12-sgi -p blastp -i seqout -d /SPTrembl/trall.seq -a 4
-o blastout");
Le programme BLAST donne un fichier blastout résultat. Ce fichier sert d’entrée au programme
Extractblast : system("Extractblast -i blastout -T -R rem -o blastselect –e 1e-6 –l len –a
start –z stop -Z"),
Les paramètres d’extraction ont été détaillés dans le §2.2.6.2 page 68. Ces paramètres d’extraction
permettent d’obtenir une sous-base de séquences apparentées à la protéine PDB en question. La sous-
base est écrite selon un format approprié dans le fichier blastselect qui sert d’entrée au
programme CLUSTALW (dans sa version parallèle open MP réalisée au sein de l’équipe par le Dr C.
Blanchet) pour calculer l’alignement multiple : system ("clustalw-mp –infile blastselect –TYPE PROTEIN –outfile
align.aln");
On obtient donc un alignement multiple contenant la protéine PDB et les protéine sélectionnées
automatiquement après une recherche d’homologie dans SWISSPROT+SPTrEMBL à l’aide de
BLAST. Ces lignes de commandes ont été volontairement simplifiées. En réalité les noms des fichiers,
principalement les fichiers d’alignements, ont été associés à un compteur numérique pour les
différencier et les retrouver aisément. Ainsi les alignements ont pu être stockés, ce qui a permis de
réaliser les statistiques plusieurs fois, sans avoir à recalculer les alignements multiples pour chacune
des protéines de la PDB.
80
2.2.9.3. Prédictions des structures secondaires
Cette phase de l’étude a été réalisée par le Dr. Christophe Geourjon. Il est le concepteur d’un
programme, écrit en Fortran, qui à partir d’un alignement de séquence au format CLUSTALW, génère
un fichier au format MPSA (Blanchet et al., 2000), contenant les prédictions de structures secondaires
DSC, SOPMA et PHD, ainsi qu’un consensus qui est la prédiction retenue.
2.2.9.4. Calcul de la conservation des interactions dans les alignements multiples.
Des fonctions de lecture des fichiers d’alignements multiples, compatibles avec les formats
CLUSTALW et MPSA ont été écrites. Nous avons mis à profit les propriétés du langages C++ par la
définition de deux objets principaux : l’objet Sequence et l’objet fileclustal. Ce choix est
simple : chaque fichier d’alignement multiple contient plusieurs séquences avec un nom, une
séquence, et éventuellement les prédiction de structures secondaires associées. Toutes les données
d’une séquence sont regroupées dans un objet Sequence. Et tous les objets Sequence, sont regroupés
dans un objet fileclustal représentant au fichier alignement.
2.2.9.4.a. L’objet Sequence
L’objet séquence (Code 5) contient le nom de la séquence dans l’alignement (char *
S_seqname), la séquence dans l’alignement (char * S_seq), et les prédictions de structures
secondaires (char * S_secstr). Les gaps dans les séquences sont conservés . La classe d’objet
fileclustal est déclarée comme « amie » (friend). Ce détail technique à son importance : ceci
permet d’outrepasser l’encapsulation, et autorisera les fonctions de la classe fileclustal, à accéder
aux données privées de la classe Sequence.
81
class Sequence
{
public:
Sequence();
~Sequence(){delete []S_seqname; delete []S_seq; delete []S_secstr ;}
friend class fileclustal;
void defseqname(char *seq);
void defseq (char *seq);
void sequenceDestrcuct(){delete [] S_seqname;delete [] S_seq;}
char *readseqname(){return S_seqname;}
char *readseq(){return S_seq;}
private:
char *S_seqname;
char *S_seq;
char *S_secstr;
};
Code 5 : définition d’un objet Sequence dans le fichier stat_sequence.h
Les objets séquences sont construits par deux fonctions de lecture des alignements compatibles avec
les formats CLUSTALW (readCLUSTAL()) et MPSA (readMPSASS()). L’une ou l’autre est appelée
automatiquement selon le type de fichier à lire.
2.2.9.4.b. L’objet fileclustal
Cet objet représente un fichier d’alignement multiple (Code 6). Il contient plusieurs séquences,
donc plusieurs objets Sequence sous la forme d’un tableau d’objets (Sequence * pClustal). Cet
objet contient l’identité dans l’alignement (float C_alignID) et le nombre de séquences alignées
(Clustal_entries). Beaucoup de fonctions sont associées à cet objet, à commencer par la fonction
amie readtotfile_one_seq(). Puisque c’est elle qui appelle le programme d’alignement, elle
construit aussi l’objet fileclustal. Pour remplir les champs privés de cet objet, la fonction doit
donc être déclarée amie.
82
class fileclustal
{
public:
fileclustal():Mask(false),C_nameformat(0),C_seqformat(0)
~fileclustal(){}
friend void readtotfile_one_seq(char* argvinput, char*
argvoutput,char * runfile);
void displayClustal ();
void displayClustalMask ();
int readentries (){return Clustal_entries;}
void pClustalConstruct(char*argv);
void pID_Mask();
void pAA_Conserv(char*);
void pAA_Homol_Conserv(char*);
void write_Clustal_file(char*);
void SalBriSeek(char*,char*);
void Clustal2Fasta(int);
float readalignID(){return C_alignID;}
void pClustalDestruct();
float Qualign();
void SbStat(totseq, int, char*, char*) ;
void HydStat(totseq, int, char*, char*) ;
void Couple_Stat( totseq,int,char*,char*);
private:
Sequence * pClustal;
int Clustal_entries;
Sequence * pClustal_Mask;
bool Mask;
int C_nameformat, C_seqformat;
float C_alignID;
char * C_alignfilename;
float m_AlignQuality;
};
Code 6 : définition de l’objet fileclustal dans le fichier stat_fileclustal.h
83
Les fonctions associées servent essentiellement à manipuler les fichiers d’alignement multiple. Il y
a aussi trois fonctions de calculs statistiques sur les interactions :
SbStat(totseq, int, char*, char*) (analyse des interactions électrostatiques)
HydStat(totseq, int, char*, char*) (analyse des interactions hydrophobes) Couple_Stat( totseq,int,char*,char*);
Couple_Stat() sert à l’analyse des ponts disulfures (elle peut aussi servir à l’analyse de toutes les
autres interactions). Elle est aussi beaucoup plus complexe, et permet notamment l’analyse de la
conservation des acides aminés individuellement, ainsi que la composition des séquences locales
encadrant les positions impliquées dans les interactions. Elle fût la première à être développée, mais sa
complexité se paie par sa gourmandise en terme de ressources et sa lenteur. C’est pourquoi les autres
fonctions (SbStat() et HydStat()) ont été développées. Celles-ci sont moins lourdes et réalisent
l’analyse statistique des couples d’acides aminés, ainsi que le brassage aléatoire des positions pour la
réalisation des témoins. Ces fonctions prennent en entrée un objet totseq, qui contient les positions
des interactions dont on veut calculer la conservation. En effet, à chaque alignement correspond l’objet
totseq qui a servi à le constituer grâce à la fonction readtotfile_one_seq(). Du fait de la
présence de gap, il y a une phase de correction des positions entre celles données par l’objet totseq et
les positions dans l’alignement, afin de se situer au bon endroit lors du calcul de la conservation.
2.2.9.5. Schéma récapitulatif
Grâce à l’architecture logicielle mise en place (Figure 21), il a été possible de réaliser une analyse
statistique exhaustive. La fonction readtotfile_one_seq() est récursive. Elle est appelée en
boucle, tant que toutes les protéines de la PDB n’ont pas été analysées. Si les modifications apportées
à DSSP, et les lignes de code nécessaires à l’élaboration d’Exctrablast ne sont pas prises en compte,
cette architecture représente un total avoisinant 4000 lignes de codes écrites en C++.
84
Figure 21 : schéma simplifié de l’architecture mise en place pour l’analyse de la conservation des
interactions structurales au sein d’alignements multiples. (b) bases de données, (F) fonctions principales, (d)
programmes développés.
2.3. Résultats
Tout d’abord sont présentés les logiciels développés, puisque cette phase a constitué une part
importante de mon travail. Seront présentés trois logiciels, qui ont été utilisés au sein du laboratoire, et
qui sont donc pleinement fonctionnels. Ces logiciels sont tous disponibles sur ma page internet
personnelle (URL 26, section « Software Development »). Dans un second temps, seront présentés les
résultats du travail de recherche, visant à effectuer une analyse statistique de la conservation des
interactions dans les alignements multiples de séquences.
readtotfile_one_seq()F
Protein Data Bank-25%b allPDBCYS allPDBHYD3.
3allPDBSB3.0
Base de données d’interactions b
Objet totseq
Blast
Extractblastd
CLUSTALW
Prediction de structuctures secondaires
Objet fileclustal
system()F
readCLUSTAL()F
readMPSASS()F
DSSPmd
CoupleStat()F
SbStat()F
HydStat()F
IndivStat()F
MotifCons()F
RESULTATSb system()F
system()F
Recalage des positions (gaps dans les alignements)
85
2.3.1. Développement logiciel
2.3.1.1.a. Extractfasta
La stratégie d’analyse des interactions faisait intervenir au départ des recherches FASTA et
SSEARCH plutôt que des recherches BLAST. Devant le manque d’outil informatique pour le
traitement de ces fichiers résultats, il a été nécessaire de développer ce logiciel. Son rôle est de
constituer une base de données de séquences à partir des résultats de recherche FASTA ou SSEARCH
obtenus. Ce programme est l’équivalent d’Extracblast pour les fichiers résultats FASTA ou
SSEARCH. Son architecture ne sera pas détaillée, elle est très semblable à celle d’Extracblast qui elle
en revanche sera détaillée, puisque ce programme fût particulièrement utilisé lors du travail de
recherche.
Extractfasta permet de réaliser une base de données, échantillonnée et non redondante à partir des
fichiers résultats FASTA et SSEARCH. Ce programme est utilisable avec une simple ligne de
commande, selon les options voulues. Il est fonctionnel sous UNIX, linux et Win9X. Une différence
toutefois pour Win9X : les options sont introduites avec un signe « = » supplémentaire : voici deux
exemples d’appels à Extracfasta :
Extractfasta –i fichier_fasta –o fichier_result pour UNIX et linux ;
WinExFasta.exe –i= fichier_ssearch –o= fichier_result pour Win9X
En fin de traitement, Extractfasta (comme Extractblast) fournit un récapitulatif quant au nombre de
séquences sélectionnées avec chaque option (Figure 23, page 91). Les fonctionnalités d’Extractfasta
sont détaillées dans l’Annexe A (page 138).
Ce sont au total 3500 lignes de codes qui ont été écrites en C++ pour l’élaboration d’Extractfasta.
Extractfasta n’est fonctionnel que pour le traitement des fichiers FASTA et SSEARCH à caractère
protéique.
2.3.1.2. Extractblast
Etant donné l’utilisation importante qui a été faite du programme Extracblast, son architecture sera
détaillée. Par ailleurs, ceci permettra aussi d’illustrer les détails de la conception d’Extractfasta
puisque ces deux programmes ont des architectures voisines. Enfin, comme pour Extractfasta, seront
détaillées les fonctionnalités intéressantes d’Extractblast qui ont largement été mises à profit lors de
l’analyse statistique sur les structures tridimensionnelles protéiques.
2.3.1.2.a. Architecture
Chaque fichier résultat BLAST contient différents alignements entre la séquence requête et la une
séquence sujette trouvée par BLAST. Deux objets ont été définis lors de l’écriture du code
d’Extractblast Blast_entry et fileBlast. L’objet Blast_entry matérialise un alignement (Code
86
7), et regroupe les informations proposées par BLAST : les noms de la séquence sujette (char *
sbjname) et de la banque dont elle est issue (char * bankname), les séquences sujettes (char *
sbjseq) et requêtes (char * queryseq) alignées, le z-score (float score), la E-value (double
expect), le nombre de gaps dans chacune des séquences (int gapquery, int gapsbj), le nombre
d’identité (int identities), les positions de début et de fin d’alignement pour la séquence requête
(unsigned long int qstart, unsigned long int qstop) et la séquence sujette (unsigned
long int sstart, unsigned long int sstop), ainsi que les indications quant au cadre de
lecture pour les séquences nucléiques (char * strand_or_frame, int frame). Plusieurs
fonctions sont associées à cet objet dont deux importantes : defBlastEntry() qui construit l’objet
en lui passant en argument toutes les variables qui viennent d’être citées. La seconde fonction
importante : readBlast()va être appelée pour lire un fichier BLAST et, stocker ces variables pour
les passer à la fonction defBlastEntry(). La fonction readBlast() sert aussi à stocker les objets
dans un tableau, qui est utilisé pour la construction du second objet : fileBlast.
class Blast_entry
{
public:
Blast_entry();
virtual ~Blast_entry();
friend class fileBlast;
friend int readBlast(Blast_entry*&,char*,int,BlastFileType&);
void defBlastEntry (char* bkname, char *sbname, char *qseq, char
*sbseq, char *com, int id, int pos, float scx, double ex, char *strfr,
BlastFileType bft);
void indicate(){indicator=true;}
bool readindicator(){return indicator;}
void defposition(ulong sttq, ulong stpq, ulong stts, ulong stps){
qstart = sttq; qstop = stpq; sstart = stts; sstop= stps;}
protected:
char * bankname;
char * sbjname;
char * queryseq;
char * sbjseq;
char * comment;
int identities;
int positives;
float score;
double expect;
87
int gapquery;
int gapsbj;
int sbj_length;
char * strand_or_frame;
int frame;
bool indicator;
unsigned long int qstart;
unsigned long int qstop;
unsigned long int sstart;
unsigned long int sstop;
};
Code 7 : définition d’un objet Blast_entry, dans le fichier Blast_entry.h
L’objet fileBlast représente les informations contenues dans un fichier résultat (Code 8). Il contient
trois tableaux (ou pointeurs) d’objets Blast_entry : un qui contient tous les alignements du fichier
BLAST (Blast_entry * pfBlast), un second qui contient les alignements retenus après sélection
(Blast_entry * pfBlastselect), et enfin un dernier qui contient les alignements rejetés par le
processus de sélection (Blast_entry * pfBlastremoved). Ensuite une information
particulièrement importante est le type de fichier BLAST (BlastFileType ThisFileType).
Extractblast est fonctionnel avec tous les fichiers BLAST. Pour chaque type de fichiers des
fonctionnalités particulières ont été implémentées et sont détaillées Annexe B (page 141). Une ligne de
code, ajoutée dans Blast_entry.h permet de spécifier les valeurs possibles des variables de type
BlastFileType : enum BlastFileType {blastp,blastn,tblastn,blastx,tblastx,psi_blast};
Le type de fichier BLAST est reconnu automatiquement et pour chaque objet fileBlast, la valeur
adéquate est affectée à la variable ThisFileType (qui est du type BlastFileType). Les fonctions
associées à l’objet fileBlast, sont les fonctions de manipulations de fichiers et de sélection des
alignements intéressants pour ensuite extraire les séquences sujettes contenues dans ces alignements.
La fonction lengthextract() permet de sélectionner les séquences sujettes avec une longueur
minimum. La fonction Expectextract() sert à sélectionner les séquences trouvées avec une E-
value inférieure à un seuil. Les fonctions Stepextract() et StepRatioExtract1_2() réalisent
des sélections par palier. La fonction STRFRextract() permet de choisir les « frames » (cadre de
lecture) ou les « strands » (brin d’acide nucléique avec un orientation précise) d’interêt pour la
sélection des séquences sujettes alignées avec ces frames ou ces strands. La fonction removal()
élimine les séquences sujettes redondantes. La fonction Positionextract() quant à elle permet de
définir le segment intéressant de la séquence requête.
88
class fileBlast
{
public:
void lengthextract(int );
void Expectextract(double );
void Stepextract(float );
void StepRatioExtract1_2(float );
void pfBlastConstruct(char*, int);
void displayTab(char*, int);
void STRFRextract(char*);
void removal();
void displayremoval(char*,int);
void Positionextract(ulong,ulong);
int readblastselected(){return Blastselected;}
int readblastentries(){return Blastentries;}
private:
int Blastentries;
int Blastselected;
int Blastremoved;
Blast_entry * pfBlast;
Blast_entry * pfBlastselect;
Blast_entry * pfBlastremoved;
bool selection;
BlastFileType ThisFileType;
};
Code 8 : définition d’un objet fileblast dans le fichier fileblast.h
Un total de 2500 lignes de codes en langage C++ constituent le code source de Extractblast.
89
Figure 22 : architecture mise en place pour l’élaboration d’Extractblast. (OP) objets Blast_entry pointés,
(P) pointeurs fileBlast sur tableaux d’objets Blast_entry, (F) fonctions.
Blast_entry (alignement 1) Blast_entry (alignement 2)Blast_entry (alignement 3)………Blast_entry (alignement n)
Objet fileBlast
* PfBlastP
* PfBlastselectP
* PfBlastremovedP
Blast_entry (Selectionné 1) Blast_entry (selectionné 2)Blast_entry (selectionné 3)………Blast_entry (selectionné m)
Blast_entry (rejeté 1) Blast_entry (rejeté 2)Blast_entry (rejeté 3)………Blast_entry (rejeté p)
Pointe sur
Pointe sur
Pointe sur
lengthextract()F
Expectextract()F
Stepextract()F
StepRatioExtract1_2()F
STRFRextract()F
removal()F
Fichier desséquences
sélectionnées
Fichier desséquences nonsélectionnées
Fichier detoutes lesséquences
FichierBLAST
readBlast()F
pfBlastConstruct()F
OP
OP
OP
90
2.3.1.2.b. Fonctionnalités
Extractblast propose plusieurs fonctionnalités, qui pour certaines sont spécifiques des types de
fichier BLAST. En effet, BLAST existe dans différentes versions :
• BLASTp est utilisé pour effectuer une recherche d’homologie avec un séquence
requête protéique dans une base de séquences protéiques.
• PSI-BLAST version améliorée de BLASTp. Il est plus sensible car il établit un profil
positionnel à partir des premiers « hits » trouvés. PSI-BLAST propose donc plusieurs
« run ». Il faut tenir compte de ce paramètre afin de pouvoir travailler sur les séquences
d’un run particulier.
• BLASTx est utilisé pour effectuer une recherche d’homologie avec une séquence
requête nucléique dans une base de séquences protéiques. BLASTx réalise 6 traductions
car il y a 6 frames ou cadres de lecture numérotés de –3 à +3 (trois sur le brin requête,
trois sur le brin complémentaire).
• tBLASTn est utilisé pour effectuer une recherche d’homologie avec une séquence
requête protéique dans une base de séquences nucléiques. tBLASTn réalise pour chaque
séquence de la base nucléique 6 traductions.
• BLASTn est utilisé avec une séquence requête nucléique dans une base de séquences
nucléiques. Les alignements spécifient l’orientation des brins (Plus/Minus strands). Il faut
pouvoir sélectionner les séquences sujettes alignées selon une orientation précise de la
séquence requête.
• tBLASTx est utilisé avec une séquence requête nucléique dans une base de séquences
nucléiques. A la différence de BLASTn, tBLASTx traduit d’abord la séquence requête
(selon 6 cadres de lecture). Les séquences protéiques obtenues sont comparées avec les 6
traductions de chacune des séquences de la base nucléique.
Extractblast reconnaît automatiquement le type de fichier BLAST à traiter et permet de travailler avec
tous ces types de fichier. Avec les fichiers de type BLASTn, Extractblast permet de sélectionner les
séquences sujettes alignées avec une orientation précise de la séquence requête (Plus/Minus). Avec les
fichiers de type BLASTx, tBLASTx il est possible de choisir un cadre de lecture particulier de la
séquence requête. Ne seront sélectionnées que les protéines alignées avec la traduction de la séquence
protéique selon ce cadre de lecture précis. Toutes les fonctionnalités d’Extractblast sont détaillées
Annexe B (page 141).
Extractblast est fonctionnel sous UNIX, linux et Win9X. Les conventions d’appel au programme sont
les mêmes que pour Extractblast (ajout d’un signe « = » après les options sous WIN9X, l’exécutable
sous WIN9X est WinExBlast.exe). Enfin Extractblast propose aussi un récapitulatif du processus de
sélection (Figure 23).
91
Figure 23 : récapitulatif d’un processus de sélection effectué avec WinExBlast.exe (sous WIN98).
2.3.1.3. BioRead
Ce logiciel est l’implémentation graphique des programmes Extractfasta et Extractblast. Ce
programme a eu simplement pour but d’aider à l’analyse et la visualisation d’un grand nombre de
fichiers BLAST et FASTA, nécessaires au développement d’Extractfasta et Extractblast. Ensuite,
lorsque ces programmes étaient développés, leur code fut lié à celui de BioRead, de façon à intégrer
les fonctionnalités d’Extraction. Ce programme a été écrit en langage Tcl/Tk avantageux à plus d’un
titre : simple, rapide à coder et facilement portable. Cependant les fonctions plus complexes,
nécessitent d’être écrites dans un langage plus efficace : C++ . Ceci est possible grâce à l’utilisation
d’un programme « adaptateur » : Mktclapp (URL 24).
BioRead est un éditeur des fichiers BLAST, FASTA et SSEARCH. Il offre une coloration des
résidus conservés au sein des alignements présentés. Ceci rend les fichiers plus faciles à lire et à
analyser. BioRead est une application de type MDI (Multiple Document Interface) permettant d’ouvrir
simultanément plusieurs fichiers. Le menu offre la possibilité d’effectuer une extraction et de
constituer une sous base de données. Le type de fichier est reconnu automatiquement et la disponibilité
des fonctions du menu s’adapte.
92
Figure 24 : interface graphique BioRead sous windows (WinBioRead). Ouverture d’un fichier BLAST. 1-
Menu adapté au fichier. 2- Coloration des noms de séquences trouvées (en bleu) et des résidus en fonction de
leur conservation dans les alignements (rouge=identité, vert=similaire). 3- Jauge d’état d’avancement du
processus de coloration. 4- Liste des fichiers ouverts (double-clique pour passer de l’un à l’autre). 5- Fichier
affiché à l’écran.
L’utilisateur peut étudier simultanément plusieurs fichiers, donc essayer plusieurs paramètres pour
l’extraction des fichiers afin de garder les plus appropriés. Pour réaliser l’extraction, des boites de
dialogues s’affichent pour permettre à l’utilisateur de paramétrer sa sélection. Il y a deux types de
boites de dialogue en fonction du type de fichier (BLAST ou FASTA/SSEARCH).
1
2
4
3
5
93
1
2
3
4
Figure 25 : boite de dialogue pour l’extraction des séquences depuis un fichier PSI-BLAST. 1- Options
pour le fichier d’entrée, résultats et éventuellement pour l’élimination des séquences redondantes. 2- Options sur
les positions, la longueur et la E-value seuil. 3- Options spécifiques aux fichiers PSI-BLAST, par défaut, le
numéro du dernier run est affiché. 4-Options pour les fichiers BLAST de type n, x, tn, tx. Selon le type de
fichier, les options s’activent ou de se désactivent de façon à aider l’utilisateur.
2
1
Figure 26 : boite de dialogue pour les fichiers FASTA ou SSEARCH. 1- Options pour les fichiers. 2- Options
de longueur, de positions et de E-value seuil pour la sélection des séquences sujettes.
Après l’extraction, une petite fenêtre récapitulative informe l’utilisateur sur le nombre de séquences
qui ont été sélectionnées avec les paramètres choisis. Le fichier résultat est affiché automatiquement à
l’utilisateur.
94
Figure 27 : affichage du résultat et fenêtre récapitulative quant au processus de sélection des séquences.
Ce logiciel a nécessité 1050 lignes de code en Tcl/Tk ainsi que 1010 lignes de codes en C++ pour
la gestion des documents et le lien entre les fonctionnalités et le graphisme. Au total, si l’on prend en
compte Extractblast et Extractfasta, BioRead représente un peu plus de 7000 lignes de code.
Ce logiciel est particulièrement simple. Il dispose encore de peu de fonctionnalités et a été
développé simplement pour aider à l’analyse des fichiers BLAST et FASTA, lors de la mise au point
des programmes d’extraction. D’autres fonctionnalités seront ajoutées. Par exemple permettre à
l’utilisateur de sélectionner uniquement les séquences de son choix. Une autre fonctionnalité serait de
présenter les résultats BLAST ou FASTA sous la forme d’un alignement multiple, de façon à repérer
les zones les plus conservées dans le fichier de recherche. Il serait aussi bon de donner à l’utilisateur la
possibilité d’aligner les séquences à l’aide de différents programmes (CLUSTAL, MULTALIN…) et
la possibilité de visualiser les arbres phylogénétiques issus des alignements. Ainsi BioRead se voudrait
aussi un éditeur d’alignement multiple. Cependant, il faut souligner que d’autres éditeurs très complets
existent tels que ceux qui sont développés et utilisés au sein de notre équipe : MPSA (Multiple Protein
Sequence Analysis ; Blanchet et al., 2000) ou encore ANTHEPROT (ANalyse THE PROTein,
Deléage et al., 2001). Le logiciel BioRead n’était pas un objectif mais un outil utilitaire pratique pour
mettre au point les différents paramètres d’Extractblast et Extractfasta.
95
2.3.2. Conservation des acides aminés dans les alignements multiples
2.3.2.1. Conservation des ponts disulfures
La diversité des protéines au sein d’une même famille protéique s’explique par la suite
d’événements qui ont provoqué des mutations, insertions et délétions au sein d’une séquence
ancestrale. Une famille protéique est un ensemble de protéines ayant des séquences plus ou moins
différentes. Mais la notion de famille implique aussi que la fonction et/ou la structure ait/aient été
conservée(s), malgré les évènements liés à l’évolution. Trois éléments principaux ont permis cet état
de chose. Le premier est dû à la dégénérescence du code génétique. Plusieurs codons codent le même
acide aminé. La mutation d’un nucléotide ne suffit pas forcément à changer un acide aminé. Le
deuxième élément est dû à la nature des acides aminés : une mutation peut provoquer le remplacement
d’un acide aminé par un autre avec des propriétés biochimiques proches. Enfin le dernier élément est
simplement la conservation des acides aminés clés comme les cystéines. Les processus évolutifs ont
dû épargner les cystéines importantes pour l’établissement et le maintien des structures
tridimensionnelles des protéines. Par conséquent, une différence doit apparaître entre la conservation
des cystéines réduites et la conservation des cystéines oxydées au sein d’alignements multiples
représentatifs de ces structures.
La stratégie mise en place nous a permis d’analyser la conservation des ponts disulfures dans les
protéines de structure connue. Pour valider notre stratégie, nous avons vérifié que celle-ci met en
évidence une conservation préférentielle des cystéines oxydées.
Figure 28 : conservation des ponts disulfures (gris) et des paires témoins de cystéines réduites (hachures).
0
10
20
30
40
50
60
70
80
90
100
Tous les alignements
alignements de moins de 10 séquences
alignements de plus de 10 séquences
Conservation (%)
96
Effectifs Tous les
alignements
Alignements de moins
de 10 séquences
Alignements de plus de
10 séquences
Nombre d’alignements 440(SS)/282(SH) 263(SS)/161(SH) 177(SS)/121(SH)
Nombre de ponts disulfures 1303 859 444
Nombre de paires témoins 283 173 110
Table 4 : effectifs étudiés pour l’analyse de la conservation des cystéines oxydées et réduites. Les
alignements pour l’analyse des cystéines réduites (SH) et des cystéines oxydées (SS) sont différents (cf 2.2.7
page 71 )
La Figure 28 montre le résultat de l’analyse statistique de la conservation des cystéines oxydées et
des cystéines réduites. Sur l’ensemble des alignements étudiés, la conservation des ponts disulfures est
de 94,5% en moyenne contre 57,6% pour les paires témoins formées de cystéines réduites. Si l’on
considère les alignements de plus de dix séquences, cette différence s’accroît puisque les ponts
disulfures sont conservés à 90% alors que les paires témoins sont conservées à 35%. Il existe donc une
corrélation entre la conservation des acides aminés dans les alignements multiples et leur importance
pour la structure des protéines. Ces résultats prouvent la validité de la stratégie bioinformatique
appliquée et de l’architecture logicielle mise en place. Nous avons utilisé les mêmes outils
bioinformatiques pour étudier la conservation des interactions électrostatiques et hydrophobes dans les
alignements multiples.
Cett étude statistique montre aussi qu’il relativement rare d’observer, au sein de la même protéine
la présence de plusieurs cystéines réduites et oxydées. En d’autres termes, si une protéine possède
plusieurs cystéines, alors il y a de fortes chances pour qu’elles soient toutes dans le même état
d’oxydo-réduction. Dans notre base de séquences, 597 protéines possèdent au moins un pont disulfure
(trouvé avec le programme DSSPm). Parmi elles, seules 34 possèdent aussi au moins 2 cystéines
réduites, soit 5,7% ce qui est assez faible.
Nous n’avons pas étudié la conservation des ponts disulfures dans le détail. Le souci majeur était
de valider notre stratégie et les programmes développés.
2.3.2.2. Conservation des interactions électrostatiques.
Comme dans le cas des cystéines, les acides aminés chargés importants pour la structure protéique
doivent être conservés au cours de l’évolution. Cependant les interactions électrostatiques sont
beaucoup plus faibles que les ponts disulfures. De plus les acides aminés chargés ont différents rôles
au sein des protéines : solvatation des molécules dans les milieux physiologiques, reconnaissance et
interactions avec d’autres partenaires, régulation allostérique, catalyse enzymatique... En conséquence,
la conservation des acides aminés chargés ne peut pas être imputée exclusivement à leur importance
97
structurale. Cette étude à pour but de déterminer dans quelle mesure, le rôle structural des résidus
chargés (en interactions) influe sur leur conservation. Lors de cette analyse, nous avons tenu compte
de l’accessibilité, de la taille des alignements, de l’identité et de la conservation globale dans les
alignements, afin de déterminer l’influence de ces différents paramètres sur la conservation des
interactions.
2.3.2.2.a. Conservation globale des interactions électrostatiques dans les alignements
La Figure 29 montre le résultat de l’analyse statistique. La conservation des interactions
électrostatiques est 63,5% contre 54,3% pour les paires témoins. La différence est donc sensible, mais
assez faible. La conservation varie selon la taille des alignements, puisque pour les alignements de
moins de 10 séquences les interactions sont conservées à 71,2% (62% pour les paires témoins). Alors
que pour les alignements de plus de 10 séquences, la conservation des interaction diminue à 55,1%
(42,8% pour les témoins). La différence de conservation entre interactions et témoins croît légèrement
avec la taille des alignements. Cependant, même si cette différence est réelle, elle est assez faible, et
semble difficilement exploitable à des fins prédictives. Nous avons revu la définition de nos paires
témoins. En effet, les paires témoins sont constituées de deux acides aminés de charges opposées
distants de 15 à 16 Å. Or du fait de la taille des protéines, lorsque résidus sont éloignés d’une telle
distance, ils ont de fortes chances d’être accessibles au solvant. Aussi leur conservation peut être
imputable à leur rôle dans la solvatation des molécules, créant ainsi un biais.
Figure 29 : conservation des interactions électrostatiques (gris) et des paires témoins (hachures) dans les
alignements multiples de séquences. Les paires témoins sont constituées par deux acides aminés de charges
opposés distants de 15 à 16 Å. Les témoins sont réalisés à l’aide de DSSPm.
0
10
20
30
40
50
60
70
80
tous alignements alignements de moinsde 10 sequences
alignements de plus de 10 sequences
Conservation (%)
98
Effectifs Tous les
alignements
Alignements de moins
de 10 séquences
Alignements de plus de
10 séquences
Nombre d’alignements 570 346 224
Nombre de ponts salins 3075 1992 1083
Nombre de paires témoins 8198 5519 2679
Table 5 : effectifs étudiés pour l’analyse de la conservation des interactions électrostatiques. Les
alignements comptant moins de quatre séquences alignées ont été exclus.
2.3.2.2.b. Redéfinition des témoins et effet du nombre de brassages aléatoires
Nous avons redéfini les paires témoins : au sein d’une séquence, sont utilisés tous les acides
aminés chargés qui n’interviennent pas dans une interaction électrostatique (selon DSSPm). Des paires
sont formées entre des acides aminés de charges opposées de façon aléatoire par « brassage ». A l’issu
de chaque brassage on obtient un lot de paires témoins. Nous avons aussi étudié l’effet du nombre de
brassages aléatoires.
Effectifs Tous les
alignements
Alignements de moins
de 10 séquences
Alignements de plus de
10 séquences
Nombre d’alignements 570 346 224
Nombre de ponts salins 3075 1992 1083
Nombre de paires témoins
avec 10 brassages 144 113 94 232 49 881
Nombre de paires témoins
avec 100 brassages 1 437 658 939 492 498 166
Nombre de paires témoins
avec 1000 brassages 14 382 706 9 393 334 4 989 372
Table 6 : effectifs étudiés pour l’analyse de la conservation des interactions électrostatiques lors de la
redéfinition des paires témoins.
99
0
10
20
30
40
50
60
70
80
tous alignements alignements de moinsde 10 sequences
alignements de plus de 10 sequences
conservation (%)
Ponts salins témoins(15-16A) témoins10
témoins100 témoins1000
Figure 30 : Effet de la redéfinition des témoins et du nombre de brassages aléatoires réalisés pour la
constitution des témoins. Avec témoins(15-16A) : témoins définis à l’aide de DSSPm, une paire est constituée
des deux acides aminés de charges opposées distant de 15 à 16 Å de distance. Témoins10 : témoins obtenus avec
10 brassages aléatoires. Témoins100 : témoins obtenus avec 100 brassages aléatoires. Témoins1000 : témoins
obtenus avec 1000 brassages aléatoires. Un brassage aléatoire est une opération au cours de laquelle on apparie
de façon aléatoire tous les acides aminés chargés d’une séquence. Ces acides aminés ne sont pas impliqués dans
des interactions électrostatiques. Les appariements se font entre les acides aminés de charges opposées. La
conservation est calculée pour chaque paire et après chaque brassage aléatoire.
Les résultats présentés Figure 30 montrent que cette nouvelle définition des témoins augmente très
légèrement les différences de conservation. Ces témoins sont légèrement moins conservés. Pour plus
de clarté et afin de faciliter la comparaison, les résultats sont reportés Table 7. Les paires témoins
nouvellement définies ont une conservation d’environ 2% plus faible en moyenne que ne l’était la
conservation des témoins définis d’après la distance entre les acides aminés (15 à 16 Å). Le nombre de
brassages n’a quasiment aucun effet sur les valeurs de conservation des témoins.
100
Conservation
% Ponts
salins
Témoins
(15-16 Å)
Témoins
10 Brassages
Témoins
100 Brassages
Témoins
1000 Brassages
Moyenne
Ecart-type
Témoins brassés Tous les
alignements 64,37 54,28 52,22 52,28 52,20 52,23±0,04
Alignements
de moins de 10
séquences
71,20 62,00 60,24 60,31 60,23 60,26±0,05
Alignements
de plus de 10
séquences
55,05 42,76 40,39 41,18 41,13 40,90±0,44
Table 7 : résultats des conservations des interactions électrostatiques et des paires témoins avec différents
nombre de brassages aléatoires.
Ces résultats montrent que les acides aminés chargés impliqués dans des interactions sont plus
conservés que les acides aminés chargés libres (non impliqués dans une interaction électrostatique). La
différence existe, mais reste trop faible pour être mise à profit dans une méthode de prédiction des
interactions électrostatiques sur la base de la seule séquence.
Un autre thème de l’étude concerne les permutations corrélées. Est-ce que les permutations
corrélées au sein des positions en interactions sont la preuve de la présence d’une interaction entre les
deux acides aminés qui permutent?
Les résultas présentés Table 8 montre que les acides aminés permutent légèrement plus lorsqu’ils sont
impliqués dans une interaction électrostatique (12,4 contre 8,07 pour les témoins). Cependant cette
différence est relativement faible.
Taux de permutations Ponts salins Témoins1000 Différence
Tous alignements 12,41 8,07 4,33
Alignements de moins de 10 séquences 4,62 3,03 1,59
Alignements de plus de 10 séquences 26,16 17,44 8,72
Table 8 : taux de permutations corrélées pour les ponts salins et les témoins obtenus avec 1000 brassages.
Le taux de permutation est le nombre de permutations observées rapportées au nombre de paires étudiés. Une
permutation est observée lorsqu’il y a inversion des charges impliquées dans une interaction par rapport à la
séquence PDB de l’alignement. A chaque fois qu’il y a une inversion, une permutation est comptabilisée.
2.3.2.2.c. Relation entre l’identité moyenne des alignements et la conservation des
interactions électrostatiques
101
La Figure 31 montre que la conservation des ponts salins et des paires témoins augmentent avec le
taux d’identité dans alignements. La différence de conservation entre les interactions et les témoins est
d’autant plus importante que l’identité moyenne dans les alignements est faible. A 5% d’identité la
différence atteint un maximum de 12,61 alors qu’à 50% d’identité elle n’est que de 8% En conclusion,
la divergence favorise la conservation préférentielle des interactions électrostatiques (comparativement
aux témoins).
Figure 31 : représentation des conservations des interactions électrostatiques (gris) et de la conservation
des témoins (hachures) en fonction de l’identité moyenne des alignements. La droite représente la différence
simple entre les conservations des ponts salins et des paires témoins, l’axe des ordonnées correspondant est à
droite. Les témoins sont obtenus après 1000 brassages aléatoires. Le sigle « Id » représente l’identité moyenne
des alignements.
2.3.2.2.d. Relation entre la conservation globale dans les alignements et la conservation des
interactions électrostatiques
L’identité au sein d’un alignement multiple n’est pas un paramètre suffisamment fin. L’identité ne
prend en considération que les positions strictement conservées. Elle ne reflète pas la conservation
réelle au sein d’un alignement. Une position peut être conservée à 90% ou à 10%, l’identité n’en tient
pas compte. Afin de contourner ce problème, nous avons utilisé le programme AL2CO. Ce
programme calcule pour chaque position de l’alignement un indice de conservation en utilisant une
matrice structurale (HSDM) qui sert à pondérer les résultats. Nous avons calculé pour chaque
alignement un indice de conservation moyen, représentatif du taux de conservation globale dans les
alignements (cf §2.2.8.3.a, page 74).
Tous les alignements ont été soumis à AL2CO (Figure 32). Deux groupes d’alignements ont été
constitués avec des effectifs comparables (nombre et taille des alignements proches) : un premier
groupe d’alignement avec un indice élevé, et un second avec un indice faible (Figure 33). Les
0 10 20 30 40 50 60 70 80 90
100
Id<5% 5%< =Id <=50% 50%< =Id <=100%
Conservation (%)
0 2 4 6 8 10 12 14 16 18 20
Différence simple
102
alignements sélectionnés ont tous au moins une quinzaine de séquences, ils sont plus propices à
l’étude de la conservation des interactions.
Figure 32 : indice moyen AL2CO pour les alignements utilisés dans l’analyse de la conservation des
interactions électrostatiques. Les points sélectionnés sont reportés sur la figure suivante.
Figure 33 : indice moyen AL2CO des alignements sélectionnés pour la constitution des deux groupes
d’alignements. Les ronds représentent les alignements à indice élevé, les losanges représentent les alignements à
indice faible.
-0,5
-0,45
-0,4
-0,35
-0,3
-0,25
-0,2
-0,15
-0,1
-0,05
0
0 20 40 60 80 100 120 140 160
Nombre de séquences dans les alignements
moy
enne
de
l'ind
ice
Al2
Co
Indices faibles
Indices élevés
-0,5
-0,45
-0,4
-0,35
-0,3
-0,25
-0,2
-0,15
-0,1
-0,05
0
0 10 20 30 40 50 60 70
Nombre de séquences dans les alignements
indi
ce A
l2C
o m
oyen
103
Nombre d’alignements Nombre moyen de
séquences Indice AL2CO moyen
Alignements à
indices faibles 37 28 -0,29
Alignements à
indices élevés 32 25 -0,04
Table 9 : alignements sélectionnés avec l’indice AL2CO moyen.
La Figure 34 présente les résultats de l’analyse. La conservation des interactions et des témoins
(1000 brassages) est plus faible dans les alignements à indice faible, ce qui est normal du fait de la
plus grande divergence des séquences. En revanche la différence de conservation est d’autant plus
élevée que l’indice de conservation est faible : pour les alignements à indices faibles (-0,29), la
différence de conservation atteint 20,10% pour descendre à 13,13% pour les alignements à indices
élevés (-0,04). Ces résultats confirment l’observation réalisée avec l’influence de l’identité : la
conservation préférentielle des résidus formant des interactions électrostatiques est d’autant plus
marquée que les séquences au sein des alignements sont plus divergentes. De plus les différences
décelées sont plus élevées montrant que la similarité globale est un paramètre plus intéressant à
considérer que la simple identité stricte.
Figure 34 : analyse de la conservation des interactions et des paires témoins (1000 brassages) en fonction
de l’indice de conservation moyen obtenu avec AL2CO. Les interactions sont en orange, les témoins en vert.
La droite représente la variation de la différence de conservation, l’axe des ordonnées correspondant est à droite.
0
10
20
30
40
50
60
70
80
Alignements à indices faibles Alignements à indices élevés
Conservation (%)
0,00
5,00
10,00
15,00
20,00
25,00Différence de conservation
104
2.3.2.2.e. Relation entre l’accessibilité des interactions électrostatiques et leur conservation
dans les alignements multiples
En surface, les charges des résidus chargés, provoquent pour des raisons énergétiques, un
recrutement de molécules d’eau ou d’ions qui vont servir d’écran et éviter les répulsions entre charges
identiques, permettant du coup la solvatation de la molécule. En revanche, dans le cœur des protéines,
l’absence de molécules d’eau implique des contraintes énergétiques, qui favorisent l’appariement des
acides aminés de charges opposées, puisque le phénomène « écran » n’est pas possible. L’accessibilité
des interactions peut donc influer sur la conservation des interactions.
Afin de caractériser les interactions les plus enfouies, nous fixons un seuil arbitraire de 10 Å2
d’accessibilité. Sont considérés les interactions formées par deux acides aminés ayant une accessibilité
totale inférieure ou égale à 10 Å2. Pour ces interactions, nous retrouvons les mêmes tendances :
conservation préférentielle des interaction plus nette dans les alignements les plus grands (Figure 35).
Dans les alignements de moins de 10 séquences les interactions sont conservées à 82,50% contre
71,23% pour les témoins, soit une différence simple de 11,27. Alors que dans les alignements de plus
de 10 séquences, les interactions sont conservées à 72,59%, et les témoins à 41,57%, soit une
différence simple qui atteint 31,02%. Par conséquent, nous constatons encore une fois que la
divergence tend à être plus favorable à la conservation des interactions qu’à la conservation des paires
témoins.
Figure 35 : conservation des interactions et des paires témoins formées de deux acides aminés ayant une
accessibilité totale de moins de 10 Å2. Les témoins (hachures) ont été obtenus avec DSSPm. Chaque paire
témoin est composée de deux acides aminés de charges opposées distants de 15 à 16 Å. L’accessibilité est
déterminée à l’aide de DSSPm.
Les valeurs de conservation des acides aminés chargés enfouis sont plus élevées que les valeurs
obtenues lors de l’analyse globale (Table 10). La différence est surtout importante pour les
0
10
20
30
40
50
60
70
80
90
tous les alignements alignements demoins de 10séquences
alignement de plus de 10 séquences
Conservation (%)
105
alignements les plus grands : elle atteint 31,02, alors qu’elle n’est que de 12,29 pour la totalité des
interactions (indépendamment de l’accessibilité des acides aminés). Ces valeurs sont cohérentes avec
le fait que les d’acides aminés enfouis ont intérêt à s’apparier pour des raisons énergétiques et ainsi
stabiliser la structure protéique.
Les effectifs utilisés pour cette étude (Table 11). sont relativement réduits ce qui pose le
problème de la représentativité et il faut donc considérer les résultats avec soin. Ces effectifs montrent
néanmoins un élément statistique supplémentaire. Le nombre de ponts salins et le nombre de paires
témoins ayant servis à l’étude de l’effet de l’accessibilité sont comparables, puisque nous avons 277
ponts salins et 233 paires témoins. Cependant les effectifs de départ utilisés lors de l’analyse globale
sont loin d’être égaux, puisque nous avons 3075 ponts salins et 8198 paires témoins. Or le seul critère
qui a été appliqué pour la sélection des interactions et des témoins est l’accessibilité, qui nous conduit
aux effectifs obtenus (277 ponts salins et 233 paires témoins). Par conséquent, seuls 2,84% des paires
témoins totales sont enfouies alors que cette proportion est de 9% pour les interactions salines. Ceci
montre deux choses : la propension des acides aminés chargés à « éviter » les zones les plus enfouies
des protéines et la propension à former des interactions lorsque les acides aminés chargés sont dans les
zones enfouies.
Accessibilité ≤ 10 Å2 Analyse globale (§2.3.2.2.a page 97)
Conservation (%) Ponts salins T(15-16) Différence Ponts salins T(15-16) Différence
Tous alignements 79,40 59,04 20,36 64,37 54,28 10,09
Alignements de moins de
10 séquences 82,50 71,23 11,27 71,20 62,00 9,20
Alignements de plus de
10 séquences 72,59 41,57 31,02 55,05 42,76 12,29
Table 10 : conservations des interactions et des paires témoins enfouies comparées aux valeurs obtenues
lors de l’analyse globale. Les témoins (T15-16) sont obtenus avec DSSPm.
106
Accessibilité ≤ 10 Å2 Analyse globale (§2.3.2.2.a page 97)
Effectifs AlignementsPonts
salins T(15-16) Alignements Ponts salins T(15-16)
Tous les alignements 153 277 233 570 3075 8198
Alignements de moins de
10 séquences 103 184 144 346 1992 5519
Alignements de plus de
10 séquences 50 93 89 224 1083 2679
Table 11 : effectifs utilisés pour l’analyse des interactions et des paires témoins enfouies comparés aux
effectifs utilisés lors de l’analyse globale.
2.3.2.2.f. Prise en compte des structures secondaires dans la définition des interactions et des
paires témoins
Nous avons pris en compte les structures secondaires : une paire (interaction ou témoin) est
conservée si les acides aminés sont conservés et si l’état structural de chacun des acides aminés est
conservé. Les résultats présentés Figure 36 montrent que l’on retrouve ici la même évolution en
fonction de la taille des alignements : une conservation préférentielle des interactions plus nette
lorsque les alignements sont plus grands (comptent plus de 10 séquences). La considération des
structures secondaires tend à augmenter très légèrement les différences de conservation entre les
interactions et les témoins comparativement à l’analyse globale (Table 12). Rappelons que lors de
l’analyse globale (cf §2.3.2.2.a page 97) les interactions ne sont définies que par la nature biochimique
des acides aminés, les états structuraux ne sont pas pris en compte.
107
Figure 36 : Effet de la prise en compte des structures secondaire dans les définitions des interactions
électrostatiques (gris) et des paires témoins (hachures, témoins obtenus avec 1000 brassages).
Conservation des ponts
salins
Conservation des paires
témoins Différence simple
Sans prise en compte
des SS 63,5 54,3 9,2
Avec prise en
compte des SS 56,3 46,5 9,8
Table 12 : comparaison des valeurs de conservations avec et sans prise en compte des états de structures
secondaires (SS) des acides aminés impliqués. Les structures secondaires sont prédites par trois méthodes :
DSC (citer ou renvoi), SOPMA, PHD. La prédiction retenue est un consensus de ses trois méthodes.
2.3.2.3. Conservation des interactions hydrophobes.
2.3.2.3.a. Conservation globale des interactions hydrophobes dans les alignements et effet de
la définition des témoins.
Les résultats sont proches de ceux observés pour les interactions électrostatiques (Figure 37). Les
interactions sont plus conservées que les témoins. La différence de conservation entre les témoins et
les interactions est réelle, mais est relativement faible. De plus on retrouve la même variation avec la
taille des alignements. Les conservations diminuent lorsque les alignements sont plus grands. La
différence de conservation entre les interactions et les témoins croît avec la taille des alignements :
cette différence est de 6,45 pour les alignements de moins de 10 séquences, pour passer à 10,8 lorsque
les alignements comptent plus de 10 séquences.
0
10
20
30
40
50
60
70
tous les alignements alignements de moinsde 10 sequences
alignements de plus de 10 sequences
Conservation (%)
108
50
55
60
65
70
75
80
85
Tous les alignements alignements de moins de10 séquences
alignements de plus de 10 séquences
Conservation (%)
Figure 37 : Conservation des interactions hydrophobes (gris) et des paires témoins (hachures) dans les
alignements multiples de séquences. Les paires témoins sont constituées par deux acides aminés hydrophobes
distants de 15 à 16 Å, à l’aide de DSSPm.
0 10 20 30 40 50 60 70 80 90
alignements de moins de 10 séquences
alignements de plus de 10 séquences
Conservation (%)
Int. Hydrophobes témoins (15-16A) témoins10 témoins100 témoins1000
Figure 38 : Effet de la redéfinition des témoins et du nombre de brassages aléatoires réalisés pour la
constitution des témoins. Avec témoins(15-16A) : témoins définis à l’aide de DSSPm, une paire est constituée
des deux acides aminés de charges opposées distant de 15 à 16 Å de distance. Témoins10 : témoins obtenus avec
10 brassages aléatoires. Témoins100 : témoins obtenus avec 100 brassages aléatoires. Témoins1000 : témoins
obtenus avec 1000 brassages aléatoires.
La Figure 38 montre l’effet du nombre de brassages pour les témoins redéfinis (de la même façon
que pour les interactions électrostatiques, cf § 2.3.2.2.b page 98). Cette nouvelle définition est assez
intéressante, au moins pour les alignements de moins de 10 séquences, puisque ceux-ci sont moins
conservés.
109
La différence de conservation est légèrement plus élevée avec les nouveaux témoins (Table 13).
Pour les alignements de moins de 10 séquences, celle-ci passe de 6,45 (ancienne définition : 15 à 16 Å)
à 10 (nouvelle définition : brassages aléatoires).
Différence de
Conservation
Témoins
(15-16 Å)
Témoins
10 Brassages
Témoins
100 Brassages
Témoins
1000 Brassages
Alignements de moins
de 10 séquences 6,45 10 9,97 10,01
Alignements de plus de
10 séquences 10,8 11,89 11,95 11,97
Table 13 : différences de conservations des interactions hydrophobes et des paires témoins avec différents
nombre de brassages aléatoires.
Effectifs Tous les
alignements
Alignements de moins
de 10 séquences
Alignements de plus de
10 séquences
Nombre d’alignements 762 353 409
Nombre d’interaction hydrophobes 2248 1209 1039
Nombre de témoins (15-16 Å) 6902 4025 2877
Nombre de paires témoins avec 10
brassages 180 611 108 717 71 894
Nombre de paires témoins avec 100
brassages 1 798 612 1 082 484 716 128
Nombre de paires témoins avec
1000 brassages 17 994 378 10 829 637 7 164 741
Table 14 : effectifs étudiés pour l’analyse de la conservation des interactions électrostatiques lors de la
redéfinition des paires témoins.
2.3.2.3.b. Identité et similarité globales dans les alignements : relations avec la conservation
des interactions hydrophobes.
La question est de savoir si, comme dans les cas des interactions, la divergence des séquences au
sein des alignements multiples est plus favorable à la conservation des interactions hydrophobes qu’à
la conservation des témoins. Nous avons procédé exactement de la même manière que pour les
interactions électrostatiques (§2.3.2.2.a page 97).
110
Les valeurs de conservations augmentent lorsque l’identité globale dans les alignements augmente
(Figure 39), ce qui n’a rien d’étonnant. En revanche, la différence de conservation ne varie pas pour
les alignements les plus divergents à moins de 5% d’identité de séquence, et les alignements ayant
entre 5 à 50% d’identité de séquences. La différence est de l’ordre de 8,4 pour ces deux groupes
d’alignements. Par conséquent, au-delà d’une certaine divergence (ici à moins de 50% d’identité), les
mutations qui touchent les acides aminés hydrophobes semblent indifférentes à leur rôle structural.
0 10 20 30 40 50 60 70 80 90
100
Id<5% 5%< =Id <=50% 50%< =Id <=100%
Conservation(%)
0 1 2 3 4 5
6
7
8
9 Différence simple
Figure 39 : représentation des conservations des interactions hydrophobes (gris) et de la conservation des
témoins (hachures) en fonction de l’identité moyenne des alignements. La courbe représente la différence
simple entre les conservations des interactions hydrophobes et des paires témoins, l’axe des ordonnées
correspondant est à droite . Les témoins sont obtenus après 1000 brassages aléatoires. Le sigle « Id » représente
l’identité moyenne des alignements.
L’identité donne une idée assez grossière de la divergence des séquences dans les alignements
multiples. La similarité globale est une mesure plus fine que le pourcentage d’identités strictes. Nous
avons donc mis à profit le programme AL2CO pour étudier la relation entre la similarité globale et la
conservation des interactions hydrophobes. Dans un premier temps nous avons sélectionné (comme
dans le cas des interactions électrostatiques) deux groupes d’alignements en fonction de l’indice
AL2CO moyen : un premier pour lequel la similarité globale est faible (indice faible) et un second
ayant un indice moyen élevé (Figure 40).
111
Figure 40 : A) indice moyen AL2CO pour les alignements utilisés dans l’analyse de la conservation des
interactions électrostatiques. B) indice moyen AL2CO pour les alignements sélectionnés.
La Figure 41 représente la relation entre la similarité globale des alignements multiples et la
conservation des interactions hydrophobes. Dans les alignements divergents (indice faible), les valeurs
de conservations sont plus faibles. Il en va de même pour la différence de conservation entre
interaction et témoins, qui croît lorsque la similarité globale dans les alignements est plus importante.
La divergence des séquences n’est donc pas favorable à la conservation préférentielle des interactions
hydrophobes, comme ce fût le cas pour les interactions électrostatiques. Cette constatation va dans le
même sens que l’observation faite concernant l’identité : au-delà d’une certaine divergence, les
mutations sont indifférentes au rôle structural des acides aminés hydrophobes. Cette observation peut
être expliquée par le fait que les acides aminés hydrophobes, contrairement aux résidus chargés, ne
s’attirent pas entre eux, mais se retrouvent en fuyant le milieu aqueux environnant. Il n’y a donc pas de
spécificité propre qui peut expliquer la conservation corrélée entre deux positions hydrophobes comme
dans le cas des cystéines, ou dans le cas d’acides aminés de charges opposées.
-0,5
-0,4
-0,3
-0,2
-0,1
0
0 20 40 60 80 100 120 140 160Nombre de séquences
Indi
ce A
l2C
o
Indices élevés
Indices faibles
-0,5
-0,4
-0,3
-0,2
-0,1
0
0 20 40 60 80 100 120 140 160
Nombre de séquences
Indi
ce A
l2C
o
A B
112
0 10 20 30 40 5 0 60 70 80 90
Alignements à indices faibles Alignements à indices élevés
Conservation (%)
0
2
4
6
8
10
12
14
16 Différence de conservation
Figure 41 : analyse de la conservation des interactions hydrophobes (gris) et des paires témoins (1000
brassages, hachures) en fonction de l’indice de conservation moyen obtenu avec AL2CO. La droite
représente la variation de la différence de conservation, l’axe des ordonnées correspondant est à droite.
2.3.2.3.c. Relation entre l’accessibilité des interactions hydrophobes et leur conservation dans
les alignements multiples
Nous avons suivi le même raisonnement que pour les acides aminés chargés. Dans le cas des
résidus hydrophobes, il est intéressant d’étudier la conservation, non pas des résidus enfouis, mais des
résidus exposés. L’exposition de résidus hydrophobes est défavorable du point de vue
thermodynamique. Par conséquent, ces résidus hydrophobes exposés ont un rôle biologique expliquant
leur présence, il est donc possible qu’ils soient plus conservés.
La Table 15 présente les résultats d’analyse. Sont pris en compte les interactions formées par deux
résidus hydrophobes ayant chacun une surface accessible (selon DSSP) au minimum de 30 Å2. Ce
seuil est fixé arbitrairement, afin d’avoir un effectif suffisant d’interactions hydrophobes exposés
(Table 16). L’effet de l’accessibilité est très faible. D’une façon générale, les interactions exposées
sont moins conservées que celle qui sont enfouies, ce qui est normal, pour des considérations
thermodynamiques. Cependant on peut constater que la différence de conservation est légèrement plus
élevée entre les interactions et les témoins exposés qu’entre les interactions et les témoins enfouis. On
observe donc un très légère conservation préférentielle des interactions hydrophobes accessibles.
113
Accessibilité > 30 Å2 Analyse globale (§2.3.2.3.a page 107)
Conservation (%) Int.
Hydrophobes T(15-16) Différence
Int.
HydrophobesT(15-16) Différence
Tous alignements 64,60 54,47 10,13 76,38 66,66 9,71
Alignements de moins
de 10 séquences 71,05 65,00 6,04 80,13 73,68 6,45
Alignements de plus de
10 séquences 62,46 50,96 11,49 75,12 64,32 10,80
Table 15 : conservations des interactions hydrophobes et des paires témoins exposées comparées aux
valeurs obtenues lors de l’analyse globale. Les témoins (T15-16) sont obtenus avec DSSPm.
La Table 16 présente les effectifs utilisés pour l’étude de l’accessibilité. Une remarque
intéressante, mais peu étonnante ressort de la comparaison de ces effectifs. Parmi les 6902 paires
témoins de l’étude globale 1240 sont constituées de deux acides aminés ayant chacun au moins 30 Å2
de surface accessible, soit une proportion d’environ 20%. Cette proportion est bien moindre pour les
interactions hydrophobes puisqu’elle est de 6% seulement. Ceci s’explique par le fait que les
interactions hydrophobes regroupent des résidus dans l’espace, créant une zone hydrophobe plus
importante qui a moins de chance d’être accessible, alors que les témoins sont constitués de résidus
distants de 15 à 16 Å.
Accessibilité > 30 Å2 Analyse globale (§2.3.2.3.a page 107)
Effectifs AlignementsInt
HydrophobesT(15-16) Alignements
Int
Hydrophobes T(15-16)
Tous les alignements 592 135 1240 762 2248 6902
Alignements de moins
de 10 séquences 393 73 509 353 1209 4025
Alignements de plus
de 10 séquences 199 62 731 409 1039 2877
Table 16 : effectifs utilisés pour l’analyse des interactions hydrophobes et des paires témoins exposées
comparés aux effectifs utilisés lors de l’analyse globale.
114
2.3.2.4. Conservation des glycines.
La spécificité des glycines réside dans leur pouvoir à adopter des combinaison d’angles (Φ,Ψ) qui
les situent dans la zone interdite du diagramme de Ramachandran (Figure 20 page 77). De ce point de
vue, les glycines ayant adopté ces angles peuvent être difficilement remplacées. Les logiciels
bioinformatiques et l’architecture logicielle développés nous ont permis de comparer la conservation
des glycines dans ces zones interdites à la conservation des glycines dans les zones favorables qui font
office de témoins.
Cette analyse a l’intérêt, en plus de son caractère exhaustif de vérifier l’hypothèse de départ : les
glycines des zones interdites sont plus conservées que les glycines témoins (Figure 42). La différence
de conservation est sensible. Par ailleurs, la divergence est un facteur favorable à la conservation
préférentielle des glycines d’intérêt puisque ce sont dans les alignements les plus grands que la
différence de conservation est la plus importante (les alignements les plus grands sont aussi ceux où
les séquences sont les plus divergentes comme en atteste la Table 17). Les alignements multiples sont
donc une des bases à considérer pour s’orienter vers la prédiction des glycines dans ces zones. Ceci
peut être intéressant pour orienter des expériences de mutagénèse ou pour vérifier et étoffer les
moyens de prédiction des structures.
Figure 42 : conservation des glycines des zones interdites du diagramme de Ramachandran (gris)
comparées aux glycines dans les zones favorables du diagramme (hachures).
50
55
60
65
70
75
80
85
Tous les alignements alignements de moins de
10 séquences
alignements de plus de
10 séquences
Conservation (%)
115
Tous les
alignements
Alignements de moins
de 10 séquences
Alignements de plus de
10 séquences
Identité moyenne (%) 18,95 26,36 11,50
Nombre d’alignements 1205 604 601
Nombre de glycines d’intérêt 5866 2993 2873
Nombre de glycines témoins 11052 5935 5117
Table 17 : identité moyenne des alignements multiple et effectifs étudiés pour l’analyse de la conservation
des glycines. Les alignements de moins de quatre séquences n’ont pas été retenus (représentants 3159 glycines
d’intérêt).
2.4. Conclusion et discussion des résultats concernant la conservation
des acides aminés au sein des alignements multiples.
L’analyse de la conservation des ponts disulfures est concluante puisqu’elle met nettement en
évidence la conservation des cystéines oxydées au sein des alignements multiples. Ces résultats
démontrent le bien fondé de notre stratégie ainsi que l’utilité des programmes développés. Par ailleurs,
les valeurs de conservations et les différences décelées sont particulièrement élevées. Elles sont donc
statistiquement significatives. Par conséquent, la conservation des cystéines dans les alignements
multiples peut servir de base au développement d’algorithmes prédictifs. La dernière méthode en date
(Fiser et Simon, 2000) est basée sur la conservation des cystéines dans les alignements multiples. La
qualité de prédiction de cette méthode s’élève à 82%, démontrant l’utilité de l’information contenue
dans une alignement de séquence pour la prédiction des états d’oxydation des cystéines.
La conservation des ponts disulfures est plus nette dans les alignements comptant un nombre élevé
de séquences (au moins 10). Les alignements sont des outils qui représentent l’effet de l’évolution et
les conséquences des mutations ayant aboutit à une famille protéique. Plus la famille est hétérogène, et
plus les acides aminés conservés sont représentatifs et importants pour la fonction biologique et/ou le
maintien de la structure protéique. Une des phases clé de notre étude est la sélection des séquences
depuis les fichiers BLAST résultats. C’est pour constituer des sous-bases de séquences échantillonnées
et représentatives des protéines de structures connues que nous avons développé Extractblast. Ainsi,
avec une procédure de sélection par palier, il est plus facile d’obtenir un échantillon représentatif, non
biaisé, des séquences protéiques apparentées. On obtient une sous-base non redondante, dans laquelle
le but est d’autoriser suffisamment de divergence, tout en maintenant la parenté structurale. Ceci
explique la conservation plus nette des ponts disulfures lorsque les alignements comptent plusieurs
séquences : du fait de la sélection par palier, on a une meilleure représentation de l’effet de l’évolution
sur une protéine ancestrale. Les cystéines qui ne sont pas fondamentales au maintien de la structure ont
116
d’autant plus de chances de disparaître que le nombre de représentants dans la famille protéique est
important. A l’inverse les cystéines clés, sont forcément épargnées. En autorisant donc plus de
divergence, il est plus facile de mettre en évidence les cystéines oxydées, essentielles au maintien de la
structure protéique. Mais trop de divergence peut aussi conduire au calcul d’alignements qui ne sont
pas suffisamment pertinents du point de vue biologique et donc de mauvaise qualité (longues
insertions, insertions mal placées, structure secondaires non conservées…). De ce point de vue, un
travail important reste à fournir pour la validation automatique des alignements multiples. Nous ne
disposons actuellement pas d’outil automatique permettant d’estimer la pertinence biologique et la
qualité d’un alignement multiple.
Ces constatations valables pour les ponts disulfures le sont aussi pour les interactions électrostatiques
et les interactions hydrophobes. En outre c’est dans la divergence que l’on observe une conservation
préférentielle plus marquée des interactions, même si la divergence a un effet moindre dans le cas des
interactions hydrophobes. Il y a plusieurs explications à cela.
Tout d’abord ces interactions ne sont pas aussi fortes que les ponts disulfures. Il est toujours possible
pour une protéine de mettre en place d’autres interactions faibles (interactions hydrophobes,
interactions électrostatiques, liaisons hydrogènes) pour compenser l’absence d’une interaction.
Concernant les ponts salins, Musafia et al. (1995) ont étudié la conservation des ponts salins
complexes (impliquant au moins trois acides aminés différents). Leur étude portait sur 94 protéines de
structures connues. Leurs résultats montrent que la plupart de ces ponts salins complexes ne sont pas
conservés, mais ils sont remplacés par des ponts salins proches ou par d’autres interactions
(interactions hydrophobes et liaisons hydrogène). De plus ces ponts salins font intervenir plusieurs
acides aminés. La disparition d’un ou deux acides aminés ne suffit pas toujours à l’élimination du pont
salin en lui même. Russell & Barton (1994), après avoir étudié la conservation des interactions
électrostatiques sur 607 paires de protéines de structures connues, démontrent que beaucoup des
interactions faibles ne sont pas conservées au sein des paires protéiques, bien que les protéines aient
des structures proches. Leur conclusion est qu’il ne faut pas chercher à expliquer la conservation des
structures tridimensionnelles dans la conservation des acides aminés impliqués dans les interactions,
mais plus par la conservation des caractéristiques globales (enfouissement des acides aminés
hydrophobes, exposition des acides aminés chargés…). Cependant on peut faire une critique à cette
dernière étude : il est difficile de parler de conservation lorsque les alignements ne comptent que deux
séquences protéiques. C’est d’ailleurs cette opinion qui nous à amené à ne considérer que les
alignements comptant au moins quatre séquences.
Une autre explication de la faible conservation relative des interactions est que les structures
protéiques ne sont pas figées, elles sont dynamiques. La dynamique des structures se fait par la
modulation des interactions faibles. Par conséquent certaines interactions peuvent être déterminées
expérimentalement et ne pas persister dans la structure de la protéine, et inversement.
117
Un autre élément à prendre en considération est la polyvalence des acides aminés impliqués dans les
interactions. Pour les interactions électrostatiques : du fait de leur charges, les résidus sont impliqués
dans différents processus : catalyse enzymatique, régulation allostérique, interaction et reconnaissance
avec d’autres partenaires (protéines, acides nucléiques, ligands…). Quant aux acides aminés
hydrophobes, leur conservation peut être due à leur rôle dans la constitution des zones hydrophobes
internes des protéines globulaires. L’exclusion d’eau aboutit à un abaissement de la constante
diélectrique dans cette zone, favorisant les échanges électroniques, phénomènes fréquents dans les
processus de catalyse réactionnelle. Ces acides aminés hydrophobes sont aussi très importants dans les
interactions avec d’autre partenaires, ou avec les membranes biologiques. En conséquence, il n’est pas
possible d’imputer la conservation des acides aminés chargés ou hydrophobes uniquement à leur rôle
structural, puisqu’ils en ont d’autres qui sont tout aussi importants pour les fonctions des protéines.
En plus de l’information des séquences dans les alignements, nous avons essayé d’exploiter
l’information des structures secondaires (obtenues par prédiction à partir des séquences). Nous avons
pu constater (dans le cas des interactions électrostatiques) que la considération des états de structures
secondaires n’améliorent que très légèrement les résultats. Leur apport est donc négligeable. Il
convient de rappeler les paramètres de sélection des séquences à partir des fichier BLAST résultats
pour le calcul des alignements multiples : le seuil de E-value imposé est de 1e-6. Or lorsque l’on a des
séquences trouvées avec des E-value inférieures à ce seuil, les structures secondaires sont conservées.
Pour avoir un réel effet des structures secondaires, il serait bon de réaliser des extractions avec un seuil
plus élevé comme 1e-4 par exemple (le seuil reste à déterminer de façon à optimiser les résultats).
Ceci autoriserait une divergence plus grande des séquences, mais aussi une divergence plus importante
des structures secondaires. Ce sont des conditions plus appropriées pour observer l’effet de la prise en
compte de structures secondaires, puisque les résultats précédents montrent clairement que la
divergence des séquences dans les alignements offre une conservation préférentielle des interactions
plus nette. De la même manière, une plus grande divergence des structures secondaires peut améliorer
les résultats.
Un effort important a été fourni pour réaliser une étude aussi exhaustive et objective que possible.
Nous sommes malgré tout liés à la taille de la PDB et aux critères de sélections des séquences et des
alignements. Néanmoins, nous considérons avoir atteint cet objectif. Les études précédentes sur le
sujet sont beaucoup plus restrictives, ce qui n’empêche pas nos résultats d’être cohérents avec les
études précédentes. Nos résultats apportent des données chiffrées aux grands principes généraux qui
restent valables.
Un paramètre important de notre étude sur les interactions est l’accessibilité des acides aminés. En
effet, la conservation des interactions electrostatiques est particulièrement importante pour les acides
aminés enfouis au cœur des protéines. Ceci est probablement dû à la nature déstabilisante des charges
isolées dans le cœur des protéines, du fait de l’absence des molécules d’eau et du phénomène d’écran
dont elles sont à l’origine. L’accessibilité est le paramètre le plus concluant puisque c’est en
118
considérant l’accessibilité des interactions et des paires témoins que les variations de conservation sont
les plus importantes. Néanmoins, ce paramètre conduit à restreindre les effectifs, nous obligeant à
considérer les résultats avec soin : il est difficile de généraliser, même si nos résultats sont cohérents
avec les données de la littérature (résumées ci-dessous). L’accessibilité reste probablement le
paramètre le plus important dans le cadre du développement d’un algorithme prédictif. La corrélation
entre l’accessibilité des résidus et la conservation des interactions électrostatiques dans les alignements
multiples a fait l’objet d’autres travaux. Schueler & Margalit (1995) ont réalisé leur étude sur 8
familles de protéines de structures connues. L’études des ponts salins conservés et des ponts salins non
conservés dans les structures n’a révélé aucune différence de conservation dans les alignements
multiples, même en considérant les éléments de structures secondaires impliqués. Toutefois, ils ont
mis en évidence le fait que la conservation des interactions électrostatiques dans les alignements
multiples est d’autant plus forte que les acides aminés impliqués sont enfouis. Cette constatation est
aussi retrouvée dans les travaux de Fiser & Simon (1996) portant sur 81 protéines de structures
connues. Cependant, ces travaux s’attardent plus sur la conservation individuelle des acides aminés
plutôt que sur la conservation des interactions. Enfin, concernant l’accessibilité, plusieurs expériences
de mutations, ont montré que les ponts salins en surface ont un rôle mineur dans la stabilité des
structures protéiques (Horovitz et al., 1990 ; Sali et al., 1991). Ainsi, si les interactions en surface ne
sont pas essentielles, elles peuvent disparaître sans trop de conséquences pour la stabilité protéique.
Quant aux interactions hydrophobes nous avons retrouvé des notions déjà démontrées. La
première est la propension des acides aminés hydrophobes à fuire le solvant pour se retrouver dans les
zones enfouies des protéines, allant dans le sens de travaux de calorimétrie à haute résolution, de
mutagénèses dirigées (Matsumura et al., 1988 ; Kellis et al., 1989), de mécanique statistique (Wertz &
Schegara, 1978 ; Guy, 1985) ou encore d’étude de conservation des résidus topohydrophobes dans les
familles structurales (Poupon & Mornon, 1998). Une autre observation cohérente avec les données de
la littérature, concerne la bonne conservation du caractère hydrophobe indépendamment de
l’accessibilité des résidus (Ladunga & smith, 1997 ; Lawrence et al., 1987), puisque nous avons
montré que l’accessibilité n’a qu’une influence négligeable sur la conservation des interactions
hydrophobes.
Un élément n’a pas été pris en compte lors de l’étude de la conservations des interactions : le
nombre d’acides aminés qui séparent les acides aminés impliqués dans les interactions. De ce point de
vue, l’étude de Brocchieri & Karlin (1995) montrent qu’il y a une corrélation entre la distance des
acides aminés impliqués dans les interactions et leur accessibilité : les acides aminés enfouis en
interaction sont généralement éloignés c’est à dire séparés au minimum de 20 acides aminés voire au
delà de 50 résidus (interactions hydrophobes). Inversement pour les interactions de surfaces
(interactions électrostatiques) qui sont formées d’acides aminés proches : séparés de 1 à 4 acides
aminés.
119
Concernant l’étude des glycines, nous avons montré que lorsque celles-ci sont dans les zones
défavorables du diagramme de Ramachandran, elles ont tendance à être plus conservées dans les
alignements multiples. Et ceci est d’autant plus vrai que les séquences des alignements divergent.
Cependant, la conservation de ces glycines n’est pas aussi importante que nous l’espérions : ces
résidus dans les zones interdites du diagramme de Ramachandran sont difficilement remplaçables. Dès
lors comment peut-on expliquer que la différence de conservation entre les glycines dans les zones
défavorables du diagramme et les glycines témoins soit aussi faible ? De récents travaux de Pal &
Chakrabarti (2002) apportent certaines précisions à ce sujet. Ces glycines peuvent être remplacées par
des résidus tels que Ser, Asn, Thr et Cys qui se situent en bordure d’hélice ou de feuillet et sont
généralement pris dans des interactions faibles, expliquant l’adoption de couples (Φ,Ψ) dans les zones
défavorables du diagramme.
Dans cette étude des acides aminés à rôle structural, nous retrouvons un caractère
particulièrement important qui est la divergence des séquences. Il convient donc d’essayer de mettre à
profit ce critère pour l’étude des séquences protéiques, de façon à en tirer autant d’informations
structurales que possible.
2.5. Perspectives
Ce travail montre que les alignements multiples de séquences contiennent de l’information, et
représente des outils qui peuvent aider à mieux exploiter les séquences protéiques afin d’en tirer autant
d’informations structurales que possible. Nous avons mis en évidence la tendance des acides aminés
particuliers pour la structure (en interaction et glycine dans les zones interdites) à être plus conservés
que leurs homologues lorsqu’ils n’ont pas ce rôle structural. Cependant ces résidus n’ont pas toujours
uniquement ce rôle structural, expliquant que ces conservations ne sont pas exploitables pour la mise
au point d’algorithmes prédictifs, qui permettrait à partir d’une séquence de prédire les positions en
interaction.
Une constatation particulièrement intéressante qui ressort de ce travail est que la divergence
favorise la conservation des acides aminés clés pour la structure protéique. Il est intéressant de pouvoir
exploiter des alignements de séquences apparentées aussi divergentes que possibles. Il faut donc être
capable de constituer de tels alignements et de disposer de moyen de valider ces familles structurales à
bas taux d’identité. De ce point de vue, les outils de validation automatique manquent. Une première
perspective est de développer un tel outil. C’est ce qui sera exposé dans la suite de ce rapport.
Une autre perspective intéressante, consiste à voir s’il est possible (bien que ne pouvant
développer un algorithme prédictif des interactions), de trouver des interactions par comparaisons. La
méthode consisterait à prendre en compte les informations contenues dans la PDB, sous la forme
d’une base de données d’interactions comme celle constituée lors de ce travail. Sont réalisées, à partir
120
d’une séquence, toutes les paires de résidus de charges opposées, ou de résidus hydrophobes. Ensuite
en prenant en compte l’accessibilité prédite, la distance entre les résidus, les structures secondaires
prédites d’essayer de retrouver des interactions dans la base précédemment constituée. En croisant les
résultats pour les interactions hydrophobes, les interactions électrostatiques, voir les liaisons
hydrogènes, il devrait être possible de repérer des protéines de la PDB correspondantes pour tous les
types d’interactions. Le système aurait l’avantage d’être rapide et d’être indépendant des séquences.
Les applications peuvent être diverses : amélioration de la qualité des modèles et des outils de
modélisation, validation des alignements multiples structuraux. Un autre champ d’application peut être
la recherche d’empreinte à bas taux d’identité. L’un des problèmes qui se pose est que pour la
recherche d’une empreinte structurale, la première étape est systématiquement une recherche
d’homologie sur la base des séquences à l’aide d’outils tels que BLAST ou FASTA. Nous sommes
contraints de passer par les séquences et donc limités par les possibilités de détection de ces
programmes de recherche d’homologie. Certes, l’utilisation d’autres informations en aval de ces
programmes, comme les structures secondaires prédites, permet de discriminer à bas taux d’identité
entre homologues structuraux et faux positifs. Malgré tout, la première étape de recherche de similarité
sur la base des séquences reste le facteur limitant. Une recherche d’homologie, sur la base de la
conservation des interactions tridimensionnelles (même prédites), pourrait permettre dans certains cas
de s’affranchir des limitations des programmes comme BLAST ou FASTA et de détecter des
homologues que ces programmes ne détectent pas à partir des séquences. Ceci peut s’avérer
particulièrement intéressant dans le cas de modélisation moléculaire par threading ou par homologie
notamment pour les protéines dites « orphelines » (qui n’ont pas d’homologue structuraux après
recherche sur la base des séquences). Tout la question est de savoir dans quelle mesure un tel outil
peut être mis au point et dans quelle mesure il est possible de faire confiance à l’utilisation d’un tel
outil.
121
122
3. Validation des familles structurales à bas taux d’identité, à l’aide
d’alignements multiples et des prédictions de structures
secondaires. La classification des protéines sur la base de leur séquence est un moyen est très fiable pour
caractériser les protéines. Cependant, cette stratégie est limitée par la divergence des séquences.
Etablir la parenté entre les protéines d’après les séquences n’est possible que lorsque la similarité est
au minimum de 25%. Dans le cas contraire, les séquences ne suffisent pas pour établir les relations
biologiques entre les protéines. A bas taux d’identité, Geourjon (et al., 2001) ont montré que l’étude
de la compatibilité des structures secondaires peut être utilisé pour la comparaison de deux séquences
(§1.2.2.3 page 39). Nous avons voulu étendre l’observation aux alignements multiples à forte
divergence, composés de séquences présentant de faibles similarités. Ces alignement très divergents ne
sont pas toujours pertinents du fait de la présence de séquences non reliées aux autres du point de vue
biologique. Il serait profitable de pouvoir détecter une séquence intruse dans les alignements
multiples, lorsque les taux d’identité entre cette séquence et les autres ne permettent pas d’établir une
discrimination fiable. Nous avons développé un moyen automatique pour valider les familles
structurales de protéines au sein d’alignements multiples à bas taux d’identité (10 à 30%). Notre
méthode consiste à analyser l’accord des structures secondaires prédites sur les séquences alignées.
Nous montrons qu’il est alors possible de détecter au sein d’un alignement multiple à bas taux
d’identité les séquences n’ayant pas de lien structural avec les autres séquences de l’alignement, et
ainsi de valider les familles structurales à bas taux d’identité.
3.1. Matériel et méthodes.
3.1.1. Stratégie.
Est ce que le paramètre de compatibilité de structure secondaire SOV (Structural OverLap ; Rost
et al., 1994) peut efficacement permettre la validation des familles structurales à bas taux d’identité ?
Quelle est la limite d’utilisation de ce paramètre ? Pour répondre à ces questions, nous avons
développé une stratégie qui consiste à comparer le SOV calculé sur des alignements de référence. Ce
SOV est comparé à un SOV témoin, calculé sur des alignements témoins. Pour chacun des
alignements de référence, nous avons procédé en trois étapes. Les alignements témoins sont obtenus à
partir des alignements de référence, dans lesquels une séquence est modifiée, par brassage aléatoire, de
sorte qu’elle ne soit pas reliée aux autres séquences du point de vue biologique. Ensuite les structures
123
secondaires sont prédites sur les séquences alignées. Enfin les paramètres SOV sont calculés et
comparés par le calcul d’une différence corrigée : ∆SOV.
3.1.2. Alignements de référence.
Les alignements de référence sont des alignements structuraux. L’alignement structural est plus
pertinent du point de vue biologique lorsque le taux d’identité est bas, puisqu’il est obtenu après
superposition des structures tridimensionnelles, assurant un alignement optimal des séquences de sorte
que la structure, et éventuellement la fonction soient conservées. Deux sources principales
d’alignements structuraux ont été utilisées : la base SSSD (Friedberg et al., 2000) et BAliBASE (Bahr
et al., 2001).
3.1.2.1. SSSD
La base SSSD est obtenue à partir de la base de données d’alignements structuraux DAPS (Distant
Aligned Protein Sequences, Rice et Eisenberg, 1998 ; URL 25). SSSD contient 126 paires de
structures alignées ayant en moyenne 12% d’identité de séquence (8 à 13%) et ayant plus de 30
résidus, avec des taux de gap variables (0 à 60%). Ces alignements incluent des structures protéiques
déterminées avec une résolution minimale de 3.5 Å. La similarité entre les séquences pour chacune des
126 paires de séquences alignées est en dessous du seuil de détection de l’algorithme de
programmation dynamique de Smith & Waterman.
3.1.2.2. BAliBASE
BAliBASE (version 1.0) est une base d’alignements structuraux multiples contenant 5 groupes
d’alignements ou références constitués de 142 alignements structuraux (Table 18). Les alignements de
la référence 1 contiennent des séquences de longueurs proches, équi-distantes du point de vue de leur
similarité, et le pourcentage d’identité des séquences deux à deux se situe dans un intervalle précis.
Les alignements de la référence 2 contiennent des séquences très proches ayant au minimum 25 %
d’identité par paire, ainsi que des séquences « orphelines » qui sont reliées à la famille protéique du
point de vue de leur structure, mais avec des séquences divergentes puisqu’elles ont au maximum 20%
d’identité avec les autres séquences de l’alignement. Les alignements de la référence 3 contiennent
jusqu’à quatre familles protéiques par alignement avec un maximum de 25% d’identité entre deux
séquences provenant de différentes familles. Les références 4 et 5 contiennent des alignements
présentant des longues extensions aux extrémités N-terminales ou de longues insertions aux extrémités
C-terminales. Toutes ces références ont été crées dans le but de couvrir la plupart des cas biologiques
et des difficultés que peuvent rencontrer les programmes d’alignement, offrant ainsi des alignements
124
« tests » pour apprécier la qualité des programmes d’alignements multiples (Karplus & Hu, 2001 ;
Thompson et al., 1999).
Table 18 : status de BAliBASE version 1.0. Nombre d’alignements dans chaque référence. (source :
Thompson et al., 1999). Pour chaque alignement, le taux de gaps moyen est calculé pour chacune des
séquences. Cette moyenne est obtenue à partir de toutes les paires possibles entre cette séquence et toutes les
autres de l’alignement. Si le taux de gap moyen est supérieur à 30%, la séquence est éliminée de l’étude (les
paramètres SOV calculés avec ces paires ne sont pas considérés).
Ces deux sources d’alignements structuraux ont été utilisées car elles sont complémentaires. En
effet, les alignements SSSD présentent des alignements de deux séquences avec des taux d’identité
relativement constants et des taux de gap variables, ce qui permettra de connaître l’influence du taux
de gap sur le pouvoir discriminant du paramètre SOV. Les alignements de BALiBASE quant à eux
permettront d’étudier la corrélation qu’il existe entre le taux d’identité des séquences et le paramètre
SOV au sein d’un alignement multiple.
3.1.3. Compatibilité des structures secondaires
La compatibilité des structures secondaires a été déterminée par le calcul du paramètre SOV
(§1.2.2.3 page 39).
3.1.4. Prédiction des structures secondaires
Le calcul du paramètre SOV nécessite de disposer des structures secondaires des séquences
protéiques. Celles-ci ont été déterminées par l’utilisation de trois méthodes prédictives : SOPMA
(Geourjon & Deleage, 1995), DSC (King et al., 1997) et PHD (Rost et al., 1994). L’utilisation de
Référence 1 <100 residus 200<300 residus >500 residus Taux de gap (%) Séquences éliminéesId<25% (set1) 7 8 8 11.27 +/- 5.60 0
20<Id<40% (set2) 10 9 10 11.44 +/- 6.79 0Id>35% (set3) 10 10 8 12.09 +/- 6.89 0
Référence 2 9 8 7 10.69 +/- 5.03 0
Référence 3 5 3 5 17.25 +/- 5.72 0
Extensions (ref. 4) Insertions (ref. 5)Alignements 12 12
Taux de gaps 22.12 +/- 4.03 16.00 +/- 5.92Séquences éliminées 73 16
Nombre d’alignements
125
plusieurs méthodes de prédiction basées sur des théories totalement différentes permet de dégager une
prédiction consensus dans laquelle les accords entre les méthodes sont généralement plus conservés
que les désaccords. La prédiction finale obtenue est plus cohérente, puisque en tenant compte de
théories différentes, on y retrouve les prédictions identiques ou proches données par toutes les
méthodes.
Table 19 : qualité de prédiction des méthodes de prédiction des structures secondaires. Q3 est la qualité de
prédiction lorsque trois états sont considérés (Hélice, feuillets, Coil).
3.1.5. Calculs des alignements témoins et des paramètres SOV
Les alignements témoins sont générés à partir des alignements de référence, et contiennent une
séquence « intruse », qui n’a aucun lien biologique avec les autres séquences de l’alignements. Dans le
cas des paires alignées de SSSD, chaque alignement permet d’obtenir deux groupes d’alignements
témoins. Le premier groupe d’alignements contient la séquence 1 native et la séquence 2 modifiée.
Celle-ci est obtenue en attribuant, de façon aléatoire, les positions aux acides aminés qui constituent la
séquence 2, en conservant les pourcentages d’identité et de gap entre les deux séquences. Le but de
cette étape vise à éliminer la parenté structurale entre les séquences. Cette opération est réalisée trois
fois, donnant lieu à un premier groupe de trois alignements. Le deuxième groupe d’alignements
témoins est construit de la même manière, avec les séquences 1 modifiées et les séquences 2 natives.
Le paramètre SOV est calculé sur les six paires d’alignements témoins et pour l’alignement réel. Ce
procédé est appliqué à tous les alignements de SSSD.
Méthode de prédiction Coil Hélice Feuillet Moyenne
SOPMA 75.5 75.3 62.1 72.5DSC 78.0 64.5 56.2 68.5PHD 74.9 74.3 64.8 72.5SOPMA-DSC-PHD* 80.1 72.9 59.4 72.8*Prédiction consensus basée sur les trois autres méthodes, calculée sur NPS@ (Combet et al. , 2000)
Q3 %
126
Figure 43: calculs des paramètres SOV réels, des alignements témoins et des paramètres SOV témoins. Les
séquences aléatoires (pointillés) sont obtenues par brassage aléatoire d’une séquence de l’alignement de
référence (trait plein). Lors du brassage, les taux de gap et d’identités doivent rester constants. Pour chaque
séquence, l’opération est répétée trois fois, pour compenser l’effet du hasard. Ainsi, pour chaque alignement de
SSSD, on obtient six alignements témoins. Les structures secondaires sont prédites, et les paramètres SOV sont
calculés.
Le SOV témoin moyen obtenu avec les alignements témoins est comparé au SOV réel moyen obtenu
avec les alignements SSSD, par le calcul de la différence corrigée :
Avec SOVréel : la moyenne des SOV sur les alignements réels ; σSOVréel : l’écart-type sur SOVréel ;
SOVtémoin : la moyenne des SOV sur les alignements témoins ; σSOVtémoin : l’écart-type sur SOVtémoin.
Le même processus est appliqué aux alignements multiples de BAliBASE (Figure 44). Pour
chaque alignement multiple, le paramètre SOV réel est calculé pour toutes les paires de l’alignement,
il est comparé au SOV témoin obtenu à partir de toutes les paires témoins possibles, dans lesquelles
une séquence à été modifiée de façon aléatoire. Ainsi pour un alignement multiple de n séquences, on
obtient au total n(n-1) paires témoins possibles. Ces paires sont recalculées trois fois, soit un total de
3n(n-1) paires témoins sur lesquelles un SOV témoin moyen est calculé.
)SOV(SOVSOV SOVtémoinSOVréeltémoinréel σ+σ+−=∆
Séquence 1Séquence 2
Alignement SSSD de référence
Séquence 2aSéquence 1
Séquence 1Séquence 2b
Séquence 1Séquence 2c
Séquence 1bSéquence 2
Séquence 1aSéquence 2
Séquence 1cSéquence 2
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOV1_2a
SOV1_2b
SOV1_2c
SOV2_1a
SOV2_1b
SOV2_1c
Sov témoinEcartype
Sov réelEcartype
Attribution aléatoire des positions aux acides aminés de la séquence 1 et 2 en conservant lestaux d’identité et de gap constants.
Séquence 1Séquence 2
Alignement SSSD de référence
Séquence 2aSéquence 1
Séquence 1Séquence 2b
Séquence 1Séquence 2c
Séquence 1bSéquence 2Séquence 1bSéquence 2
Séquence 1aSéquence 2 Séquence 1aSéquence 2
Séquence 1cSéquence 2 Séquence 1cSéquence 2
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOPMADSCPHD
SOV1_2a
SOV1_2b
SOV1_2c
SOV2_1a
SOV2_1b
SOV2_1c
SOV1_2a
SOV1_2b
SOV1_2c
SOV2_1a
SOV2_1b
SOV2_1c
Sov témoinEcartype
Sov réelEcartype
Attribution aléatoire des positions aux acides aminés de la séquence 1 et 2 en conservant lestaux d’identité et de gap constants.
127
Figure 44 : obtention des alignements témoins avec un alignement multiple de BAliBASE . La séquence en
pointillés est obtenue par brassage aléatoire, en conservant les taux de gap et d’identité constants avec la
séquence en trait foncé. La séquence en trait clair est ignorée. L’opération est réalisée avec toutes les paires
possibles. Pour chaque paire, l’opération est répétée 3 fois.
3.2. Résultats
Grâce à la complémentarité des bases d’alignements de référence, nous avons pu étudier l’effet du
taux de gap sur le pouvoir discriminatoire du paramètre SOV (SSSD). Nous avons ensuite mis en
évidence l’effet du taux d’identité dans les alignements multiples sur les valeurs de SOV (BAliBASE).
Nous avons ainsi pu déterminer les limites d’utilisation du paramètre SOV ainsi que son apport sur des
alignements multiples de séquences protéiques pour aider à valider les familles structurales à bas taux
d’identité
3.2.1. Comparaison des SOV réels et des SOV témoins
3.2.1.1. SSSD
Afin de déterminer l’influence du taux de gap dans les paires de séquences, la différence corrigée
∆SOV est représentée en fonction du taux de gap dans les alignements (Figure 45).
123
3séquence ignorée2séquence brassée
Gaps et Identité constants entre
1 et 2
séquence réelle123
séquence brassée
séquence ignorée
123
entre 2 et 1 entre 2 et 3
séquence réelle
123
séquence ignorée123
séquence brasséeentre 3 et 1 entre 3 et 2
123
Gaps et Identité constants entre
1 et 3
séquence réelle 1Sov1_3
Sov2_3
Sov3_2
Sov1_2
Sov2_1
Sov3_1
Alignement mutliple de BAliBASE
n=3 séquences
n(n-1)X3 = 18 alignements témoins
123
123
3séquence ignorée 3séquence ignoréeséquence ignorée2séquence brassée
Gaps et Identité constants entre
1 et 22séquence brassée
Gaps et Identité constants entre
1 et 2
séquence réelle123
séquence brassée
séquence ignorée
123
entre 2 et 1 entre 2 et 3séquence réelle123
séquence brassée
séquence ignorée
123
entre 2 et 1 entre 2 et 3123
123
séquence brassée
séquence ignorée
123
123
entre 2 et 1 entre 2 et 3
séquence réelle
123
séquence ignorée123
séquence brasséeentre 3 et 1 entre 3 et 2
séquence réelle
123
123
séquence ignorée123
123
séquence brasséeentre 3 et 1 entre 3 et 2
123
Gaps et Identité constants entre
1 et 3
123
123
Gaps et Identité constants entre
1 et 3
séquence réelle 1séquence réelle 1Sov1_3
Sov2_3
Sov3_2
Sov1_2
Sov2_1
Sov3_1
Sov1_3
Sov2_3
Sov3_2
Sov1_3
Sov2_3
Sov3_2
Sov1_2Sov1_2
Sov2_1Sov2_1
Sov3_1Sov3_1
Alignement mutliple de BAliBASE
n=3 séquences
n(n-1)X3 = 18 alignements témoinsn(n-1)X3 = 18 alignements témoins
128
Figure 45 : valeurs de SOV pour SSSD. A) SOVréel (carrés) et SOVtémoin (cercles) sur les alignements de
référence de SSSD et les alignements témoins (Figure 43). B) Comparaison à l’aide de la différence
corrigée ∆∆∆∆SOV.
Il apparaît une différence significative entre les SOV réels et les SOV témoins. Il est possible à
l’aide du paramètre SOV de discriminer, dans une zone de 8 à 13% d’identité, les paires de séquences
biologiquement reliées de celles qui ne le sont pas jusqu’à un taux de gap de 30%. Au delà, ∆SOV
n’est plus suffisant pour permettre une discrimination fiable. Nous remarquons aussi que ∆SOV est
d’autant meilleur que le taux de gap est faible, ce qui est compréhensible dans la mesure où, il n’est
pas possible de d’affecter une structure secondaire à un gap. En présence de gaps, le SOVréel diminue
rendant ∆SOV trop faible pour être discriminant.
3.2.1.2. BAliBASE
L’étude des variations du paramètre SOV sur les paires de séquences de SSSD nous a permis de
définir un seuil maximum de gap à 30%. Ce seuil est appliqué aux alignements de BAliBASE. Pour
chaque alignement, et pour chacune des séquences, le taux de gap moyen entre cette séquence et les
autres séquences de l’alignement est calculé. Pour les séquences des alignements des références 1 à 3,
ce taux de gaps moyen est inférieur à 30%. Ces séquences sont donc toutes incluses dans l’étude. Les
extensions dans les alignements de la référence 4 nous ont conduit à écarter 73 séquences (la référence
4 comptent 108 séquences dans 12 alignements). Pour ces 73 séquences le taux de gap moyen est
supérieur à 30%. De même pour la référence 5 (qui compte 100 séquences dans 12 alignements), nous
avons écarté 16 séquences de notre étude. Au total ce sont que 92 % de l’effectif de BAliBASE qui
présentent un taux de gap inférieur à 30% (Table 18 page 124) et qui ont donc été utilisés dans notre
étude.
BAliBASE, en fournissant des alignements représentatifs de divers cas biologiques, sous la forme
d’alignements multiples ayant des taux d’identité variables, nous a permis d’étudier les possibilités
discriminatoires du paramètre SOV en fonction des taux d’identité des alignements multiples. Nous
avons pu constater pour toutes les références qu’au dessus de 30 à 40% d’identité, le paramètre SOV
0102030405060708090
100
0 10 20 30 40 50 60 70
SOV
%
SOVréel et SOVtémoin pour SSSD
Taux de gap (%)
A
02468
1012141618
0 10 20 30 40 50 60 70
sov
%
∆∆∆∆SOV pour SSSD
Taux de gap (%)
B
129
ne permet plus de distinguer de façon fiable, au sein d’un alignement multiple, la présence d’une
séquence « intruse » n’ayant pas de lien biologique vrai avec le reste des séquences de l’alignement
(Figure 46-A). Notons aussi que le pouvoir de discrimination du paramètre SOV est d’autant plus fort
que le taux d’identité est faible, ∆SOV passe de 17% à 10% d’identité de séquence pour descendre à
9% lorsque l’identité est de 40% (Figure 46-A). Cette tendance générale que l’on observe pour tous les
alignements de BAliBASE se retrouve aussi sur les références considérées de façon individuelle, avec
néanmoins certaines variations. Nous constatons notamment que de ∆SOV tend à s’atténuer plus
rapidement pour la référence 1 (Figure 46-B,C,D) puisque à 40% d’identité, ∆SOV est de 1,3%, alors
qu’il est de l’ordre de 15% pour les références 2 et 3 (Figure 46-E,F), 7% pour la référence 4 et enfin 5
% pour la référence 5 (Figure 46-G,H). Finalement, la courbe obtenue avec BAliBASE dans son
ensemble (Figure 46-A), peut servir de courbe de calibration de ∆SOV identité-dépendante.
Lorsqu’une séquence présente un taux d’identité moyen dans alignement multiple, pour prédire cette
séquence comme reliée aux autres, celle-ci doit avoir un ∆SOV calculé supérieur à celui donné par la
courbe étalon de BAliBASE, au même taux d’identité. Dans le paragraphe suivant, un exemple illustre
l’utilisation de cette courbe et l’efficacité des prédictions du paramètre SOV.
130
Figure 46: représentations graphiques de ∆∆∆∆SOV en fonction de l’identité moyenne entre les séquences
deux à deux.
-1 0
-5
0
5
1 0
1 5
2 0
2 5
3 0
3 5
0 1 0 2 0 3 0 4 0 5 0 6 0 7 0
∆∆ ∆∆So
v
-10
-5
0
5
10
15
20
25
0 10 20 30 40 50 60 70
∆∆ ∆∆So
v
0
2
4
6
8
10
12
14
16
18
0 5 10 15 20 25 30 35 40 45
∆∆ ∆∆So
v
0
2
4
6
8
10
12
14
16
18
20
0 10 20 30 40 50 60 70
∆∆ ∆∆So
v
0
5
10
15
20
25
0 10 20 30 40 50 60
∆∆ ∆∆So
v
0
2
4
6
8
10
12
14
0 5 10 15 20 25 30 35 40 45
Sov
0
2
4
6
8
10
12
14
16
18
20
0 5 10 15 20 25 30 35 40 45
∆∆ ∆∆So
v
0
2
4
6
8
10
12
14
16
18
20
0 10 20 30 40 50 60 70
∆∆ ∆∆So
v
A B
C D
E F
G H
Référence 1 – set 1 BAliBASE
Identité (%) entre les séquences 2à 2
Référence 1 – set 2 Référence 1 – set 3
Référence 2 Référence 3
Référence 4 Référence 5
Identité (%) entre les séquences 2à 2
Identité (%) entre les séquences 2à 2 Identité (%) entre les séquences 2à 2
Identité (%) entre les séquences 2à 2 Identité (%) entre les séquences 2à 2
Identité (%) entre les séquences 2à 2 Identité (%) entre les séquences 2à 2
131
3.3. Exemple d’application biologique
Afin de vérifier concrètement l’utilité du paramètre SOV pour valider les familles structurales à
bas taux d’identité nous avons choisi de démontrer l’efficacité du paramètre SOV, en utilisant PSI-
BLAST (Altschul et al., 1997 ; § 1.2.2.2 page 39). Ce programme est reconnu pour être l’outil de
recherche d’homologues distants, basé sur les séquences, le plus performant. Ce programme est donc
le candidat idéal pour comparer les résultats et démontrer l’efficacité du paramètre SOV.
La protéine Q925W1 est un inhibiteur de protéase à serine de 346 résidus. Une recherche
d’homologie est effectuée à l’aide de PSI-BLAST (version 2.2.1) dans la base de données TrEMBL
(version 70). Toutes les séquences trouvées dans le dernier « run » (#4) sont sélectionnées si elles sont
trouvées avec une E-value supérieure à 0,01, et si elles présentent une région commune d’au moins
150 résidus entre les positions 30 et 200 de la protéine Q925W1. Ce sont donc les séquences les plus
divergentes qui sont sélectionnées, séquences pour lesquels les paramètres statistiques ne permettent
pas de se prononcer sur la parenté entre ces protéines et la protéine Q925W1. Toutes ces séquences
sont alignées, les structures secondaires sont prédites et les paramètres SOV et ∆SOV sont calculés
(Table 20).
Lorsque la E-value est élevée (0,01 à 10), il n’est pas possible d’établir le lien biologique entre
les protéines en se basant sur les E-values ou sur les taux d’identités. Ceci est particulièrement vrai
pour la protéine Q9UZM4, trouvée avec une E-value de 0,18, alors que les prédictions du paramètre
SOV identifient clairement cette protéine comme non reliée à la famille biologique de Q925W1. En
effet, en appliquant un SOV seuil de 60% il est possible d’établir la parenté structurale entre des
protéines, même à bas taux d’identité (Geourjon et al., 2001). Or Q9UZM4 présente un SOV moyen
calculé (sur les séquences de l’alignement multiple) de 40%, elle n’est donc pas reliée à la famille de
Q925W1. Ceci illustre le fait que le paramètre SOV est utilisable sur des alignements multiples. De
plus, les valeurs de ∆SOV, étayent cette prédiction. Pour Q9UZM4, ∆SOV est de 11 et le pourcentage
d’identité moyen pour cette séquence dans l’alignement multiple est de 11%. Or à 11% d’identité, le
seuil minimum de ∆SOV (déterminé avec BAliBASE) est de 17. Par conséquent, Q9UZM4 ne
présente pas un ∆SOV suffisant pour être rattachée à la famille de Q925W1. Par ailleurs, il est
possible d’effectuer une comparaison entre Q9UZM4, Q29014 et Q9AU61, puisque ces trois protéines
ont des taux d’identité moyens quasi-identiques, de l’ordre de 10% (Figure 47). Nous pouvons
constater que Q29014 et Q9AU61 présentent des valeurs de ∆SOV supérieures au seuil minimum.
Elles sont donc prédites comme reliées à la famille de Q925W1. Il est important de noter que les
valeurs de E-values pour ces protéines sont supérieures à celle de Q9UZM4. D’un point de vue
statistique, selon PSI-BLAST, ces deux protéines ont moins de chances d’être liées à Q925W1 que
Q9UZM4. Malgré cela, les prédictions du paramètre SOV affectent correctement la parenté à chacune
132
des protéines, démontrant toute l’efficacité et l’utilité de ce paramètre. Les prédictions du paramètre
SOV, sont appuyés par les résultats obtenus avec SCOP (version 1.59).
Table 20 : SOV et ∆∆∆∆SOV pour les protéines sélectionnées à l’issue de la recherche PSI-BLAST (version
2.2.1). La protéine requête est Q925W1. La base de données de recherche est TrEMBL (version 70). Le sigle Id
(colonne 5) représente l’identité moyenne d’une séquence avec les autres séquences de l’alignement multiple.
Les protéines sont alignées à l’aide de ClustalW (version 1.8), les paramètres SOV sont calculés sur le serveur
NPS@. La seuil minimum de ∆SOV est déterminé en utilisant la courbe de calibration de BAliBASE (Figure 47-
A). Toutes les protéines, à l’éxception de Q9UZM4, sont prédites comme reliées à Q925W1, puisque les valeurs
de ∆SOV sont supérieures au seuil minimal de BAliBASE. Q9UZM4, Q29014, Q9AU61 (gras) présentent une
identité moyenne de 10% dans l’alignement multiple. Q29014 et Q9AU61 sont prédites comme reliée. Il faut
aussi remarquer que ces protéines sont trouvées avec des E-values plus élevées que Q9UZM4. Les résultats de
SCOP (version 1.59 ; URL 14) permettent de vérifier la cohérence des prédictions du paramètre SOV.
Ces résultats démontrent que les structures secondaires prédites, aident à détecter les intrus dans un
alignements multiples, même lorsque les taux d’identité entre les séquences sont faibles. En
conséquences, le paramètre SOV est un outil qui permet la validation de familles structurales à bas
taux d’identité à l’aide de prédictions fiables et pertinentes, avec une réelle signification biologique.
Ces prédictions peuvent être réalisées sur le serveur d’analyse de séquence NPS@ (URL 28).
Nom Psi-Blast Evalue
Psi-Blast Identité Overlap Sov ∆∆∆∆ Sov Seuil minimal
∆∆∆∆ Sov (BAliBASE) SCOP classification
Q925W1 23 60 19 15,5 Réliée LipocalinQ9DBJ9 1E-106 95 349 23 58 16 15,5 LipocalinQ40251 0,022 16 167 49 62 9 4,5 LipocalinQ40593 0,14 14 196 50 70 15 4 Reliée LipocalinQ39249 0,15 15 181 51 67 15 3,9 Reliée Lipocalin
Q9UZM4 0,18 11 177 11 40 11 17,1 Non Reliée
P-LOOP nucleotide
triphosphate hydrolase
AAL83562 0,26 15 194 52 71 17 3,8 Reliée LipocalinQ9SM43 1,2 14 191 50 71 17 4 Reliée LipocalinQ29014 2,8 13 168 9 59 30 17,5 Reliée Lipocalin
AAL67858 3,3 16 197 52 70 13 3,8 Reliée LipocalinQ9AU61 7,9 14 173 12 69 21 17 Reliée Lipocalin
(Requête)
Id
Réliée Réliée
Prédiction
133
Identité (%)
0 0 10 20 30 40 50 60 70
1 e - 106
0.022
0,14 0.15
2.8
R 7.9
3.3
0.18
1.2 0.26
30
25
5
10
20
15
Courbe de Calibration BAliBASE
∆ SOV
Figure 47 : ∆∆∆∆SOV pour les séquences de l’alignement multiple accompagnée de leur E-value donnée par
PSI-BLAST (R = Requête). ▲ = séquence predite non reliée avec ∆SOV et trouvée avec PSI-BLAST ; ● =
séquence prédite reliée avec ∆SOV.
3.4. Discussion
Il a été précédemment montré que l’information apportée par les structures secondaires permet
d’identifier des protéines homologues sur le plan de leur structure avec des séquences relativement
divergentes (Geourjon et al., 2001). C’est par le biais du paramètre SOV qu’il est possible de
discriminer les paires de séquences reliées sur le plan biologique, de celles qui ne le sont pas lorsque
leur identité est de l’ordre de 10 à 20%. L’information apportée par le paramètre SOV est utilisée
essentiellement lors d’approches structurales, dans le domaine de la modélisation moléculaire, que ce
soit par homologie à bas taux d’identité (Geourjon et al., 2001) ou par les techniques de threading
(Jones et al., 1999).
Notre étude sur la base de données SSSD, contenant des paires de séquences alignées ayant entre 8 et
13% d’identité, confirme le pouvoir discriminatoire du paramètre SOV. Par ailleurs, nous avons pu
constater sur les paires de séquences de SSSD, que le domaine de validité du paramètre s’étend
jusqu’à 30% de gaps, offrant une plage d’utilisation très confortable. S’il est indéniable que le
paramètre SOV est un outil particulièrement intéressant pour la comparaison de deux séquences, il n’a
jamais été mis à profit dans les alignements multiples de séquences. Ici nous proposons une nouvelle
application des informations apportées par la compatibilité des structures secondaires au sein
d’alignements multiples à bas taux d’identité de séquences. En effet l’étude des alignements de
BAliBASE montre que le paramètre SOV permet de détecter, au sein d’un alignement multiple à bas
134
taux d’identité, la présence d’une séquence n’ayant pas de lien biologique avec le reste des séquences
de l’alignement. Cette détection est d’autant plus facile que le taux d’identité est bas, et elle devient
plus difficile lorsque le taux d’identité dépasse 30%. Cette limite supérieure n’est pas réellement un
inconvénient, puisqu’il est difficile de concevoir que deux protéines partageant 30% d’identité aient
des structures différentes. Par ailleurs cette limite est aussi attribuable aux conditions expérimentales.
En effet, les alignements témoins sont obtenus par modification aléatoire des positions au sein d’une
séquence témoin, en conservant les taux de gap et d’identité entre les deux séquences (l’une native,
l’autre ayant été modifiée et considérée comme intruse) qui servent au calcul du SOVtémoin. Or lorsque
le taux d’identité entre deux séquences dépasse 30%, sachant que les modifications apportées à l’une
ou l’autre séquence doivent conserver ce taux, elles restent reliées du point de vue de leur structure, et
le SOVtémoin se rapproche du SOVréel, rendant la différence trop faible pour avoir un ∆SOV significatif.
En revanche ∆SOV est d’autant meilleur lorsque le taux d’identité est bas, rendant la détection d’une
séquence intruse particulièrement efficace, puisqu’elle s’avère être la plus fiable lorsqu’elle est la plus
difficile : à faible taux d’identité de séquence et en ne considérant que l’information apportée par les
séquences, il est très risqué de se prononcer sur la relation biologique qui peut unir des séquences.
Dans ces conditions, l’étude de la compatibilité des structures secondaires trouve toute son utilité, et
apporte une aide considérable pour s’assurer des relations de parenté qui unissent les séquences au sein
d’alignements multiples à bas taux d’identité.
135
136
4. Conclusion générale
La principale motivation à la base de ce travail était de mettre à profit les alignements multiples de
séquences protéiques pour analyser la conservation des interactions au sein des structures protéiques,
mais aussi pour apporter des outils automatiques qui peuvent aider à analyser la pertinence de ces
alignements.
Dans un premier temps, nous avons mis en place une stratégie bioinformatique originale, à l’aide
de laquelle nous avons réalisé une étude statistique exhaustive des structures tridimensionnelles
protéiques, en relation avec les alignements multiples des séquences (URL 26). Cette stratégie a
nécessité une phase de développement importante, puisqu’il a fallu modifier le programme DSSP pour
obtenir une base de données exploitable et développer les outils bioinformatiques nécessaires. Trois
logiciels principaux sont issus de ce travail : Extractblast, Extractfasta et BioRead, qui sont disponibles
via internet. Tout ces outils ont été mis à profit au sein d’une architecture logicielle plus complexe,
mise en place pour étudier les interactions de toutes les protéines de structures connues. Nous avons
validé cette architecture logicielle en étudiant la conservation des ponts disulfures. Nous avons pu
montré la très nette conservation des cystéines oxydées, montrant l’apport potentiel des alignements
multiples dans la prédiction des états d’oxydation des cystéines et donc dans la prédiction de
caractéristiques structurales. Cette stratégie fût ensuite appliquée aux interactions électrostatiques et
hydrophobes. Nous avons pu dégager certains principes connus, en les étayant par des valeurs
chiffrées pour déterminer la contribution du rôle structural des résidus à l’origine de leur conservation
dans les alignements multiples. Le rôle structural favorise la conservation des résidus dans les
alignements multiples. Cette contribution du rôle structural dans la conservation est sensible, et
dépend de différents facteurs. Tout d’abord cette contribution est d’autant plus importante que les
alignements comptent un nombre élevés de séquence. Ce sont dans les alignements les plus grands que
la conservation préférentielle des interactions est la plus importante. Ensuite, l’accessibilité est un
paramètre influant sur la conservation des interactions électrostatiques, puisque la conservation
préférentielle des interactions électrostatiques est très nette lorsque l’on considère les interactions
enfouies. Ce paramètre à moins d’influence dans le cas des interactions hydrophobes, allant dans le
sens de travaux précédents. Quant à l’état de structure secondaire des interactions, ce paramètre
semble peu informatif, ce qui est relativement compréhensible compte tenu de nos conditions d’étude
(sélection des séquences à l’aide d’Extractblast). Nous avons aussi constaté que l’identité et la
similarité globales dans les alignements sont des facteurs intéressants, puisqu’il apparaît clairement
que les alignements les plus divergents semblent les plus informatifs. En effet, les résidus ayant des
caractéristiques structurales particulières, sont d’autant plus conservés dans un alignement
(comparativement aux témoins) que les séquences qui constituent l’alignement sont divergentes. Cette
première partie du travail a permis de confirmer certains principes généraux, à l’aide d’une stratégie
originale et des outils bioinformatiques développés. Ce travail montre aussi que la prédiction des
137
interactions tridimensionnelles à partir des séquences protéiques nécessitera l’emploi d’alignements
multiples. Cependant cet objectif est ambitieux : le développement d’une méthode prédictive sur la
base des connaissances structurales actuelles est difficile. Il existe encore la possibilité d’effectuer des
comparaisons dans la base de données que nous avons développé, en prenant en compte l’accessibilité
prédite, les structures secondaires prédites, le nombre de résidus entre les résidus en interactions, les
caractéristiques physico-chimiques des régions encadrant ces résidus, pour essayer de retrouver à
partir d’une séquence de structure inconnue, des interactions possibles répondant à ces critères,
observés sur les structures connues.
A l’issue de cette première phase du travail, nous avons voulu mettre à profit le fait que les
alignements les plus divergents sont aussi les plus informatifs. Cependant, il n’est pas aisé d’établir la
parenté des protéine lorsque leur séquences sont divergentes et présentent moins de 25% d’identité de
séquences. Nous avons donc développé une méthode qui permet à partir d’un alignement multiple de
séquences, de détecter les séquences « intruses » n’ayant pas de parenté avec les autres séquences de
l’alignement. Cette méthode s’appuie sur la prédiction des structures secondaires et l’analyse de leur
compatibilité dans les alignements multiples. Les expériences réalisées, notamment la comparaison
avec PSI-BLAST, programme réputé pour sa capacité à détecter les homologues distants, montrent
clairement l’efficacité de notre méthode. A ce titre, ce travail sera publié dans la revue Bioinformatics.
Cette méthode automatique fournit donc un moyen de s’assurer de la cohérence des alignements
multiples et peut être utilisée pour réaliser de manière itérative, les alignement les plus divergents
possibles et donc les plus informatifs. Par ailleurs cette méthode peut être utiles dans d’autres
domaines : la caractérisation et la classification des protéines, l’amélioration des alignements multiples
de séquences et des outils d’alignements et la modélisation des structures de protéines.
138
5. Annexes
Annexe A : Fonctionnalités d’Extractfasta
La ligne de commande « Extractfasta –h » appelle la fonction d’aide (en anglais) qui
présente un résumé rapide sur l’emploi des fonctionnalités disponibles : Usage : Extractfasta
-i <input file>
-o <output file>
-w [<output sequence maximal width>]
-b [full extraction, all following options are disabled excepted -m
option.]
-m [work only with matching regions.]
-e [<maximal expect>]
-l [<minimal length >]
-a [<start query>]
-z [<stop query>]
-r [<output file for removed sequences>]
-d [<minimal expected ratio for sequence selection>]
-s [<expect threshold to start ratio selection with -d option>]
-p [<output file for unselected sequences with -d option>]
-h [<help>]
Les options –i <nom_fichier_fasta> et –o <nom_fichier_sélection>. Ces
options indiquent le fichier FASTA à traiter et le fichier qui contiendra la base de séquences après
sélection. L’option –w <largeur> est une option de formatage. Elle indique le nombre d’acides
aminés des séquences sujettes à écrire par ligne.
L’option –b. Lorsque celle-ci est spécifiée, elle provoque une désactivation de toutes les
options de sélection, à l’exception de l’option –m. Toutes les séquences sont sélectionnées.
L’option –m. Le format des fichiers résultats FASTA n’est pas toujours très « propre »
(contrairement à ceux donnés par BLAST). Les alignements présentés sont souvent plus longs que les
portions des séquences qui sont réellement alignées. Cette option, lorsqu’elle est spécifiée, permet de
ne considérer que les régions réellement alignées. Lorsqu’elle n’est pas spécifiée, c’est tout
l’alignement FASTA qui retenu. Cette option est un peu une option de nettoyage…
L’option –e <seuil_E-value>. Celle-ci introduit un seuil de E-value au dessous duquel
toutes les séquences sont sélectionnées. Les séquences trouvées par FASTA sont associées à une E-
value, qui représente la probabilité d’obtenir un alignement de la séquence requête avec une séquence
139
de même composition que la séquence sujette trouvée, dans une banque de séquences données. Plus la
E-value est faible, plus le lien de parenté qui unit deux séquences est fort.
L’option –l <seuil_longueur>. Celle-ci introduit un seuil de longueur : ne seront
sélectionnées que les séquences ayant au minimum cette longueur. Cette option permet d’obtenir une
base de données homogène en terme de longueur, ce qui est essentiel, surtout pour les alignements
multiples calculés, qui représentent souvent la phase suivante.
Les options -a <début_requête> -z <fin_requête>. Ces options permettent
d’introduire la zone intéressante sur la séquence requête. Ainsi seront retenues toutes les séquences
sujettes trouvées ayant une portion commune à la portion de la séquence requête spécifiée par ces
options. La sélection est une sélection partielle. Ces options sont indépendantes l’une de l’autre, il est
possible de ne spécifier qu’une seule des deux. Dans ce cas début_requête est égal à 1 si seule -z
est spécifiée, et fin_requête est égal à la position du dernier acide aminé de la séquence requête si
seule -a est spécifiée. Dans le cas où début_requête est supérieur à fin_requête, les valeurs
de début_requête et de fin_requête sont inversées.
L’option –r <nom_fichier>. Cette option permet d’éliminer la redondance dans la base de
séquences issue de la sélection. Lorsque des séquences sont identiques, un seul exemplaire est gardé,
les autres séquences sont éliminées et écrites dans le fichier spécifié par nom_fichier.
L’option –d <Evalue_ratio>. Cette option permet une sélection par palier. Ainsi il est
possible de créer un échantillon en ne sélectionnant qu’une séquence par palier Evalue_ratio.
Evalue_ratio doit être supérieur à 1. Si le ratio des E-value entre deux séquences est supérieur ou
égal à Evalue_ratio, la deuxième est sélectionnée et sert de référence pour la sélection de la
séquence suivante. Si l’option –s n’est pas spécifiée, toutes les séquences avec une E-value nulle sont
sélectionnées. La première séquence ayant une E-value non nulle est sélectionnée et sert de première
séquence de référence pour la sélection.
L’option –s <seuil_E-value>. Cette option n’est valide que si l’option –d est activée.
Celle-ci introduit le seuil de E-value à partir duquel la sélection par palier débute : toutes les séquences
ayant une E-value inférieure à ce seuil sont sélectionnées. La première séquence ayant une E-value
supérieure ou égale à ce seuil est sélectionnée et sert de première séquence de référence pour la
sélection par palier.
L’option –p <nom_fichier>. Cette option n’est valide que si l’option –d est activée.
Toutes les séquences qui ne sont pas sélectionnées lors de la sélection par palier sont écrites dans ce
fichier.
Toutes ces options sont indépendantes et offrent diverses possibilités de sélection. Les séquences
sélectionnées satisfont toutes les exigences imposées par les options qui sont appelées. Exemples
d’appels à Extracfasta :
Extractfasta –i fichier_fasta –o fichier_result pour UNIX et linux ;
140
WinExFasta.exe –i= fichier_ssearch –o= fichier_result pour Win9X
141
Annexe B : Fonctionnalités d’Extractblast
De même que pour Extracfasta, La ligne de commande « Extractblast –h » appelle la
fonction d’aide (en anglais) qui présente un résumé rapide sur l’emploi des fonctionnalités
disponibles : Usage : Extractfasta
-i [inputfile]
-o [outputfile in FASTA format]
-w [<width format for output file>] default=60
-e [<maximal expect allowed>]
-l [<minimal length allowed>]
-r [<output file>] output file for removed sequences.
-R [<run number for psi-blast input file>]
-s [<frame or strand in query>]
-a [<query start>] -z[<query stop>] define a query range.
-t [<percent>] for StepRatioExtract1_2().
-T [<percent>] for StepExtract().
-h for this help
Les options –i, -o, -w, -r, -e, -l. Elles ne seront pas détaillées puisqu’elles
équivalent à celles d’Extractfasta.
Les options –t, -T . Elles ont été développées essentiellement pour le travail de recherche,
celles-ci permettent une extraction par palier (§2.2.6.2).
L’option –R <numero_run>. Cette option est spécifique au fichier de type PSI-BLAST. Elle
indique le numéro du « run » à partir duquel on souhaite extraire les séquences. Si aucun numéro n’est
spécifier et que le fichier est au format PSI-BLAST, alors le dernier « run » sera automatiquement
sélectionné.
L’option –s <brin_ou_frame>. Cette option est spécifique aux fichiers de type BLASTn,
BLASTx et tBLASTx. Avec BLASTn, l’appel « –s + » ou « –s plus » permet de sélectionner les
séquence sujettes alignées avec la même orientation que la séquence requête. L’appel « –s - » ou
« –s minus » permet de sélectionner les séquences sujettes ayant l’orientation inverse par rapport à
celle de la séquence sujette. Avec les fichiers BLASTx et tBLASTx, il faut spécifier le cadre de lecture
d’intérêt de la séquence requête : l’appel « –s +1 » ou « –s 1 » permettra de sélectionner les
séquences sujettes alignées avec une traduction selon le cadre de lecture +1. A noter que dans ces
types de fichier, il arrive fréquemment que les séquences sujettes trouvées soient présentées selon une
orientation « minus » dans les alignements. Extracblast tient compte de l’orientation et replace la
142
séquence sujette selon son orientation plus. Les séquences dans les fichiers résultats sont toutes
présentées dans leur orientation « plus ».
Les options –a <début_requête> et –z <fin_requête> sont identiques à celles
d’Extractfasta. Cependant il faut apporter certaines précisions. Les positions à préciser à l’aide de ces
options dépendent de la séquence requête. si elle est protéique, il faut donner les postions protéiques.
Si elle est nucléique, il faut donner les positions nucléiques (Table 21). Ceci est un peu particulier pour
les fichiers BLASTx et tBLASTx, puisque la séquence requête est nucléique, mais le fichier résultat
présente des alignements protéiques. Extractblast réalise la conversion : les positions nucléiques sont
converties en positions protéiques. Une correction est apportée si les positions nucléiques entrées ne
sont pas multiples de 3. Dans ce cas la borne inférieure est minorée au multiple de 3 le plus proche. La
borne supérieure est majorée au multiple de 3 le plus proche. Cette phase permet de compléter le
segment nucléique de façon à avoir un segment comptant un nombre de nucléotides multiples de 3 et
donc un nombre d’acides aminés entier.
Table 21 : type des séquences requêtes et sujettes pour chaque type de fichier BLAST.
Comme Extractfasta, les options présentées sont toutes indépendantes. Les séquences sélectionnées
satisfont toutes les exigences imposées à l’aide de ces options. Les conventions d’appel au programme
sont les mêmes que pour Extractblast (ajout d’un signe « = » après les options sous WIN9X,
l’exécutable sous WIN9X est WinExBlast.exe).
Type de fichier BLAST (B)
Séquence requête (positions à fournir)
Séquences sujettes dans le fichier résultat
BP,PSI-B,TBN Protéique ProtéiqueBX,TBX Nucléique Protéique
BN Nucléique Nucléique
143
Annexe C : codes PDB des protéines étudiées. 10mh 11as 14ps 153l 16vp 1a02 1a04 1a0e 1a0i 1a0n 1a0p 1a0r 1a11 1a12
1a13 1a16 1a17 1a1d 1a1m 1a1p 1a1q 1a1r 1a1w 1a22 1a23 1a26 1a28 1a2o
1a2z 1a31 1a34 1a3c 1a3g 1a3k 1a3r 1a40 1a41 1a48 1a49 1a4a 1a4g 1a4i
1a4l 1a4s 1a4t 1a4y 1a53 1a56 1a5a 1a5j 1a5k 1a5r 1a5t 1a63 1a67 1a69
1a6a 1a6c 1a6d 1a6f 1a6i 1a6j 1a6l 1a6q 1a6r 1a71 1a73 1a75 1a79 1a7a
1a7d 1a7j 1a7k 1a7m 1a81 1a82 1a87 1a8h 1a8l 1a8m 1a8r 1a8x 1a8y 1a93
1a95 1a9n 1a9o 1a9x 1aa8 1aar 1ab4 1ab8 1abe 1abr 1abw 1ac5 1aca 1acc
1ad2 1ad3 1ad7 1adn 1adt 1adz 1ae4 1ae9 1aep 1aer 1af0 1af2 1af7 1afh
1afi 1afo 1afr 1afw 1ag9 1agi 1agr 1agx 1ah5 1ah8 1ah9 1ahj 1ahk 1ahu
1ai4 1ai9 1aj0 1aj1 1aja 1aje 1aji 1ajr 1ak0 1ak6 1akh 1akp 1al0 1al3
1al4 1alo 1alu 1am2 1am4 1am7 1amf 1amo 1amp 1amt 1amu 1amx 1an2 1an7
1anp 1aoa 1aoc 1aod 1aoh 1aol 1aom 1aon 1aop 1aot 1aox 1aoz 1ap0 1ap8
1apm 1apn 1aq0 1aq3 1aq6 1aqi 1ar1 1arb 1as1 1as7 1ash 1asy 1at0 1atf
1ati 1atn 1atr 1au1 1aua 1aui 1aun 1auo 1auv 1auw 1auy 1auz 1avc 1avd
1avg 1avo 1avp 1avq 1aw1 1aw7 1aw8 1awc 1awj 1ax4 1ax8 1axc 1axj 1axk
1ay0 1ay1 1ay2 1ayl 1ayx 1az0 1azs 1azy 1b04 1b05 1b0l 1b0n 1b0p 1b0u
1b0z 1b12 1b23 1b24 1b25 1b27 1b29 1b33 1b34 1b35 1b37 1b3m 1b3n 1b3o
1b3q 1b3t 1b3u 1b42 1b43 1b4a 1b4f 1b4g 1b4m 1b4q 1b4u 1b57 1b59 1b5d
1b5t 1b63 1b64 1b65 1b66 1b6b 1b6c 1b6g 1b6r 1b6t 1b6u 1b71 1b72 1b73
1b75 1b77 1b78 1b7a 1b7b 1b7e 1b7g 1b87 1b89 1b8b 1b8d 1b8f 1b8g 1b8i
1b8m 1b8t 1b8w 1b8x 1b90 1b9h 1b9l 1b9n 1b9u 1b9w 1b9x 1ba3 1ba5 1bah
1bai 1bak 1bal 1bam 1baq 1bax 1bb1 1bb8 1bbn 1bbt 1bby 1bc6 1bc9 1bcc
1bcf 1bcm 1bcp 1bcs 1bd3 1bdb 1bdc 1bdf 1bdx 1bdy 1be3 1be9 1bef 1bei
1bev 1bf2 1bfd 1bg1 1bg3 1bg6 1bgl 1bgp 1bgt 1bgx 1bh8 1bhe 1bhi 1bhj
1bht 1bi0 1bi5 1bi6 1bia 1bif 1bih 1bik 1bip 1biq 1bj4 1bj5 1bja 1bjp
1bjq 1bjt 1bjx 1bk0 1bk9 1bkb 1bkc 1bkd 1bkj 1bkq 1bku 1bl1 1bl8 1bla
1ble 1bli 1bll 1bm8 1bml 1bmt 1bmv 1bmy 1bn8 1bnc 1bnk 1bnl 1bo1 1bo4
1bo6 1bo7 1bob 1boe 1boh 1boj 1bol 1boo 1bow 1boy 1bp1 1bp7 1bpo 1bpx
1bqc 1bqf 1bqh 1bqn 1bqq 1bqs 1bqu 1bqv 1br6 1brl 1brm 1bs0 1bs2 1bs4
1bs9 1bsh 1bsl 1bsv 1bsx 1bt1 1bt4 1bt6 1btd 1bte 1btk 1bts 1bu2 1bu6
1buk 1buo 1bus 1buy 1bv8 1bvb 1bvn 1bvp 1bvq 1bvz 1bw0 1bw8 1bwm 1bwp
1bwv 1bwz 1bxd 1bxe 1bxi 1bxl 1bxm 1bxw 1by1 1by2 1by8 1byh 1byk 1byl
1byr 1byt 1byu 1byw 1byy 1bzd 1bzi 1bzk 1c03 1c04 1c05 1c0a 1c0d 1c0m
1c17 1c1f 1c1g 1c1k 1c1z 1c28 1c2a 1c2p 1c39 1c3c 1c3d 1c3m 1c3p 1c3q
1c47 1c4a 1c4h 1c4k 1c4z 1c5e 1c7h 1c7u 1c8z 1c9b 1c9k 1c9u 1ca1 1ca9
1can 1cb7 1cb8 1cbf 1cbk 1cby 1cbz 1cc1 1ccd 1cd1 1cd3 1cd5 1cdd 1cdg
1cdl 1cdm 1cdz 1ce4 1cef 1cel 1cem 1cen 1ceu 1cez 1cf1 1cf4 1cf7 1cf9
1cfb 1cfe 1cff 1cfm 1cfr 1cfs 1cg2 1cg7 1cgm 1ch6 1chc 1chk 1chm 1chr
144
1ci0 1cia 1cid 1cii 1civ 1cja 1cjb 1cjc 1cjd 1cje 1cjx 1cjy 1ck7 1cke
1ckm 1ckq 1ckr 1ckv 1clc 1cli 1clq 1clw 1cm0 1cm5 1cma 1cmk 1cmx 1cn3
1cn4 1cne 1cns 1cnt 1cnv 1coj 1coo 1coy 1coz 1cp3 1cp7 1cpo 1cpt 1cq3
1cqq 1cqt 1cqv 1cqx 1cqz 1cr5 1crk 1csm 1ct5 1ct9 1cts 1cun 1cur 1cv8
1cvi 1cvj 1cvm 1cvr 1cw0 1cw1 1cwp 1cwv 1cww 1cwx 1cx1 1cx8 1cxp 1cy1
1cyf 1cyw 1cz1 1cz4 1cz7 1czf 1czs 1d02 1d09 1d0b 1d0g 1d0k 1d0n 1d0q
1d0s 1d1d 1d1f 1d1q 1d1r 1d2d 1d2f 1d2i 1d2r 1d2s 1d2z 1d3b 1d3y 1d4a
1d4b 1d4t 1d5r 1d5y 1d6j 1d7l 1d7o 1d8b 1d8c 1d8d 1d8h 1d8j 1d8y 1d9e
1d9j 1d9v 1d9x 1dab 1db1 1db3 1dbd 1dbf 1dbg 1dbh 1dbi 1dce 1dcf 1dch
1dci 1dcq 1dcs 1dd1 1dd5 1dd9 1ddc 1ddd 1ddf 1ddm 1ddq 1ddt 1ddz 1de0
1de3 1dek 1deo 1deq 1der 1dew 1df3 1dfa 1dfw 1dfx 1dg3 1dgi 1dgu 1dgy
1dh7 1dhl 1dhn 1dhp 1dhr 1dhs 1dhy 1di6 1dih 1dil 1din 1dio 1diz 1dj0
1dj3 1dj7 1djf 1djg 1djn 1dkg 1dki 1dkr 1dkv 1dkx 1dl2 1dlc 1dli 1dlm
1dlp 1dlx 1dlz 1dm0 1dm9 1dml 1dmu 1dn1 1dn2 1dnv 1dny 1do0 1do8 1doa
1doi 1dom 1dop 1dor 1dp5 1dpb 1dps 1dq8 1dqg 1dqr 1dqs 1dqu 1dqv 1dqw
1dro 1dsr 1dt9 1dth 1dtj 1dto 1du2 1du8 1duj 1dul 1dun 1dv4 1dva 1dvc
1dve 1dvj 1dvk 1dvp 1dw0 1dwa 1dwn 1dx8 1dxx 1dxz 1dyn 1dz1 1dz7 1dzf
1dzl 1dzr 1e0b 1e0d 1e0j 1e0n 1e1c 1e1d 1e1y 1eba 1ebf 1ebg 1ebm 1ebo
1ebt 1ec9 1ecf 1eci 1ecr 1ecx 1ecy 1edg 1edi 1edq 1edu 1ee7 1eee 1ef1
1ef6 1ef8 1efb 1efd 1efg 1efj 1efu 1efv 1efz 1eg0 1eg9 1ega 1egc 1egh
1egl 1egt 1egy 1eh5 1eh6 1ehi 1ehs 1ei1 1ei3 1eia 1eiy 1ej3 1ej4 1ej5
1ejf 1ejh 1ek9 1ekc 1el6 1elq 1em2 1emz 1en7 1eni 1env 1enw 1eo0 1eol
1eps 1eq6 1eqd 1eqf 1eqs 1eqz 1erk 1es0 1esc 1esl 1esp 1ete 1etf 1etp
1eul 1euq 1eut 1euv 1evu 1ew6 1ewi 1ex1 1ex2 1ext 1eza 1ezk 1f15 1f1z
1f52 1fad 1fba 1fbn 1fbr 1fcb 1fcd 1fce 1fct 1fds 1fea 1fep 1fgj 1fgs
1fha 1fhi 1fht 1fin 1fiy 1fji 1flc 1flt 1flx 1fmd 1fmk 1fmt 1fnf 1foh
1fok 1fps 1frf 1fsd 1fsu 1fsz 1ft1 1ftr 1fug 1fui 1fum 1fvp 1fyc 1gab
1gb4 1gba 1gc1 1gca 1gce 1gdi 1gdt 1gff 1gfl 1gky 1gla 1gln 1glv 1gnc
1gnd 1gnk 1gof 1gow 1gp1 1gpc 1gpe 1gpm 1gr2 1grj 1gso 1gtx 1gup 1gux
1gym 1ha0 1hbi 1hcw 1hcy 1hdj 1hei 1hjr 1hkg 1hlg 1hoe 1hpb 1hpc 1hqi
1hre 1hrt 1hst 1htn 1hul 1hur 1hwg 1i16 1iaf 1ial 1iao 1idj 1ife 1ifl
1ifm 1ifp 1iga 1ign 1igr 1ihv 1iie 1iiv 1ikn 1il7 1ilm 1ilp 1ima 1imp
1ina 1inm 1inp 1iob 1ira 1irf 1irl 1irs 1ite 1ixm 1jac 1jda 1jdb 1jdw
1jen 1jer 1jfr 1jkm 1jkw 1jlx 1jmc 1joa 1jot 1joy 1js4 1jsu 1jsw 1jvr
1jwe 1kan 1kb7 1kbp 1kcw 1kdx 1kit 1kjs 1kmm 1koa 1kpt 1kvd 1kwa 1kzu
1lar 1lau 1lba 1lbe 1lbg 1lbs 1lbu 1ldl 1ldt 1lef 1lih 1lim 1ljr 1lmd
1lmk 1lml 1loi 1lox 1lre 1lrv 1lsg 1lt3 1ltr 1lut 1lxa 1lyl 1mab 1mae
1mas 1mbb 1mec 1mek 1mfo 1mg1 1mgt 1mhd 1mhy 1mi2 1mio 1mjh 1mka 1mkc
1mla 1mli 1mlp 1mmh 1mmo 1mms 1mn1 1mol 1mos 1mpr 1mpy 1mro 1msk 1msl
1mud 1mug 1mut 1mxl 1n2c 1nar 1nas 1nba 1nbc 1ncj 1ndl 1ndx 1nf1 1nfi
145
1nfk 1nfn 1ngl 1nlr 1nmt 1noe 1nrn 1nsf 1nst 1nsy 1ntc 1nub 1nuk 1oac
1obr 1occ 1ocr 1oef 1ofg 1oil 1om2 1onr 1ont 1opm 1opr 1ort 1osp 1otc
1otg 1p23 1p32 1p35 1pbw 1pce 1pcf 1pcu 1pdg 1pdo 1pef 1pfk 1pfo 1pfs
1pfx 1pg1 1pgj 1pgn 1phz 1pii 1pin 1pjb 1pjr 1pln 1plq 1plu 1pmi 1pne
1pnf 1poc 1poi 1pov 1pow 1ppr 1prc 1pre 1prh 1prr 1prx 1ps1 1ps2 1psc
1psd 1pse 1psr 1psz 1pto 1pvi 1pvl 1pya 1pyi 1pym 1pyt 1qa7 1qab 1qap
1qax 1qaz 1qb0 1qb7 1qba 1qbc 1qbe 1qbk 1qc6 1qcl 1qcn 1qcr 1qct 1qd1
1qd5 1qdb 1qdd 1qdl 1qdn 1qex 1qey 1qf6 1qf8 1qfc 1qfe 1qfh 1qfj 1qfm
1qfq 1qft 1qfw 1qfx 1qfy 1qg1 1qg3 1qg8 1qg9 1qgc 1qgi 1qgk 1qgn 1qgo
1qgt 1qgv 1qgw 1qgx 1qh3 1qhf 1qhl 1qhs 1qhz 1qi9 1qip 1qiu 1qj2 1qj8
1qjq 1qjs 1qk9 1qki 1qkl 1ql0 1qla 1qle 1qlm 1qlo 1qls 1qlw 1qlx 1qma
1qme 1qmg 1qmh 1qmm 1qmt 1qnf 1qo0 1qo7 1qor 1qou 1qow 1qoy 1qp6 1qp8
1qqe 1qqg 1qqt 1qqv 1qr0 1qr5 1qr7 1qrj 1qrl 1qrn 1qrq 1qrr 1qs0 1qs1
1qs3 1qsa 1qsm 1qsn 1qt2 1qtf 1qtp 1qtr 1qtw 1qu0 1qu2 1qu5 1qu6 1qun
1qup 1quq 1qur 1quu 1qva 1qvc 1qyp 1rdr 1rea 1rec 1reg 1rep 1rfa 1rfs
1rgs 1rh4 1ril 1rl2 1rla 1rlr 1rlx 1rmd 1rmg 1rot 1rp1 1rpb 1rpj 1rpr
1rpx 1rrp 1rss 1rsy 1rtu 1rux 1rvv 1ryp 1scc 1sce 1scg 1scu 1ser 1sfc
1sft 1shc 1shk 1sid 1sig 1skn 1sli 1slm 1sml 1smt 1smv 1snp 1sox 1spf
1spi 1spp 1ssn 1ssr 1stm 1svb 1svp 1sw6 1t7p 1tbd 1tc3 1tce 1tdj 1tf6
1tfr 1tgo 1thr 1tht 1tia 1tii 1tmf 1tmo 1tns 1tof 1tol 1tpg 1trr 1tsg
1tsr 1tub 1tul 1tvs 1twp 1tya 1tyf 1ubp 1ucy 1uok 1uox 1uro 1ush 1vcb
1vcc 1vfr 1vhh 1vhr 1vid 1vie 1vig 1vmo 1vnc 1vok 1vpc 1vpp 1vpu 1vsg
1vtk 1vtp 1wai 1wbc 1wbr 1wct 1wer 1wgi 1wio 1wjb 1wkt 1wtu 1wwc 1x11
1xat 1xbr 1xer 1xna 1xo1 1xpa 1xsm 1xyf 1yac 1ycp 1ycq 1ycr 1ycs 1ylv
1yrg 1yst 1ytf 1ytn 1yua 1yub 1zfj 1znb 1zpd 1zug 1zxq 262l 2a0b 2abk
2ahj 2ak3 2ant 2ap2 2arc 2arn 2azo 2bb2 2bbk 2bbm 2bbv 2bce 2bct 2bid
2bos 2bpa 2btb 2btf 2btv 2c17 2cav 2cbl 2cpg 2crx 2cua 2cut 2dap 2dhq
2dld 2dpm 2ebn 2eze 2ezi 2ezm 2fcb 2ffh 2fmr 2fua 2g3p 2gap 2gat 2gli
2gmf 2gsa 2hdc 2hdh 2hgs 2hmx 2hpd 2hrv 2iad 2ilk 2jhb 2lbp 2lfb 2mlp
2msh 2mta 2mys 2nad 2nef 2nll 2nmb 2nmt 2nr1 2pcd 2pia 2pld 2por 2prd
2pth 2rap 2rmc 2rmp 2sas 2scp 2seb 2shp 2sqc 2tbv 2tdt 2thi 2tld 2tps
2tys 2ucz 2up1 2vsg 2wpo 3bta 3cbh 3dpa 3eng 3hts 3itr 3kvt 3ldh 3lri
3lyn 3mra 3msp 3nla 3pgk 3prg 3pva 3rhn 3std 3tmk 3ygs 4bcl 4dpv 4gat
4nos 4pro 4sod 5acn 5eat 5r1r 6cmh 6ins 6pax 7mdh 7odc 8tfv 9gaf
146
Annexe D : URLs
URL 1 SWISS-PROT http://www.embl-ebi.ac.uk/dali/domain/
URL 2 EMBL nucleotide
database http://www.ebi.ac.uk/embl/
URL 3 CluSTr http://www.ebi.ac.uk/clustr
URL 4 Protein Information
Ressources http://www.nbrf.georgetown.edu/pir
URL 5 PROSITE http://www.expasy.ch/prosite/
URL 6 ProDom http://protein.toulouse.inra.fr/prodom/doc/prodom.html
URL 7 Pfam http://www.sanger.ac.uk/Pfam/
URL 8 DOMO http://www.infobiogen.fr/~gracy/domo
URL 9 PRINTS http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html
URL 10 InterPro http://www.ebi.ac.uk/interpro/
URL 11 MetaFam http://metafam.ahc.umn.edu/
URL 12 Blocks http://www.blocks.fhcrc.org/
URL 13 PDB http://www.rcsb.org/PDB/
URL 14 SCOP http://scop.mrc-lmb.cam.ac.uk/scop/
URL 15 CATH http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html
URL 16 FSSP http://www2.ebi.ac.uk/dali/fssp/fssp.html
URL 17 DaliDD http://www.embl-ebi.ac.uk/dali/domain/
URL 18 DALI (Figure 4) http://www.ebi.ac.uk/dali/domain/3.1beta/Help.html
URL 19 PALI http://pauling.mbu.iisc.ernet.in/~pali
URL 20 HOMSTRAD http://www-cryst.bioc.cam.ac.uk/homstrad/
147
URL 21 MODBASE http://guitar.rockefeller.edu/modbase/
URL 22 CAMPASSE http://www-cryst.bioc.cam.ac.uk/~campass/
URL 23 DBcat http://www.infobiogen.fr/services/dbcat/
URL 24 Mktclapp homepage http://www.hawci.com/sw/mktclapp/
URL 25 DAPS http://siren.bio.indiana.edu/daps
URL 26 Page personnelle http://user-pbil.ibcp.fr/~errami/
URL 27 : matrices SDM, HSDM http://www.came.sbg.ac.at/Services/MATRICES/matrices.html
URL 28 : Serveur NPS@ http://npsa-pbil.ibcp.fr/
URL 29 : HCVDB http://hepatitis.ibcp.fr
URL 30 : échelles physico-chimiques http://www.expasy.ch/cgi-bin/protscale.pl
URL 31 : Geno3D http://geno3-pbil.ibcp.fr
148
P1 Altschul SF ; Amino acid substitution matrices from an information theoretic perspective. J Mol Biol. 219:555-65 (1991).
P2 Altschul SF, Gish W ; Local alignment statistics. Methods in Enzymology 266:460-80 (1996).
P3 Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ ; Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402 (1997).
P4 Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM ; InterPro--an integrated documentation resource for protein families, domains and functional sites. Bioinformatics 16:1145-50 (2000).
P5 Apweiler R, Biswas M, Fleischmann W, Kanapin A, Karavidopoulou Y, Kersey P, Kriventseva EV, Mittard V, Mulder N, Phan I, Zdobnov E; Proteome Analysis Database: online application of InterPro and CluSTr for the functional classification of proteins in whole genomes. Nucleic Acids Res. 29 :44-8 (2001).
P6 Argos P, Rao JK, Hargrave PA. ; Structural prediction of membrane-bound proteins. Eur J Biochem. 128:565-75 (1982).
P7 Attwood TK, Croning MD, Flower DR, Lewis AP, Mabey JE, Scordis P, Selley JN, Wright W ; PRINTS-S: the database formerly known as PRINTS. Nucleic Acids Res. 28:225-7 (2000).
P8 Bahr A, Thompson JD, Thierry JC, Poch O ; BAliBASE (Benchmark Alignment dataBASE): enhancements for repeats, transmembrane sequences and circular permutations. Nucleic Acids Res. 29:323-6 (2001).
P9 Bairoch A ; The ENZYME database in 2000. Nucleic Acids Res. 28:304-5 (2000).
P10 Bairoch A, Apweiler R ; The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res. 28 :45-48 (2000).
P11 Balaji S, Sujatha S, Kumar SS, Srinivasan N ; PALI-a database of Phylogeny and ALIgnment of homologous protein structures. Nucleic Acids Res. 29:61-5 (2001).
P12 Barker WC, Garavelli JS, Hou Z, Huang H, Ledley RS, McGarvey PB, Mewes HW, Orcutt BC, Pfeiffer F, Tsugita A, Vinayaka CR, Xiao C, Yeh LS, Wu C ; Protein Information Resource: a community resource for expert annotation of protein data. Nucleic Acids Res. 29:29-32 (2001).
P13 Barker WC, Pfeiffer F, George DG ; Superfamily classification in the PIR-International Protein Sequence Database, Methods in Enzymology 266:59-71 (1996).
P14 Baron M, Norman DG, Campbell ID ; Protein modules. Trends Biochem Sci. 16:13-7 (1991).
P15 Barton GJ, Sternberg MJ; A strategy for the rapid multiple alignment of protein sequences. Confidence levels from tertiary structure comparisons. J Mol Biol. 198:327-37 (1987).
P16 Bateman A, Birney E, Durbin R, Eddy SR, Howe KL, Sonnhammer EL ; The Pfam protein families database. Nucleic Acids Res. 28:263-6 (2000).
149
P17 Baxevanis AD, Ouellette BFF ; Bioinformatics : A Practical Guide to the Analysis of Gens and Proteins. Methods of bioligical analysis, volume 38. Ed : Wiley-Liss (1998).
P18 Berger B, Singh M ; An iterative method for improved protein structural motif recognition. J Comput Biol. 4:261-73 (1997).
P19 Berger B, Wilson DB, Wolf E, Tonchev T, Milla M, Kim PS ; Predicting coiled coils by use of pairwise residue correlations. Proc Natl Acad Sci U S A. 92:8259-63(1995).
P20 Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE ; The Protein Data Bank. Nucleic Acids Res. 28:235-42 (2000).
P21 Bhat TN, Bourne P, Feng Z, Gilliland G, Jain S, Ravichandran V, Schneider B, Schneider K, Thanki N, Weissig H, Westbrook J, Berman HM ; The PDB data uniformity project. Nucleic Acids Res. 29:214-8 (2001).
P22 Blanchet C ; Logiciel MPSA et ressources bioinformatiques client-serveur Web dédiés à l’analyse de séquences de protéine (1999). Thèse : 139-99 Université Claude Bernard Lyon 1, France.
P23 Blanchet C, Combet C, Geourjon C, Deleage G ; MPSA: integrated system for multiple protein sequence analysis with client/server capabilities. Bioinformatics. 16:286-7 (2000).
P24 Blundell TL, Sibanda BL, Sternberg MJ, Thornton JM ; Knowledge-based prediction of protein structures and the design of novel molecules. Nature. 326:347-52 (1987).
P25 Bourne PE, Helen M. Berman MH, Brian McMahon B, Keith D.Watenpaugh KD, John WestbrookJ, Paula M.D.Fitzgerald PMD ; The Macromolecular Crystallographic Information File (mmCIF). Methods in Enzymology 277:571-590 (1997).
P26 Bowie JU, Luthy R, Eisenberg D. ; A method to identify protein sequences that fold into a known three-dimensional structure. Science 253:164-70 (1991).
P27 Briffeuil P, Baudoux G, Lambert C, De Bolle X, Vinals C, Feytmans E, Depiereux E ; Comparative analysis of seven multiple protein sequence alignment servers: clues to enhance reliability of predictions. Bioinformatics. 14:357-66 (1998).
P28 Bryant SH, Lawrence CE ; An empirical energy function for threading protein sequence through the folding motif. Proteins. 16:92-112(1993).
P29 Burley SK, Petsko GA ; Aromatic-aromatic interaction: a mechanism of protein structure stabilization. Science 229:23-8 (1985).
P30 Chothia C, Lesk AM ; The relation between the divergence of sequence and structure in proteins. EMBO J. 5:823-6 (1986).
P31 Chothia C ; Proteins. One thousand families for the molecular biologist. Nature. 357:543-4 (1992).
P32 Chou PY, Fasman GD ; Prediction of the secondary structure of proteins from their amino acid sequence. Adv Enzymol Relat Areas Mol Biol. 47:45-148 (1978).
P33 Codani JJ, Glemet E ; Parallelism in LASSAP, a large scale sequence comparison package. Proceedings of HPCN95 Conference, Milan. Lecture Notes in Computer Sciences, 919 :787-792 (1995).
150
P34 Colloc'h N, Etchebest C, Thoreau E, Henrissat B, Mornon JP ; Comparison of three algorithms for the assignment of secondary structure in proteins: the advantages of a consensus assignment. Protein Eng. 6:377-82 (1993).
P35 Combet C ; HCVDB : une base de données de séquences du virus de l'hépatite C interconnectée au Webiciel NPS@ d'outils bioinformatiques d'analyses de séquences et de structures. (2001). Thèse. Université Denis Diderot, Paris 7, France.
P36 Combet C, Blanchet C, Geourjon C, Deleage G ; NPS@: network protein sequence analysis. Trends Biochem Sci. 25:147-50 (2000).
P37 Corpet F ; Multiple sequence alignment with hierarchical clustering. Nucleic Acids Res. 16:10881-90 (1988).
P38 Corpet F, Servant F, Gouzy J, Kahn D ; ProDom and ProDom-CG: tools for protein domain analysis and whole genome comparisons. Nucleic Acids Res. 28:267-9 (2000).
P39 Costanzo MC, Hogan JD, Cusick ME, Davis BP, Fancher AM, Hodges PE, Kondu P, Lengieza C, Lew-Smith JE, Lingner C, Roberg-Perez KJ, Tillberg M, Brooks JE, Garrels JI ; The yeast proteome database (YPD) and Caenorhabditis elegans proteome database (WormPD) : comprehensive resources for the organization and comparison of model organism protein information. Nucleic Acids Res. 28:73-6 (2000).
P40 Dayoff MO, Schwartz RM, Orcutt BC ; A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure, ed. (Washington DC, : National Biomedical Research Foundation) Vol 5., Suppl. 2, 345-52.
P41 Deitel et Deitel ; Comment programmer en C++. Ed : Rynald Goulet (1998).
P42 Deleage G, Combet C, Blanchet C, Geourjon C ; ANTHEPROT: an integrated protein sequence analysis software with client/server capabilities. Comput Biol Med. 31:259-67 (2001).
P43 Deleage G, Roux B ; An algorithm for protein secondary structure prediction based on class prediction. Protein Eng. 1:289-94 (1987).
P44 Dietmann S, Park J, Notredame C, Heger A, Lappe M, Holm L ; A fully automatic evolutionary classification of protein folds: Dali Domain Dictionary version 3. Nucleic Acids Res. 29:55-7 (2001).
P45 Dill KA, Fiebig KM, Chan HS ; Cooperativity in protein-folding kinetics. Proc Natl Acad Sci. U S A. 90:1942-6 (1993).
P46 Dodd IB, Egan JB ; Improved detection of helix-turn-helix DNA-binding motifs in protein sequences. Nucleic Acids Res. 18:5019-26 (1990).
P47 Doolittle RF ; Similar amino acid sequences: chance or common ancestry? Science 214:149-59 (1981).
P48 Doolittle RF, Bork P ; Evolutionarily mobile modules in proteins. Sci Am. 269:50-6 (1993).
P49 Eddy SR ; Multiple alignment using hidden Markov models. Proc Int Conf Intell Syst Mol Biol. 3:114-20 (1995).
P50 Etzold T, Ulyanov A, Argos P ; SRS: information retrieval system for molecular biology data banks. Methods in Enzymology 266:114-28 (1996).
151
P51 Feng DF, Doolittle RF ; Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25:351-60 (1987).
P52 Fiser A, Simon I, Barton GJ ; Conservation of amino acids in multiple alignments: aspartic acid has unexpected conservation. FEBS Lett. 397:225-9 (1996).
P53 Fiser A, Simon I; Predicting the oxidation state of cysteines by multiple sequence alignment. Bioinformatics 16:251-6 (2000).
P54 Fitch, WM ; Random sequences. J. Mol. Biol. 163:171-176 (1983).
P55 Fleischman W, Moeller S, Gateau A, Apweiler R ; A novel method for automatic functional annotation of proteins. Bioinformatics 15 :228-33 (1999).
P56 Fleischmann W, Moller S, Gateau A, Apweiler R ; A novel method for automatic functional annotation of proteins. Bioinformatics 15:228-33 (1999).
P57 Friedberg I, Kaplan T, Margalit H ; Evaluation of PSI-BLAST alignment accuracy in comparison to structural alignments. Protein Sci. 9:2278-84 (2000).
P58 Frishman D, Argos P ; Incorporation of non-local interactions in protein secondary structure prediction from the amino acid sequence. Protein Eng. 9:133-42 (1996).
P59 Frishman D, Argos P ; Knowledge-based protein secondary structure assignment. Proteins. 23:566-79 (1995).
P60 Garavelli JS ; The RESID Database of protein structure modifications. Nucleic Acids Res. 27:198-9 (1999).
P61 Garavelli JS, Hou Z, Pattabiraman N, Stephens RM ; The RESID Database of protein structure modifications and the NRL-3D Sequence-Structure Database. Nucleic Acids Res. 29:199-201 (2001).
P62 Garnier J, Gibrat JF, Robson B. GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266:540-53 (1996).
P63 Garnier J, Osguthorpe DJ, Robson B ; Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J Mol Biol. 120:97-120 (1978).
P64 Geourjon C, Combet C, Blanchet C, Deleage G ; Identification of related proteins with weak sequence identity using secondary structure information. Protein Sci. 10:788-97 (2001).
P65 Geourjon C, Deleage G ; SOPM: a self-optimized method for protein secondary structure prediction. Protein Eng. 7:157-64 (1994).
P66 Geourjon C, Deleage G ; SOPMA: significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. Comput Appl Biosci. 11:681-4 (1995).
P67 Glemet E ,Codani JJ ; Lassap : a large scale sequence comparison package. Comp. Appl. Biosci., 13 :137-143 (1997).
152
P68 Gotoh O ; Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol. 264:823-38 (1996).
P69 Gouy M, Gautier C, Attimonelli M, Lanave C, di Paola G ; ACNUC--a portable retrieval system for nucleic acid sequence databases: logical and physical designs and usage. Comput Appl Biosci. 1:167-72 (1985).
P70 Gracy J, Argos P ; Automated protein sequence database classification. II. Delineation Of domain boundaries from sequence similarities. Bioinformatics 14:174-87 (1998).
P71 Gribskov M, Veretnik S ; Identification of sequence pattern with profile analysis. Methods Enzymol. 266:198-212 (1996).
P72 Guermeur Y ; Combinaison de classifieurs statistiques, application à la prédiction de la structure secondaire des protéines. Thèse de doctorat de l’Université Paris 6, Paris (1997).
P73 Guermeur Y, Geourjon C, Gallinari P, Deleage G ; Improved performance in protein secondary structure prediction by inhomogeneous score combination. Bioinformatics. 15:413-21 (1999).
P74 Gupta SK, Kececioglu JD, Schaffer AA ; Improving the practical space and time efficiency of the shortest-paths approach to sum-of-pairs multiple sequence alignment. J Comput Biol. 2:459-72 (1995).
P75 Guy HR ; Amino acid side-chain partition energies and distribution of residues in soluble proteins. Biophys J. 47:61-70 (1985).
P76 Harrison M, McLennan M ;Effective Tcl/Tk programming : writing better programs with Tcl and Tk. Ed : Addison Wesley (1998).
P77 Henikoff JG, Greene EA, Pietrokovski S, Henikoff S ; Increased coverage of protein families with the blocks database servers. Nucleic Acids Res. 28:228-30 (2000).
P78 Henikoff JG, Henikoff S ; Blocks database and its applications. Methods in Enzymology 266:88-105 (1996).
P79 Henikoff S, Henikoff JG ; Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A. 89:10915-9 (1992).
P80 Henikoff S, Henikoff JG ; Amino acid substitution matrices. Adv Protein Chem. 54:73-97 (2000).
P81 Henikoff S, Henikoff JG ; Performance evaluation of amino acid substitution matrices. Proteins 17:49-61 (1993).
P82 Henikoff S, Henikoff JG, Pietrokovski S ; Blocks+: A non-redundant database of protein alignment blocks dervied from multiple compilations. Bioinformatics 15:471-9 (1999).
P83 Hertz GZ, Stormo GD ; Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. Bioinformatics. 15:563-77 (1999).
P84 Hodges PE, McKee AH, Davis BP, Payne WE, Garrels JI ;The Yeast Proteome Database (YPD): a model for the organization and presentation of genome-wide functional data. Nucleic Acids Res. 27:69-73 (1999)
153
P85 Hofmann K, Bucher P, Falquet L, Bairoch A ; The PROSITE database, its status in 1999. Nucleic Acids Res. 27:215-219 (1999).
P86 Hofmann K, Bucher P, Falquet L, Bairoch A ; The PROSITE database, its status in 1999. Nucleic Acids Res. 27:215-9 (1999).
P87 Holm L and Sander C ; Mapping the protein universe. Science 273:595-602 (1996).
P88 Holm L, Sander C ; Dictionary of recurrent domains in protein structures. Proteins 1998 33:88-96 (1998b).
P89 Holm L, Sander C ; Touring protein fold space with Dali/FSSP. Nucleic Acids Res. 26:316-9 (1998).
P90 Hopp TP, Woods KR ; A computer program for predicting protein antigenic determinants. Mol Immunol. 20:483-9 (1983).
P91 Horovitz A, Serrano L, Avron B, Bycroft M, Fersht AR ; Strength and co-operativity of contributions of surface salt bridges to protein stability. J Mol Biol. 216:1031-44 (1990).
P92 Hu Z, Ma B, Wolfson H, Nussinov R ; Conservation of polar residues as hot spots at protein interfaces. Proteins 39:331-42 (2000).
P93 Huang H, Xiao C, Wu CH ; ProClass protein family database. Nucleic Acids Res. 28:273-6 (2000).
P94 Iwaasa,H.; Takagi,T.; Shikama,K.; Protozoan myoglobin from Paramecium caudatum. Its unusual amino acid sequence. J. Mol. Biol. 208 :355-8 (1989)
P95 Johnson G, Wu TT ; Kabat Database and its applications: future directions. Nucleic Acids Res. 29:205-6 (2001).
P96 Johnson MS, Overington JP ; A structural basis for sequence comparisons. An evaluation of scoring methodologies. J Mol Biol. 233:716-38 (1993).
P97 Jones DT, Tress M, Bryson K, Hadley C ; Successful recognition of protein folds using threading methods biased by sequence similarity and predicted secondary structure. Proteins. 37:104-111 (1999).
P98 Jones TA, Thirup S ; Using known substructures in protein model building and crystallography. EMBO J. 5:819-22 (1986).
P99 Kallberg Y, Persson B ; KIND-a non-redundant protein database. Bioinformatics 15:260-1 (1999).
P100 Karlin S, Altschul SF ; Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A. 87:2264-8 (1990).
P101 Karplus K, Hu B ; Evaluation of protein multiple alignments by SAM-T99 using the BAliBASE multiple alignment test set. Bioinformatics. 17:713-20 (2001).
P102 Kawabata T, Ota M, Nishikawa K ; The protein mutant database. Nucleic Acids Res. 27:355-7 (1999).
154
P103 Kellis JT Jr, Nyberg K, Fersht AR ; Energetics of complementary side-chain packing in a protein hydrophobic core. Biochemistry 28:4914-22 (1989).
P104 Kernighan BW, Ritchie DM ; Le langage C. Ed : Masson (1992).
P105 King RD, Saqi M, Sayle R, Sternberg MJ. DSC: public domain protein secondary structure predication. Comput Appl Biosci. 13:473-4 (1997).
P106 Koshi JM, Goldstein RA ; Context-dependent optimal substitution matrices. Protein Eng. 8:641-5 (1995).
P107 Krinventseva EV, Fleischmann W, Zdobnov EM, Apweiler R ; CluSTr : a database of clusters of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res. 29:33-6 (2000).
P108 Kyte J, Doolittle RF ; A simple method for displaying the hydropathic character of a protein. J Mol Biol. 157:105-32 (1982).
P109 Labesse G, Colloc'h N, Pothier J, Mornon JP ; P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. Comput Appl Biosci. 13:291-5 (1997).
P110 Labesse G, Colloc'h N, Pothier J, Mornon JP. P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. Comput Appl Biosci. ;13:291-5 (1997).
P111 Ladunga I, Smith RF ; Amino acid substitutions preserve protein folding by conserving steric and hydrophobicity properties. Protein Eng. 10:187-96 (1997).
P112 Lamarine M ; Prédiction du repliement peptidiqu grâce aux invariants structuraux de protéines homologues (2001). Thèse. Université Pierre et Marie Curie, Paris 6, France.
P113 Lawrence C, Auger I, Mannella C ; Distribution of accessible surfaces of amino acids in globular proteins. Proteins 2:153-61 (1987).
P114 Lee B, Richards FM ; The interpretation of protein structures: estimation of static accessibility. J Mol Biol. 55:379-400 (1971).
P115 Lefranc MP ; IMGT, the international ImMunoGeneTics database. Nucleic Acids Res. 29:207-9 (2001).
P116 Lesk AM, Chothia C ; How different amino acid sequences determine similar protein structures: the structure and evolutionary dynamics of the globins. J Mol Biol. 136:225-70 (1980).
P117 Levin JM, Garnier J ; Improvements in a secondary structure prediction method based on a search for local sequence homologies and its use as a model building tool. Biochim Biophys Acta. 955:283-95 (1988).
P118 Levin JM, Robson B, Garnier J ; An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Letters 205:303-308 (1986).
P119 Levitt M ; Accurate modeling of protein conformation by automatic segment matching. J Mol Biol. 226:507-33 (1992).
P120 Levitt M ; A simplified representation of protein conformations for rapid simulation of protein folding. J. Mol. Biol., 104:59-107 (1976).
155
P121 Liberty J, Hord M ; Le langage C++. Collection "le programmeur". Ed : S&SM (1998).
P122 Lipman DJ, Altschul SF, Kececioglu JD ; A tool for multiple sequence alignment. Proc Natl Acad Sci U S A. 86:4412-5 (1989).
P123 Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C ; SCOP: a structural classification of proteins database. Nucleic Acids Res. 28:257-9 (2000).
P124 Lupas A, Van Dyke M, Stock J ; Predicting coiled coils from protein sequences. Science. 252:1162-4 (1991).
P125 Markiewicz P, Kleina LG, Cruz C, Ehret S, Miller JH ; Genetic studies of the lac repressor. XIV. Analysis of 4000 altered Escherichia coli lac repressors reveals essential and non-essential residues, as well as "spacers" which do not require a specific sequence. J Mol Biol. ;240:421-33 (1994).
P126 Matsumura M, Yahanda S, Yasumura S, Yutani K, Aiba S ; Role of tyrosine-80 in the stability of kanamycin nucleotidyltransferase analyzed by site-directed mutagenesis. Eur J Biochem. 1988 171:715-20 (1988).
P127 Mizuguchi K, Deane CM, Blundell TL, Overington JP ; HOMSTRAD: a database of protein structure alignments for homologous families. Protein Sci. 7:2469-71 (1998).
P128 Morgenstern B, Frech K, Dress A, Werner T ; DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics. 14:290-4 (1998).
P129 Muchielli-Giorgi MH ; Analyse et prédiction des contacts entre les chaînes latérales des protéines (1999). Thèse. Université Denis Diderot, Paris 7, France.
P130 Musafia B, Buchner V, Arad D ; Complex salt bridges in proteins: statistical analysis of structure and function. J Mol Biol. 254:761-70 (1995).
P131 Needleman SB, Wunsch CD ; A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 48:443-453 (1970).
P132 Nielsen H, Brunak S, von Heijne G ; Machine learning approaches for the prediction of signal peptides and other protein sorting signals. Protein Eng. 12:3-9 (1999).
P133 Notredame C ; Recent progress in multiple sequence alignment: a survey. Pharmacogenomics. 3:131-44 (2002).
P134 Notredame C, Higgins DG, Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol. 302:205-17 (2000).
P135 Notredame C, Higgins DG; SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res. 24:1515-24 (1996).
P136 Notredame C, Holm L, Higgins DG ; COFFEE: an objective function for multiple sequence alignments. Bioinformatics. 14:407-22 (1998).
P137 O’Donovan C, Martin MJ, Glemet E, Codani JJ, Apweiler R ; Removing redundancy in SWISS-PROT and TrEMBL. Bioinformatics 15 :258-59 (1999).
156
P138 O'Donovan C., Apweiler R., Bairoch A.; The human proteomics initiative (HPI). Trends Biotechnol. 19:178-81 (2001).
P139 Orengo CA, Pearl FM, Bray JE, Todd AE, Martin AC, Lo Conte L, Thornton JM ; The CATH Database provides insights into protein structure/function relationships. Nucleic Acids Res. 27:275-9 (1999).
P140 Pal D, Chakrabarti P ; On residues in the disallowed region of the Ramachandran map. Biopolymers 63:195-206 (2002).
P141 Palm CJ, Federspiel NA, Davis RW ; DAtA: database of Arabidopsis thaliana annotation. Nucleic Acids Res. 28:102-3 (2000).
P142 Pan XM ; Multiple linear regression for protein secondary structure prediction. Proteins. 43:256-9 (2001).
P143 Parker JM, Guo D, Hodges RS ; New hydrophilicity scale derived from high-performance liquid chromatography peptide retention data: correlation of predicted surface residues with antigenicity and X-ray-derived accessible sites. Biochemistry. 25:5425-32 (1986).
P144 Pascarella S, Argos P ; Analysis of insertions/deletions in protein structures. J Mol Biol. ;224:461-71 (1992).
P145 Pauling L, Corey RB ; The structures of proteins : two hydrogen-bonded helical configurations of the polypeptide chain. Proc Natl Acad Sci USA 37:205-11 (1951).
P146 Pearl FM, Martin N, Bray JE, Buchan DW, Harrison AP, Lee D, Reeves GA, Shepherd AJ, Sillitoe I, Todd AE, Thornton JM, Orengo CA ; A rapid classification protocol for the CATH Domain Database to support structural genomics. Nucleic Acids Res. 29:223-7 (2001).
P147 Pearson WR ; Comparison of metnods for searching protein sequences databases. Protein Science 4:1145-1160 (1995).
P148 Pearson WR ; Rapid and Sensitive Sequence Comparison with FASTP and FASTA. Methods in Enzymology183:63- 98 (1990).
P149 Pearson WR, Lipman DJ ; Improved Tools for Biological Sequence Analysis. Proc Natl Acad Sci U S A 85:2444- 2448 (1988).
P150 Pei J, Grishin NV ; AL2CO: calculation of positional conservation in a protein sequence alignment. Bioinformatics. 17:700-12 (2001).
P151 Pervushin K, Riek R, Wider G, Wuthrich K ; Attenuated T2 relaxation by mutual cancellation of dipole-dipole coupling and chemical shift anisotropy indicates an avenue to NMR structures of very large biological macromolecules in solution. Proc. Natl. Acad. Sci. 94:12366-71 (1997).
P152 Poupon A, Mornon JP ; Populations of hydrophobic amino acids within protein globular domains: identification of conserved "topohydrophobic" positions. Proteins 33:329-42 (1998).
P153 Prlic A, Domingues FS, Sippl MJ ; Structure-derived substitution matrices for alignment of distantly related sequences. Protein Eng. 13:545-50 (2000).
P154 Ramachandran GN, Sasisekharan V ; Conformation of polypeptides and proteins. Adv Protein Chem. 23:283-438 (1968).
157
P155 Rennell D, Bouvier SE, Hardy LW, Poteete AR ; Systematic mutation of bacteriophage T4 lysozyme. J Mol Biol. 222:67-88 (1991).
P156 Richards FM, Kundrot CE ; Identification of structural motifs from protein coordinate data: secondary structure and first-level supersecondary structure. Proteins. 3:71-84 (1988).
P157 Riek R, Wider G, Pervushin K, Wuthrich K ; Polarization transfer by cross-correlated relaxation in solution NMR with very large molecules. Proc. Natl. Acad. Sci. 96:4918-23 (1999).
P158 Rost B ; TOPITS: threading one-dimensional predictions into three-dimensional structures. Proc Int Conf Intell Syst Mol Biol. 3:314-21 (1995).
P159 Rost B ; Twilight zone of protein sequence alignments. Protein Eng. 12:85-94 (1999).
P160 Rost B, Sander C, Schneider R ; PHD--an automatic mail server for protein secondary structure prediction. Comput Appl Biosci. 10:53-60 (1994).
P161 Rost B, Sander C, Schneider R ; Redefining the goals of protein secondary structure prediction. J Mol Biol. 235:13-26 (1994).
P162 Rubin GM, Yandell MD, Wortman JR, Gabor Miklos GL, Nelson CR, Hariharan IK, Fortini ME, Li PW, Apweiler R, Fleischmann WCherry JM, Henikoff S, Skupski MP, Misra S, Ashburner M, Birney E, Boguski MS, Brody T, Brokstein P, Celniker SE, Chervitz SA, Coates D, Cravchik A, Gabrielian A, Galle RF, Gelbart WM, George RA, Goldstein LS, Gong F, Guan P, Harris NL, Hay BA, Hoskins RA, Li J, Li Z, Hynes RO, Jones SJ, Kuehl PM, Lemaitre B, Littleton JT, Morrison DK, Mungall C, O'Farrell PH, Pickeral OK, Shue C, Vosshall LB, Zhang J, Zhao Q, Zheng XH, Lewis S ; Comparative genomics of the eukaryotes. Science 287:2204-15 (2000).
P163 Russell RB, Barton GJ ; Structural features can be unconserved in proteins with similar folds. An analysis of side-chain to side-chain contacts secondary structure and accessibility. J Mol Biol. 244:332-50 (1994).
P164 Sali A, Overington JP ; Derivation of rules for comparative protein modeling from a database of protein structure alignments. Protein Sci. 3:1582-96 (1994).
P165 Sali D, Bycroft M, Fersht AR ; Surface electrostatic interactions contribute little of stability of barnase. J Mol Biol. 220:779-88 (1991).
P166 Sanchez R, Pieper U, Mirkovic N, de Bakker PI, Wittenstein E, Sali A ; MODBASE, a database of annotated comparative protein structure models. Nucleic Acids Res. 28:250-3 (2000).
P167 Schueler O, Margalit H ; Conservation of salt bridges in protein families. J Mol Biol. 248:125-35 (1995).
P168 Shoop E, Silverstein KA, Johnson JE, Retzel EF ; MetaFam: a unified classification of protein families. II. Schema and query capabilities. Bioinformatics 17:262-71 (2001).
P170 Shpaer EG, Robinson M, Yee D, Candlin JD, Mines R, Hunkapiller ; Sensitivity and selectivity in protein similarity searches: a comparison of Smith-Waterman in hardware to BLAST and FASTA. Genomics 38:179-91 (1996).
P171 Silverstein KA, Shoop E, Johnson JE, Retzel EF ; MetaFam: a unified classification of protein families. I. Overview and statistics. Bioinformatics 17:249-61 (2001b).
158
P172 Sklenar H, Etchebest C, Lavery R ; Describing protein structure: a general algorithm yielding complete helicoidal parameters and a unique overall axis. Proteins. 6:46-60 (1989).
P173 Smith RF, Smith TF ; Pattern-induced multi-sequence alignment (PIMA) algorithm employing secondary structure-dependent gap penalties for use in comparative protein modelling. Protein Eng. 5:35-41 (1992).
P174 Smith TF, Waterman MS ; Identification of common molecular subsequences. J Mol Biol. 147:195-7 (1981)
P175 Smith TF, Waterman MS ; Identification of common molecular subsequences. J Mol Biol. 147:195-7 (1981).
P176 Sneath PHA and Sokal RR; Numerical Taxonomy ; W.H Freeman and company, San Francisco, California,USA, (1973).
P177 Sowdhamini R, Burke DF, Huang JF, Mizuguchi K, Nagarajaram HA, Srinivasan N, Steward RE, Blundell TL ; CAMPASS: a database of structurally aligned protein superfamilies. Structure 6:1087-94 (1998).
P178 Sowdhamini R, Rufino SD, Blundell TL ; A database of globular protein structural domains: clustering of representative family members into similar folds. Fold Design 1:209-20 (1996).
P179 Stoye J, Moulton V, Dress AW ; DCA: an efficient implementation of the divide-and-conquer approach to simultaneous multiple sequence alignment. Comput Appl Biosci. 13:625-6 (1997).
P180 Strousup B ; Le langage C++. Ed : CampusPress France (1999).
P181 Taylor WR ; A flexible method to align large numbers of biological sequences. J Mol Evol. 28 (1-2):161-9 (1988).
P182 Thompson JD, Higgins DG, Gibson TJ ; CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22:4673-4680 (1994).
P183 Thompson JD, Plewniak F, Poch O ; A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27:2682-90 (1999).
P184 Thompson JD, Plewniak F, Poch O ; A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27:2682-90 (1999).
P185 Thompson JD, Plewniak F, Ripp R, Thierry JC, Poch O ; Towards a reliable objective function for multiple sequence alignments. J Mol Biol. 314:937-51 (2001).
P186 Tsai J, Gerstein M, Levitt M ; Simulating the minimum core for hydrophobic collapse in globular proteins. Protein Sci. 6:2606-16 (1997).
P187 Waterman MS, Vingron M ; Rapid and accurate estimates of statistical significance for sequence data base searches. Proc Natl Acad Sci U S A. 91:4625-8 (1994).
P188 Wertz DH, Scheraga HA ; Influence of water on protein structure. An analysis of the preferences of amino acid residues for the inside or outside and for specific conformations in a protein molecule. Macromolecules 11:9-15 (1978).
159
P189 Wheeler DL, Church DM, Lash AE, Leipe DD, Madden TL, Pontius JU, Schuler GD, Schriml LM, Tatusova TA, Wagner L, Rapp BA ; Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 29:11-6 (2001).
P190 Willms G ; Grand livre C++. Ed : Micro Application (1999).
P191 Wolf YI, Grishin NV, Koonin EV ; Estimating the number of protein folds and families from complete genome data. J Mol Biol. 299:897-905 (2000).
P192 Wu C, Xiao C, Hou Z, Huang H, Barker WC ; iProclass: an integrated, comprehensive and annotated protein classification database. Nucleic Acids Res. 29:52-4 (2001).
P193 Yona G, Linial N, Linial M ; ProtoMap: Automatic classification of protein sequences and hierarchy of protein families. Nucleic Acids Res. 28:49-55 (2000).
P194 Zemla A, Venclovas C, Fidelis K, Rost B ; A modified definition of Sov, a segment-based measure for protein secondary structure prediction assessment. Proteins. 34:220-3 (1999).
P195 Zhang C, DeLisi C ; Estimating the number of protein folds. J Mol Biol. 284:1301-5 (1998).