la banque uniprotkb et le logiciel blast. uniprotkb disponible depuis nimporte quel navigateur web
TRANSCRIPT
La banque UniprotKB et le logiciel Blast
UniProtKB• Disponible depuis n’importe quel navigateur web
Un exemple de recherche de protéine
Histoire d’UniProtKB
1986 : SwissProt
+ 2002 : UniProtKB
Institut Européen de Bioinformatique Protein
Information Ressource
Organisation de la banque de données
• Données entrées à la main• Résultats vérifiés, issus d’articles scientifiques, références systématiques.• 541000 protéines, +600/mois
45 000 000 protéines
• Données entrées automatiquement, par analyse informatique de génomes• Résultats parfois peu fiables (identification des séquences codantes automatiques et déductions des fonctions par comparaison aux protéines connues)• 44 500 000 protéines, +2M le mois dernier
Evolution du nombre de protéines de la banque Tr-EMBL
Comment identifier automatiquement une protéine ?
4 types de preuves :
– au niveau protéique 0.05%– au niveau transcriptionnel 2%– déduction par homologie 23% – Prédiction par analyse de séquence 75%
Comment identifier automatiquement une protéine ?
La prédiction par analyse de séquence
Identification des CDS (CoDing Sequence) et non des ORF (Open Reading Frame)
• Trouver le cadre de lecture : zone pauvre en codons stop• Identifier les séquences proches de séquences connues• Chez les eucaryotes : le problème des introns/exons -> reconnaissance
statistique
Quelques exemples d’utilisation
Le logiciel BLASTBasic Alignment Search Tool
Principales utilisations de ces outils
• C’est avant tout une mine d’informations sur les protéines !
• Pour l’identification d’une nouvelle protéine : travail préliminaire de comparaison aux protéines connues
• Etude de mécanismes d’évolution• Travail statistique général sur les protéines
Statistiques généralesComposition en acides aminés
5.1 Composition in percent for the complete database
Ala (A) 8.66 Gln (Q) 3.99 Leu (L) 9.96 Ser (S) 6.55 Arg (R) 5.35 Glu (E) 6.22 Lys (K) 5.33 Thr (T) 5.55 Asn (N) 4.11 Gly (G) 7.08 Met (M)2.49 Trp (W) 1.28 Asp (D) 5.34 His (H) 2.19 Phe (F) 4.05 Tyr (Y) 3.08 Cys (C) 1.19 Ile (I) 6.10 Pro (P) 4.56 Val (V) 6.80 Asx (B) 0.000 Glx (Z) 0 Xaa (X) 0.02
Taille des séquences
Conclusion