quelques mots sur la bioinfo maude pupin. déroulement des 6 séances de tp : 5 séances de tp + un...

56
Quelques mots sur la bioinfo Maude Pupin

Upload: astor-poirot

Post on 03-Apr-2015

106 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Quelques mots sur la bioinfo

Maude Pupin

Page 2: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Déroulement des 6 séances de TP :

5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui) Comparaison de séquences Prédiction de gènes Annotation des protéines Reconstruction phylogénétique

Sujets de TP accessibles depuis : http://www.lifl.fr/~noe/enseignement/

Page 3: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Qu’est-ce que la bioinformatique ?

L’approche in silico de la biologie

Un outil indispensable aux biologistes

Un nouveau domaine de recherche

Trois activités principales : Acquisition et organisation des données biologiques

Conception de logiciels pour l’analyse, la comparaison et la

modélisation des données

Analyse des résultats produits par les logiciels

Page 4: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Les limites de la bioinformatique

Grands volumes de données à traiter Parfois diminution de la qualité des résultats au profit de la

rapidité

Recherche d’une solution parmi un ensemble infini de

possibilités Besoin d’optimiser les programmes pour arriver à proposer un

résultat dans un temps raisonnable

Ce n’est pas toujours la solution la meilleure qui est trouvée

Dépendant des connaissances biologiques

Un résultat de programme n'est pas une vérité !

Page 5: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Quelques liens utiles (en français)

Deambulum à Infobiogen http://www.infobiogen.fr/services/deambulum/fr/ Recueil de liens vers des sites de biologie et bioinformatique

Logiciels pour la biologie à l’Institut Pasteur http://bioweb.pasteur.fr/ De nombreux logiciels proposés et des liens vers des sites

NPSA au PBIL (Pôle BioInformatique Lyonnais) http://npsa-pbil.ibcp.fr/ L’étude des protéines et autres logiciels

Proteomics tools à Expasy http://www.expasy.org/tools/ Tout sur l’étude des protéines

Page 6: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Présentation des banques de données

Page 7: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Qu’est-ce qu’une banque de données ?

Ensemble de données relatives à un domaine,

organisées par traitement informatique, accessibles en

ligne et à distance

Souvent, les données sont stockées sous la forme d’un

fichier texte formaté (respectant une disposition

particulière)

Besoin de développer des logiciels spécifiques pour

interroger les données contenues dans ces banques

Page 8: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Les banques de données généralistes

Ces banques contiennent des données hétérogènes Collecte la plus exhaustive possible

Banques de séquences nucléiques

Banques de séquences protéiques

Banques de structure 3D de macromolécules

Banques d’articles scientifiques

Avantage : tout est consultable en une fois

Inconvénients : difficiles à maintenir, difficiles à interroger

Page 9: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Les banques de données spécialisées

Ces banques contiennent des données homogènes Collecte établie autour d’une thématique particulière

Avantages : facilité pour mettre à jour les données,

vérifier leur intégrité, offrir une interface adaptée, …

Inconvénients : ne cible pas toujours ce que l’on veut;

toutes les banques possibles n’existent pas

Exemples : banques spécialisées pour un génome,

banques de séquences d'immunologies, banques sur

des séquences validées, …

Page 10: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Les banques de séquences nucléiques

Origine des données : Séquençage d’ADN et d’ARN

Les données stockées : séquences + annotations Fragments de génomes

Un ou plusieurs gènes, un bout de gène, séquence intergénique, …

Génomes complets

ARNm, ARNt, ARNr, … (fragments ou entiers)

[ Note 1] : toutes les séquences (ADN ou ARN) sont

écrites avec des T

[ Note 2] : les séquences sont toujours orientées 5’ vers

3’.

Page 11: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Développement du séquençage de l’ADN

1977 : F. Sanger met au point la méthode de Sanger

pour établir le séquençage de l’ADN.

1980 : Création de la banque EMBL

1984 : Développement de la réaction de polymérisation

en chaîne (PCR) par Mullis.

1987 : Réalisation et commercialisation du 1er

séquenceur automatisé par la société Applied

Biosystems (Californie).

Page 12: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, les débuts

Apparition dans les années 1980 Toutes les séquences déterminées sont publiées dans un article

Les banques guettent les articles et en extraient les séquences

Croissance du nombre de séquences : Pas de publication systématique pour une séquence

Beaucoup de données à collecter

Gestion des données par des organismes spécialisés

Les séquences et leurs annotations sont soumises aux

banques par les laboratoires qui ont fait le séquençage

Page 13: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, le partage des données

Trois banques : EMBL (European Molecular Biology Laboratory), crée en 1982

GenBank (banque des Etats-Unis d’Amérique), crée en 1982

DDJ (DNA Databank of Japon), crée en 1986

Echange quotidien des données entre ces banques

depuis 1987 (1992 ?)

Répartition de la collecte des données Chaque banque collecte les données de son continent

Même format de données pour la partie « Feature » Formats différents pour le reste de l’entrée

Page 14: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, mises à jour de la banque

Une nouvelle version est disponible plusieurs fois par an Date et numéro de version (release)

Données figées à une date fixée (toutes les séquences

collectées jusque là)

Mise à disposition des « UpDates » Mise à jour quotidienne des données

Toutes les nouvelles séquences depuis la dernière version

Facilite le traitement des données Pas besoin de télécharger la banque entière tous les jours

Possibilité de faire des calculs longs

Page 15: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, dernière version

EMBL, version 85 du 30 novembre 2005 64,739,883 entrées, 116,106,677,726 bp

Dont 12,088,383 entrées (59,629,958,692 bp) sont issues de «

shutgun »

GenBank, version 150 de février 2006 54,584,635 entrées, 59,750,386,305 bp

DDBJ, version 62 de mai 2005 45.249.444 entrées, 49.158.155.283 bp

Page 16: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, croissance

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

100000

82 84 86 88 90 92 94 96 98 00 02 04

Mill

iers

Nb entrées kb

020406080

100120

82 83 84 85 86 87 88 89 90 91 92

Page 17: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Séquençage de génomes

1995 : Séquençage de la 1ère bactérie, Haemophilus

influenzae (1,83 Mb) (Fleischmann).

1996 : Séquençage du 1er génome eucaryote,

Saccharomyces cerevisiae (12 Mb) (Dujon).

1998 : Séquençage du 1er organisme pluricellulaire,

Caenorhabditis elegans (100 Mb).

2001 : Annonce du décryptage presque complet du

génome humain (février).

Page 18: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Les projets de séquençage (source : GOLD)

Source : GOLD (http://www.genomesonline.org/)

298 génomes complets publiés 236 bactéries

39 eucaryotes

23 archaebactéries

746 génomes procaryotes en cours de séquençage 706 bactéries

38 archaebactéries

531 génomes eucaryotes en cours de séquençage

Page 19: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, format d’une entrée

3 parties : Chaque ligne commence par

un mot-clé Deux lettres pour EMBL

Maximum 12 lettres pour

Genbank et DDBJ

Fin d’une entrée : //

Description générale de la séquence

« Features »

Description des objets biologiques présents sur

la séquence

La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60

tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120

acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180

Page 20: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

ID AF226511 standard; genomic DNA; PRO; 948 BP.AC AF226511;SV AF226511.1DT 15-MAR-2000 (Rel. 63, Created)DT 04-JAN-2006 (Rel. 86, Last updated, Version 2)DE Neisseria meningitidis strain 1000 membrane protein GNA1220 (gna1220) gene,DE complete cds.OS Neisseria meningitidisOC Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae;OC Neisseria.

RP 1-948RX DOI; 10.1126/science.287.5459.1816.RX PUBMED; 10710308.RA Pizza M., Scarlato V., Masignani V., Giuliani M.M., Arico' B., …RT "Identification of vaccine candidates … "RL Science 287(5459):1816-1820(2000).RL Submitted (19-JAN-2000) to the EMBL/GenBank/DDBJ databases.RL IRIS Immunobiological Research Institute in Siena, Chiron SpA, ViaRL Fiorentina, 1, Siena 53100, Italy

Description générale de la séquence

Page 21: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, les différentes lignes (1/2)

ID : nom de l’entrée , … Unique (propre à une entrée) Non permanent (peut changer au cours des versions)

AC : numéro d’accession Unique, plusieurs pour une même entrée (fusion d’entrées) Permanent (ne disparaît jamais de la banque)

SV : version de la séquence (Acc.version) DT : date d’incorporation dans la banque et de dernière

mise à jour DE : description du contenu de l’entrée

Page 22: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, la ligne ID

ID entryname dataclass; molecule; division; sequencelength BP.

Exemple: ID AB000263 standard; RNA; PRI; 368 BP.

Entryname : nom de l’entrée en général numéro d'accession

Dataclass : toujours le mot « standard »

Molecule : type de la molécule de l’entrée DNA, RNA, circular DNA, …

Division : essentiellement basé sur la taxonomie HUM (Human), MUS (Souris), MAM (Other Mammals), ...

Taille : en paires de bases

Page 23: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, les différentes lignes (2/2)

KW : liste de mots-clés (désuet) OS : organisme d’où provient la séquence (nom latin) OC : taxonomie (ou « artificial sequence »)

Exemple : Eukaryota; Planta; Phycophyta; Euglenophyceae.

OG : localisation de séquences non nucléaires Exemple : Mito, Plasmid …

RA, RT, RN, RC, RX, RP, RL : réf. bibliographiques DR : liaison avec d’autres banques de données FH, FT : caractéristiques d’une entrée (Features) SQ : séquence (termine par //)

Page 24: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

FH Key Location/QualifiersFHFT source 1..948FT /db_xref="taxon:487"FT /mol_type="genomic DNA"FT /note="serogroup: B"FT /organism="Neisseria meningitidis"FT /strain="1000"FT gene 1..948FT /gene="gna1220"FT CDS 1..948FT /codon_start=1FT /db_xref="GOA:Q9JPH5"FT /db_xref="InterPro:IPR001107"FT /db_xref="InterPro:IPR001972"FT /db_xref="UniProtKB/TrEMBL:Q9JPH5"FT /note="similar to stomatin-like proteins; Genome-derivedFT Neisseria Antigen GNA1220"FT /transl_table=11FT /gene="gna1220"FT /product="membrane protein GNA1220"FT /protein_id="AAF42660.1"FT /translation="MEFFIILLVAVAVFGFKSFVVIPQQEVHVVERLGRFHRALTAGLNFT ILIPFIDRVAYRHSLKEIPLDVPSQVCITRDNTQLTVDGIIYFQVTDPKLASYGSSNYIFT MAITQLAQTTLRSVIGRMELDKTFEERDEINSTVVSALDEAAGAWGVKVLRYEIKDLVPFT PQEILRSMQAQITAEREKRARIAESEGRKIEQINLASGQREAEIQQSEGEAQAAVNASNFT AEKIARINRAKGEAESLRLVAEANAEAIRQIAAALQTQGGADAVNLKIAEQYVAAFNNLFT AKESNTLIMPANVADIGSLISAGMKIIDSSKTAK"XX

« Features »

Description des objets biologiques présents sur la séquence

Page 25: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, Features

But : Mettre à disposition un vocabulaire étendu pour

décrire les caractéristiques biologiques des séquences.

Format :

Key : indique un groupe fonctionnel Vocabulaire contrôlé, hiérarchique

Location : instructions pour trouver l’objet sur la

séquence de l’entrée

Qualifiers : informations complémentaires /qualifier=‘‘commentaires libres’’

Page 26: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, Key (1/2)

Mot-clé le plus général : misc_feature

Changements dans la séquence : misc_difference, ...

Régions répétées : repeat_region, ...

Régions des Ig : immunoglobulin_related, ...

Structures secondaires : misc_structure stem_loop

D-loop

Régions impliquées dans la recombinaison :

misc_recomb, ...

Page 27: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, Key (2/2)

gene

misc_signal

promoter

CAAT_signal

TATA_signal

-35_signal

-10_signal

GC_signal

RBS

polyA_signal

enhancer

attenuator

terminator

misc_RNA

prim_transcript

precursor_RNA

mRNA

5'clip

3'clip

5'UTR

3'UTR

exon

CDS

intron

polyA_site

http://www.ebi.ac.uk/embl/WetFeat/

Page 28: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, Location (1/2)

467 base seule

340..565 séquence comprise entre les bornes (incluses)

<1..888 commence avant le premier nt de l'entrée

<234..888 début réel inconnu, avant 234

234..>888 finit après la position 888.

(228.234)..888 position réelle inconnue, entre 228 et 234

145^146 situé entre deux nt adjacents

Page 29: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, Location (2/2)

complement(340..565) séquence complémentaire

inversée de celle de l'entrée Intervalle toujours donné avec la borne la plus petite en premier

Indique que l’objet est sur l’autre brin

join(12..78,134..202) séquence unique composée des

fragments indiqués concaténés Ex : ARNm mature constitué de plusieurs exons

Page 30: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, Qualifiers

Vocabulaire contrôlé entre « / » et « = » puis texte libre Le vocabulaire dépend du Key au quel le Qualifier se réfère

Nom de gène /gene= ou /name=

Fonction de la protéine codée par le gène /product=

Origine de l’annotation /evidence=

Texte libre /note=

Page 31: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, mise à jour des données

Evolution des entrées Erreurs de séquences

Changements dans les annotations

Pb : Seuls les auteurs d’une entrées peuvent la corriger ! Faible taux de mise à jour

Création d’une nouvelle banque : TPA Third Party Annotation

Stockage à part de la mise à jour des entrées

Page 32: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques nucléiques, inconvénients

Difficulté de mise à jour des données Version plus récente d’une séquence ou d’une annotation dans

d’autres banques (ex : banques dédiées à un génome complet)

Forte redondance Un même fragment de séquence présent dans plusieurs entrées

Annotations peu normalisées Difficulté de recherche d’une information précise

Annotations peu précises Peu de descriptions sur les gènes et leur produit

Erreurs dans les annotations

Page 33: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Création de banques plus spécialisées, RefSeq

Gérée au NCBI Séquences nucléiques et protéiques

Liens explicites entre les gènes et leurs produits

Chaque entrée représente une unique molécule d’un organisme particulier Pas de redondance

Mise à jour manuelle par le personnel du NCBI Validation des données et annotations normalisées Statut de l’entrée indiqué sur chaque entrée (prédit, validé, …)

Information sur les variants de transcrits

Page 34: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Création de banques plus spécialisées, UniGene

Gérée au NCBI

Regroupe les séquences nucléiques Comparaison des séquences de GenBank entre elles

Création de groupes de séq similaires basés sur les gènes

Une entrée : les séquences dérivées d’un même gène Les différents ARNm connus, les EST, …

Informations sur le gène, la protéine, l’expression

Page 35: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Les banques de séquences protéiques

Origine des données Traduction de séquences d’ADN

Séquençage de protéines Rare car long et coûteux

Protéines dont la structure 3D est connue

Les données stockées : séquences + annotations Protéines entières

Fragments de protéines

Page 36: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques de séquences protéiques, les débuts

1965 : Atlas of Protein Sequences, Margaret Dayhoff 50 entrées

Version papier jusqu’en 78, puis version électronique

1984 : création de PIR-NBRF (Protein Information Resource -

National Biomedical Research Foundation) Collaboration avec MIPS (Allemagne) et JIPID (Japon)

1986 : création de SwissProt Collaboration entre SIB (Swiss Institute of Bioinformatics ) et EBI

Fin 2003 : création de UniProt (Universal Protein Resource) Mise en commun des informations de PIR et SwissProt/TrEMBL

« entrepôt » central de séquences et fonctions protéiques

Page 37: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

PIR, ses deux bases de données

PSD : Protein Sequence Database Séquences protéiques avec annotation fonctionnelle

«the most comprehensive and expertly annotated protein

sequence database in the public domain »

PIR-NREF : Non redondant protein sequences Pas plus d’une entrée pour une protéine (comparaison de toutes

les séquences entre elles)

Données : PIR-PSD, SwissProt, TrEMBL, RefSeq, GenPept,

PDB

Page 38: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SwissProt, ses deux banques

SwissProt Données corrigées et validées par des experts Haut niveau d’annotation

Description de la fonction (références associées) Localisation des domaines fonctionnels Modifications post-traductionnelles Existence de variants, …

Redondance minimale Nombreux liens vers d’autres banques (60 BD)

TrEMBL Entrées supplémentaires à SwissProt (pas encore annotées) Traduction automatique de l’EMBL

Page 39: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SwissProt/TrEMBL, croissance

nov.-86

sept.-

nov.-88

oct.-89

nov.-90

nov.-91

déc.-92

oct.-93

oct.-94

nov.-95

oct.-96

nov.-97

déc.-98

juil.-99

mai-00

oct.-01

janv.-

oct.-03

juil.-04

01/09/

0

250000

500000

750000

1000000

1250000

1500000

1750000

2000000

SwissProt TrEMBL

Page 40: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SwissProt/TrEMBL, format d’une entrée

Format basé sur celui de l’EMBL Mot-clé de 2 lettres au début de chaque ligne

Les mêmes mots-clés sont utilisés

Format différent pour les Features

Mots-clés supplémentaires : GN : les différents noms du gène qui code pour la protéine (OR)

les différents gènes qui codent pour la même protéine (AND)

OX : références croisées vers les banques taxonomiques

CC : commentaires, lignes très documentées dans SwissProt

KW : mots-clés issus d’un distionnaire

Page 41: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SwissProt/TrEMBL, lignes CC

Informations découpées en blocs pour plus de lisibilitéCC -!- TOPIC: First line of a comment block;

CC second and subsequent lines of a comment block.

De nombreux sujets sont abordés FUNCTION : description générale de la fonction de la protéine

CATALYTIC ACTIVITY : description des réactions catalysées

par les enzymes

DEVELOPMENTAL STAGE : description du stade spécifique

auquel la protéine est exprimée

SUBUNIT : complexes dont fait partie la protéine (+ partenaires)

Page 42: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SwissProt/TrEMBL, lignes FT

Régions ou sites d’intérêt dans la séquence Modifications post-traductionnelles Sites de fixation Sites actifs d’enzymes Structures secondaire Changements de séquence (y compris les variants)

Format en colonne (nb caractères) 1-2 : FT 6-13 : Key (mot-clé, vocabulaire contrôlé) 15-20 22-27 : début et fin de l’objet 35-75 : description (éventuellement sur plusieurs lignes)

Page 43: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

UniProt, les différentes banques

UniProt : UniProt Knowledgebase Deux parties : entrées annotées manuellement (SwissProt) et

entrées annotées de façon automatique (TrEMBL) Plus d’informations que dans les banques d’origine

UniRef : UniProt Non-redundant Reference database UniRef100 : regroupement des séquences identiques et de leurs

fragments provenant d’un même organisme UniRef90 : entrées de UniRef100 avec plus de 90% d’identité UniRef50 : idem pour 50% d’identitié

UniParc : UniProt Archive UniProt + d’autres banques (PDB, RefSeq, FlyBase, brevets, …)

Page 44: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Banques protéiques, dernières versions

PIR-PSD : n° 80, 31/12/05, 283.416 entrées

PIR-NREF : n° 1.77, 19/09/05, 2.577.815 entrées. PIR (283.009 entrées)

GenPept (2.570.458 entrées)

RefSeq : 1.266.570 entrées

PDB : 32.545 entrées

SwissProt : n° 48, 13/09/05, 194.317 entrées

TrEMBL : n° 31, 13/09/05: 2.105.517 entrées

UniProt : n° 6.0, 13/09/05: 2.299.834 entrées

UniRef100 : 2.939.066, UniRef90 : 1.730.689, UniRef50 : 907.983

UniParc : 5.025.587

Page 45: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Une Banque bibliographique, PubMed

Contient Journaux concernant la biologie et la médecine

Articles indexés par des experts à l’aide des termes MeSH

Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de

molécules chimiques Hiérarchisé

Dictionnaire de synonymes

19.000 termes médicaux, 103.500 termes chimiques

Subheadings : sous-titres qui décrivent un aspect particulier des

termes MeSH

Mis à jour régulièrement

Page 46: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Exemple de terme MeSH

Page 47: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Systèmes d’interrogation de banques de données

Page 48: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Interrogation d’une banque

But : Obtenir des informations nouvelles et pertinentes

Aide à la mise au point d’expériences

Validation des résultats d’une expérience

Contraintes pour un systèmes d’interrogation Obtention de données pertinentes (pas trop de résultats, mais

tous ceux relatifs à notre problématique)

Simplicité d’utilisation (syntaxe d’interrogation intuitive)

Réponse rapide

Possibilité d’analyse des résultats (couplage à des outils)

Page 49: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Entrez, le système d’interrogation du NCBI

Interface propriétaire (ne peut être

installée par autrui)

Opérateurs en majuscule AND, OR, NOT

Nom du champ entre crochets homo sapiens [organism]

Aide dans « Preview/Index »

Historique (lien « History »)

Ajout de limites (lien « Limits »)

Sauvegarde, format Boutons « Display », « send to »

Menus déroulants associés

Page 50: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Entrez, liens entre banques et entrées

PubMed

OMIM

Genome

Nucleotide

Protein

Structure

Taxonomy

Similarité (BLAST)

termes MeSH communs

Liens entre banques

Accès aux liens entre banques à l’aide du menu associé au bouton « Display »

Page 51: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SRS, le système d’interrogation de l’EBI (TIGR)

Système libre, de nombreux

miroirs existent

Onglet « Libary » Choix de la ou des banques

interrogées

Onglet « Query » Lancement du formulaire

Onglet « Results » Historique des requêtes

Onglet « Views » Création de format d’affichage

Page 52: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Interrogation via SRS

Opérateurs & (et), | (ou), ! (non)

Nom des champ dans

des menus déroulants

Sauvegarde, format Bouton « Save »

Bouton « Rerun query »

Options associées

Analyse bioinformatique

des entrées Bouton « Launch »

Page 53: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SRS, le découpage en sous-entrées

Sous-entrée : partie extraite d’une entrée Annotation et séquence associée (fragment séquence parent)

Utile dans le cas de champs répétés dans une entrée EMBL : références, « features », compteurs UniProt : ref, commentaires, liens, « features », compteurs

Interrogeables facilement via le formulaire étendu Liste de valeurs quand vocabulaire contrôlé

Sous-entrées « compteurs » Nombre d’apparitions de certains champs dans les entrées

Non disponible dans Entrez

Page 54: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

SRS, liens entre banques

Construits à partir des informations présentent dans les

entrées Les liens sont bidirectionnels

Les liens sont propagés : A lié à B et B lié à C alors A lié à C

Deux types de liens Dans une entrée sous la forme d’hyperliens (HTML)

Par requête à l’aide du bouton « Link », à partir d’une liste

d’entrées.

Pas de liens entre entrées d’une même banque

Page 55: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Quelques formats de données biologiques

Format des banques, exemples : Séquences ADN/ARN : EMBL ; GenBank et DDBJ

Séquences protéiques : SwissProt et TrEMBL ; PIR ; …

Formats lus par la plupart des outils en bioinformatique FASTA

Séquence brute (« raw sequence »)

Conversion de formats Lors de la consultation des banques

Le programme ReadSeq (n’importe quel format en entrée, choix

du format de sortie)

Page 56: Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui)

Le format FASTA ( et Multi-FASTA)

Une ligne de commentaires précédé de « > » La séquence brute (pas d’espace, ni de nombre)

>Human Polycomb 2 homolog (hPc2) mRNA, partial cds

ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat

agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct

ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg

gcggcagcggcacccaccacgacggcggagaagcctccagccgaggccca

ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata

taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag

tacgtgacggtg