gscope loutil bio-informatique pour la génomique structurale

25
Gscope L’outil bio-informatique pour la génomique structurale

Upload: danielle-sergent

Post on 03-Apr-2015

109 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Gscope Loutil bio-informatique pour la génomique structurale

Gscope

L’outil bio-informatique

pour la

génomique structurale

Page 2: Gscope Loutil bio-informatique pour la génomique structurale

Gscope pour le biologiste

• Automatise la cascade des programmes– Crée et gère les données

– Les visualise

• Recherche de cibles à l ’échelle génomique • Annotation• ...

Gscope est aussi une boîte à outils bio-informatique

Page 3: Gscope Loutil bio-informatique pour la génomique structurale

- Alignments- Trees- Phylo profils - Hydrophobicity

BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created

- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno

DNA and/or Proteome

ORFs determination(Glimmer,tRNAScan)

Database searchesBlastP on SwissProt, TrEmbl

tBlastN on complete genomes

MultiAlignment ofComplete SequencesBallast on BlastP output

DbClustal

Integrated analysis & Visualization tool

- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation

Dat

abas

e cr

eati

on

Page 4: Gscope Loutil bio-informatique pour la génomique structurale

Séquences ?

• un génome fraîchement séquencé (P.abyssi)• tous les génomes ‘petits’ existants (V.cholera…)• un groupe fonctionnel (TFIIH)• une famille de protéines (synthétases, NR, ERco)• un ...ome (ribosome, péroxisome)• une séquence (la vôtre). • …

Page 5: Gscope Loutil bio-informatique pour la génomique structurale

Deux regards• Structural … je veux des cristaux !

– ORF quality (overlap, validation du codon start, …)

– organisation en domaines ( local vs global, ... )

– productivité (codon usage vs coli or yeast, hydrophobicité)

• Phylogénomique … qui suis-je, d’où je viens ?

– annotation, recherche de fonction

– bilan présence/absence dans autres organismes, transferts horizontaux, cluster maintenance

– bilan de paralogie

– bilan phylogénomique

– etc.

Page 6: Gscope Loutil bio-informatique pour la génomique structurale

Intègration et automatisationdes outils existants

• Lecture de données– formats TFA, EMBL,

GenBank, texte,…

– liste de accession numbers

• Détermination des ORFs– Glimmer, tRNA_Scan

– Création des séq nuc et prot

• Analyse ADN– composition, codon usage,

– biais GC, ShineDalgarno

• BlastP, TBlastN, BlastX – SwissProt, TrEmbl, PDB

– Human, CompleteGenomes

– …

• Ballast, DbClustal, – LMS et alignements multiples

– avec test de qualité

– BestDefinition

• + Secator, Ordali– >> groupes, domaines

• Phylogénie

Page 7: Gscope Loutil bio-informatique pour la génomique structurale

Visualisation

Page 8: Gscope Loutil bio-informatique pour la génomique structurale

Coloration/Liste

• Séquence• Orthologues

– blast, alignements– présence/absence– paralogues

• Info structurale– PDB– codon adaptation index– hydrophobicité

• Phylogénie– folle– fonction

Page 9: Gscope Loutil bio-informatique pour la génomique structurale

Ce qu’il faut pour démarrer ...

• une liste de séquences– accession numbers– fichiers existants

• un fichier ADN (génome complet ou non)• une suite de contigs• un fichier GenBank avec ADN et protéome• ...

Gscope lit, convertit, vérifie, recherche, range.

Page 10: Gscope Loutil bio-informatique pour la génomique structurale

- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno

BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created

- Alignments- Trees- Phylo profils - Hydrophobicity

DNA and/or Proteome

ORFs determination(Glimmer,tRNAScan)

Database searchesBlastP on SwissProt, TrEmbl

tBlastN on complete genomes

MultiAlignment ofComplete SequencesBallast on BlastP output

DbClustal

Integrated analysis & Visualization tool

- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation

Dat

abas

e cr

eati

on

ORF quality

Page 11: Gscope Loutil bio-informatique pour la génomique structurale

ORF qualityla séquence est-elle bien définie ?

(existe, start, stop, frame-shift)

• protéome connu ou Glimmer, tRNAscan• overlap, biais en composition• beaucoup ou pas d’orthologues (Blastp, Tblastn)• validité du codon start (Secator, DbClustal)• ...

• mauvais splicing

Page 12: Gscope Loutil bio-informatique pour la génomique structurale

Validité du codon start

beaucoup d ’erreurs dans les banques

• overlap – peu probable

– sauf overlap de un ( TAA ATG > TAATG )

• alignements des codons start– DbClustal le permet (méthode globale)

– pour les séquences du groupe Secator en particulier

– s ’il y en a suffisamment

• … si en plus apparaît la séquence de Shine-Dalgarno !

Codon start 1/3

Page 13: Gscope Loutil bio-informatique pour la génomique structurale

Codon start 2/3

Page 14: Gscope Loutil bio-informatique pour la génomique structurale

Codon start 3/3

Page 15: Gscope Loutil bio-informatique pour la génomique structurale

- Alignments- Trees- Phylo profils - Hydrophobicity

BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created

- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno

DNA and/or Proteome

ORFs determination(Glimmer,tRNAScan)

Database searchesBlastP on SwissProt, TrEmbl

tBlastN on complete genomes

MultiAlignment ofComplete SequencesBallast on BlastP output

DbClustal

Integrated analysis & Visualization tool

- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation

Dat

abas

e cr

eati

on

Production

Page 16: Gscope Loutil bio-informatique pour la génomique structurale

Production

• Codon adaptation index vs E.coli or S.cerevisiae

• Hydrophobicité, hélices transmembranaires

• Orthologues dans la PDB– existence

– fragments

• Mise en évidence de domaines– par l ’alignement

– si opposition local (blast) - global (DbClustal)

– … à suivre

Page 17: Gscope Loutil bio-informatique pour la génomique structurale
Page 18: Gscope Loutil bio-informatique pour la génomique structurale

DNA and/or Proteome

ORFs determination(Glimmer,tRNAScan)

- Nuc sequence- Prot sequence- Intergenic regions- GC content & Codon Usage- ShineDalgarno

Database searchesBlastP on SwissProt, TrEmbl

tBlastN on complete genomes

MultiAlignment ofComplete SequencesBallast on BlastP output

DbClustal

BlastP : - Best hits - Hits counttBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created

Integrated analysis & Visualization tool

- Two Gene Cluster Analysis- Wrong start codon detection- Phylogenetic analysis- Recombination- Gene losses- Functions- Annotation

- Alignments- Trees- Phylo profils - HydrophobicityD

atab

ase

crea

tion

Phylogenomic

Page 19: Gscope Loutil bio-informatique pour la génomique structurale

Phylogénomique

• Bilan de présence/absence dans les génomes complets– TBlastN

• Phylo folle– Biais en GC

– Arbre phylogénétique non conforme (pertes ou transferts)

Page 20: Gscope Loutil bio-informatique pour la génomique structurale
Page 21: Gscope Loutil bio-informatique pour la génomique structurale
Page 22: Gscope Loutil bio-informatique pour la génomique structurale

Un exemple de protocole d ’analysemis au point par Marc sur ERco pour mettre

en évidence les domaines structuraux

• Faire un alignement avec toutes les séquences du blastp

• Définir les groupes avec Secator

• Choisir un représentant par groupe

• Puis – Rechercher les domaines existants (ProDom par exemple)– PDB– Prédictions de structures secondaires, profil hydrophobicité, …– Sites de coupures aux protéases (trypsine, …)– VRP– information bibliographique (fonction, mutants, …)

à l ’aide de Gscope, qui l ’automatisera bientôt ...

Page 23: Gscope Loutil bio-informatique pour la génomique structurale

Perspectives

• Eucaryotes supérieurs – mauvais épissage

– intégration des Est

– étude promoteurs

• Informations sur les domaines et motifs– Ballast

– Correlator

– Domainol

– data mining

• Utilisation– protocole automatique de recherche de cibles (Shankar)

– RELACS (RELational Alignement of Complete Sequences)

• De mieux en mieux

• Web … mais ça marche déjà !!!

Page 24: Gscope Loutil bio-informatique pour la génomique structurale
Page 25: Gscope Loutil bio-informatique pour la génomique structurale