découverte des sites de liaison dans des séquences adn des eucaryotes pluricellulaires

47
Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires Etat de l’art, évaluation des outils existants Maximilian Haeusser Groupe Symbiose IRISA Rennes Oct 2003

Upload: raine

Post on 19-Mar-2016

19 views

Category:

Documents


0 download

DESCRIPTION

Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires. Etat de l’art, évaluation des outils existants. Maximilian Haeusser Groupe Symbiose IRISA Rennes Oct 2003. Plan. La situation biologique Principales approches en Bioinfo Découverte des motifs - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Etat de l’art, évaluation des outils existants

Maximilian HaeusserGroupe Symbiose

IRISA RennesOct 2003

Page 2: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Plan La situation biologique Principales approches en Bioinfo

Découverte des motifs Enumération Gibbs Sampler

Réduire le bruit La Pratique: Evaluation des outils

Extraction des séquences Comparaison Découverte

Conclusion

Page 3: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

La situation biologique

"The difference between man and monkey isgene regulation." (Leroy Hood, 2001)

Page 4: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Les facteurs de transcriptions (FT) s’attachent à leurs fragments de l’ADN

http://www.psb.rug.ac.be/bioinformatics/psb/current_projects_proana.htm

Page 5: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Les FT forment des modules

La distance et l’ordre peuvent etre important Il y a

des FT, qui ne peuvent pas se lier seul. Il leur faut un autre FT.

des FT qui empêchent d’autres FT à se lier Des modules de plusieurs FT qui sont empechés

par d’autres modules de se lier Toute une logique permettant de n’initier la transcription

que sous certaines conditions Les sites ont une structure spécifique

Tutorial Regulatory Sequences, T. Werner, ISMB 2000

Page 6: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Les modules sont nombreux

Une impression du nombre et de la structure des motifs pourquelques gènes de la drosophilie

Page 7: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Le cas de bactéries est plus facile

Les bactériens n’ont qu’une cellule, donc, moins de conditions pour la régulation

Elles ont moins de place sur le génome pour les éléments régulateurs, il est donc plus facile de trouver les sites

Ils n’ont pas d’introns

Presque tous les logiciels pour trouver les sites de liaison s’appliquent qu’aux bactéries

Page 8: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

D’autres circonstances sur la transcription

Chromatine, la flexibilité, méthylation, etc.

S/MARs, LCRs, etc…=> Etre présent ne veut pas dire qu’on trouve

vraiment un effet

Felsenfeld et al, Nature 421, 448 - 453 (23 January 2003);

Page 9: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Pas d’expériences haut-débit

In vitro: Essais gel shift / ADNase / ChiP Longue a mettre au point

In vivo: Mutations systématiques Beaucoup plus longue, difficile pour les

mammifères

Donc: Trop de boulot, puisqu’il y a des milliers des FTs

Page 10: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Réduire le nombre des mutations nécessaires:

Il y a des gènes qui ont des sites de liaison en commun

On cherche les fragments que plusieurs genes ont en commun

Comment trouver des tels gènes? Expression (Mme Lagarrigue) Réseau génétique (Mme Theret) fonction ou tissu identiques (GO)

Page 11: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

« The twilight zone of pattern discovery » (Pevzner2002)

L’évolution change l’ADN: Des mutations qui empêchent le FT de se fixer a l’ADN

ne sont pas viables Des mutations qui font le motif trop semblable aux

d’autres motifs ne sont pas viables Des mutations qui préservent juste la capacité d’attirer

le FT et sont assez uniques dans le génome restent

Les motifs sont bien cachés mais ils devraient rester trouvables

Page 12: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Principales approches pour la découverte de motifs

Petite etude bibliographique

Page 13: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Découverte des motifs

Plutôt informatique: Enumerisation Arbre des suffix

Plutôt statistiques: Gibbs Sampler Expectation maximization Dictionary based

Page 14: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Enumerisation -approche naïve-

Le modèle du motif est une chaîne de lettres.

On fait une liste de toutes les combinaisons des letters ATCG d’un certain longueur On compte combien de fois ces fragments apparaissent dans les séquences On compte aussi les fragments qui sont similaire(p.ex. « ACCCT » est presque « ACTCT », comme ça, on augmente les compteurs des deux fragments) Les meilleurs fragments sont retournés

Petite amélioration: Au lieu de 1., on prend juste tous les fragments qu’on trouve dans les séquences

Page 15: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Arbre des suffixes

Un peu la même chose que l’enumérisation mais plus rapide et il prend moins de mémoire

Page 16: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Dire que la boite TATA a un consensus de TATAAT donne une mauvaise impression de la réalité Seulement 14 de 291 sites

correspondent à ce modèle Et si on compte les positions où il y a

des desappariements, on ne sait pas où ils se trouvent

Les motifs consensus sont à eviter

TATAAT ?http://www.lecb.ncifcrf.gov/~toms/

Page 17: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Matrice pondérée

Chaque position donne pour chaque acide nucléide une probabilitéEn plus, l’information content mesure la répartition des probabilités:

Plus une base est bruitée, plus il est bas => Le logo ameliore la recherche des motifs connus

Le modèle du motif est une liste des probabilités

Page 18: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Gibbs Sampler

Piqué de: Denis Thiery, ESIL Marseille

Page 19: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Réduire le bruit Des bases conservées:

Les motifs sont mieux conservés que le reste de la région non codante (pression sélective)

Un motif qui est mieux conservé qu’un autre est plutôt un vrai motifs

=> Moins qu’un motif est bruité, plus son score est haut

Des données d’expression Idée: Forte expression <=> Forte probabilité qu’un FT se lie a ce fragment<=> motif bien conserve ou plusieurs motifs dans la seq

(Et le contraire: Faible expression <=> motif dégénéré)

=> Des motifs qui correspondent a ce modèle ont un haut score

Page 20: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Un essai concret

Les genes LXR, SREBF1, ABCA1 et FASN qui ont tous au moins le motif LXRE en commun

-> Est-ce qu’on va le trouver?

Page 21: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Les problèmes

1. Extraction en masse des régions promotrices d’un génome

2. (Trouver des régions conservées)

3. Trouver des motifs communs

4. Trouver les combinaisons communes

http://www.stud.uni-potsdam.de/~haussler/diplom/Process.html

Page 22: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

1 - Extraction de la region “promotrices”

La région en amont de la région codante n’est pas, pour les eucaryotes, la région promotrices. L’exon 1 est souvent pas codant. Il y a de longues introns (quelques milliers des bases)

Debut de translation

Initiation de transcription

Source: Genomatix Tutorial http://www.genomatix.de

Page 23: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Extraction des régions en amont d’un gène

Problème: Pas de TSS annoté

+ séquences RefSeq pas assez longues=> Sites d’initiation souvent incorrects (DBTSS: 30%)=> la recherche pour la région en amont d’un gène prend beaucoup de temps et est diffcile à trouver sans expériences pour quelques gènes

Page 24: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Outils d’extraction des « promoteurs »

On aligne quelques séquences ARNm sur le génome et prend la région devant. Le nombre des séquences varie selon l’outil RSA-Tools 1999, PEG 2001, FIE 2002, Upstreamer

2002, Ensmart 2002, Promoser 2003

On essaie de trouver la région promotrices en exploitant sa composition PromoterInspector 2001, McPromoter 2001,

Dragon Promoter Finger 2002, PromH 2003… (autour de 70% de sensitivité?)

Page 25: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

L’Alignment des EST

UCSC Browser BLAT result view, prediction TSS de Promoser contre FIE, humain, gène SREBF1

TSS?

Page 26: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Différence:~1200 bp

(Toucan utilise l’annotation d’Ensembl, ou lxre est donc introuvable)

Exemple: Le vrai TSS pour LXR

NR1H3 humain Vu par DBTSShttp://dbtss.hgc.jp

Page 27: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Problème: On trouve trop de sites Même si on connaît le motif, on trouve trop

d’instances: ~1300

…et si on filtre et prend seulement des motifs qui apparaissent dans toutes les quatre séquences: ~370

FASN, ABCA1, CYP7A1, SREBF1 de la souris en Genomatix Matinspector

Page 28: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Avec un modèle Markov (Toucan) Le modèle Markov est un modèle de bruit Tous les Gibbs Sampler actuels l’ont A quel prix?

Klaus May: Exercice statistique sans valeur, on perd aussi les vrais, faibles motifs (en général?), qui se fixent en modules

Gert Thijs et al: Très utile, on trouve mieux les motifs déjà décrits (exemple: Les procaryotes)

=> Les motifs déjà décrits, sont-ils aussi les motifs les mieux conservés?

MotifScanner avec «epd mouse 3rdorder» et Transfac public vertebrate

Page 29: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Quelques Algos pour la découverte des motifs

MEME 1994

MACAW 1994

CoResearch 1996

R’MES 1997

AlignACE 1998

Yebis 1998

CONSENSUS 1999

Et les resultats furent autour de 1998*…

* Motifs: Spellman et al 1998, Mol Biol Cell 9, 3273-3297, Réseaux: Tavazoie et al. 1999, Nat Genetics, 22:281-285

Page 30: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

48 Algos pour la découverte des motifs

MEME EM 1994MACAW Gibbs 1994CoResearch Enum/EM 1996R’MES Markov? 1997AlignACE Gibbs 1998TEIRESIAS Cliques 1998Yebis Markov 1998CONSENSUS Enum 1999Winnower Cliques 2000SP-STAR Cliques 2000Ann-Spec ANN 2000SMILE Suffixtrees 2000SMILE (dyads) Suffixtrees 2000Verbumculus Suffixtrees 2000MobyDick Dictionary 2000Dyad and Oligo-Analysis and Gibbs SamplerEnum 2000YMF Enum 2000Kimono Gibbs/Express 2000BioProspector Gibbs 2001Co-Bind 2001ITB Enum 2001(Barash et al) EM 2001Mitra Cliques 2002MultiProfiler Cliques 2002Spexs Suffixtrees 2002

MotifSampler Gibbs 2002SeSiMCMC Gibbs 2002AHAB Dictionary 2002Projection Projection 2002Footprinter Enum/Phylo 2002Improbizer EM 2002PhyloCon ?/Phylo 2002MDScan Enum 2002FindModels SuffixTrees 2002PROCSE Clustering/Phylo 2002Mitra-PSSM Cliques 2003IRSA Cliques 2003Gibbs Recursive SamplerGibbs 2003cWinnower Cliques 2003YMF3 Enum 2003REDUCE Enum/Express 2003LOGOS Dictionary 2003SDDA Dictionary 2003MotifRegressor MDScan/Express 2003BMC Gibbs 2003MERMAID Enum 2003MOPAC Enum 2003(Mwangi et al) Enum 2003

Page 31: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

48 49 Algos pour la découverte des motifs

MEME EM 1994MACAW Gibbs 1994CoResearch Enum/EM 1996R’MES Markov? 1997AlignACE Gibbs 1998TEIRESIAS Cliques 1998Yebis Markov 1998CONSENSUS Enum 1999Winnower Cliques 2000SP-STAR Cliques 2000Ann-Spec ANN 2000SMILE Suffixtrees 2000SMILE (dyads) Suffixtrees 2000Verbumculus Suffixtrees 2000MobyDick Dictionary 2000Dyad and Oligo-Analysis and Gibbs SamplerEnum 2000YMF Enum 2000Kimono Gibbs/Express 2000BioProspector Gibbs 2001Co-Bind 2001ITB Enum 2001(Barash et al) EM 2001Mitra Cliques 2002MultiProfiler Cliques 2002Spexs Suffixtrees 2002

MotifSampler Gibbs 2002SeSiMCMC Gibbs 2002AHAB Dictionary 2002Projection Projection 2002Footprinter Enum/Phylo 2002Improbizer EM 2002PhyloCon ?/Phylo 2002MDScan Enum 2002FindModels SuffixTrees 2002PROCSE Clustering/Phylo 2002Mitra-PSSM Cliques 2003IRSA Cliques 2003Gibbs Recursive SamplerGibbs 2003cWinnower Cliques 2003YMF3 Enum 2003REDUCE Enum/Express 2003LOGOS Dictionary 2003SDDA Dictionary 2003MotifRegressor MDScan/Express 2003BMC Gibbs 2003MERMAID Enum 2003MOPAC Enum 2003(Mwangi et al) Enum 2003Stars Comparison 2003

Page 32: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Comment choisir? Comparaisons nécessaires

Pas d’exemple commun Pas d’exemple reconnu (comme l’EPD pour la

prédiction des promoteurs) On choisit un exemple qui donne le meilleure

résultat pour l’article Un bon résultat dans l’article n’en dit pas

beaucoup

Compétition de M. Tompa Données artificielles Pas encore prêtes

Page 33: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

MotifSampler Motifsampler:

Gibbs Sampler avec modèle Markov Repeatmasker

Une belle interface Sans exemple négatif:

15 fragments, dont 3 corrects, 1 non trouvé Le reste? 12 ? Décrit? Nouveau?

Page 34: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

MotifSampler sans Repeatmasker

En bleu, rempli = les motifs trouvé par MotifSamplerEn noir = les vrais motifs LXREEn jaune et bleu = les régions répétées

MotifSampler devient plutôt un détecteur des répétitions:

ParametersMotifSampler-: 50 runs, 2 executions, filtrer les sites communsRepeatmasker: rodent, sensitive - LXRE d’apres la litterature

Page 35: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

La structure 3D de l’ADN n’est pas négligeable

Srebf1 from NCBI, viewed in Cn3D, ACC mmid:7919 SREBF1c-Motif from Genomatix Matrix Database, ACC V$SREBP.03

Info

rmat

ion

Cont

ent

Page 36: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Idée, d’après Moses et al: On peut distinguer les vrais motifs des artéfacts des

algorithmes: On compare

les changements des fragments de ce motifs qu’on observe dans les mêmes régions des plusieurs espèces assez proches avec

les changements des fragments de ce motif dans les séquences analysées

S’ils sont corrélés, il s’agit plutôt d’un vrai motif Cela nécessite quelques séquences d’autres espèces « proches »=>Début de la sequenciation des « chimpanzees » en

janvier 03, premières contigs pour les macaques déjà sur NCBI

Page 37: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Penser en modules “A TF binding site becomes only biologically relevant in

its context” (Klaus May, Genomatix) Trouver un site de liaison ne dit rien, ce sont les autres

sites qui rendent le motif fonctionnel Les combinaisons des motifs peuvent être plus faibles,

car ils ont plus de points de contact Les motifs plus faibles sont plus importants Il va falloir se concentrer sur la composition des

modules, à la manière des protéines

Classification & Clustering pour élucider les combinaisons des sites de liaisons

Arbre de décision? (déjà fait, pas d’implementation) Réseau de bayes? Chaval? (à faire)

Classification avec l’inférence grammaticale? (à faire)

Page 38: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Il faut d’abord des données “propres”

Sont ils vraiement corregulés directement?Comment trouver un exemple d’entrainement

A-t-on la vraie région 5’ ????

Exist-il une séquence assez proche?Quel algo pour les alignements?

Qu’est ce que une bonne base de motifs…

… et un bon algo pour la découverte?

A la fin: Pas trop d’erreurs accumulés?

Page 39: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Résume: La découverte de motifs nécessite une gamme

d’autres outils en bioinformatique Il parait improbable que les motifs dans les

eucaryotes soient assez bien conservés qu’on puisse utiliser la découverte de motifs seul pour les élucider

Mais au moyen terme la comparaison entre espèces va aider beaucoup et il va indiquer les vrais motifs

Pour trouver les modules, on pourrait déjà essayer d’appliquer la classification, si on avait des bons exemples (ou quelqu’un qui faisait toutes ces expériences…)

Page 40: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires
Page 41: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Annexe: le chemin long d’un FT

Page 42: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

On peut les grouper selon leur structure

Helix-turn-Helix Homeobox

Alberts et al, Molecular Biology of the Cell, 3rd Ed., Chapitre 9

Zinc Finger

Page 43: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Gibbs sampler On prend un fragment d’un longeur w par hasard.

On le prend comme “matrice”. On la compare avec tous les fragments du longeur w

dans nos séquences S’il y en a un qui lui ressemble assez, on le prend

comme fragment de ce motif et on met a jour la matrice avec lui

Amélioration contesté: Pour avoir une idee de « se ressembler » on prend une chaine Markov pour le bruit “background”.

Page 44: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Pas toujours, mais il réduit le nombre des possibilités

UCSC Browser, souris, gène Abca1, BLAT des deux meilleurs prédictions de Promoser

Page 45: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Celui qui cherche va trouver

•Séquences tout a fait “random”•Mais: MotifSampler trouve plein de motifs…•Avec un score plus bas que pour les vrais séquences•Mais seulement pour les quatre meilleurs motifs!

Page 46: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

La structure 3D, II

Moses et al., BMC evol Biol 3:19, 28/08/2003

IC in

bi

ts

Rate ofevolution

Page 47: Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires

Outils de comparaison ClustalW AVID Dalign Dynalign

Idées?

Pattern Explorer!