inserm tagc diversité des transcrits: les sites de polyadenylation « intergéniques » daniel...

38
INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

Upload: desiree-revel

Post on 03-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Diversité des transcrits:Les sites de polyadenylation

« intergéniques »

Daniel Gautheret, 2005INSERM ERM206

Université de la Méditerranée

Page 2: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Annotation des génomes

● Humain/souris 2005: 22000 gènes annotés

● Est-on proche de la fin?

● Si peu de différence avec la mouche (15000 gènes) ou C. elegans (18000) ?

Annotation Ensembl

Page 3: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Les EST (expressed sequence tags): l’outil No 1 pour l’annotation des

génomes

Page 4: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Hier: clustering d’ESTs pour reconstruire les transcrits

Transcrit reconstruit

Cluster d’ESTs

(avant 2001: génomes vertébrés non disponibles)

Page 5: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Aujourd’hui: Alignements EST/génome

exons introns

Page 6: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Skipped exon

Alignement EST/génome

Page 7: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Epissage alternatif

3 gènes de détermination du sexe chez la drosophile, épissés différemment selon le sexe de l'individu:

Page 8: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Epissage alternatif via EST

Nombreux travaux réalisés Sociétés créées exclusivement sur le thème (par ex.

Compugen http://www.cgen.com/) Ex: Modrek B, Resch A, Grasso C, Lee C. Genome-wide detection

of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001 Jul 1;29(13):2850-9 :

Page 9: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

ASAP, AltExtron, ASD, SpliceNest…

ASAP interface (Lee et al.

2003)

Page 10: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Travaux récents sur la diversité du transcriptome

– Tiling array– Full-length cDNA

Page 11: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Rosetta: technologie de spottage d’oligonuléotides par jet d’encre (inkjet)

Le Tiling Array

Page 12: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Page 13: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Gène bien caractérisé: confirmation des exons « refseq » et apparition de nouvelles régions transcrites (ici correspondant à un cDNA déjà observé)

Page 14: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Apparition de nouveaux gènes dans régions intergéniques sans EST ni prédiction bioinformatique.

Page 15: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Que trouve-t-on?

– Nouveaux gènes codants● >2000 transcrits avec ORF non existant dans Ensembl

– Nouveaux gènes non-codants● >10000 transcrits

– Transcrits antisens● >5000 gènes ont transcription antisens

– Isoformes de gènes connus● Au moins 40% à 60% des gènes selon auteurs● Comprend également extensions (parfaois très longues) en 3’

– Artefacts● biologiques: « bruit » transcriptionnel● expérimentaux: hybridation non-spécifique, contamination

génomique…

Page 16: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Science, 2005

– Technologie: Affymetrix– 25-mères espacés de 5bp– polyA+ et polyA-– Noyau et cytoplasme– 8 lignées cellulaires différentes

Tiling 2

Page 17: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Etat de polyadenylation

– Parmi tous les transcrits observés:● 19% polyA+● 44% polyA-● 37% polyA+ et polyA-

● Donc la moitié du transcriptome humain est polyA-

● Important, car les transcrits qu’on regardait jusqu’à présent n’étaient que les polyA+!

Page 18: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Position des transcrits

– 60% des loci exprimés présentent des évidences de transcription sur 2 brins

– Beaucoup de transcription dans l’intergénique:● 50% des polyA- cytoplasmiques et 25% des polyA-

nucléaires sont intergéniques● 41% des polyA+ nucléaires sont intergéniques

Page 19: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Full length cDNAs

– 100,000 Full length cDNAs– + 1M « CAGE » (sortes de SAGE en 5’)

Science, 2005

Page 20: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Utilité des full-lengths

– Etude des promoteurs (impossible avec les EST)

– TSS alternatifs, exons 5’ alternatifs

Page 21: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Transcrits et Unités de Transcription

– TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation

Page 22: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Conclusion projet « FANTOM3 »

– 32000 transcrits non-codants– 16000 nouveaux transcripts codants– 5000 nouvelles protéines– La majorité du génome est transcrit sur les deux brins– La grande diversité des transcrits dans chaque TU

soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits

Page 23: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Les besoins actuels

– Intégration initiation+épissage+transcription– Caractérisation des nouveaux transcrits

● Etude fonctionnelle (domaines, etc.)● Conservation● Validation expérimentale● Tissu-spécificité

The Alternative Transcript Diversity Project (ATD), 6e PCRD

Page 24: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Page 25: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

La polyadénylation alternative

Coding sequence

To 5' end

AUUAAA

AAAAAAAAA...

AAUAAA CA GUUGU

Cleavage + polyA-addition sitePre-mRNA

mRNA alternative transcripts

3' UTR

PolyAdenylation Signal

CA GUUGU

AAAAAAAAA...

Page 26: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

PAS Discovery through EST/mRNA Alignment

mRNA or EST-contig

ESTs

5’ESTs

3’ESTs

Gautheret et al. (1998) Genome Res. 8, 524

First observation in 1998: 189 cases of alternative polyadenylation2000: 1000 cases

Beaudoing et al. (2000) Genome Res. 10, 1001

Page 27: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

EST-based PAS Map 2005

-> 54% human, 32% mouse(accept multiple sites for 1 signal,but refseq UTR only)

human mouse chicken

Tot PAS 66,600 52,300 3,500

PAS <3K from ENSEMBL Gene 31,000 27,900 2,900

PAS >10K from ENSEMBL Gene 29,000 19,400 300

Genes with no PAS 30% 36% 80%

Genes with 2 or more PAS* 50% 43% 7%

*relative to all genes with 1+ PAS

Page 28: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Intergenic PAS?

● « Intergenic » PAS are made of– False positives– Long range PAS– PAS from novel genes

stop stop

Page 29: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

What is the actual reach of 3’UTRs?

● Textbook « Human Molecular Genetics 2 » (1999):

– 3′ UTR Average of about 0.6 kb (see Zhang, 1998) but this is likely to be an underestimate because of underreporting of genes with long 3′ UTRs

● Untranslated Regions of mRNA (Mignone et al. 2003) :

Page 30: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Several recent papers mentioning distal PAS

– All rely on EST sampling, but:● Require alignment on refseq gene/fl cdDNA or overlapping

ESTs● Cannot assess all long range PAS

Page 31: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

1

10

100

1000

10000

100000

0

5000

1000

0

1500

0

2000

0

2500

0

3000

0

3500

0

4000

0

4500

0

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

All sites

background all

5' supported

background

ratio of 5' supported

Site distribution

Distance from STOP

# si

tes

in 5

00n

t w

ind

ow

Rat

io 5

’ s

up

po

rted

-5’ support is significant up to 9kb past Stop codon-May be limited by cloning capacity (few inserts larger than 6kb)

9kb?

Page 32: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

0

10

20

30

40

50

60

70

80

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

Distance of 3’ EST from STOP

Rel

ati

ve

po

siti

on

of

5’

ES

T(%

of

tran

scri

pt)

Position of 5’ EST in transcript

-As distance from Stop increases, 5’ EST are located closer to 3’ end-After >6kb, most 5’ EST are « out of gene »

stop

cDNA5’EST 3’EST

start

Page 33: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Classification Trees for PAS prediction

8 Variables:canonical/non canonical signalErpin score for downstream region#supporting ESTsPolyA/T in ESTsESTs overlap previous siteFull-length cDNASingle/multiple EST libraries5’EST from same clone mapping within gene

stop 5kb 10kb 15kb 20kb

Class 1 Class 2

Page 34: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Classification tree

+ Voting Procedure -> class 1 / class 2

Page 35: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Importance of variables

Canonical/non canonicalErpin score#supporting ESTspolyA/T in ESTsOverlap with previous siteFull-length cDNASingle/multiple EST libraries5’EST from same clone

All variables

No 5’ EST

Page 36: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Average P-value vs Distance

P no5'

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

P no5'

Distance from STOP

Rel

ati

ve

po

siti

on

of

5’

ES

T(%

of

tran

scri

pt)

@20k: ave P-value=0.2120% have P-value >0.5

-20% of long distance sites correspond to bona fide PAS

13kb

Page 37: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Conclusions

● P-values for polyA sites● 6000 Novel polyA+ genes in intergenic● Average 3’ UTR longer than measured based on 5’

EST mapping: around 2kb mean. – Consequence for ncRNA search in UTRs

Page 38: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

INS

ER

M T

AG

C

Equipe

● polyA group @TAGC– Matthieu Legendre– William Ritchie– Takeshi Ara– Fabrice Lopez

● Arbres de classification: – Badih Ghattas, Département de Mathématiques, Aix-

Marseille II