la traduction commence à un codon aug mais parfois non
Post on 12-Jan-2016
24 Views
Preview:
DESCRIPTION
TRANSCRIPT
Parfois mais pas toujoursoui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours
Je n’aimerais pas vivre en Amérique mais parfois si
Je n’aimerais pas vivre à la belle étoile mais parfois si
J’aimerais bien vivre dans le cinquième mais parfois non
Je n’aimerais pas vivre dans un donjon mais parfois si
Je n’aimerais pas vivre d’expédients mais parfois si
J’aime bien vivre en France mais parfois non (...)
Georges Perec, Penser/Classer
La traduction commence à un codon AUG mais parfois non
La traduction se termine à un codon stop mais parfois non
Le code n’est pas chevauchant mais parfois oui
Réplication : 10-6/nt
Transcription : 10-5/nt
Traduction : 5.10-4/codon
Erreurs dans le transfert d’information
Décodages non conventionnels (recodage)
Décalage du cadre de lecture
AUG
+1
- 1
Translecture
AUG
1 ARN 2 polypeptides
Le recodage- Dépend de séquences et de structures sur l’ARNm (mécanisme conservé chez les eucaryotes)
- Observé principalement dans des éléments génétiques autonomes (virus, transposons)
pol pro gag
LTR
AUG STOP
int LTR
Gag Gag Pol IntPro
HIV
gagpol
Protéine Gag95%
Protéine Gag-Pol5%
Décalage de phase et virus
« Le cheval de Troie »
Décalage de phase et autorégulation
Facteur de terminaison de la traduction RF2 et décalage
Site ESite P Site A
La terminaison de la traduction eucaryote
AA STOP CA(A/G)N(U/C/G)A
Translecture et régulation épigénétique
D’après True et Linquist, Nature, 2000
Incorporation de sélénocystéine au codon UGA
Reprogrammation de codon stop
Mécanismes (facteurs cis et trans)
Gènes cellulaires et recodage
Maladies à codons stop
Thèmes de l’équipe
ORF1 ORF2
• Approche par modélisation• Approche sans a priori
• Translecture : gènes candidats
Gènes cellulaires et recodage (levure)
Recherche de sites de décalage de phase de lecture
Le décalage de phase de lecture en -1
Développer des outils d’identification d’événements de recodage eucaryote
Caractériser le décalage de phase de lecture en -1
Recherche de sites de décalage en -1
1000
1000
2000
2000
3000
3000
4000
4000
+10
-1
Modèle de site eucaryoteJacks et Varmus, 1985 et 1988
X XXY YYZ
HeptamèreBrierley, 1993
Pause du ribosomeBrierley 1993, Dinman 2000
Pas de site authentique identifié …
Deux approches complémentaires
• Modèle pas assez précis (ou incomplet)
• Modèle trop rigide (mécanismes dégénérés ou différents )
Affiner le modèle
Approche sans a priori sur le mécanisme
Recherche de sites de décalage en -1
Collaboration : Alain Denise, Jean-Paul Forest, Christine Froidevaux, Bernard Prum, Hugues Richard, Michel Termier
5’ X XXY YYZ
H SPHeptamère glissant Espaceur Structure secondaire
3’
AUG
Représentation des données
Affiner le modèle
5’ NNX XXY YYZ NNNNNNNNN
H SP
ES1.5’
EL1
ES2.3’
EL2
EL1’
Heptamère glissant Espaceur Structure secondaire
3’ES2.5’
ES1.3’
AUG
120 propriétés (attributs)pour décrire les sites de FS
Représentation des données
Affiner le modèle
27 sites sauvages de virus et 320 mutants efficacité 5% : 191 exemples efficacité 2% : 98 contre-exemples
Données :
Affiner le modèle
• Apprentissage supervisé : on apprend le concept binaire FS_efficace
• Apprentissage disjonctif : toutes les séquences n’induisent pas du FS pour les mêmes raisons
• Description sous forme de règles conjonctives : une règle est constituée de plusieurs conditions
Affiner le modèle
Regroupements
règle 1
règle 2
règle 3
Apprentissage
Affiner le modèle
5’NNX XXY YYZ NNNNNNNNN
H SP
ES1.5’
EL1
ES2.3’
EL2
EL1’
3’ES2.5’
ES1.3’
AUG
si YG et ZG et nombre de A dans H 4
et nombre de C dans SP 1 et nombre de paires G-C dans ES1 6
et % de G dans ES1.5’ 65
alors FS_efficace
33% des exemples couverts et 0 contre-exemple
Validation expérimentale ?*** Conditions suffisantes, pas nécessaires
Exemple de règles
Affiner le modèle
Evaluation in vivo
NNX XXY YYZ NNNNNNNNN
H SP
ES1.5’
EL1
ES2.3’
EL2
EL1’
3’ES2.5’
ES1.3’
lacZ lucpSV40
ATG
Affiner le modèle
Activité -galactosidase
Activité luciférase= Efficacité de décalage
AUG
Transcription
AAAAA
lacZ lucpSV40
ATG
Traduction
Evaluation in vivo : système « double reporter »
Affiner le modèle
si YG et ZG et nombre de A dans H 4
et nombre de C dans SP 1 et nombre de paires G-C dans ES1 6
et % de G dans ES1.5’ 65
Validation expérimentale
Affiner le modèle
• Identification de nouveaux attributs
Composition de l’espaceur (voir Michaël …) Dinucléotide en amont de l’heptamère Dissymétrie entre un appariement C-G et G-C
• Identification de nouvelles règles
Conclusions
Affiner le modèle
5’ . . X XXY YYZ
H SPHeptamère glissant Espaceur Structure secondaire
3’
AUG
Recherche de sites de décalage en -1
Première étape fondée sur un modèle minimum
AUG
N NNN
NN XXX YYY Z
Recherche de sites de décalage en -1
Rechercher un heptamère
Tige1 5’ Tige1 3’
Boucle 1
Heptamère
Recherche de sites de décalage en -1
Rechercher un pseudonoeud
Identification de 185 régions chez S. cerevisiae
Tige1 5’ Tige1 3’
Boucle 1
Heptamère
Recherche de sites de décalage en -1
Rechercher un pseudonoeud
Retrouve les sites connus
Classement des candidats en fonction des propriétés issues du modèle affiné
Au moins trois bons candidats
Recherche de sites de décalage en -1
Bilan de l’approche par modèle :
Candidats issus d’un génome “aléatoire”
Regarder le décalage de phase sous un angle différent
sans a priori sur le site de décalage lui-même définition génomique
Fonctionnel Linguistique/statistique
Recherche de sites de décalage en -1
Approches sans a priori sur le mécanisme
START
> 99 nt
STOP1 STOP2 STOP3
phase 0phase -1
> 99 nt
> 150 nt
ORF0ORF-1
22 445 régions chez S. cerevisiaeGenbank – rel. 27/10/2002
10 régions chez le virus L-AGenbank – rel. 03/08/2002
Recherche de sites de décalage en -1
Découpage
START STOP1 STOP2 STOP3
phase 0phase -1
ORF0ORF-1
84 régions chez S. cerevisiae1 région chez le virus L-A
Banques de motifs: Interpro 7.0 Application: GenRecode
Motif protéique ?Motif protéique ?
Recherche de sites de décalage en -1
Recherche de motifs
0
-1
0
-1
Recherche de sites de décalage en -1
Recherche basée sur la statistique des séquences : identification
110 régions chez S. cerevisiae1 région chez le virus L-A
0
100
200
300
400
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
21000
≥0.95
probabilité
Nombre de régions
ADN
ARNmAAAAAA
2MM
RT-PCR
43 5 6 7 8 9 10 11 12 13 161 1714 15 18
1 kb
500 b
Recherche de sites de décalage en -1
28 candidats sur 55 ont un ARNm qui couvre les 2 ORFs
Région de décalage
+1
0
-1
Recherche de sites de décalage en -1
lacZ luc
pSV40
ATG
Evaluation in vivo
0%
2%
4%
6%
8%
10%
12%
14%
2 11 16 21 30 32 40 41 43 48 50
HMM
Motifs
Candidat
Taux décalage de phase3
6
2
Recherche de sites de décalage en -1
11 séquences candidates induisent du décalage in vivo
HMM
Motifs
2 3
5
-
1 2-
Modèlisation
Recherche de sites de décalage en -1
Bilan
• Recherche dans d’autres levures
• Recherche dans des organismes plus complexes
Cette stratégie peut être appliquée à d’autres
organismes.
Applicable à d’autres types de recodage.• Décalage de phase de lecture en +1 (avec Phil Farabaugh)
• Translecture
Nouveaux types de recodage …
Recherche de sites de décalage en -1
Perspectives
Merci !!!Institut de Génétique et Microbiologie
Laboratoire de Recherche en Informatique
Laboratoire de Statistique et Génome
GMT
Michaël BekaertLaure BidouIsabelle HatinOlivier NamyJean-Pierre Rousset
BIG
Michel Termier
Alain DeniseJean-Paul ForestChristine Froidevaux
Bernard PrumHugues Richard
top related