Codage et expression de l’information génétique
Pascale Giraudetwww.univ-tln.fr/~giraudet
Séminaire GRIM 4 mars 2003
Plan de l’exposé
• Introduction : qu’est-ce que l’information génétique ?
I. Codage et transmission de l’information génétique
II. Expression de l’information génétiqueIII. Génétique et informatique
Qu’est-ce que l’information génétique ?
• Chaque individu présente des caractères propres– Certains sont acquis (musculature, …)– D’autres héréditaires (couleur des yeux, groupe
sanguin, …) transmis d’une génération à l’autre information génétique
• Introduction : qu’est-ce que l’information génétique ?
I. Codage et transmission de l’information génétique
1. Localisation de l’information génétique2. Support de l’information génétique3. Codage de l’information génétique sur l’ADN4. Transmission de l’information génétique
II. Expression de l’information génétiqueIII. Génétique et informatique
Expérience de Gurdon (1960)
-Noyau cellule grenouille B-Œuf énucléé grenouille A
-> obtention d’un clone de la grenouille B
I.1) Localisation de l’information génétique
I.2) Support de l’information génétique
CelluleG: *1000N = 1013
ChromosomeG: *10 000N = 2*23
ADNG: *107
L 2 m
I.2) Support de l’information génétique
Paires de basesG: *107
N 3 * 109
Watson et Crick,1953
I.2) Support de l’information génétique
Bases puriques (R) Bases pyrimidiques (Y)
(A) (G) (T) (C)
-> ADN Succession de 3 * 109 lettres d’un alphabet quaternaire
I.3) Codage de l’information génétique sur l’ADN
• Succession presque linéaire de 3*109 lettres d’un alphabet moléculaire quaternaire (A,C,G,T)– Seule non-linéarité : ADN porté par 2n chromosomes (n=23
chez l’homme)
– Le brin complémentaire n’apporte aucun complément d’information (stabilité chimique)
– Il existe de l’ADN hors du noyau : ADN mitochondrial (104 paires de bases)
I.4) Transmission de l’information génétique
• Transmission conforme : la réplication lors de la division cellulaire
• Brassage génétique lors de la reproduction sexuée
Cellule du père2n chromosomes
Cellule de la mère2n chromosomes
Gamète du pèren chromosomes
Gamète du pèren chromosomes
Gamète de la mèren chromosomes
Gamète de la mèren chromosomes
Cellule oeufn+n chromosomes
Génération N
Génération N+1
méiose
fécondation
I.4) Transmission de l’information génétique
• Erreurs de copie : les mutations• Substitution aléatoire d’une
lettre par une autre lettre de l’alphabet
• Insertion aléatoire d’une lettre (ou d’un groupe de lettres)
• Suppression aléatoire d’une lettre (ou d’un groupe de lettres)
• Sélection des mutants
…ACCTGC…
…ACTTGC…
…ACCTGC…
…ACCATGC…
…ACCTGC…
…AGC…
• IntroductionI. Codage et transmission de l’information
génétiqueII. Expression de l’information génétique
1. Principes de l’expression : les protéines2. De l’ADN à la protéine3. Transcription4. Traduction et code génétique5. Régulations de l’expression génétique
III. Génétique et informatique
II.1) Principes de l’expression : les protéines
ADN Protéinessécrétées
Protéines constitutives
Enzymes(protéines)
MétabolismePhysiologie
Développement
ProductionDe glucides
ProductionDe lipides
Génotype Protéines Phénotype
II.1) Principes de l’expression : les protéines
II.2) De l’ADN à la protéine
Transcription
Traduction
ADN
ARN m
Protéine
II.3) Transcription
Épissage
II.4) Traduction et code génétique
Bilan
• Notion de gène• Un gène une protéine (excision des introns)• Un gène : du codon départ au codon STOP• Ensemble des gènes zone exprimée de l’ADN
• 35 000 gènes chez l’Humain• 1,5 % de l’ADN -> à quoi sert le reste ??
• Similitude entre les gènes des êtres vivants• 40 % de nos gènes commun avec une plante• 80 % avec un Mammifère• 98,5 % avec un Chimpanzé• 99,9 % avec un autre Humain
• Linéarité apparente de l’expression génétique• Codage quasi-linéaire de l’information génétique sur l’ADN• Transcription : bijection de {A, T, C, G} sur {A, U, C, G}• Traduction : surjection de {A, U, C, G}3 sur {Phe, Leu, Ile, Met, Val, Ser,
Pro, Thr, Ala, Tyr, His, Gln, Asn, Lys, Asp, Glu, Cys, Trp, Arg, Gly}
Bilan
• Pourtant variabilité de l’expression• Dans l’espace :
• Toutes les cellules n’ont pas la même forme• Toutes les cellules n’ont pas la même fonction
• Dans le temps :• Activité cellulaire dépendant du stade de développement
• Selon l’environnement : • Activité cellulaire dépendant de son environnement chimique
• Réorganisation de l’information génétique lors de son expression par régulations multiples
II.5) Régulations de l’expression génétiquegène
pré-ARNm
ARNm
ARNm
protéine
protéine modifiée
protéine active
protéine dégradée
transcription
épissage
traduction
noya
u
Organisation structurale de l’ADNFacteurs de régulation de la transcription
Epissage alternatif
Maturation, transport, adressage des ARNmDurée de vie des ARNm
Contrôle de la traduction des ARNm
Modifications post-traductionnelles
Adressage, et régulation de l’activité
Contrôle de la dégradation protéique
gène
pré-ARNm
ARNm
ARNm
protéine
protéine modifiée
protéine active
protéine dégradée
transcription
épissage
traduction
noya
u Facteurs de régulation de la transcription
Produits de l’activité protéique Environnement
Epissage alternatif
II.5) Régulations de l’expression génétique
Un exemple de la régulation de la transcription chez les Procaryotes : l’opéron tryptophane
Gènes codants pour les enzymes nécessaires à la synthèse du tryptophane
Un exemple eucaryote : les gènes homéotiques
Epissage alternatif
• Introduction : qu’est-ce que l’information génétique ?
I. Codage et transmission de l’information génétique
II. Expression de l’information génétiqueIII. Génétique et informatique
1. Apports de l’informatique à la génétique2. L’inspiration génétique en informatique
III.1) Apports de l’informatique à la génétique
• Analyse de séquences de bases• Identification de motifs• Localisation de motifs connus• Détection de régularités, périodicités
• Comparaison de séquences• Recherche des similarités• Recherche des mutations• Calcul de taux de divergence
• Élaboration de modèles d’évolution• Élaboration d’arbres phylogénétiques• Modélisation de la structure 3d de protéines
• Analyse de séquences de bases• Identification de motifs• Localisation de motifs connus• Détection de régularités, périodicités
• Comparaison de séquences• Recherche des similarités• Recherche des mutations• Calcul de taux de divergence
• Élaboration de modèles d’évolution• Élaboration d’arbres phylogénétiques• Modélisation de la structure 3d de protéines
III.1) Apports de l’informatique à la génétique
POS: 1 2 3 TOTAL A 24% 31% 23% 26% C 25% 21% 26% 24% G 34% 22% 24% 27% T 18% 26% 27% 24%
Phe TTT 1.7 Ser TCT 1.6 Tyr TAT 1.2 Cys TGT 0.8 Phe TTC 2.0 Ser TCC 0.5 Tyr TAC 1.7 Cys TGC 1.3 Leu TTA 0.9 Ser TCA 0.9 *** TAA 1.2 *** TGA 0.9 Leu TTG 0.6 Ser TCG 0.7 *** TAG 0.2 Trp TGG 1.4 Leu CTT 1.4 Pro CCT 0.9 His CAT 1.3 Arg CGT 3.8 Leu CTC 1.0 Pro CCC 0.3 His CAC 1.4 Arg CGC 1.9 Leu CTA 0.4 Pro CCA 1.0 Gln CAA 1.4 Arg CGA 1.1 Leu CTG 4.0 Pro CCG 2.2 Gln CAG 2.1 Arg CGG 0.7 Ile ATT 2.3 Thr ACT 1.0 Asn AAT 1.0 Ser AGT 0.4Ile ATC 2.3 Thr ACC 1.5 Asn AAC 2.5 Ser AGC 1.8Ile ATA 0.3 Thr ACA 0.9 Lys AAA 3.9 Arg AGA 0.8 Met ATG 1.9 Thr ACG 0.8 Lys AAG 1.7 Arg AGG 0.3 Val GTT 2.7 Ala GCT 1.9 Asp GAT 2.5 Gly GGT 2.6 Val GTC 1.1 Ala GCC 1.5 Asp GAC 2.5 Gly GGC 2.8 Val GTA 1.5 Ala GCA 2.1 Glu GAA 4.7 Gly GGA 0.9 Val GTG 1.9 Ala GCG 2.8 Glu GAG 1.9 Gly GGG 0.7
Fréq
uenc
e (%
) des
bas
es su
r le
mêm
e gè
ne
de 2
594
codo
nsFréquence des bases sur un gène de 7784 pb
IDENTIFICATION DE MOTIFS (PROGICIEL SQX, SITE INFOBIOGEN)
DÉTECTION DE PÉRIODICITÉS (LAB INFO DE l’IGM)
1. Proba d’apparition de GTC n bases après CGC en phase de lecture -> périodicité 0 [3]
2. Proba d’apparition de TCG n bases après ATC en phase de lecture -> périodicité 1 [3]
3. Proba d’apparition de CGT n bases après CCC en phase de lecture -> périodicité 2 [3]
Proba 1
nProba 3Proba 2
n n
•T0 •AAA •AAC •AAT •ACC •ATC •ATT •CAG •CTC •CTG •GAA •GAC
•GAG •GAT •GCC •GGC •GGT •GTA •GTC •GTT •TAC •TTC •TTT
•T1 •AAG •ACA •ACG •ACT •AGC •AGG •ATA •ATG •CCA •CCC •CCG
•GCG •GTG •TAG •TCA •TCC •TCG •TCT •TGC •TTA •TTG
•T2 •AGA •AGT •CAA •CAC •CAT •CCT •CGA •CGC •CGG •CGT •CTA
•CTT •GCA •GCT •GGA •GGG •TAA •TAT •TGA •TGG •TGT
Classement des trinucléotides en fonction de leur phase d'apparition préférentielle
Propriétés de ces 3 classes de trinucléotides d'un point de vue théorie des codes:- ces 3 classes de trinucléotides s'échangent par permutation circulaire,- ce sont, toutes les trois, des codes circulaires maximaux, - ces 3 codes possèdent une propriété de complémentarité : auto-complémentarité pour T0, et échange de T1 et T2 par complémentarité,- codes non triviaux ( codes obtenus par des techniques classiques de génération).
Hypothèse biologique : gènes primitifs = mots du langage To ?
•Phase de lecture repérable automatiquement -> ne nécessite pas de codon initiateur
•Auto-complémentarité -> codage simultané et en phase des deux brins de l’ADN
•Modélisation de l’évolution de ce langage selon mutations
CALCUL DE TAUX DE DIVERGENCE
• Comparaison de 2 séquences :
• Définition des opérations élémentaires pour passer de l’une à l’autre = mutations (substitution, insertion, suppression)
• Attribution d’un coût à chaque opération élémentaire (w1,w2,w3)
• Calcul du coût total minimal d pour passer d’une chaîne à l’autre :
d(ai,bj)=min[d(ai-1,bj-1)+ w1* (aibj), d(ai,bj-1)+ w2, d(ai-1,bj) + w3]
d(,)=0 d(, bj)=d(, bj-1)+ w2 d(ai,)= d(ai-1, )+ w3
… ou autres méthodes plus rapides (réseaux systoliques)
• Alignement pour coût total minimal = distance entre les deux séquences
• But : élaboration d’un arbre phylogénétique
ÉLABORATION D’ARBRES PHYLOGÉNÉTIQUES
• Distance augmentant linéairement avec le temps depuis divergence (horloge biologique)
• Dépend de la base utilisée
• Dépend du choix de la distance d’une feuille à un nœud non terminal
III.2) L’inspiration génétique en informatique
Inspiration génétique
Support de l’information
génétique
Codage et transmission de l’information
génétique
Applications
Enroulement de l’ADN et théorie
des nœuds
Algorithmes génétiques
Ordinateurs génétiques
ENROULEMENT DE L’ADN ET THÉORIE DES NŒUDS
Double hélice d’ADN :Transcription -> sur-enroulement en amont, et sous-enroulement en aval -> activité des topo-isomérasesChez Procaryotes, chromosome circulaire inspirant un parallèle avec la théorie des nœuds
• Nœuds topologiquement équivalents si on peut passer de l’un à l’autre sans topo-isomérase• Une topo-isomérase est responsable d’une transformation mathématique élémentaire (flip, décroisement…)
• Prennent en compte :• Codage et transmission de l’information génétique• Aspects aléatoires des mutations• Sélection naturelle des meilleurs résultats
• Ne prennent pas en compte :• Modularité de l’expression
ORDINATEURS GÉNÉTIQUES
merci…
… et à la prochaine fois pour le codage neuronal ?