séminaire bioinfo-ouest / symbiose - 29 avril 2004 [email protected] répétitions et...
TRANSCRIPT
Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004
QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour vis ionner cette image.
répétitionset
duplications intra-chromosomiques
Plan
-1- Introduction
-2- Définitions
-3 - Expérience 1 : répétitions chez B. subtilis
-4 - Expérience 2 : Levure et extensions
-5- Aspects algorithmiques
Introduction
-> duplications à différents niveaux
niveaux de duplication dans les génomes (1)
Xenopus laevisXenopus laevis: 36 chr : 36 chr diploids diploidsXenopus vestitusXenopus vestitus: 72 chr. : 72 chr. tetraploids tetraploidsXenopus ruwenzoriensisXenopus ruwenzoriensis: 108 chr. : 108 chr. hexaploidshexaploids
Ensemble du génome (polyploidie)
Segments de génome
II
XIV
IV
XVI
XII
XIII
XV
X
V
VIII III • 12 Mb12 Mb• 16 chromosomes16 chromosomes• 5 800 gènes.5 800 gènes.
Saccharomyces cerevisiae
-> 50% du génome
niveaux de duplication dans les génomes (2)
Satellites (mini, micro, alu)
répétitions multicopies en répétitions multicopies en tandemtandem-au niveau des centromèresau niveau des centromères-170 pb170 pb
-> 7% du génome chez-> 7% du génome chez Cercopithecus aethiopsCercopithecus aethiops
Transposons
2,4 Gb2,4 Gb10 paires de chr10 paires de chr
> 60% de transposons> 60% de transposons
Zea MaysZea Mays
niveaux de duplication dans les génomes (3)
mais encore...
• • 4,6 Mb4,6 Mb• 4 288 gènes4 288 gènes• Séquences répétées :Séquences répétées :
- 22 IS- 22 IS- 7 rDNA, 5 Rhs, 314 REP, etc.- 7 rDNA, 5 Rhs, 314 REP, etc.- 1 345 gènes dupliqués.- 1 345 gènes dupliqués.
Escherichia coliEscherichia coli
Plan
-1- Introduction
-2- Définitions
-3 - Expérience 1 : répétitions chez B. subtilis
-4 - Expérience 2 : Levure et extensions
-5- Aspects algorithmiques
Repétitions dans les génomes
• nature de l’objet répété (structural, lexical)
• nature des copies (exact, approximatif)
• nombre de copies (r ≥ 2)
• aspect inattendu (taille minimale)
• aspect biologique (inter/intra espèce chromosome)
Nature de l’objet répété : répétitions structurales
exemple 1 : tRNA
pb recherche / inférence
A <-> TG <-> C
Structures secondaires d’ARN
exemple 2 : triple hélices
picture missing...
Répétitions lexicales : nombre de copies
A = {A,C,G,T}répétitions lexicales
nombre de copies (r = 2 ; r > 2)
aspect statistiquebiais de comptage
aspect algorithmique
transitif / non transitif
aspect biologique
mécanismes 2 à 2
• explosion• suppression
Répétitions lexicales : nature de la copie
répétition exacte ou approchée
aspect algorithmique
exact : suffix-trees/arrays, KMR, oracle des facteurs
semi-approché : KMR
approché : exact + heuristique (prog. dynamique)
aspect statistique
exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi)
approché : ??
Répétitions lexicales : orientation de la copie
répétition directe / « inverse »
ATTTG
GTTTA
CAAAT
TAAAG
5’ 3’
5’3’
Répétitions lexicales : aspect biologiques
Inter-espèces
transfert horizontal
Intra-espèce Inter-chromosomique
• duplication géniques• elts mobiles
Intra-espèce Intra-chromosomique
Pourquoi chercher des répétitions ?
• Aspect entomologique
• Trace de l’évolution outil pour l’analyse de la dynamique des génomes
Plan
-1- Introduction
-2- Définitions
-3 - Expérience 1 : répétitions chez B. subtilis
-4 - Expérience 2 : Levure et extensions
-5- Aspects algorithmiques
Montage expérimental
p1
p2
1
2
1 2
Exact repeats : r times
L > LminMinimal length
at p-value 0.001
Model: mononucleotidesN,r,%GATC
Statistics : Karlin et al. 86
N
copy 1 copy 2
r = 2
Karp-Miller-RosenbergAlgorithm
look forlongest r-repeat
L Lmin ?No
StopYes
removeoccurences
Densité de répétitions
Rocha et al. MBE 99
Distribution des répétitions
Distribution des répétitions chez B. subtilis
ARNr operons
prophages (SPb et PBSX)other : ARNsb
closely spaced repeats
.
20
40
60
0 50 100 150 200 ³ 250distance entre occurrences (kb)
n o m b r e d e r é p é t i t i o n s
distance entre occurences (Kb)
# r
épéti
tion
s
Horizontal transfert in B. subtilis (hypothesis)Transfert horizontal chez B. subtilis (hypothèse)
ADNcirc
I E
ADNdb
chromosome
Recombinaisonhomologue
IntégrationCampbell-like
Homologielocale
Homologieétendue
spacer
Element inséré
Recombinaison homologue
Intégration Campbell
Inserted Elements (IE) in B. subtilis
• 17 elements ; 5% of the total size of genome
• mean spacer size is 10.6 kb (10 kb expected)
• >50% of genes in spacers does not exhibit B. subtilis codon usage • 2/3 of genes in spacers are UFO
• mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport
Transfert horizontal chez B. subtilis (hypothèse)
Plan
-1- Introduction
-2- Définitions
-3 - Expérience 1 : répétitions chez B. subtilis
-4 - Expérience 2 : Levure et extensions
-5- Aspects algorithmiques
• Mouvements et évolution des génomes.Mouvements et évolution des génomes.
• Observation directe impossibleObservation directe impossible rechercher des traces de son activité (répétitions).rechercher des traces de son activité (répétitions).
• Répétitions = générateur d’instabilités chromosomiques Répétitions = générateur d’instabilités chromosomiques (recombinaison).(recombinaison).
Répétitions = traces et moteur de la dynamique des génomes.Répétitions = traces et moteur de la dynamique des génomes.
Objectif
Les répétitions comme outil d’étude de la dynamique des génomes
séquence uniqueséquence unique
répétition stricterépétition stricte
duplicationduplication
répétition récenterépétition récente
mutationsmutations
répétition anciennerépétition ancienne
mutationsmutations
Un modèle (trop) simple
Montage expérimental (1)
-> répétitions approchées sur l’ADN
heuristique
-1- Répétitions maximales exactes (r=2, L≥Lmin) -> graines
maximalité
x a b b c y y y a b b c z ......
x a a a a y y y a a a a z ...... difficultés avecles régions de faiblecomplexité
Montage expérimental (2)
-2- Extension des graines -> graines
Alignement local (prog. dyn)
-3- Elimination des overlaps
dans les subtélomèresbasse complexité
CACACACA CACACACA
ExtensionExtension
DétectionLmin = 15 - 17 bp
DétectionLmin = 15 - 17 bp
Filtreentropique & subtélomérique
Filtreentropique & subtélomérique
FiltreRépétitions particulières
FiltreRépétitions particulières
Ty, solos, ARNt, ARNr
Longeur > 30%Identité > 50%
Longeur > 30%Identité > 50%
Montage expérimental (résumé)
Paramètres
longueurlongueur spacerspacer
% identité% identité
note : spacer > 0
Saccharomyces cerevisiaeSaccharomyces cerevisiae
Génome de la levureGénome de la levure 275275 340340
Répétitions directesRépétitions directes Répétitions inverséesRépétitions inversées
2525 2424Génome aléatoireGénome aléatoire
Résultats (1)
Les Les Close Direct RepeatsClose Direct Repeats (CDR) sont surreprésentés. (CDR) sont surreprésentés.
réelréel
aléatoire (x 10)aléatoire (x 10)
spacespacerr
% t
ota
l%
tota
l
Répétitions inverséesRépétitions inversées
1bp1bp3bp3bp 100bp100bp1kb1kb10kb10kb 100k100kbb
3.2Mb3.2Mb
spacerspacer
% t
ota
l%
tota
l
Répétitions directesRépétitions directes
1bp1bp3bp3bp 100bp100bp1kb1kb10kb10kb100kb100kb 3.2Mb3.2Mb
CDRCDR
0%0%
10%10%
20%20%
30%30%
40%40%
50%50%
0%0%
10%10%
20%20%
30%30%
40%40%
50%50%
Spacer : distributions
Les CDR présentent une corrélation négative avec le % Les CDR présentent une corrélation négative avec le %
identitéidentité
Spacer : corrélation avec le %identité entre les copies
= - 0.36= - 0.36p << 10p << 10-4-4
Direct
Inverted
Spacer : corrélation avec la longueur
Inverted
Direct
= + 0.26= + 0.26p ~ 3.10p ~ 3.10-6-6
Les CDR présentent une corrélation positive avec la tailleLes CDR présentent une corrélation positive avec la taille
La La recombinaisonrecombinaison est négativement corrélée à la taille du est négativement corrélée à la taille du spacerspacer. .
Délétion Délétion Conversion Conversion
DuplicationDuplication
MutationsMutations
CDRCDRAutresAutres
répétititons répétititons
LongueurLongueur
Identité (%)Identité (%)
Un modèle (moins) simple
Recombinaison ectopiqueRecombinaison ectopiquequelconquequelconque
• Positivement corrélée à la Positivement corrélée à la longeurlongeur
• Positivement corrélée à Positivement corrélée à l’identitél’identité
Recombinaison Recombinaison intrachromosomiqueintrachromosomique
• Négativement corrélée au spacer Négativement corrélée au spacer pour des CDR uniquement (Bactéries) pour des CDR uniquement (Bactéries)
Données expérimentales (littérature) : recombinaison
% t
ota
l%
tota
l
% identité% identité5555 6060 6565 7070 7575 8080 8585 9090 9595100100
0%0%5%5%
10%10%15%15%20%20%25%25%30%30%35%35%40%40%
% identité% identité
% t
ota
l%
tota
l
5555 6060 6565 7070 7575 8080 8585 9090 95951001000%0%5%5%
10%10%15%15%20%20%25%25%30%30%35%35%40%40%
Répétitions directesRépétitions directes Répétitions inverséesRépétitions inversées
réelréel aléatoirealéatoire
longueurlongueur4kb4kb100bp100bp 1kb1kb30bp30bp
0%0%
20%20%
40%40%
60%60%
80%80%
% t
ota
l%
tota
l
longueurlongueur4kb4kb100bp100bp 1kb1kb30bp30bp
0%0%
20%20%
40%40%
60%60%
80%80%
% t
ota
l%
tota
l
%identité et longueur : distributions
CDRCDR
Délétion Délétion
DuplicationDuplication
Conversion Conversion MutationsMutations
Pressions de Pressions de sélection sélection
(fonction)(fonction)
CDSCDS
Conversion Conversion MutationsMutations
??
??
Réarrangement(Réarrangement(s) s) chromosomique(chromosomique(s)s)
Un modèle (un peu plus) complet
tectonique des répétitions
Saccharomyces cerevisiaeSaccharomyces cerevisiae16 chromosomes: 12.1 Mb16 chromosomes: 12.1 Mb
(génome complet)(génome complet)
Plasmodium falciparumPlasmodium falciparum2 chromosomes: 2 Mb2 chromosomes: 2 Mb
Arabidopsis thalianaArabidopsis thaliana2 chromosomes: 37.2 Mb2 chromosomes: 37.2 Mb
Caenorhabditis elegansCaenorhabditis elegans6 chromosomes: 95.2 Mb6 chromosomes: 95.2 Mb
(génome complet)(génome complet)
Drosophila melanogasterDrosophila melanogaster6 bras chromosomiques : 114.4 Mb6 bras chromosomiques : 114.4 Mb
Homo sapiensHomo sapiens2 chromosomes: 67.3 Mb2 chromosomes: 67.3 Mb
(Achaz (Achaz et al.et al., 2001), 2001)
Extension à d’autres eucaryotes
directesinversées
S. cerevisiaeS. cerevisiae
0055
101015152020252530303535
0 10
bp
10
0bp
1kb
10
kb10
0kb
1M
b
A. thalianaA. thaliana
0100
300400500600700
2000 10
bp
10
0bp
1kb
10
kb10
0kb
1M
b10
Mb
P. falciparumP. falciparum
0010102020303040405050
0 10
bp
10
0bp
1kb
10
kb10
0kb
1M
bC. elegansC. elegans
0200400600800
1000
0 10
bp
10
0bp
1kb
10
kb10
0kb
1M
b10
Mb
H. sapiensH. sapiens
0200400600
8001000
0 10
bp
10
0bp
1kb
10
kb10
0kb
1M
b10
Mb
10
0M
b
D. melanogasterD. melanogaster
0
50
100
150
200
0 10
bp
10
0bp
1kb
10
kb10
0kb
1M
b10
Mb
Nom
bre
Nom
bre
Nom
bre
Nom
bre
Distribution du spacer
Spacer vs. Longueur
Spacer vs. Identité
CDR
ppDe(/Mb)N
Espèces
<10-40.33<10-4-0.3015.51,042H. sapiens
<10-40.41<10-4-0.364.7546D. melanogaster
<10-40.24<10-4-0.3134.03,242C. elegans
<10-40.39<10-4-0.3523.9889A. thaliana
>0.050.06>0.05-0.0849.8100P. falciparum
<10-40.45<10-3-0.325.060S. cerevisiae
Corrélations du spacer
00
11
22
33
44
55
00 55 1100 1155 2200
Répétitions directes Répétitions directes (% du chromosome) (% du chromosome)
Répétitions inversées Répétitions inversées (%du chromosome)(%du chromosome)
S. cerevisiaeS. cerevisiae
A. thalianaA. thaliana
C. elegansC. elegans
P. falciparumP. falciparum
D. melanogasterD. melanogaster
H. sapiensH. sapiens
Les répétitions directes sont (un peu) plus nombreuses que les inversées.Les répétitions directes sont (un peu) plus nombreuses que les inversées.
Densité en bases
D =b i
L i1/N
Les chromosomes de la même espèce présentent une De similaireLes chromosomes de la même espèce présentent une De similaire
-> propriété nucléaire globale ?-> propriété nucléaire globale ?
0
10
20
30
40
50
0 20 40 60 80 100
Répétitions directes (/Mb) Répétitions directes (/Mb)
Répétitions inversées (/Mb)Répétitions inversées (/Mb)
S. cerevisiaeS. cerevisiae
A. thalianaA. thaliana
C. elegansC. elegans
P. falciparumP. falciparum
D. melanogasterD. melanogaster
H. sapiensH. sapiens
Densité en évènements
D =e n/N
Conclusion
• eucaryotes
• idem procaryotes (50 génomes)
les répétitions comme outil d’étude de la dynamique des génomes
CDRCDR
Délétion Délétion
DuplicationDuplication
Conversion Conversion MutationsMutations
Pressions de Pressions de sélection sélection
(fonction)(fonction)
CDSCDSConversion Conversion MutationsMutations
??
??
Réarrangement(s) Réarrangement(s) chromosomique(schromosomique(s))
Plan
-1- Introduction
-2- Définitions
-3 - Expérience 1 : répétitions chez B. subtilis
-4 - Expérience 2 : Levure et extensions
-5- Aspects algorithmiques
Un problème algorithmique (classique)
N A
pb: trouver toutes les r-répétions (exactes) de la plus grande taille
(* Karp-Miller-Rosenberg)
Suffix-tree KMR(*) Oracle des facteurs (**)
time
space
O(N) O(NlogN) O(N)
O(N) O(N) O(N)
12N 8N 10N
(** heuristique)
En pratique...
pb pratique: trouver toutes les 2-répétions maximales de tailles ≥ Lmin
5% ?
note: en utilisation pratique Lmin est tel que n2 << N
Vers des très grandes séquences
Principe de KMR
Rarelation d’équivalence sur l’ensemble des indices
i j
a a
i R j <=> i R j et i+b R j+b ; a ≥ b ≥ 1a+b
Lemme
a ai j
a a
a ab bAlgo (raffinement de partition)
P1 -> P2 -> P4 -> P8 -> P16 ....
4N8N
time: O(NlogN)
space: O(N)
< 1N
Remerciements
Guillaume ACHAZ
Eric COISSAC
Eduardo ROCHA
Frédéric BOYER
Pierre NETTERQuickTime™ et un décompresseur TIFF (non compressé) sont requis pour vis ionner cette image.
QuickTime™ et un décompres s eur TIFF (non compress é) s ont requis pour vis ionner cette image.
QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour visionner cette image.
Q ui ckTi me™ et un décompresseur TI FF (non compressé) sont requi s pour vi si onner cet te i mage.
QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour visionner cette image.
QuickTime™ et un décompres s eur TIFF (non compress é) s ont requis pour vis ionner cette image.