séminaire bioinfo-ouest / symbiose - 29 avril 2004 alain.viari@inrialpes.fr répétitions et...

Post on 03-Apr-2015

111 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004

Alain.Viari@inrialpes.fr

QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour vis ionner cette image.

répétitionset

duplications intra-chromosomiques

Plan

-1- Introduction

-2- Définitions

-3 - Expérience 1 : répétitions chez B. subtilis

-4 - Expérience 2 : Levure et extensions

-5- Aspects algorithmiques

Introduction

-> duplications à différents niveaux

niveaux de duplication dans les génomes (1)

Xenopus laevisXenopus laevis: 36 chr : 36 chr diploids diploidsXenopus vestitusXenopus vestitus: 72 chr. : 72 chr. tetraploids tetraploidsXenopus ruwenzoriensisXenopus ruwenzoriensis: 108 chr. : 108 chr. hexaploidshexaploids

Ensemble du génome (polyploidie)

Segments de génome

II

XIV

IV

XVI

XII

XIII

XV

X

V

VIII III • 12 Mb12 Mb• 16 chromosomes16 chromosomes• 5 800 gènes.5 800 gènes.

Saccharomyces cerevisiae

-> 50% du génome

niveaux de duplication dans les génomes (2)

Satellites (mini, micro, alu)

répétitions multicopies en répétitions multicopies en tandemtandem-au niveau des centromèresau niveau des centromères-170 pb170 pb

-> 7% du génome chez-> 7% du génome chez Cercopithecus aethiopsCercopithecus aethiops

Transposons

2,4 Gb2,4 Gb10 paires de chr10 paires de chr

> 60% de transposons> 60% de transposons

Zea MaysZea Mays

niveaux de duplication dans les génomes (3)

mais encore...

• • 4,6 Mb4,6 Mb• 4 288 gènes4 288 gènes• Séquences répétées :Séquences répétées :

- 22 IS- 22 IS- 7 rDNA, 5 Rhs, 314 REP, etc.- 7 rDNA, 5 Rhs, 314 REP, etc.- 1 345 gènes dupliqués.- 1 345 gènes dupliqués.

Escherichia coliEscherichia coli

Plan

-1- Introduction

-2- Définitions

-3 - Expérience 1 : répétitions chez B. subtilis

-4 - Expérience 2 : Levure et extensions

-5- Aspects algorithmiques

Repétitions dans les génomes

• nature de l’objet répété (structural, lexical)

• nature des copies (exact, approximatif)

• nombre de copies (r ≥ 2)

• aspect inattendu (taille minimale)

• aspect biologique (inter/intra espèce chromosome)

Nature de l’objet répété : répétitions structurales

exemple 1 : tRNA

pb recherche / inférence

A <-> TG <-> C

Structures secondaires d’ARN

exemple 2 : triple hélices

picture missing...

Répétitions lexicales : nombre de copies

A = {A,C,G,T}répétitions lexicales

nombre de copies (r = 2 ; r > 2)

aspect statistiquebiais de comptage

aspect algorithmique

transitif / non transitif

aspect biologique

mécanismes 2 à 2

• explosion• suppression

Répétitions lexicales : nature de la copie

répétition exacte ou approchée

aspect algorithmique

exact : suffix-trees/arrays, KMR, oracle des facteurs

semi-approché : KMR

approché : exact + heuristique (prog. dynamique)

aspect statistique

exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi)

approché : ??

Répétitions lexicales : orientation de la copie

répétition directe / « inverse »

ATTTG

GTTTA

CAAAT

TAAAG

5’ 3’

5’3’

Répétitions lexicales : aspect biologiques

Inter-espèces

transfert horizontal

Intra-espèce Inter-chromosomique

• duplication géniques• elts mobiles

Intra-espèce Intra-chromosomique

Pourquoi chercher des répétitions ?

• Aspect entomologique

• Trace de l’évolution outil pour l’analyse de la dynamique des génomes

Plan

-1- Introduction

-2- Définitions

-3 - Expérience 1 : répétitions chez B. subtilis

-4 - Expérience 2 : Levure et extensions

-5- Aspects algorithmiques

Montage expérimental

p1

p2

1

2

1 2

Exact repeats : r times

L > LminMinimal length

at p-value 0.001

Model: mononucleotidesN,r,%GATC

Statistics : Karlin et al. 86

N

copy 1 copy 2

r = 2

Karp-Miller-RosenbergAlgorithm

look forlongest r-repeat

L Lmin ?No

StopYes

removeoccurences

Densité de répétitions

Rocha et al. MBE 99

Distribution des répétitions

Distribution des répétitions chez B. subtilis

ARNr operons

prophages (SPb et PBSX)other : ARNsb

closely spaced repeats

.

20

40

60

0 50 100 150 200 ³ 250distance entre occurrences (kb)

n o m b r e d e r é p é t i t i o n s

distance entre occurences (Kb)

# r

épéti

tion

s

Horizontal transfert in B. subtilis (hypothesis)Transfert horizontal chez B. subtilis (hypothèse)

ADNcirc

I E

ADNdb

chromosome

Recombinaisonhomologue

IntégrationCampbell-like

Homologielocale

Homologieétendue

spacer

Element inséré

Recombinaison homologue

Intégration Campbell

Inserted Elements (IE) in B. subtilis

• 17 elements ; 5% of the total size of genome

• mean spacer size is 10.6 kb (10 kb expected)

• >50% of genes in spacers does not exhibit B. subtilis codon usage • 2/3 of genes in spacers are UFO

• mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport

Transfert horizontal chez B. subtilis (hypothèse)

Plan

-1- Introduction

-2- Définitions

-3 - Expérience 1 : répétitions chez B. subtilis

-4 - Expérience 2 : Levure et extensions

-5- Aspects algorithmiques

• Mouvements et évolution des génomes.Mouvements et évolution des génomes.

• Observation directe impossibleObservation directe impossible rechercher des traces de son activité (répétitions).rechercher des traces de son activité (répétitions).

• Répétitions = générateur d’instabilités chromosomiques Répétitions = générateur d’instabilités chromosomiques (recombinaison).(recombinaison).

Répétitions = traces et moteur de la dynamique des génomes.Répétitions = traces et moteur de la dynamique des génomes.

Objectif

Les répétitions comme outil d’étude de la dynamique des génomes

séquence uniqueséquence unique

répétition stricterépétition stricte

duplicationduplication

répétition récenterépétition récente

mutationsmutations

répétition anciennerépétition ancienne

mutationsmutations

Un modèle (trop) simple

Montage expérimental (1)

-> répétitions approchées sur l’ADN

heuristique

-1- Répétitions maximales exactes (r=2, L≥Lmin) -> graines

maximalité

x a b b c y y y a b b c z ......

x a a a a y y y a a a a z ...... difficultés avecles régions de faiblecomplexité

Montage expérimental (2)

-2- Extension des graines -> graines

Alignement local (prog. dyn)

-3- Elimination des overlaps

dans les subtélomèresbasse complexité

CACACACA CACACACA

ExtensionExtension

DétectionLmin = 15 - 17 bp

DétectionLmin = 15 - 17 bp

Filtreentropique & subtélomérique

Filtreentropique & subtélomérique

FiltreRépétitions particulières

FiltreRépétitions particulières

Ty, solos, ARNt, ARNr

Longeur > 30%Identité > 50%

Longeur > 30%Identité > 50%

Montage expérimental (résumé)

Paramètres

longueurlongueur spacerspacer

% identité% identité

note : spacer > 0

Saccharomyces cerevisiaeSaccharomyces cerevisiae

Génome de la levureGénome de la levure 275275 340340

Répétitions directesRépétitions directes Répétitions inverséesRépétitions inversées

2525 2424Génome aléatoireGénome aléatoire

Résultats (1)

Les Les Close Direct RepeatsClose Direct Repeats (CDR) sont surreprésentés. (CDR) sont surreprésentés.

réelréel

aléatoire (x 10)aléatoire (x 10)

spacespacerr

% t

ota

l%

tota

l

Répétitions inverséesRépétitions inversées

1bp1bp3bp3bp 100bp100bp1kb1kb10kb10kb 100k100kbb

3.2Mb3.2Mb

spacerspacer

% t

ota

l%

tota

l

Répétitions directesRépétitions directes

1bp1bp3bp3bp 100bp100bp1kb1kb10kb10kb100kb100kb 3.2Mb3.2Mb

CDRCDR

0%0%

10%10%

20%20%

30%30%

40%40%

50%50%

0%0%

10%10%

20%20%

30%30%

40%40%

50%50%

Spacer : distributions

Les CDR présentent une corrélation négative avec le % Les CDR présentent une corrélation négative avec le %

identitéidentité

Spacer : corrélation avec le %identité entre les copies

= - 0.36= - 0.36p << 10p << 10-4-4

Direct

Inverted

Spacer : corrélation avec la longueur

Inverted

Direct

= + 0.26= + 0.26p ~ 3.10p ~ 3.10-6-6

Les CDR présentent une corrélation positive avec la tailleLes CDR présentent une corrélation positive avec la taille

La La recombinaisonrecombinaison est négativement corrélée à la taille du est négativement corrélée à la taille du spacerspacer. .

Délétion Délétion Conversion Conversion

DuplicationDuplication

MutationsMutations

CDRCDRAutresAutres

répétititons répétititons

LongueurLongueur

Identité (%)Identité (%)

Un modèle (moins) simple

Recombinaison ectopiqueRecombinaison ectopiquequelconquequelconque

• Positivement corrélée à la Positivement corrélée à la longeurlongeur

• Positivement corrélée à Positivement corrélée à l’identitél’identité

Recombinaison Recombinaison intrachromosomiqueintrachromosomique

• Négativement corrélée au spacer Négativement corrélée au spacer pour des CDR uniquement (Bactéries) pour des CDR uniquement (Bactéries)

Données expérimentales (littérature) : recombinaison

% t

ota

l%

tota

l

% identité% identité5555 6060 6565 7070 7575 8080 8585 9090 9595100100

0%0%5%5%

10%10%15%15%20%20%25%25%30%30%35%35%40%40%

% identité% identité

% t

ota

l%

tota

l

5555 6060 6565 7070 7575 8080 8585 9090 95951001000%0%5%5%

10%10%15%15%20%20%25%25%30%30%35%35%40%40%

Répétitions directesRépétitions directes Répétitions inverséesRépétitions inversées

réelréel aléatoirealéatoire

longueurlongueur4kb4kb100bp100bp 1kb1kb30bp30bp

0%0%

20%20%

40%40%

60%60%

80%80%

% t

ota

l%

tota

l

longueurlongueur4kb4kb100bp100bp 1kb1kb30bp30bp

0%0%

20%20%

40%40%

60%60%

80%80%

% t

ota

l%

tota

l

%identité et longueur : distributions

CDRCDR

Délétion Délétion

DuplicationDuplication

Conversion Conversion MutationsMutations

Pressions de Pressions de sélection sélection

(fonction)(fonction)

CDSCDS

Conversion Conversion MutationsMutations

??

??

Réarrangement(Réarrangement(s) s) chromosomique(chromosomique(s)s)

Un modèle (un peu plus) complet

tectonique des répétitions

Saccharomyces cerevisiaeSaccharomyces cerevisiae16 chromosomes: 12.1 Mb16 chromosomes: 12.1 Mb

(génome complet)(génome complet)

Plasmodium falciparumPlasmodium falciparum2 chromosomes: 2 Mb2 chromosomes: 2 Mb

Arabidopsis thalianaArabidopsis thaliana2 chromosomes: 37.2 Mb2 chromosomes: 37.2 Mb

Caenorhabditis elegansCaenorhabditis elegans6 chromosomes: 95.2 Mb6 chromosomes: 95.2 Mb

(génome complet)(génome complet)

Drosophila melanogasterDrosophila melanogaster6 bras chromosomiques : 114.4 Mb6 bras chromosomiques : 114.4 Mb

Homo sapiensHomo sapiens2 chromosomes: 67.3 Mb2 chromosomes: 67.3 Mb

(Achaz (Achaz et al.et al., 2001), 2001)

Extension à d’autres eucaryotes

directesinversées

S. cerevisiaeS. cerevisiae

0055

101015152020252530303535

0 10

bp

10

0bp

1kb

10

kb10

0kb

1M

b

A. thalianaA. thaliana

0100

300400500600700

2000 10

bp

10

0bp

1kb

10

kb10

0kb

1M

b10

Mb

P. falciparumP. falciparum

0010102020303040405050

0 10

bp

10

0bp

1kb

10

kb10

0kb

1M

bC. elegansC. elegans

0200400600800

1000

0 10

bp

10

0bp

1kb

10

kb10

0kb

1M

b10

Mb

H. sapiensH. sapiens

0200400600

8001000

0 10

bp

10

0bp

1kb

10

kb10

0kb

1M

b10

Mb

10

0M

b

D. melanogasterD. melanogaster

0

50

100

150

200

0 10

bp

10

0bp

1kb

10

kb10

0kb

1M

b10

Mb

Nom

bre

Nom

bre

Nom

bre

Nom

bre

Distribution du spacer

Spacer vs. Longueur

Spacer vs. Identité

CDR

ppDe(/Mb)N

Espèces

<10-40.33<10-4-0.3015.51,042H. sapiens

<10-40.41<10-4-0.364.7546D. melanogaster

<10-40.24<10-4-0.3134.03,242C. elegans

<10-40.39<10-4-0.3523.9889A. thaliana

>0.050.06>0.05-0.0849.8100P. falciparum

<10-40.45<10-3-0.325.060S. cerevisiae

Corrélations du spacer

00

11

22

33

44

55

00 55 1100 1155 2200

Répétitions directes Répétitions directes (% du chromosome) (% du chromosome)

Répétitions inversées Répétitions inversées (%du chromosome)(%du chromosome)

S. cerevisiaeS. cerevisiae

A. thalianaA. thaliana

C. elegansC. elegans

P. falciparumP. falciparum

D. melanogasterD. melanogaster

H. sapiensH. sapiens

Les répétitions directes sont (un peu) plus nombreuses que les inversées.Les répétitions directes sont (un peu) plus nombreuses que les inversées.

Densité en bases

D =b i

L i1/N

Les chromosomes de la même espèce présentent une De similaireLes chromosomes de la même espèce présentent une De similaire

-> propriété nucléaire globale ?-> propriété nucléaire globale ?

0

10

20

30

40

50

0 20 40 60 80 100

Répétitions directes (/Mb) Répétitions directes (/Mb)

Répétitions inversées (/Mb)Répétitions inversées (/Mb)

S. cerevisiaeS. cerevisiae

A. thalianaA. thaliana

C. elegansC. elegans

P. falciparumP. falciparum

D. melanogasterD. melanogaster

H. sapiensH. sapiens

Densité en évènements

D =e n/N

Conclusion

• eucaryotes

• idem procaryotes (50 génomes)

les répétitions comme outil d’étude de la dynamique des génomes

CDRCDR

Délétion Délétion

DuplicationDuplication

Conversion Conversion MutationsMutations

Pressions de Pressions de sélection sélection

(fonction)(fonction)

CDSCDSConversion Conversion MutationsMutations

??

??

Réarrangement(s) Réarrangement(s) chromosomique(schromosomique(s))

Plan

-1- Introduction

-2- Définitions

-3 - Expérience 1 : répétitions chez B. subtilis

-4 - Expérience 2 : Levure et extensions

-5- Aspects algorithmiques

Un problème algorithmique (classique)

N A

pb: trouver toutes les r-répétions (exactes) de la plus grande taille

(* Karp-Miller-Rosenberg)

Suffix-tree KMR(*) Oracle des facteurs (**)

time

space

O(N) O(NlogN) O(N)

O(N) O(N) O(N)

12N 8N 10N

(** heuristique)

En pratique...

pb pratique: trouver toutes les 2-répétions maximales de tailles ≥ Lmin

5% ?

note: en utilisation pratique Lmin est tel que n2 << N

Vers des très grandes séquences

Principe de KMR

Rarelation d’équivalence sur l’ensemble des indices

i j

a a

i R j <=> i R j et i+b R j+b ; a ≥ b ≥ 1a+b

Lemme

a ai j

a a

a ab bAlgo (raffinement de partition)

P1 -> P2 -> P4 -> P8 -> P16 ....

4N8N

time: O(NlogN)

space: O(N)

< 1N

Remerciements

Guillaume ACHAZ

Eric COISSAC

Eduardo ROCHA

Frédéric BOYER

Pierre NETTERQuickTime™ et un décompresseur TIFF (non compressé) sont requis pour vis ionner cette image.

QuickTime™ et un décompres s eur TIFF (non compress é) s ont requis pour vis ionner cette image.

QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour visionner cette image.

Q ui ckTi me™ et un décompresseur TI FF (non compressé) sont requi s pour vi si onner cet te i mage.

QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour visionner cette image.

QuickTime™ et un décompres s eur TIFF (non compress é) s ont requis pour vis ionner cette image.

top related