1 comparaison de génomes bactériens : questions méthodologiques autour de la définition du...

19
1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles [email protected] UBLO

Upload: evrard-le

Post on 04-Apr-2015

103 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

1

Comparaison de génomes bactériens :questions méthodologiques autour de la

définition du squelette et des boucles

[email protected]

UBLO

Page 2: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

2

Le projet MOSAIC

MOSAIC* version 3:• 87 comparaisons, 24 espèces bactériennes• Comparaison aux annotations (GenomeReview+autres)• Visualisation graphique (MuGeN)

http://genome.jouy.inra.fr/mosaic

But: déterminer systématiquement la structure squelette-boucles des génomes bactériens à l’échelle intra-espèce

*Chiapello et al. BMC Bioinformatics, 2005

Méthode: alignement de génomes complets (MGA) + post-traitement

Page 3: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

3

Les comparaisons MOSAIC

* Multiple Genome Aligner , Höhl, Kurtz and Ohlebusch, Bioinformatics 2002

1. Sélection des génomes à comparer:

2. Alignement global multiple des génomes avec MGA*

3. Définition du squelette et des boucles

• Même espèce (nomenclature), pas de réarrangement

• les paramètres MGA sont définis à partir d’un alignement de référence vérifié manuellement

• Squelette : régions conservées

• Boucles : régions variables ou spécifique à une souche

Les trois étapes:

Page 4: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

4

MOSAIC : en cours…

I. Evaluation de la divergence des génomes

II. Evaluation de la robustesse des boucles

Annotation et classification des boucles

Axe 1: Stratégie de comparaison

Axe 2: Analyse des boucles

Axe 3: Propriétés du squelette

Prédictions de motifs nucléiques basées sur la séquence du squelette

III. Détection des réarrangements

Page 5: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

5

I. Evaluation de la divergence des génomes

Motivation :

Idée :

Exemples : groupe Shigella-Coli, groupe B. cereus,…

• La classification des espèces bactériennes n’est pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère d’hybridation ADN-ADN,…)

• il serait utile de disposer d’un critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes

Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence

Page 6: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

6

L’indice de couverture des MUM

• Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences d’une taille minimale k présente une fois sur

chaque génome) pour évaluer la similarité

• L’indice MUM coverage (MC) :

MCk(GO,G1) =1−LMUMkG

210 GG ll

G+

=

• tient compte des inversions (MUMs détectés sur le brin RC)

• Propriétés:

• mesure la dissimilarité entre 2 génomes

• très rapide à calculer en utilisant des structures de type arbre de suffixes

∑=

=n

iiMUMMUM lL

0with

Page 7: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

7

Choix de la taille minimum des MUM k

Conclusion:La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

7 11 15 19 23 27 50

k

MC

E.coli.Sakai/S.aureus.MSSA

E. coli. Sakai/P.syrDC3000

S.typhiLT2/E.coli.Sakai

S.flex2a/E.coli.Sakai

E.coli.K12/E.coli.CFT

E.coli.K12/E.coli.Sakai

E.coli.Sakai/E.coli.EDL

Page 8: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

8

Validité de l’indice MC• L’ANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes (Konstantidinis, PNAS 2005)

• For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001)

• Les données de MLST (Multi Locus Sequence Type) des groupes E. coli/Shigella (Pupo, PNAS 2000) et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 5 10 15 20 25 30 35

100-ANI

MC

Current Species Cutoff

• ANI ~94% correspond à MC ~0.5 et au seuil de définition de l’espèce

Page 9: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

9

Evaluation de la diversité intra-espèce avec MC

- très grande diversité à l’échelle intra-espèce

Conclusion:

- certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1

k=19

MC

S.aureus.COL/S.aureus.MRSA

E.coli.CFT/E.coli.Sakai

B.cereus.10987/B.cereus.14579

P.syringae.pv/P.syringae.DC3000

E.coli.K12/S.typhimurium.LT2

P.syringae.DC3000/P.eruginosa

B.aphid/B.aphid.sg

Distribution des valeurs de MC parmi 7 espèces bactériennes :

Page 10: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

10

II. MOSAIC: évaluation de la robustesse des boucles

• Observation 1: le nombre de boucles est très variable selon l’espèce bactérienne

• Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé

Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus

Ex: la moitié des boucles d’E. coli sont inférieures à 100 nt

Question : est-il possible d’évaluer la robustesse- des petites boucles ?- des frontières squelette/boucles ?

Page 11: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

11

Stratégie

Méthode :

1. Perturbations aléatoires des génomes

2. Analyse de l’impact des perturbations sur la segmentation squelette/boucles initiale

Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements

*Maximal Exact Matches

But : évaluer la robustesse locale des boucles

Page 12: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

12

Protocole de perturbation• Trois opérations de perturbation sont effectuées N fois sur chaque génome :

1. La suppression d’un pourcentage x de MEMs

2. L’inversion d’un pourcentage x de MEMs

3. La translocation d’un pourcentage x MEMs

• Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores :

- Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle

- Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.

Page 13: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

13

Résultats : scores de nucléotideDonnées : 617 boucles de E. coli K12 (541 kb)

• Les boucles sont en général robustes :

Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs)

• Les frontières de boucles sont les plus affectées par les perturbations :

score 1 score [0.95;1[ score [0.90;0.95[ score [0.80;0.90[ score < 0.80

Position dans la boucle (en % de la taille de la boucle)

Page 14: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

14

Résultats: scores de boucles

• Peu de boucles sont affectées par les perturbations :

5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs)

• Les boucles peu robustes sont en général petites (88% ont une longueur<200nt):

Taille des boucles

Données : 617 boucles de E. coli K12 (541 kb)

Page 15: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

15

Exemple de visualisation

15% de MEMs supprimés

15 % de MEMs inversés

15% de MEMs transloqués

Annotations biologiques

Structure mosaïque

score = 0.5

score = 1

score = 0

Page 16: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

16

III. Traitement des génomes réarrangés

1. Alignement multiples et doubles avec MAUVE*

2. Définition du squelette et des boucles à partir des LCBs

* Darling et al., Genome Research 2004

Principe :

• Définition des LCBs : Locally Colinear Blocks

• Choix d’un génome de référence

• Choix des paramètres d’alignement

3. Alignements MGA des génomes sans réarrangement

Page 17: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

17

MOSAIC release 4 (en cours)

Données = Genome Review release 56 (07/2006) :

• 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes)

• 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA

• nouvelle interface de navigation (LCB)

Page 18: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

18

Retour aux questions méthodologiques

• Choix des paramètres d’alignement (en fonction de la divergence des génomes ?)

• Evaluation de la qualité d’un résultat d’alignement de génomes (alignements de références ?)

• Problème des séquences répétées (filtrage ?)

• Taille minimale d’un réarrangement (inversion, translocation)

Page 19: 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles helene.chiapello@jouy.inra.fr UBLO

19

H. ChiapelloS. SchbathA. Gendrault-JacquemardMathématique Informatique et Génome

M.-A. PetitD. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes

UBLO