assemblage adaptatif de génomes et de méta-génomes par ... · maxime boissonneault louis demers...

Post on 19-May-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Assemblage adaptatif de génomes et de méta-génomes par

passage de messages

Sébastien Boisvert

Soutenance de thèse de doctoratExposé: 20 minutes

Jeudi le 10 avril 2014 à 10:00Local VND-2770, Pavillon Ferdinand-Vandry

Université Lavalhttp://boisvert.info/soutenance/

2

Exposé

● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner

3

Sujet de recherche

● Génomique● Passage de messages● Assemblage de novo de génomes et de méta-

génomes

ATCGATCAGCATCAGTAC

4

Pour mieux comprendre un phénomène, il faut des données

● Avec des données, des analyses sont faites pour prendre des décisions

● Beaucoup de données en génomique● La génomique aide pour les décisions en santé,

environnement, agroalimentaire, sécurité

5

Pourquoi lire l'ADN ?

● L'ADN contient les gènes, lesquels codent pour les protéines qui font fonctionner les êtres vivants

● Mieux comprendre l'architecture de l'ADN

6

Séquençage de l'ADN

Fig. 1 Nature Biotechnology 26, 1135 - 1145 (2008)

7Metzker, M. L. Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46 (2010).

Séquencer en parallèle

8

Limitations du séquençage de l'ADN

● La longueur de l'ADN lu est petite (Illumina: 100 – 250 nt)

● Pacific Biosciences: > 10 kb (PAG 2013)

Huddleston, J. et al. Reconstructing complex regions of genomes using long-read sequencing technology. Genome Research 24, gr.168450.113-696 (2014).

Loman, N. J. et al. High-throughput bacterial genome sequencing: an embarrassment of choice, a world of opportunity. Nature Reviews Microbiology 10, 599-606 (2012).

génome

Fragments séquencés

9

Séquences en paire

● L'ADN est fragmenté● Les deux extrémités de chaque fragment sont

séquencés

Chaisson, M. J., Brinza, D. & Pevzner, P. A. De novo fragment assembly with short mate-paired reads: Does the read length matter? Genome Research 19, 336-346 (2009).

Korbel, J. O. et al. Paired-end mapping reveals extensive structural variation in the human genome. Science 318, 420-426 (2007).

Génome

FragmentSéquence 1

Séquence 2

10

Métagénomique

● 99.8% des microbes ne sont pas cultivables

Streit, W. R. & Schmitz, R. A. Metagenomics – the key to the uncultured microbes. Current Opinion in Microbiology 7, 492-498 (2004).

11

Métagénomique

● Les bactéries de communautés complexes sont difficiles à cultiver / non-cultivables

● Métagénomique: séquençage direct de l'ADN de microorganismes non-cultivés

● Pas de bias de culture

Handelsman, J. (2004, December). Metagenomics: Application of genomics to uncultured microorganisms. Microbiology and Molecular Biology Reviews 68 (4), 669-685.

Handelsman et al. (Oct 1998) Chemistry & Biology 5 (10).

12

Métagénomique

● Métagénome: plusieurs génomes● Exemples:● Séquencer l'ADN provenant d'un biofermenteur● Séquencer l'ADN provenant des selles d'un

humain

The microbiome explored: recent insights and future challenges. Blaser, Bork, Fraser, Knight & Wang Nature Reviews Microbiology 11, 213-217 (March 2013)

13

Microbiome avec des sondes nucléotidiques

Figure 2, Handelsman (2004) Microbiology and Molecular Biology Reviews 68 (4), 669-685.

14

Superordinateurs

● Superordinateurs ● Logiciels spécialisés nécessaires

Afuah, A. N. and J. M. Utterback (1991, December). The emergence of a new supercomputer architecture. Technological Forecasting and Social Change 40 (4), 315-328.

Ordinateur 1 Ordinateur 2

Ordinateur 3 Ordinateur 4

15

Tendance

● besoin de logiciels parallèles / distribués pour analyser les données de séquençage avec les superordinateurs

Pollack, A. (2011). DNA sequencing caught in deluge of data. New York Times 1.

Baker, M. (2010, July). Next-generation sequencing: adjusting to data overload. Nature Methods 7 (7), 495-499.

Trelles, O., P. Prins, M. Snir, and R. C. Jansen (2011, February). Big data, but are we ready? Nature Reviews Genetics 12 (3), 224.

(2013, October). In need of an upgrade. Nature Biotechnology 31 (10), 857.

McPherson, J. D. (2009, November). Next-generation gap. Nature Methods 6 (11 Suppl), S2-S5.

Mardis, E. (2010). The $1,000 genome, the $100,000 analysis? Genome Medicine 2 (11), 84+.

16License: AttributionNoncommercialNo Derivative Works Some rights reserved by flickr/jugbo

Assemblage de novo

Pop, M. Genome assembly reborn: recent computational challenges. Brief Bioinform 10, 354-366 (2009).

17

À quoi sert l'assemblage ?

● L'ADN est fragmenté avant d'être lu● L'assemblage construit des longues séquences

à partir des courts fragments

Fragments séquencés

Génome

Assemblage

18

Exposé

● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner

19

Problèmes que je voulais résoudre

● Assembler des génomes en utilisant plusieurs technologies de séquençage de l'ADN (exactitude)

● Assembler des métagénomes (beaucoup de données) en utilisant des superordinateurs

● Visualiser la structure topologique de génomes et de métagénomes

20

Exposé

● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner

21

Représenter les séquences d'ADN

● Comment peut-on représenter les séquences d'ADN ?

Flicek, P. & Birney, E. Sense from sequence reads: methods for alignment and assembly. Nature Methods 6, S6-S12 (2009).

22

Graphes dirigés

● Graphe G avec sommets V et arcs E

a

b

c

de

f

g

Bondy, J. A. Graph Theory With Applications (Elsevier Science Ltd, 1976).

23

Graphe de de Bruijn d'ADN

● Alphabet: {A, T, C, G}● Nombre entier k● Sommets: mots de longueur k avec A, T, C, G● Arcs: chevauchements de k – 1● Exemple (k = 9):

ATGCATCAG -> TGCATCAGT● Bijection entre séquences et chemins dans le

graphe

Zerbino, D. R. Genome assembly and comparison using de Bruijn graphs. Ph.D. thesis, University of Cambridge (2009).

24

Méthode pour gérer beaucoup de données

● Peut-on découper le graphe en morceaux et le distribuer sur des centaines d'ordinateurs ?

25

Interface de passage de messages

● Message: information échangée entre des acteurs

● MPI: Message Passing Interface● Une interface pour créer des logiciels

massivement distribués

Message Passing Interface Forum, MPI: A Message-Passing interface standard version 3.0 (2012).

ATCGATCAGCATCAGTAC

26

Interface de passage de messages

● Principalement la communication point à point pour distribuer le graphe

ATCGATCAGCATCAGTAC

27

Solutions aux problèmes présentés

● RayPlatform: plateforme pour abstraire la complexité

● Solutions implémentées dans Ray● C++, interface de passage de messages (MPI),

graphe de de Bruijn

28

RayPlatform

29

Exposé

● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner

30

● Problème: Assembler des génomes en utilisant plusieurs technologies de séquençage de l'ADN

31

Idée originale

● Utiliser plusieurs technologies de séquençage de l'ADN en même temps

● En 2010, Roche offrait la technologie 454 et Illumina ne dominait pas autant

Boisvert, S., F. Laviolette, and J. Corbeil (2010, November). Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies. Journal of Computational Biology 17 (11), 1519-1533.

32

Distribution de la couverture

Boisvert et al. 2010 Journal of Computational Biology 17 (11), 1519-1533.

33

● Problème: Assembler des métagénomes (beaucoup de données) en utilisant des superordinateurs

Boisvert, S., Raymond, F., Godzaridis, E., Laviolette, F. & Corbeil, J. Ray meta: scalable de novo metagenome assembly and profiling. Genome Biology 13, R122+ (2012).

34

Proportions assemblées de génomes bactériens dans un

métagénome

1000 génomes bactériens, loi de puissance3*10^9 readsErreurs simulées

Bonne proportion des génomes assemblés

Figure 1, Boisvert et al. 2012 Genome Biology

Fiabilité: 1.3 % des contigs ont une erreur

35

Graphe de de Bruijn colorié

● Ajout d'étiquettes sur les sommets● Permet d'énumérer les génomes qui

contiennent un k-mer donné● Engin de détection sensible et spécifique

Boisvert, S., Raymond, F., Godzaridis, E., Laviolette, F. & Corbeil, J. Ray meta: scalable de novo metagenome assembly and profiling. Genome Biology 13, R122+ (2012).

36

Proportions estimées pour les génomes

● Avec les k-mers uniquement coloriés

A: métagénome avec 100 génomes

B: métagénome avec 1000 génomes

Figure 2, Boisvert et al. 2012 Genome Biology

37

Le test des entérotypes

● Peut-on reproduire les entérotypes avec des k-mers plutôt que des alignements ?

● 3 entérotypes:

● 2 entérotypes:

Arumugam, M. (...) and P. Bork (2011, April). Enterotypes of the human gut microbiome. Nature 473 (7346), 174-180.

Wu, G. D. (...) and J. D. Lewis (2011, October). Linking long-term dietary patterns with gut microbial enterotypes. Science (New York, N.Y.) 334 (6052), 105-108.

38

2 entérotypes avec les k-mers

● Données: Qin et al. 2010 Nature (MetaHIT)

Figure 4, Boisvert et al. 2012 Genome Biology

39

● Problème: Visualiser la structure topologique de métagénomes

● Bulles (variation génétique), impasses, branchements (répétitions)

● Pour améliorer les assemblages

40

Visualisation

● La visualisation de graphes de de Bruijn peut aider à découvrir des structures topologiques dans l'ADN de métagénomes

● Déboguer les assemblages et assembleurs● Analogie: une image du problème assiste pour

le diagnostic

42

Régions répétées (Ray Cloud Browser)

43Barnes, J. and P. Hut (1986, December). A hierarchical O(N log n) force-calculation algorithm. Nature 324 (6096), 446-449.

Algorithme Barnes-Hut de disposition

44

Onodera, T., K. Sadakane, and T. Shibuya (2013). Detecting superbubbles in assembly graphs. In A. Darling and J. Stoye (Eds.), Algorithms in Bioinformatics, Volume 8126 of Lecture Notes in Computer Science, pp. 338-348. Springer Berlin Heidelberg.

Bulles dans le graphe

45

Interface interactive

46

Vue à vol d'oiseau de l'ADN

47

Boule d'ADN dans le graphe

Howe, A. C., J. Pell, R. Canino-Koning, R. Mackelprang, S. Tringe, J. Jansson, J. M. Tiedje, and C. T. Brown (2012, December). Illumina sequencing artifacts revealed by connectivity analysis of metagenomic datasets.

48

49

50

51

Conclusions

● Le passage de messages est une excellente abstraction pour créer des logiciels parallèles

● Le graphe de de Bruijn est une structure de données adéquate pour l'assemblage de novo distribué

● Le logiciel libre Ray implémente ces méthodes scientifiques pour l'assemblage de novo de génomes et de méta-génomes

52

Exposé

● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner

53

Suites à donner

● Graphe de de Bruijn sur les protéines (espace des acides aminés)

● Gérer les mésappariements dans les k-mers● Comparer beaucoup d'échantillons rapidement

avec un graphe de de Bruijn colorié (Ray Surveyor)

● Explorer le modèle des acteurs pour la génomique

54

Questions du jury

55

Démo Ray Cloud Browser

● http://ray-cloud-browser.genap.ca/client

56

Quelques modèles possibles

Dean, J. & Ghemawat, S. MapReduce: Simplified data processing on large clusters. Commun. ACM 51, 107-113 (2008).

Gropp, W., Lusk, E. & Skjellum, A. Using MPI: Portable Parallel Programming with the Message Passing Interface. (MIT Press, 1994).

Agha, G. Actors: a model of concurrent computation in distributed systems (MIT Press, Cambridge, MA, USA, 1986).

Sunderam, V. S. PVM: A framework for parallel distributed computing. Concurrency: Pract. Exper. 2, 315-339 (1990).

MPI: Message Passing Interface / Interface de passage de messages

PVM: Portable virtual machines / Machines virtuelles portables

MapReduce ne permet pas la communication entre les sous-tâches

Modèle plutôt théorique

57

Remerciements

58

Remerciements

Jacques Corbeil

François Laviolette

Mario Marchand

59

Conjointe, famille

● Jocelyne, Roger● Liane

Élénie Maxime, Karine

60

Merci aux examinateurs

● Guillaume Bourque● Jacques Corbeil● André Darveau● François Laviolette● Sylvain Moineau

61

Faculté de médecine

● Directrice du programme de Physiologie-endocrinologie:Francine Durocher

● Agente de gestion des études: Chantal Joubert

62

63

Financement (maîtrise et doctorat)

● Instituts de recherche en santé du Canada (IRSC)

● Bourse d'études supérieures du Canada F. Banting et C. Best - Bourse au doctorat

● Bourse d'études supérieures du Canada F. Banting et C. Best - Bourse à la maîtrise

64

Équipe Corbeil

● Francis Brochu

● Jacques Corbeil

● Maxime Déraspe

● Marc-Alexandre Nolin

● Pier-Luc Plante

● Frédéric Raymond

● Lynda Robitaille

● Mélissa Sirois

● Thibault Varin

Équipe Ouellette

● Adriano Coelho

● Hélène Gingras

● Philippe Leprohon

● Angana Mukherjee

● Marc Ouellette

CHU de Québec

Équipe Bergeron

● Michel G. Bergeron

● Karel Boissinot

● Maurice Boissinot

65

CHU de QuébecÉquipe Tremblay

● Joël Rousseau

● Jacques P. Tremblay

Équipe Droit

● Arnaud Droit

● Frédéric Fournier

● Charles Joly-Beauparlant

● René Paradis

Équipe Papadoupoulou

● Barbara Papadoupoulou

● Catherine Jarry

● Pierre Provencher

Équipe Boivin

● Guy Boivin

● Marie-Ève Hamelin

66

Département d'informatique et de génie logiciel / GRAAL

● Alexandre Drouin● Mathieu Dumoulin● Pascal Germain● Sébastien Giguère● Alexandre Lacoste● François Laviolette● Mario Marchand● Amélie Rolland● Jean-Francis Roy● Dany Vohl

67

Calcul Canada

Équipe colosse

● Maxime Boissonneault

● Louis Demers

● Jean-Philippe Dionne

● Laurent Duschene

● Jean-Sébastien Landry

● Frederick Lefebvre

● Florent Parent

● Marc Parizeau

Équipe Mammouth Parallèle II● Michel Barette● Carol Gauthier● Minh-Nghia Nguyen● Alain Veilleux

SciNet

● Jonathan Dursi

● Daniel Gruner

● Chris Loken

● Ramses van Zon

68

Cray Inc.

● Steve Behling● Mikhail Kandel● Bill Long● Claude Paquette● Carlos P. Sosa

69

Calcul Québec (mp2)

70

Argonne (Mira)

71Rick L. Stevens

72

FIN

top related