séquençage à haut débit - boisvertpartie 1 technologies de séquençage de l'adn. 5 ......

99
Date: Jeudi le 6 octobre 2011 Heure: 9h00 à 12h00 Durée: 3 heures Lieu: salle de conférence du 3e étage (T3-61), bloc T du Centre de recherche du CHUL-CHUQ Séquençage à haut débit Auxiliaire d'enseignement à l'Université Laval Préparation et présentation du cours: Sébastien Boisvert

Upload: others

Post on 03-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Date: Jeudi le 6 octobre 2011Heure: 9h00 à 12h00Durée: 3 heuresLieu: salle de conférence du 3e étage (T3-61),bloc T du Centre de recherche du CHUL-CHUQ

Séquençage à haut débit

Auxiliaire d'enseignement à l'Université Laval

Préparation et présentation du cours: Sébastien Boisvert

Page 2: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Avant de commencer

“Tour de classe”

==> Votre programme d'études

==> Vos projets

==> Vos attentes par rapport à ce cours

Page 3: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Plan

● Technologies de séquençage de l'ADN● Applications et types d'analyse● Algorithmie et informatique

Page 4: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Partie 1

Technologies de séquençage de l'ADN

Page 5: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

5

Pourquoi on séquence l'ADN?

Expliquer et guérir les maladies génétiques Nature Genetics

Détecter les agents infectieux Journal of Clinical Microbiology

Étudier l'évolution

Étudier la spéciation

Lier le protéome au génome

Étudier l'épissage

De manière générale: étudier la variation des génomes

Page 6: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

La structure de l'ADN

Watson JD, Crick FH.Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid.Nature. 1953 Apr 25;171(4356):737-8. http://www.nature.com/nature/dna50/archive.html

© 2011 Nature Publishing Group

Page 7: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Technologies parallèles des acides nucléiques

Détection

Quantification

Décodage

Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Jian-Bing Fan, Mark S. Chee & Kevin L. GundersonHighly parallel genomic assaysNature Reviews Genetics 7, 632-644 (August 2006) | doi:10.1038/nrg190http://www.nature.com/nrg/journal/v7/n8/full/nrg1901.html

Page 8: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur les puces Affymetrix

Durée: 1 minute, 16 secondesLangue: anglais

Source:

tpaparountas sur YouTubehttp://www.youtube.com/watch?v=MuN54ecfHPw

Vidéo éducatif

Page 9: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Pourquoi séquencer l'ADN?

Expliquer et guérir les maladies génétiques

Étudier l'évolution

Étudier la spéciation

Lier le protéome au génome

Étudier l'épissage

Étudier la variation des génomes

Quantifier l'expression des ARNs messagers en séquençant l'ADN complémentaire

Page 10: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Idées générales

• Pour séquencer un polymère, on doit détecter le monomère à chaque position

• L'ADN a 4 monomères

• La méthode intuitive: détecter le monomère à chaque position itérativement

exemple: ATTCGGGACTAGGGCAT

• La méthode par compression: détecter le “déroulement de la séquence”

exemple: 1A 2T 1C 3G 1A 1C 1T 1A 3G 1C 1A 1T

Page 11: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

TerminateurQuatre réactions de séquençage – unepour chaque base

deoxynucléotides and dideoxynucléotides (terminateurs)

Fin aléatoire de la polymérisation

Pour chaque base (A,T, C et G), nous avons toutes les sous-chaînes finissant par celle-ci,triées par longueur (sur gel)

L'analyse pénible est faite manuellement

Sanger F, Nicklen S, Coulson AR.DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 1977 Dec;74(12):5463-7.http://www.pnas.org/content/74/12/5463.abstract

Copyright ©2011 by the National Academy of Sciences

Page 12: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Cette méthode était fastidieuse

Page 13: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

AutomatisationBasée sur la méthode de Sanger

Les réactions sont combinées

électrophorèse capillaire & fluorescence

Réception automatique desdonnées & analyse automatique

Commercialisée par Applied Biosystems

Le séquençeur du CRCHUL est comme ça

Smith LM et al..Fluorescence detection in automated DNA sequence analysis.Nature. 1986 Jun 12-18;321(6071):674-9.http://dx.doi.org/10.1038/321674a0

Page 14: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Le problème principale de cette méthode est la présence de terminateurs

Une molécule d'ADN peut être vue comme une chaîne de caractères

Avec cette méthode, il faut générer dans un tube toutes les sous-chaînes de caractères

Page 15: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la méthode de Sanger

Durée: 1 minute, 7 secondesLangue: anglais

Source:

PHG Foundationhttp://www.youtube.com/watch?v=oYpllbI0qF8

Vidéo éducatif

Page 16: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Pyrosequençage

Pas de terminaison aléatoire, Séquençage par synthèse

Détection lors de l'incorporation des nucléotides

Problème majeur avec les homopolymères (AAAA versus AAAAA, 4A vs 5A)

Ronaghi M, Uhlén M, Nyrén P.A sequencing method based on real-time pyrophosphate.Science. 1998 Jul 17;281(5375):363, 365http://www.sciencemag.org/content/281/5375/363.long

© 2011 American Association for the Advancement of Science

Page 17: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Avec le pyroséquençage, il n'y a pas de terminateurs

Page 18: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

La nouvelle génération

Jay Shendure & Hanlee JiNext-generation DNA sequencingNature Biotechnology 26, 1135 - 1145 (2008) http://www.nature.com/nbt/journal/v26/n10/full/nbt1486.html

Lecture parallèle de l'ADN

© 2011 Nature Publishing Group

Page 19: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Tout comme la technologie d'Affymetrix, les nouvelles technologies de séquençage utilisent des matrices d'échantillons

En général, les nouvelles technologies de séquençage filment les réactions qui se déroulent en parallèle

Les images sont analysées par ordinateur et on obtient beaucoup de données génétiques

Page 20: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Version parallèle

Basée sur une technologie à flux sur cellule

Developpée by 454, acheté by Roche

Margulies M et al.Genome sequencing in microfabricated high-density picolitre reactors.Nature. 2005 Sep 15;437(7057):376-80.http://www.nature.com/nature/journal/v437/n7057/abs/nature03959.html

© 2011 Nature Publishing Group

Page 21: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Avantage de la technologie 454: longue lectures (430)

Désavantage: beaucoup d'erreurs dans les homopolymères

Page 22: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la technologie 454

Durée: 4 minutes, 33 secondesLangue: anglais

Source:

DaftPunkCA sur YouTubehttp://www.youtube.com/watch?v=bFNjxKHP8Jc

Vidéo éducatif

Page 23: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Par ligation

Pas de polymérase

Utilise une ligase

Belle technologie, compliquée

Applied Biosystems SOLiD

Shendure J, Porreca GJ, Reppas NB, Lin X, McCutcheon JP, Rosenbaum AM, Wang MD, Zhang K, Mitra RD, Church GM.Accurate multiplex polony sequencing of an evolved bacterial genome.Science. 2005 Sep 9;309(5741):1728-32.http://www.sciencemag.org/content/309/5741/1728.abstract

© 2011 American Association for the Advancement of Science

Page 24: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Stephen M. Rumble, Phil Lacroute, Adrian V. Dalca, Marc Fiume, Arend Sidow, Michael BrudnoSHRiMP: Accurate Mapping of Short Color-space ReadsPLoS Comput Biol 5(5): e1000386. doi:10.1371/journal.pcbi.1000386http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.1000386

L'espace de couleursLa technologie SOLiD génère des lectures colorées

Exemple: vert veut dire A si le nucléotide précédent était un C

© 2009 Rumble et al., Creative Commons Attribution License

Page 25: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la technologie SOLiD

Durée: 4 minutes, 45 secondesLangue: anglais

Source:

KingofBiotech sur YouTubehttp://www.youtube.com/watch?v=nlvyF8bFDwM

Vidéo éducatif

Page 26: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Le retour des terminateurs

Developpée par Solexa

Achetée par Illumina

Terminateurs réversibles

Pas de problème avec les homopolymères

Séquences en paires

Succès commercial

Bentley DR, et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature. 2008 Nov 6;456(7218):53-9.http://www.nature.com/nature/journal/v456/n7218/abs/nature07517.html

© 2011 Nature Publishing Group

Page 27: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Illumina a environ 70% du marché de l'analyse génétique

Madalina IacobIllumina: Shining In Dreary Times Forbes, FastTech, 01.29.09, 06:00 PM ESThttp://www.forbes.com/2009/01/29/illumina-biotech-equities-technology-breakthroughs-0129_illumina.html

Page 28: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Bentley DR, et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature. 2008 Nov 6;456(7218):53-9.http://www.nature.com/nature/journal/v456/n7218/abs/nature07517.html

Séquences en pairesFabrication des librairies en paires

a petites distances

d longues distances

© 2011 Nature Publishing Group

Page 29: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Permet d'obtenir des paires de séquences dont la distance qui les séparent est approximativement connue

Page 30: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la technologie d'Illumina

Durée: 1 minute, 37 secondesLangue: anglais

Source:

Aidan Flynn sur YouTubehttp://www.youtube.com/watch?v=77r5p8IBwJk

Vidéo éducatif

Page 31: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Une molecule

Une molécule à la fois

Developpée par Helicos

Harris TD et al.Single-molecule DNA sequencing of a viral genome.Science. 2008 Apr 4;320(5872):106-9.http://www.sciencemag.org/content/320/5872/106.short

© 2011 American Association for the Advancement of Science

Page 32: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la technologie d'Hélicos

Durée: 4 minutes, 2 secondesLangue: anglais

Source:

WIRED sur YouTubehttp://www.youtube.com/watch?v=TboL7wODBj4

Vidéo éducatif

Page 33: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

En temps réel

Le décodage est fait pendant que la polymérase fait son travail

Developpée par Pacific Biosciences

Eid J et al.Real-time DNA sequencing from single polymerase molecules.Science. 2009 Jan 2;323(5910):133-8.http://www.sciencemag.org/content/323/5910/133.abstract

© 2011 American Association for the Advancement of Science

Page 34: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la technologie de Pacific Biosciences

Durée: 4 minutes, 4 secondesLangue: anglais

Source:

Pacific Bioscienceshttp://www.pacificbiosciences.com/sites/default/files/video_gallery/Pacbio%20Lg.flv

Vidéo éducatif

Page 35: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Ion Torrent

La technologie de Ion Torrent

Utilise des semi-conducteurs, nanotechnologie

Achetée par Life Technologies (Life Technologies = Applied Biosystems + Invitrogen)

Page 36: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur la technologie d'Ion Torrent

Durée: 2 minutes, 36 secondesLangue: anglais

Source:

IonTorrent sur YouTubehttp://www.youtube.com/watch?v=yVf2295JqUg

Vidéo éducatif

Page 37: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Daniel Branton et al.The potential and challenges of nanopore sequencingNature Biotechnology 26, 1146 - 1153 (2008) doi:10.1038/nbt.1495http://www.nature.com/nbt/journal/v26/n10/full/nbt.1495.html

Séquençagepar

nanopore

© 2011 Nature Publishing Group

Page 38: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Illumina et Oxford Nanopore

2008

Oxford Nanopore signe une attente exclusive avec Illumina pour la distribution des machines

Source: WIRED

12 janvier 2009

Illumina a pris une participation de 18,0 millions de dollars dans Oxford Nanopore

Source: http://investor.illumina.com/

1 février 2010

Illumina joint un investissement de 28,0 millions de dollars dans Oxford Nanopore

Source: Xconomy

Page 39: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo éducatif

Vidéo sur la technologie de Oxford Nanopore

Durée: 3 minutes, 20 secondesLangue: anglais

Source:

Oxford Nanopore sur YouTubehttp://www.youtube.com/watch?v=HbjAMJehSlg

Page 40: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Le déluge

Nicole RuskTorrents of sequenceNature Methods 8, 44 (2011) doi:10.1038/nmeth.f.330http://www.nature.com/nmeth/journal/v8/n1/full/nmeth.f.330.html

Il y a plusieurs technologies à surveiller en 2011

© 2011 Nature Publishing Group

Page 41: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

41

Même General Electric est là!

General Electric Healthcare MegaBACE

Un four General Electric

Page 42: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Partie 2

Applications et types d'analyse

Page 43: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

43

Types d'analyse

• Assemblage de novo (sans référence)

• Alignements pour le reséquençage (avec référence)

• Chip-Seq (immunoprécipitation suivi d'un séquençage)

• RNA-Seq (séquençage de l'ARN)

• Analyse fonctionnelle des gènes présents

• Diversité génétique

• Expression génique

• Nombre de copies (CNV)

• Autres

Page 44: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Deux types d'analyse

Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assembly.Nature Methods 6, S6 - S12 (2009) http://www.nature.com/nmeth/journal/v6/n11s/abs/nmeth.1376.html

•Assemblage avec référence•Assemblage sans référence

Page 45: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Enrichir des régions

Andreas Gnirk et al.Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencingNature Biotechnology 27, 182 - 189 (2009) | doi:10.1038/nbt.1523http://www.nature.com/nbt/journal/v27/n2/abs/nbt.1523.html

© 2011 Nature Publishing Group

Lorsque l'on n'est pas intéressé par tout le génome

Sélectionner des régions d'intérêt

Les enrichir

Les séquencer

Page 46: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Analyses en génomique humaine

Surtout avec une référence: la séquence du génome humain

Avec ou sans enrichissement

La réaction en chaîne de la polymérase (PCR) est une méthode d'enrichissement !

Page 47: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Sarah B. Ng et al.Targeted capture and massively parallel sequencing of 12 human exomesNature 461, 272-276 (10 September 2009) | doi:10.1038/nature08250http://www.nature.com/nature/journal/v461/n7261/full/nature08250.html

Capturer et

séquencer les exons

© 2011 Nature Publishing Group

Seulement les variations dans les exons sont étudiées

Page 48: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

The 1000 Genomes Project ConsortiumA map of human genome variation from population-scale sequencingNature 467, 1061–1073 (28 October 2010) doi:10.1038/nature09534 http://www.nature.com/nature/journal/v467/n7319/full/nature09534.html

1000 genomes humains

© 2011 Nature Publishing Group

Page 49: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Cole Trapnell & Steven L SalzbergHow to map billions of short reads onto genomesNature Biotechnology 27, 455 - 457 (2009) doi:10.1038/nbt0509-455http://www.nature.com/nbt/journal/v27/n5/abs/nbt0509-455.html

Assemblageavec une référence

Chaque lecture est placée à la bonne place sur le génome humain en utilisant une sorte de table des matières

Deux algorithmes principaux:

•Graines espacées•Burrows-Wheeler

© 2011 Nature Publishing Group

Page 50: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Assemblagesans uneréférence

Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assembly.Nature Methods 6, S6 - S12 (2009) http://www.nature.com/nmeth/journal/v6/n11s/abs/nmeth.1376.html

On trouve des chevauchements petits entre les lectures d'ADN et on construit un consensus

© 2011 Nature Publishing Group

Page 51: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Vidéo sur le séquençage “shotgun”

Durée: 59 secondesLangue: anglais

Source:

HHMIhttp://www.youtube.com/watch?v=vg7Y5EeZsjk

Vidéo éducatif

Page 52: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Ewan BirneyAssemblies: the good, the bad, the uglyNature Methods 8, 59–60 (2011) doi:10.1038/nmeth0111-59http://www.nature.com/nmeth/journal/v8/n1/abs/nmeth0111-59.html

Erreurs d'assemblage

“The low cost of short-read sequencing has motivated the development of de novo assemblies from only short-read data; impressively, assemblies for large mammalian genomes are now available. However, this is still a developing field, and these de novo assemblies have many artifacts, as do all de novo assemblies.

” -- Ewan Birney

Page 53: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

RNA-Seq

Zhong Wang, Mark Gerstein & Michael SnyderRNA-Seq: a revolutionary tool for transcriptomicsNature Reviews Genetics 10, 57-63 (January 2009) | doi:10.1038/nrg2484http://www.nature.com/nrg/journal/v10/n1/abs/nrg2484.html

Quantifier l'expression des gènes en utilisant le séquençage à haut débit

© 2011 Nature Publishing Group

Page 54: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Séquençage direct de l'ARN

Pas de conversion de l'ARN en ADNc, compréhension sans biais des transcriptomes

Ozsolak F et al.Direct RNA sequencing.Nature. 2009 Oct 8;461(7265):814-8.http://www.nature.com/nature/journal/v461/n7265/full/nature08390.html

© 2011 Nature Publishing Group

Page 55: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Microbiome humain

Peter J. Turnbaugh, Ruth E. Ley, Micah Hamady, Claire M. Fraser-Liggett, Rob Knight & Jeffrey I. GordonThe Human Microbiome ProjectNature 449, 804-810 (18 October 2007) | doi:10.1038/nature06244http://www.nature.com/nature/journal/v449/n7164/full/nature06244.html

© 2011 Nature Publishing Group

Le microbiome humain est un métagénome – un ensemble formé de plusieurs génomes

Il est variable

Page 56: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Microbiome humain

Junjie Qin et al.A human gut microbial gene catalogue established by metagenomic sequencingNature 464, 59-65 (4 March 2010) | doi:10.1038/nature08821http://www.nature.com/nature/journal/v464/n7285/full/nature08821.html

Les malades ont un microbiome différent

© 2011 Nature Publishing Group

Page 57: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Partie 3

Algorithmie et informatique

Page 58: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Conseils

● Chercher sur Internet (en général: Google)● Lire les manuels des logiciels● Apprendre par soi-même● Utiliser GNU/Linux (exemple: Ubuntu

GNU/Linux)

Page 59: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

59

Lire l'ADN

• {A,T,C,G}* est l'ensemble de toutes les séquences composées de ces lettres.

• Une molécule d'ADN appartient à {A,T,C,G}*

• Le séquençage lit l'ADN

• Les séquences obtenues sont dans {A,T,C,G,N}* – car certaine bases demeurent inconnues parfois

Page 60: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

60

Idées générales

• Pour séquencer un polymère, on doit détecter les lettres à chaque position

• L'ADN a 4 “lettres”

• La méthode intuitive: détecter la lettre à chaque position itérativement

exemple: ATTCGGGACTAGGGCAT

• La méthode par compression: détecter le “déroulement de la séquence”

exemple: 1A 2T 1C 3G 1A 1C 1T 1A 3G 1C 1A 1T

Page 61: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

61

Décoder les génomes

• Le génome est fragmenté

• On séquence les fragments

$ head Streptococcus-pneumoniae-R6.fasta>gi|25307955|gb|AE007317.1| Streptococcus pneumoniae R6, complete genomeTTGAAAGAAAAACAATTTTGGAATCGTATATTAGAATTTGCACAAGAAAGACTGACTCGATCCATGTATGATTTCTATGCTATTCAAGCTGAACTTATCAAGGTAGAGGAAAATGTTGCCACTATATTTCTACCTCGCTCTGAAATGGAAATGGTCTGGGAAAAACAACTAAAAGATATTATTGTAGTAGCTGGTTTTGAAATTTATGACGCTGAAATAACTCCCCACTATATTTTCACCAAACCTCAAGATACGACTAGCTCACAAGTTGAAGAAGCTACAAATTTAACTCTTTATGACTATAGTCCAAAGTTAGTATCTATTCCTTATTCAGATACGGGATTAAAAGAAAAGTATACCTTTGATAACTTTATTCAAGGGGATGGAAATGTTTGGGCTGTATCAGCCGCTTTAGCTGTCTCTGAAGATTTGGCTCTGACCTATAACCCTCTTTTTATCTATGGAGGACCAGGCCTTGGTAAGACTCACTTATTAAACGCTATTGGAAATGAAATTCTAAAAAATATTCCTAATGCGCGTGTTAAATATATCCCTGCCGAAAGCTTTATTAATGACTTTCTTGATCACCTAAGACTTGGGGAAATGGAAAAGTTTAAAAAGACCTATCGT

Page 62: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

62

Séquences “normales”

• Séquences seules: “Single-end read”, “shotgun reads”, “reads”

• Un fragment du génome qui a été décodé au complet.

Page 63: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

63

Exemple

● Des séquences de 50 lettres

$ head 50xStreptococcus-pneumoniae-R6.fasta_fragments.fasta>r_823947_0_1TAGATATTGTAGAAAACGGTATGGAAATCTTGGTTTTAGACGCCTCTGCG>r_21187_1_1GAAGCCACCAATAATCTCATCAAACTTATCAAGCACAATGCCTTTGGTTT>r_1977491_2_1TCGTTTTACAGACACAAGTGAAGTAGGATTACTTCAATCTGTCGTTTTCT>r_32384_3_1GGATTTCTTAGAAAAAACATCTCTGAGAGTTTATGACTTTAAGAAGGTTA>r_1793603_4_1CAATAGGGGTTGCGCTCGTTGCGGGACTTAACCCAACATCTCACGACACG

Page 64: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

64

Séquences en paires

• Séquences en paires: “Paired-end”, “paired reads”, “mate pairs”, “PE reads”

• Un fragment du génome dont on a séquencé les deux extrémités, mais pas le milieu

• On obtient deux séquences, qui correspondent aux bouts d'un plus gros fragment, et la longueur du fragment

Page 65: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

65

Exemple● Exemple de fragments de 200 lettres, dont on a

séquencé 50 lettres à chaque extrémités (gauche: _1, droit: _2)

$ head 200xStreptococcus-pneumoniae-R6.fasta_fragments_1.fasta >r_835213_0_1TGGAGGACAATTTGGTCTTGGTTGTGAAATGGGGATTTCTACTCAGAAAT>r_795475_1_1CTTAACTGTCATTCTATATGGAGGTTCTATGCGTTTTAATCAATATAGTT>r_207924_2_1CAACAGTTTCTGGTAAAATTCGTAAAAACTATATTCGTATTTTAGCGGGA>r_1328225_3_1CTTACTATTTTATCAAATTTCAGCTAAATTGCAAGTGTTTTACAACGTTT

$ head 200xStreptococcus-pneumoniae-R6.fasta_fragments_2.fasta >r_835213_0_2TCTGCAAGACAGATTTTGCCAAGCTAGCACCCATATTCCCCAAACCGATA>r_795475_1_2GGATAGAAAGTGGGTAGTTGGTGTCTTGATAAGTGAAAAAGAAACGACGT>r_207924_2_2ACGACGAATAACTTTACAGTATTCGCAAATTGGTTTGACCGATGGTCTTA>r_1328225_3_2CCTATTCTTGTTTCATTTTACTATATAAACCAGAGACTGTTTACATTTTC

Page 66: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

66

Limites

La couverture des séquences sur le génome n'est pas uniforme

Certaines erreurs sont reproductibles – comme les insertions et déletions dans le 454 dans les homopolymères (5A versus 6A)

Contaminations Les séquences sont très courtes par rapport

aux génomesTechnologie Longueur des séquences (en bases)

Sanger 800

Roche/454 600

Illumina 101

Page 67: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

67

Les algorithmes

• Il faut une recette pour faire un bon pain

• Il faut un algorithme pour assembler un génome

• Un algorithme est comme une recette

• Un génome n'est pas un pain...

• Pour traiter des données, il faut se doter des bonnes structures, et avoir des algorithmes qui peuvent traiter ces structures

Page 68: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

68

Les types de données

• Les nombres entiers (exemple: 9)

• Les nombres flottants (exemple: 9.8)

• Les ensembles (exemple: {A,T,C,G})

• Les séquences: (exemple: ATGCAT)

• Les graphes (on va les voir!)

• Et tous les autres!

Page 69: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

69

Bioinformatique

• Les structures et algorithmes sont beaucoup utilisés en bioinformatique.

• Il faut des algorithmes qui s'exécutent rapidement.

• Les nouvelles technologies produisent beaucoup de données.

• Les “nouveaux” algorithmes doivent être rapides.

Page 70: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

70

Les types d'algorithmes

• Itératif (exemple: additionner les nombres de 1 à 10)

• Récursif (exemple: faire les factoriels) 4!=4*3!=4*3*2!=4*3*2*1!=4*3*2*1

• Dynamique (exemple: calculer la suite de Fibonacci)u

0 = u

1 = 1, u

n = u

n-1 + u

n-2

Ses premiers termes sont donc : 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89 ...

• Exaustif (exemple: énumérer tous les chemins entre Québec et Montréal et choisir le plus court)

• Vorace (exemple: intelligence artificielle aux échecs)

• Et les autres...

Page 71: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

71

L'assemblage de novo

Prendre toutes les séquences, et les mettre ensemble pour reconstruire le génome au complet!

Analogue à faire un casse-tête Régions répétées sont difficiles à assembler Un assembleur prend des séquences et

produit des contigs (séquences contigus)Genome assembly reborn: recent computational challenges.Pop M.Brief Bioinform. 2009 Jul;10(4):354-66.

Page 72: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

72

Qu'est-ce qu'un graphe?

• Sommets: {1,2,3,4,5,6}

• Arêtes: {(1,2),(1,5),...}

Page 73: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

73

Graphes dirigés

Les arêtes sont dirigées, on les appelle “arcs”

sommets: {A,B,C,D}arcs: {(A,B),(A,D),(A,C),(C,D)}

A

B

C

D

Page 74: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

74

Trouver sa voie

● Un chemin de A à Z: <A,1,*,w,Z>

A

_

1

-

*

w

Z

+E

Page 75: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

75

Chevauchement

• ATCGAGTCGATGCTGA

• ATGCTGATGCGATCAG

• Chevauchement:

ATCGAGTCGATGCTGA

ATGCTGATGCGATCAG

Page 76: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

76

Le graphe à chevauchements

• Les sommets sont les séquences

• Les arcs sont les chevauchements

• Permettent d'assembler des séquences!

• Il faut trouver des chemins dans ce graphe

• Fonctionne bien quand les séquences sont longues

• Inutilisable lors que l'on a trop de séquences, parce qu'il y a trop de chevauchements possibles, et trop de sommets

Page 77: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

77

Composition en sous-séquences

• ATCGATCAATGCATCTGCATGAC

• Quelles sont les sous-séquences d'exactement 3 lettres?

• {ATC,TCG,CGA,GAT,ATC,TCA,...}

• Astuce: prendre une fenêtre de 3 lettres, et “marcher” sur la séquence

Page 78: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

78

Graphe ”de Bruijn”Sommets: des séquences de taille k

Les arcs: chevauchements de k-1

Séquence: ATCGGACTA

Le graphe de Bruijn correspondant (avec k=3)

Un ensemble de séquences peuvent être naturellement transformée en graph de Bruijn

Est-ce applicable à l'assemblage? Si oui, comment feriez-vous?

Page 79: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

79

La guerre des graphes

• Chevauchements contre “de Bruijn”

• Les graphes de Bruijn sont plus beaux

• Le nombre de sommets est borné par la taille du génome (il y a une séquence de longueur k à chaque position du génome)

• Les séquences sont des chemins dans le graphe de Bruijn

• Le génome aussi!, il faut maintenant le trouver...

• La méthode “de Bruijn” donne une meilleure résolution

• elle fonctionne avec les “k-mers” plutôt qu'avec les séquences obtenues par les séquençeurs

Page 80: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

80

Chemin Eulérien

• Un chemin passant par tous les arcs une et une seule fois

Page 81: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

81

La méthode de Pevzner

• graphe de Bruijn

• Trouve des chemins Eulériens

• Ne gère pas les erreurs de séquençage

• Nom du logiciel: EULER

An Eulerian path approach to DNA fragment assembly.Pevzner PA, Tang H, Waterman MS.Proc Natl Acad Sci U S A. 2001 Aug 14;98(17):9748-53.

Page 82: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

82

La méthode de Zerbino

• Construit le graphe de Bruijn

• Corrige le graphe

• Fait des simplifications

• Fonctionne bien sur des données Illumina

• Nom du logiciel: VelvetVelvet: algorithms for de novo short read assembly using de Bruijn graphs.Zerbino DR, Birney E.Genome Res. 2008 May;18(5):821-9

Page 83: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

83

Observation

• Chaque assembleur est créé pour une technologie en particulier.

• Chaque technologie est vendue par une compagnie

• Chaque compagnie est meilleure que les autres

Page 84: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

84

Indexage

• ATCGGACTAGCCTCTAGCAT

• Dans une structure, on met à quelle position on observe certaines sous-séquences

• ATC -> {1}

• TAG -> {8,15}

• On peut changer la taille des sous-séquences indexés

• On peut choisir quelles sous-séquences on garde, et quelles positions sont importantes

• Ensuite, on peut “chercher” rapidement dans le tas

Page 85: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

85

Alignements

• ATCAGACTCGATCAGCAGC

• ATGAGACTTGCACGATCAGCGGC

Identification of common molecular subsequences.Smith TF, Waterman MS.J Mol Biol. 1981 Mar 25;147(1):195-7.

1 ATCAGACT----CGATCAGCAGC 19 ||.||||| ||||||||.|| 1 ATGAGACTTGCACGATCAGCGGC 23

A general method applicable to the search for similarities in the amino acid sequence of two proteins.Needleman SB, Wunsch CD.J Mol Biol. 1970 Mar;48(3):443-53.

Page 86: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

86

Aligner rapidement

• Avec l'indexage, on peut trouver des chevauchements, des alignements, et d'autres résultats intéressants

Page 87: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

87

BLAST – vous le connaissez?

• 30977 citations (Google Scholar)

• Simplement un indexage suivi d'un alignement...

• Peut être utiliser pour aligner des séquences

• Nom du logiciel: BLAST

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ.Nucleic Acids Res. 1997 Sep 1;25(17):3389-402.

Page 88: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

88

BLAT

• Blast-Like Alignment Tool

• Blast revisité

• Spécialité: aligner des ARNm

• Nom du logiciel: BLAT

BLAT--the BLAST-like alignment tool.Kent WJ.Genome Res. 2002 Apr;12(4):656-64.

Page 89: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

89

Reséquençage

• Quand le génome est trop complexe

• Quand on s'intéresse seulement aux changements locaux

• On aligne les séquences sur un génome de référence

• On observe les différences

What would you do if you could sequence everything?Kahvejian A, Quackenbush J, Thompson JF.Nat Biotechnol. 2008 Oct;26(10):1125-33.

Page 90: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

90

MAQ – un “BLAST” pour les courtes séquences

• MAQ fonctionne comme BLAST

• Il indexe le génome de référence.

• Il peut aligner les séquences en paires

• Il fonctionne sur Illumina et SOLiD

• Nom du logiciel: MAQ

• Très utilisé

Mapping short DNA sequencing reads and calling variants using mapping quality scores.Li H, Ruan J, Durbin R.Genome Res. 2008 Nov;18(11):1851-8.

Page 91: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

91

Alignements

● SSAHA fonctionne sur le 454● Nom du logiciel: SSAHA

SSAHA: a fast search method for large DNA databases.Ning Z, Cox AJ, Mullikin JC.Genome Res. 2001 Oct;11(10):1725-9.

Page 92: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

92

Les arbres

● Un arbre est un graphe

AB

A

C1 454

G ZTT

Page 93: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

93

Arbres à suffixes

● On représente une séquence sous forme d'arbre

● Une forme d'indexage

Page 94: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

94

Alignement de génomes

● Utilise des arbres à suffixes ● Pour comparer des génomes● Rapide● Calcule les “MUM” -- Maximum Unique

Matches● Nom du logiciel: MUMmer

Versatile and open software for comparing large genomes.Kurtz S et al.Genome Biol. 2004;5(2):R12.

Page 95: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

95

Compression

• Avez-vous déjà utilisé ZIP?

• GNU tar?

• Bunzip2?

• Permet de réduire l'espace utilisé

Page 96: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

96

Alignements par compression

Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.Langmead B, Trapnell C, Pop M, Salzberg SL.Genome Biol. 2009;10(3):R25.

Nom du logiciel: Bowtie

Page 97: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

97

Exemple d'analyse

● Exemple...

Page 98: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

98

Conseils

• Linux est votre ami

• Google est votre ami

• N'ayez pas peur d'essayer

• Utilisez la “ligne de commande”

• Créez des scripts “BASH”

Page 99: Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ... Décodage Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Liens utiles

Nature Newshttp://www.nature.com/news/index.html

The Human Genome at Ten – Naturehttp://www.nature.com/humangenome

GenomeWebhttp://www.genomeweb.com/

Strunk, William, Jr. 1918. The Elements of Stylehttp://www.bartleby.com/141/