séquençage à haut débit - boisvertpartie 1 technologies de séquençage de l'adn. 5 ......

Post on 03-Jan-2021

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Date: Jeudi le 6 octobre 2011Heure: 9h00 à 12h00Durée: 3 heuresLieu: salle de conférence du 3e étage (T3-61),bloc T du Centre de recherche du CHUL-CHUQ

Séquençage à haut débit

Auxiliaire d'enseignement à l'Université Laval

Préparation et présentation du cours: Sébastien Boisvert

Avant de commencer

“Tour de classe”

==> Votre programme d'études

==> Vos projets

==> Vos attentes par rapport à ce cours

Plan

● Technologies de séquençage de l'ADN● Applications et types d'analyse● Algorithmie et informatique

Partie 1

Technologies de séquençage de l'ADN

5

Pourquoi on séquence l'ADN?

Expliquer et guérir les maladies génétiques Nature Genetics

Détecter les agents infectieux Journal of Clinical Microbiology

Étudier l'évolution

Étudier la spéciation

Lier le protéome au génome

Étudier l'épissage

De manière générale: étudier la variation des génomes

La structure de l'ADN

Watson JD, Crick FH.Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid.Nature. 1953 Apr 25;171(4356):737-8. http://www.nature.com/nature/dna50/archive.html

© 2011 Nature Publishing Group

Technologies parallèles des acides nucléiques

Détection

Quantification

Décodage

Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle

Jian-Bing Fan, Mark S. Chee & Kevin L. GundersonHighly parallel genomic assaysNature Reviews Genetics 7, 632-644 (August 2006) | doi:10.1038/nrg190http://www.nature.com/nrg/journal/v7/n8/full/nrg1901.html

Vidéo sur les puces Affymetrix

Durée: 1 minute, 16 secondesLangue: anglais

Source:

tpaparountas sur YouTubehttp://www.youtube.com/watch?v=MuN54ecfHPw

Vidéo éducatif

Pourquoi séquencer l'ADN?

Expliquer et guérir les maladies génétiques

Étudier l'évolution

Étudier la spéciation

Lier le protéome au génome

Étudier l'épissage

Étudier la variation des génomes

Quantifier l'expression des ARNs messagers en séquençant l'ADN complémentaire

Idées générales

• Pour séquencer un polymère, on doit détecter le monomère à chaque position

• L'ADN a 4 monomères

• La méthode intuitive: détecter le monomère à chaque position itérativement

exemple: ATTCGGGACTAGGGCAT

• La méthode par compression: détecter le “déroulement de la séquence”

exemple: 1A 2T 1C 3G 1A 1C 1T 1A 3G 1C 1A 1T

TerminateurQuatre réactions de séquençage – unepour chaque base

deoxynucléotides and dideoxynucléotides (terminateurs)

Fin aléatoire de la polymérisation

Pour chaque base (A,T, C et G), nous avons toutes les sous-chaînes finissant par celle-ci,triées par longueur (sur gel)

L'analyse pénible est faite manuellement

Sanger F, Nicklen S, Coulson AR.DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 1977 Dec;74(12):5463-7.http://www.pnas.org/content/74/12/5463.abstract

Copyright ©2011 by the National Academy of Sciences

Cette méthode était fastidieuse

AutomatisationBasée sur la méthode de Sanger

Les réactions sont combinées

électrophorèse capillaire & fluorescence

Réception automatique desdonnées & analyse automatique

Commercialisée par Applied Biosystems

Le séquençeur du CRCHUL est comme ça

Smith LM et al..Fluorescence detection in automated DNA sequence analysis.Nature. 1986 Jun 12-18;321(6071):674-9.http://dx.doi.org/10.1038/321674a0

Le problème principale de cette méthode est la présence de terminateurs

Une molécule d'ADN peut être vue comme une chaîne de caractères

Avec cette méthode, il faut générer dans un tube toutes les sous-chaînes de caractères

Vidéo sur la méthode de Sanger

Durée: 1 minute, 7 secondesLangue: anglais

Source:

PHG Foundationhttp://www.youtube.com/watch?v=oYpllbI0qF8

Vidéo éducatif

Pyrosequençage

Pas de terminaison aléatoire, Séquençage par synthèse

Détection lors de l'incorporation des nucléotides

Problème majeur avec les homopolymères (AAAA versus AAAAA, 4A vs 5A)

Ronaghi M, Uhlén M, Nyrén P.A sequencing method based on real-time pyrophosphate.Science. 1998 Jul 17;281(5375):363, 365http://www.sciencemag.org/content/281/5375/363.long

© 2011 American Association for the Advancement of Science

Avec le pyroséquençage, il n'y a pas de terminateurs

La nouvelle génération

Jay Shendure & Hanlee JiNext-generation DNA sequencingNature Biotechnology 26, 1135 - 1145 (2008) http://www.nature.com/nbt/journal/v26/n10/full/nbt1486.html

Lecture parallèle de l'ADN

© 2011 Nature Publishing Group

Tout comme la technologie d'Affymetrix, les nouvelles technologies de séquençage utilisent des matrices d'échantillons

En général, les nouvelles technologies de séquençage filment les réactions qui se déroulent en parallèle

Les images sont analysées par ordinateur et on obtient beaucoup de données génétiques

Version parallèle

Basée sur une technologie à flux sur cellule

Developpée by 454, acheté by Roche

Margulies M et al.Genome sequencing in microfabricated high-density picolitre reactors.Nature. 2005 Sep 15;437(7057):376-80.http://www.nature.com/nature/journal/v437/n7057/abs/nature03959.html

© 2011 Nature Publishing Group

Avantage de la technologie 454: longue lectures (430)

Désavantage: beaucoup d'erreurs dans les homopolymères

Vidéo sur la technologie 454

Durée: 4 minutes, 33 secondesLangue: anglais

Source:

DaftPunkCA sur YouTubehttp://www.youtube.com/watch?v=bFNjxKHP8Jc

Vidéo éducatif

Par ligation

Pas de polymérase

Utilise une ligase

Belle technologie, compliquée

Applied Biosystems SOLiD

Shendure J, Porreca GJ, Reppas NB, Lin X, McCutcheon JP, Rosenbaum AM, Wang MD, Zhang K, Mitra RD, Church GM.Accurate multiplex polony sequencing of an evolved bacterial genome.Science. 2005 Sep 9;309(5741):1728-32.http://www.sciencemag.org/content/309/5741/1728.abstract

© 2011 American Association for the Advancement of Science

Stephen M. Rumble, Phil Lacroute, Adrian V. Dalca, Marc Fiume, Arend Sidow, Michael BrudnoSHRiMP: Accurate Mapping of Short Color-space ReadsPLoS Comput Biol 5(5): e1000386. doi:10.1371/journal.pcbi.1000386http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.1000386

L'espace de couleursLa technologie SOLiD génère des lectures colorées

Exemple: vert veut dire A si le nucléotide précédent était un C

© 2009 Rumble et al., Creative Commons Attribution License

Vidéo sur la technologie SOLiD

Durée: 4 minutes, 45 secondesLangue: anglais

Source:

KingofBiotech sur YouTubehttp://www.youtube.com/watch?v=nlvyF8bFDwM

Vidéo éducatif

Le retour des terminateurs

Developpée par Solexa

Achetée par Illumina

Terminateurs réversibles

Pas de problème avec les homopolymères

Séquences en paires

Succès commercial

Bentley DR, et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature. 2008 Nov 6;456(7218):53-9.http://www.nature.com/nature/journal/v456/n7218/abs/nature07517.html

© 2011 Nature Publishing Group

Illumina a environ 70% du marché de l'analyse génétique

Madalina IacobIllumina: Shining In Dreary Times Forbes, FastTech, 01.29.09, 06:00 PM ESThttp://www.forbes.com/2009/01/29/illumina-biotech-equities-technology-breakthroughs-0129_illumina.html

Bentley DR, et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature. 2008 Nov 6;456(7218):53-9.http://www.nature.com/nature/journal/v456/n7218/abs/nature07517.html

Séquences en pairesFabrication des librairies en paires

a petites distances

d longues distances

© 2011 Nature Publishing Group

Permet d'obtenir des paires de séquences dont la distance qui les séparent est approximativement connue

Vidéo sur la technologie d'Illumina

Durée: 1 minute, 37 secondesLangue: anglais

Source:

Aidan Flynn sur YouTubehttp://www.youtube.com/watch?v=77r5p8IBwJk

Vidéo éducatif

Une molecule

Une molécule à la fois

Developpée par Helicos

Harris TD et al.Single-molecule DNA sequencing of a viral genome.Science. 2008 Apr 4;320(5872):106-9.http://www.sciencemag.org/content/320/5872/106.short

© 2011 American Association for the Advancement of Science

Vidéo sur la technologie d'Hélicos

Durée: 4 minutes, 2 secondesLangue: anglais

Source:

WIRED sur YouTubehttp://www.youtube.com/watch?v=TboL7wODBj4

Vidéo éducatif

En temps réel

Le décodage est fait pendant que la polymérase fait son travail

Developpée par Pacific Biosciences

Eid J et al.Real-time DNA sequencing from single polymerase molecules.Science. 2009 Jan 2;323(5910):133-8.http://www.sciencemag.org/content/323/5910/133.abstract

© 2011 American Association for the Advancement of Science

Vidéo sur la technologie de Pacific Biosciences

Durée: 4 minutes, 4 secondesLangue: anglais

Source:

Pacific Bioscienceshttp://www.pacificbiosciences.com/sites/default/files/video_gallery/Pacbio%20Lg.flv

Vidéo éducatif

Ion Torrent

La technologie de Ion Torrent

Utilise des semi-conducteurs, nanotechnologie

Achetée par Life Technologies (Life Technologies = Applied Biosystems + Invitrogen)

Vidéo sur la technologie d'Ion Torrent

Durée: 2 minutes, 36 secondesLangue: anglais

Source:

IonTorrent sur YouTubehttp://www.youtube.com/watch?v=yVf2295JqUg

Vidéo éducatif

Daniel Branton et al.The potential and challenges of nanopore sequencingNature Biotechnology 26, 1146 - 1153 (2008) doi:10.1038/nbt.1495http://www.nature.com/nbt/journal/v26/n10/full/nbt.1495.html

Séquençagepar

nanopore

© 2011 Nature Publishing Group

Illumina et Oxford Nanopore

2008

Oxford Nanopore signe une attente exclusive avec Illumina pour la distribution des machines

Source: WIRED

12 janvier 2009

Illumina a pris une participation de 18,0 millions de dollars dans Oxford Nanopore

Source: http://investor.illumina.com/

1 février 2010

Illumina joint un investissement de 28,0 millions de dollars dans Oxford Nanopore

Source: Xconomy

Vidéo éducatif

Vidéo sur la technologie de Oxford Nanopore

Durée: 3 minutes, 20 secondesLangue: anglais

Source:

Oxford Nanopore sur YouTubehttp://www.youtube.com/watch?v=HbjAMJehSlg

Le déluge

Nicole RuskTorrents of sequenceNature Methods 8, 44 (2011) doi:10.1038/nmeth.f.330http://www.nature.com/nmeth/journal/v8/n1/full/nmeth.f.330.html

Il y a plusieurs technologies à surveiller en 2011

© 2011 Nature Publishing Group

41

Même General Electric est là!

General Electric Healthcare MegaBACE

Un four General Electric

Partie 2

Applications et types d'analyse

43

Types d'analyse

• Assemblage de novo (sans référence)

• Alignements pour le reséquençage (avec référence)

• Chip-Seq (immunoprécipitation suivi d'un séquençage)

• RNA-Seq (séquençage de l'ARN)

• Analyse fonctionnelle des gènes présents

• Diversité génétique

• Expression génique

• Nombre de copies (CNV)

• Autres

Deux types d'analyse

Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assembly.Nature Methods 6, S6 - S12 (2009) http://www.nature.com/nmeth/journal/v6/n11s/abs/nmeth.1376.html

•Assemblage avec référence•Assemblage sans référence

Enrichir des régions

Andreas Gnirk et al.Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencingNature Biotechnology 27, 182 - 189 (2009) | doi:10.1038/nbt.1523http://www.nature.com/nbt/journal/v27/n2/abs/nbt.1523.html

© 2011 Nature Publishing Group

Lorsque l'on n'est pas intéressé par tout le génome

Sélectionner des régions d'intérêt

Les enrichir

Les séquencer

Analyses en génomique humaine

Surtout avec une référence: la séquence du génome humain

Avec ou sans enrichissement

La réaction en chaîne de la polymérase (PCR) est une méthode d'enrichissement !

Sarah B. Ng et al.Targeted capture and massively parallel sequencing of 12 human exomesNature 461, 272-276 (10 September 2009) | doi:10.1038/nature08250http://www.nature.com/nature/journal/v461/n7261/full/nature08250.html

Capturer et

séquencer les exons

© 2011 Nature Publishing Group

Seulement les variations dans les exons sont étudiées

The 1000 Genomes Project ConsortiumA map of human genome variation from population-scale sequencingNature 467, 1061–1073 (28 October 2010) doi:10.1038/nature09534 http://www.nature.com/nature/journal/v467/n7319/full/nature09534.html

1000 genomes humains

© 2011 Nature Publishing Group

Cole Trapnell & Steven L SalzbergHow to map billions of short reads onto genomesNature Biotechnology 27, 455 - 457 (2009) doi:10.1038/nbt0509-455http://www.nature.com/nbt/journal/v27/n5/abs/nbt0509-455.html

Assemblageavec une référence

Chaque lecture est placée à la bonne place sur le génome humain en utilisant une sorte de table des matières

Deux algorithmes principaux:

•Graines espacées•Burrows-Wheeler

© 2011 Nature Publishing Group

Assemblagesans uneréférence

Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assembly.Nature Methods 6, S6 - S12 (2009) http://www.nature.com/nmeth/journal/v6/n11s/abs/nmeth.1376.html

On trouve des chevauchements petits entre les lectures d'ADN et on construit un consensus

© 2011 Nature Publishing Group

Vidéo sur le séquençage “shotgun”

Durée: 59 secondesLangue: anglais

Source:

HHMIhttp://www.youtube.com/watch?v=vg7Y5EeZsjk

Vidéo éducatif

Ewan BirneyAssemblies: the good, the bad, the uglyNature Methods 8, 59–60 (2011) doi:10.1038/nmeth0111-59http://www.nature.com/nmeth/journal/v8/n1/abs/nmeth0111-59.html

Erreurs d'assemblage

“The low cost of short-read sequencing has motivated the development of de novo assemblies from only short-read data; impressively, assemblies for large mammalian genomes are now available. However, this is still a developing field, and these de novo assemblies have many artifacts, as do all de novo assemblies.

” -- Ewan Birney

RNA-Seq

Zhong Wang, Mark Gerstein & Michael SnyderRNA-Seq: a revolutionary tool for transcriptomicsNature Reviews Genetics 10, 57-63 (January 2009) | doi:10.1038/nrg2484http://www.nature.com/nrg/journal/v10/n1/abs/nrg2484.html

Quantifier l'expression des gènes en utilisant le séquençage à haut débit

© 2011 Nature Publishing Group

Séquençage direct de l'ARN

Pas de conversion de l'ARN en ADNc, compréhension sans biais des transcriptomes

Ozsolak F et al.Direct RNA sequencing.Nature. 2009 Oct 8;461(7265):814-8.http://www.nature.com/nature/journal/v461/n7265/full/nature08390.html

© 2011 Nature Publishing Group

Microbiome humain

Peter J. Turnbaugh, Ruth E. Ley, Micah Hamady, Claire M. Fraser-Liggett, Rob Knight & Jeffrey I. GordonThe Human Microbiome ProjectNature 449, 804-810 (18 October 2007) | doi:10.1038/nature06244http://www.nature.com/nature/journal/v449/n7164/full/nature06244.html

© 2011 Nature Publishing Group

Le microbiome humain est un métagénome – un ensemble formé de plusieurs génomes

Il est variable

Microbiome humain

Junjie Qin et al.A human gut microbial gene catalogue established by metagenomic sequencingNature 464, 59-65 (4 March 2010) | doi:10.1038/nature08821http://www.nature.com/nature/journal/v464/n7285/full/nature08821.html

Les malades ont un microbiome différent

© 2011 Nature Publishing Group

Partie 3

Algorithmie et informatique

Conseils

● Chercher sur Internet (en général: Google)● Lire les manuels des logiciels● Apprendre par soi-même● Utiliser GNU/Linux (exemple: Ubuntu

GNU/Linux)

59

Lire l'ADN

• {A,T,C,G}* est l'ensemble de toutes les séquences composées de ces lettres.

• Une molécule d'ADN appartient à {A,T,C,G}*

• Le séquençage lit l'ADN

• Les séquences obtenues sont dans {A,T,C,G,N}* – car certaine bases demeurent inconnues parfois

60

Idées générales

• Pour séquencer un polymère, on doit détecter les lettres à chaque position

• L'ADN a 4 “lettres”

• La méthode intuitive: détecter la lettre à chaque position itérativement

exemple: ATTCGGGACTAGGGCAT

• La méthode par compression: détecter le “déroulement de la séquence”

exemple: 1A 2T 1C 3G 1A 1C 1T 1A 3G 1C 1A 1T

61

Décoder les génomes

• Le génome est fragmenté

• On séquence les fragments

$ head Streptococcus-pneumoniae-R6.fasta>gi|25307955|gb|AE007317.1| Streptococcus pneumoniae R6, complete genomeTTGAAAGAAAAACAATTTTGGAATCGTATATTAGAATTTGCACAAGAAAGACTGACTCGATCCATGTATGATTTCTATGCTATTCAAGCTGAACTTATCAAGGTAGAGGAAAATGTTGCCACTATATTTCTACCTCGCTCTGAAATGGAAATGGTCTGGGAAAAACAACTAAAAGATATTATTGTAGTAGCTGGTTTTGAAATTTATGACGCTGAAATAACTCCCCACTATATTTTCACCAAACCTCAAGATACGACTAGCTCACAAGTTGAAGAAGCTACAAATTTAACTCTTTATGACTATAGTCCAAAGTTAGTATCTATTCCTTATTCAGATACGGGATTAAAAGAAAAGTATACCTTTGATAACTTTATTCAAGGGGATGGAAATGTTTGGGCTGTATCAGCCGCTTTAGCTGTCTCTGAAGATTTGGCTCTGACCTATAACCCTCTTTTTATCTATGGAGGACCAGGCCTTGGTAAGACTCACTTATTAAACGCTATTGGAAATGAAATTCTAAAAAATATTCCTAATGCGCGTGTTAAATATATCCCTGCCGAAAGCTTTATTAATGACTTTCTTGATCACCTAAGACTTGGGGAAATGGAAAAGTTTAAAAAGACCTATCGT

62

Séquences “normales”

• Séquences seules: “Single-end read”, “shotgun reads”, “reads”

• Un fragment du génome qui a été décodé au complet.

63

Exemple

● Des séquences de 50 lettres

$ head 50xStreptococcus-pneumoniae-R6.fasta_fragments.fasta>r_823947_0_1TAGATATTGTAGAAAACGGTATGGAAATCTTGGTTTTAGACGCCTCTGCG>r_21187_1_1GAAGCCACCAATAATCTCATCAAACTTATCAAGCACAATGCCTTTGGTTT>r_1977491_2_1TCGTTTTACAGACACAAGTGAAGTAGGATTACTTCAATCTGTCGTTTTCT>r_32384_3_1GGATTTCTTAGAAAAAACATCTCTGAGAGTTTATGACTTTAAGAAGGTTA>r_1793603_4_1CAATAGGGGTTGCGCTCGTTGCGGGACTTAACCCAACATCTCACGACACG

64

Séquences en paires

• Séquences en paires: “Paired-end”, “paired reads”, “mate pairs”, “PE reads”

• Un fragment du génome dont on a séquencé les deux extrémités, mais pas le milieu

• On obtient deux séquences, qui correspondent aux bouts d'un plus gros fragment, et la longueur du fragment

65

Exemple● Exemple de fragments de 200 lettres, dont on a

séquencé 50 lettres à chaque extrémités (gauche: _1, droit: _2)

$ head 200xStreptococcus-pneumoniae-R6.fasta_fragments_1.fasta >r_835213_0_1TGGAGGACAATTTGGTCTTGGTTGTGAAATGGGGATTTCTACTCAGAAAT>r_795475_1_1CTTAACTGTCATTCTATATGGAGGTTCTATGCGTTTTAATCAATATAGTT>r_207924_2_1CAACAGTTTCTGGTAAAATTCGTAAAAACTATATTCGTATTTTAGCGGGA>r_1328225_3_1CTTACTATTTTATCAAATTTCAGCTAAATTGCAAGTGTTTTACAACGTTT

$ head 200xStreptococcus-pneumoniae-R6.fasta_fragments_2.fasta >r_835213_0_2TCTGCAAGACAGATTTTGCCAAGCTAGCACCCATATTCCCCAAACCGATA>r_795475_1_2GGATAGAAAGTGGGTAGTTGGTGTCTTGATAAGTGAAAAAGAAACGACGT>r_207924_2_2ACGACGAATAACTTTACAGTATTCGCAAATTGGTTTGACCGATGGTCTTA>r_1328225_3_2CCTATTCTTGTTTCATTTTACTATATAAACCAGAGACTGTTTACATTTTC

66

Limites

La couverture des séquences sur le génome n'est pas uniforme

Certaines erreurs sont reproductibles – comme les insertions et déletions dans le 454 dans les homopolymères (5A versus 6A)

Contaminations Les séquences sont très courtes par rapport

aux génomesTechnologie Longueur des séquences (en bases)

Sanger 800

Roche/454 600

Illumina 101

67

Les algorithmes

• Il faut une recette pour faire un bon pain

• Il faut un algorithme pour assembler un génome

• Un algorithme est comme une recette

• Un génome n'est pas un pain...

• Pour traiter des données, il faut se doter des bonnes structures, et avoir des algorithmes qui peuvent traiter ces structures

68

Les types de données

• Les nombres entiers (exemple: 9)

• Les nombres flottants (exemple: 9.8)

• Les ensembles (exemple: {A,T,C,G})

• Les séquences: (exemple: ATGCAT)

• Les graphes (on va les voir!)

• Et tous les autres!

69

Bioinformatique

• Les structures et algorithmes sont beaucoup utilisés en bioinformatique.

• Il faut des algorithmes qui s'exécutent rapidement.

• Les nouvelles technologies produisent beaucoup de données.

• Les “nouveaux” algorithmes doivent être rapides.

70

Les types d'algorithmes

• Itératif (exemple: additionner les nombres de 1 à 10)

• Récursif (exemple: faire les factoriels) 4!=4*3!=4*3*2!=4*3*2*1!=4*3*2*1

• Dynamique (exemple: calculer la suite de Fibonacci)u

0 = u

1 = 1, u

n = u

n-1 + u

n-2

Ses premiers termes sont donc : 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89 ...

• Exaustif (exemple: énumérer tous les chemins entre Québec et Montréal et choisir le plus court)

• Vorace (exemple: intelligence artificielle aux échecs)

• Et les autres...

71

L'assemblage de novo

Prendre toutes les séquences, et les mettre ensemble pour reconstruire le génome au complet!

Analogue à faire un casse-tête Régions répétées sont difficiles à assembler Un assembleur prend des séquences et

produit des contigs (séquences contigus)Genome assembly reborn: recent computational challenges.Pop M.Brief Bioinform. 2009 Jul;10(4):354-66.

72

Qu'est-ce qu'un graphe?

• Sommets: {1,2,3,4,5,6}

• Arêtes: {(1,2),(1,5),...}

73

Graphes dirigés

Les arêtes sont dirigées, on les appelle “arcs”

sommets: {A,B,C,D}arcs: {(A,B),(A,D),(A,C),(C,D)}

A

B

C

D

74

Trouver sa voie

● Un chemin de A à Z: <A,1,*,w,Z>

A

_

1

-

*

w

Z

+E

75

Chevauchement

• ATCGAGTCGATGCTGA

• ATGCTGATGCGATCAG

• Chevauchement:

ATCGAGTCGATGCTGA

ATGCTGATGCGATCAG

76

Le graphe à chevauchements

• Les sommets sont les séquences

• Les arcs sont les chevauchements

• Permettent d'assembler des séquences!

• Il faut trouver des chemins dans ce graphe

• Fonctionne bien quand les séquences sont longues

• Inutilisable lors que l'on a trop de séquences, parce qu'il y a trop de chevauchements possibles, et trop de sommets

77

Composition en sous-séquences

• ATCGATCAATGCATCTGCATGAC

• Quelles sont les sous-séquences d'exactement 3 lettres?

• {ATC,TCG,CGA,GAT,ATC,TCA,...}

• Astuce: prendre une fenêtre de 3 lettres, et “marcher” sur la séquence

78

Graphe ”de Bruijn”Sommets: des séquences de taille k

Les arcs: chevauchements de k-1

Séquence: ATCGGACTA

Le graphe de Bruijn correspondant (avec k=3)

Un ensemble de séquences peuvent être naturellement transformée en graph de Bruijn

Est-ce applicable à l'assemblage? Si oui, comment feriez-vous?

79

La guerre des graphes

• Chevauchements contre “de Bruijn”

• Les graphes de Bruijn sont plus beaux

• Le nombre de sommets est borné par la taille du génome (il y a une séquence de longueur k à chaque position du génome)

• Les séquences sont des chemins dans le graphe de Bruijn

• Le génome aussi!, il faut maintenant le trouver...

• La méthode “de Bruijn” donne une meilleure résolution

• elle fonctionne avec les “k-mers” plutôt qu'avec les séquences obtenues par les séquençeurs

80

Chemin Eulérien

• Un chemin passant par tous les arcs une et une seule fois

81

La méthode de Pevzner

• graphe de Bruijn

• Trouve des chemins Eulériens

• Ne gère pas les erreurs de séquençage

• Nom du logiciel: EULER

An Eulerian path approach to DNA fragment assembly.Pevzner PA, Tang H, Waterman MS.Proc Natl Acad Sci U S A. 2001 Aug 14;98(17):9748-53.

82

La méthode de Zerbino

• Construit le graphe de Bruijn

• Corrige le graphe

• Fait des simplifications

• Fonctionne bien sur des données Illumina

• Nom du logiciel: VelvetVelvet: algorithms for de novo short read assembly using de Bruijn graphs.Zerbino DR, Birney E.Genome Res. 2008 May;18(5):821-9

83

Observation

• Chaque assembleur est créé pour une technologie en particulier.

• Chaque technologie est vendue par une compagnie

• Chaque compagnie est meilleure que les autres

84

Indexage

• ATCGGACTAGCCTCTAGCAT

• Dans une structure, on met à quelle position on observe certaines sous-séquences

• ATC -> {1}

• TAG -> {8,15}

• On peut changer la taille des sous-séquences indexés

• On peut choisir quelles sous-séquences on garde, et quelles positions sont importantes

• Ensuite, on peut “chercher” rapidement dans le tas

85

Alignements

• ATCAGACTCGATCAGCAGC

• ATGAGACTTGCACGATCAGCGGC

Identification of common molecular subsequences.Smith TF, Waterman MS.J Mol Biol. 1981 Mar 25;147(1):195-7.

1 ATCAGACT----CGATCAGCAGC 19 ||.||||| ||||||||.|| 1 ATGAGACTTGCACGATCAGCGGC 23

A general method applicable to the search for similarities in the amino acid sequence of two proteins.Needleman SB, Wunsch CD.J Mol Biol. 1970 Mar;48(3):443-53.

86

Aligner rapidement

• Avec l'indexage, on peut trouver des chevauchements, des alignements, et d'autres résultats intéressants

87

BLAST – vous le connaissez?

• 30977 citations (Google Scholar)

• Simplement un indexage suivi d'un alignement...

• Peut être utiliser pour aligner des séquences

• Nom du logiciel: BLAST

Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ.Nucleic Acids Res. 1997 Sep 1;25(17):3389-402.

88

BLAT

• Blast-Like Alignment Tool

• Blast revisité

• Spécialité: aligner des ARNm

• Nom du logiciel: BLAT

BLAT--the BLAST-like alignment tool.Kent WJ.Genome Res. 2002 Apr;12(4):656-64.

89

Reséquençage

• Quand le génome est trop complexe

• Quand on s'intéresse seulement aux changements locaux

• On aligne les séquences sur un génome de référence

• On observe les différences

What would you do if you could sequence everything?Kahvejian A, Quackenbush J, Thompson JF.Nat Biotechnol. 2008 Oct;26(10):1125-33.

90

MAQ – un “BLAST” pour les courtes séquences

• MAQ fonctionne comme BLAST

• Il indexe le génome de référence.

• Il peut aligner les séquences en paires

• Il fonctionne sur Illumina et SOLiD

• Nom du logiciel: MAQ

• Très utilisé

Mapping short DNA sequencing reads and calling variants using mapping quality scores.Li H, Ruan J, Durbin R.Genome Res. 2008 Nov;18(11):1851-8.

91

Alignements

● SSAHA fonctionne sur le 454● Nom du logiciel: SSAHA

SSAHA: a fast search method for large DNA databases.Ning Z, Cox AJ, Mullikin JC.Genome Res. 2001 Oct;11(10):1725-9.

92

Les arbres

● Un arbre est un graphe

AB

A

C1 454

G ZTT

93

Arbres à suffixes

● On représente une séquence sous forme d'arbre

● Une forme d'indexage

94

Alignement de génomes

● Utilise des arbres à suffixes ● Pour comparer des génomes● Rapide● Calcule les “MUM” -- Maximum Unique

Matches● Nom du logiciel: MUMmer

Versatile and open software for comparing large genomes.Kurtz S et al.Genome Biol. 2004;5(2):R12.

95

Compression

• Avez-vous déjà utilisé ZIP?

• GNU tar?

• Bunzip2?

• Permet de réduire l'espace utilisé

96

Alignements par compression

Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.Langmead B, Trapnell C, Pop M, Salzberg SL.Genome Biol. 2009;10(3):R25.

Nom du logiciel: Bowtie

97

Exemple d'analyse

● Exemple...

98

Conseils

• Linux est votre ami

• Google est votre ami

• N'ayez pas peur d'essayer

• Utilisez la “ligne de commande”

• Créez des scripts “BASH”

Liens utiles

Nature Newshttp://www.nature.com/news/index.html

The Human Genome at Ten – Naturehttp://www.nature.com/humangenome

GenomeWebhttp://www.genomeweb.com/

Strunk, William, Jr. 1918. The Elements of Stylehttp://www.bartleby.com/141/

top related