les - omiques

Post on 24-Feb-2016

39 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Les - omiques. ENSPS 2 TIC-Santé 2012-2013. Plan. Introduction: La définition des – omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip, - PowerPoint PPT Presentation

TRANSCRIPT

1

Les -omiques

ENSPS 2 TIC-Santé2012-2013

2

Plan

• Introduction:– La définition des –omiques et leurs apparitions en

Biologie– L’analyse de l’information dans les données

• Les génomes : de la cartographie au séquençage,• Les ARN messagers : de l’hybridation au DNA chip,• La protéomique : Du gel bidimensionnel à la

spectrométrie de masse. L’interactome.• La métabolomique (l’analyse des métabolites)

3

ARN, TRANSCRIPTOME, TRANSCRIPTOMIQUE

4

Plan

• Survol de la méthode• L’évolution des puces• Méthodes d’analyse

5

Measure of gene expression• DNA arrays

– Small oligos (Affymetrix)– Larger oligo (Agilent)

• PCR quantitative– 96 wells plaques– 384 wells MicroFluidic Cards

• Xenograf• Leukemia• Megacaryoblast

tutorial qPCR

Analysis of total RNA• Quality

– Agilent 2100 Bioanalyzer (RNA 6000 Nano LabChip kit; 5 ng of total RNA (200 pg ARN 6000 Pico LabChip kit)

• Ratio 28S/18S as a criteria for integrity Ratio rRNA 28S(4,7Kb)/ rRNA 18S(1,9Kb)~ 2

(>1,6)

• Quantity• Purity

• Quantity– SmartSpec 3000 (Biorad)

• determined by UV absorption 260 nm.

YieldMouse Brain (400-450 mg), 350-400 µg of total RNA (Expected from the protocol manufacturer, brain (1-1.5 µg RNA/mg tissue)

Avantages Automation for better accuracy and reproducibilityRNA are separated by capillary electrophoresis. Rapid visualisation of sample quality, quantity and purityHigh sensitivity with only a small amount of sample Significant time savings (up to12 samples in 30 minutes) Easy comparison or sharing of sample data Simple, robust protocols

6

Agilent Bioanalyser

1. The sample moves through the micro channels from the sample well.

2. The sample is injected into the separation channel.

3. Sample components are electrophoretically separated.

4. Components are detected by their fluorescence and translated into gel-like images (bands) and electropherograms (peaks).

7

8

Agilent 2100 Bioanalyzer analysis

Oven 640 Fluidics Station 400 GeneArray® Scanner

Affymetrix platform: instruments

total RNA

Raw data as an image (fichier .cel)

Microarray Suite Software • controls instrument Scanner 3000 and Fluidics Station 400. • provides array image acquisition • provides the interface for the Affymetrix Lims software for data

storage and management• analyzes the array data

GeneArray Chip

9

10

Affymetrix standard eukaryotic gene expression assay.

11

Eukaryotic Target Labeling for GeneChip® Expression Analysis

1. First Strand cDNASynthesis (RT)

AAAAAAA – 3'5'Total RNA

TTTTTTT -5'T7 promoter

2. Second Strand cDNASynthesis (Polymerase)

AAAAAAA -3'5'cDNA

TTTTTTT -5'T7 promotercDNA

3. Transcription (T7Polym, XTP, UTP-biotin)

UUUUUU-5' Labeled-cRNAb b b bb bbb bbb

3’-

AAAAAAA – 3'5'Total RNA

TTTTTTT -5'T7 promotercDNA

12

Gene expression monitoring with oligonucleotide arrays

oligonucleotide arrays

1.28 cm

1.28 cm

One probe cell

25 mer-oligo

20 mm

20 mm

Oligo chip

ATGTGTGGATTACCCATCAGTACTAGTGGACTTGCCAATATCGGATGGAgene reference sequence

5’ 3’

mRNA gene: target

25 mer-oligo: probe

probe sequence: PMprobe sequence: MM

ACCCATCAGTACTAGTGGACTTGCCACCCATCAGTACCAGTGGACTTGCC

probe set

probe pair

Fluorescence intensity image

PMMM

13

Affymetrix GeneChip® Arrays are manufactured through a process that combines photolithography and combinational chemistry.

14

SpecificationsNumber of Arrays in Set 2Array Size Standard formatFeature Size 20 µmOligonucleotide Probe Length 25merProbe Pairs/Sequence ~16Sensitivity 1:100,000Control sequencesHybridization controls bioB, bioC, bioD and crePoly A controls dap, lys, phe, thr, and trpMaintenance Genes actin, GAPDH, hexokinase

Human Genome U133 (HG-U133) Set A (represent ~33,000 full-length genes and some EST clusters).

CEL file

• 1 Probe cell : 24mm/24mm

• Scanning resolution : 3 mm

• 64 pixels (8x8) per probe cell in average

x x x x x x x x x x x x x x x x x x x x x x x x x x x x Intensity 300

# of

pixe

ls

Probe cellAvg Intensity = 300

75% percentile value

15

16

Evolution des puces

Affymetrix Evolution

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001

Premier brevet microarrays

Science

1st Catalog GeneChip® Product

Collaboration avec Roche

Lancement commercial

West Sacramento Manufacturing

2002

Roche AmpliChipTM

launched

2003

U133 Set 10K SNP

Array

DéveloppementTechnologique

Commercialisation Marchésspécifiques 17

Un génome complet sur une puce

Recherche FondamentaleDéveloppement Pharmaceutique

Recherche cliniqueMarché

Expression génique

Analyse des SNPsA/A B/BA/B

Reséquençage

ACGT

A A A T A G G A T T G G C A T

18

191.28cm

Environ 1,3 millions de cararés par puce

1.28cm

Puce/galette

5”

5”11µm

11µm

Millions de

sondes identiques

* **

**

Galette, Puces et carrés

20

Graver de plus en plus fin

Date Taille en micron

Carrés/puce

1996 100 16,000

1997 50 65,000

1998 24 256,000

2000 20 400,000

2002 18 500,000

2003 11 1,300,000

2007 5 8,000,000

21

7 x 7

20 x 20

80 x 80

Puces par galette

49 puces/galettes~60K genes/puce

400 puces/galette~2200 genes/puces

6400 puces/galette~50 genes/puce

22

Graver plus fin

Taille du carréFo

rmat

11um18um 8um

49

400

1600

2500

20,000 110,000 100,000

500,000 1,400,000 2,600,000

4,900 13,000 25,000

3,000 8,000 16,000

5um

500,000

6,500,000

64,000

40,000

23

Nombre de génes /puceTaille du carré

Form

at

11um18um 8um

900 5,000

23,000 64,000 118,000

200 600 1,200

150 400 750

4,500

49

400

1600

2500

*22 sondes par transcrit

5um

295,500

22,700

3,000

2,000

24

La puissance de la photolitographie

600,000

500,000

400,000

300,000

200,000

100,000

01996 1997 1998 2000 20011999

Carré par chip

Car

ré p

ar p

uce

Euros par carré

Euro

s pa

r car

2002

Diminution des carrés

11 mm carré 5 mm carré20 mm

2 mm carré

20 mm

Produits actuels

25

26

Contrôle de qualité de la puce

Vérification du design

Vérification de la synthése

Vérification du signal

27

Le dessin du masque est important

CréationDu masque

Analyse de séquence

PM MM

ACGT

GG

Génotypage SNP

Expression génique

28

425 25mers

(1.12 X1015 oligos )

4N sondes peuvent être synthétisé en 4 x N étapes

100 étapes

Synthése combinatoire

Synthése linéaire: 500,000 25 mers = 12.5 m étapes + deposition 20,000 60 mers = 1.2 m étapes + deposition

Résumé

29

L’usine affymetrix (GMP)

30

Sources de variabilité

• BiologieLa source principale de variabilité

• Préparation des échantillonsDépends des échantillons et de l’opérateur

• SystèmeDépends des puces, des appareils Et de l’opérateur

Sam

ple

1

Sam

p le

2

Sam

ple

3

Haut

Bas

Puces

FluidicsStation

SoftwareData Analysis

Scanner

Systéme affymetrix

31

32

Applications

2000 2002 2004 2006 20122010

Time

1998

Expression

Analyse ADNTailleDu marché

33

Puces par organismePROKARYA EUKARYA

Sequence Databases

Yeast

Mouse

HumanRat

Drosophila

Arabidopsis

E. coli

P. aeruginosa

B. subtilis

C. elegans

http://www.genomesonline.org/cgi-bin/GOLD/index.cgi

34

Utilisation des puces

Discovery Applicationscliniques

Validation etOptimisation

Essais cliniques et pré-cliniques

RecherchePhase 0

Publications utilisant les puces

0

100

200

300

400

500

600

1997 1998 1999 2000 2001 2002

# of

pub

licat

ions

/ann

um

35

Validation de cibles

Discovery Applicationscliniques

Validation and Optimization

Essais cliniques et pré-cliniques

RecherchePhase 0

Validation etOptimisation

36

Discovery Applicationscliniques

Validation and Optimization

Pre-Clinical andClinical Trials

Essais cliniques et pré-cliniques

Toxicologie Presque tous les essais cliniques

GeneChip Technology in Pharma/Healthcare Continuum

39

Compréhension d’une maladie génétique

Glazier, Nadeau, & Aitman, Science 20 Dec 2002, p. 2345

Cartographiefine

Reduction pour des gènes candidats

AnalyseSéquence

IdentificationDes variants

Tests fonctionnelsTranscriptome

Liaison et association

Genome entier

Description•2006 : 500K

• CustomSeq• Future: 10x

• Expression analysis• Tag arrays• NetAffx

Produit

• Tag arrays

500K SNPs et plus …

+100 + 10,000

40

41

Blue = microsatellitesBlack = Gaps in coverageRed = at least 1 SNP per 100 kb

De 400 microsatellite à 1 SNP pour 100Kb

42

Nombre de SNPs par pucesTaille d’un carré

Form

at

11um18um 8um

49

400

1600

2500

500 2,750 2,500

12,500 35,000 65,000

125 325 625

75 200 400

* 40 sondes par SNPs

5um

12,500

162,500

1,600

1000

Reséquençage

• Reséquence 30 Kb

A

C

G

T

A A A T A G G A T T G G C A T

43

44

Nombre de base/ puce Taille du carré

Form

at

11um18um 8um

49

400

1600

2500

2,500 14,000 12,500

63,000 175,000 325,000

500 1,600 3,000

375 1,000 2,000

*8 sondes par base

5um

62,500

812,500

8,000

5,000

45

Recherche clinique et génomique appliquée

Marché

2000 2002 2004 2006 20122010

Temps

1998

Recherche clinique

NCCLS

Aspects réglementaires

47

48

Pipeline en recherche clinique

Obtention des échantillons

Dessin des puces

Préparation et hybridation

Analyse etrapport

49

Recherche ClinicalApplications

Validation etOptimisation

Recherche clinique

Applicationscliniques

Les applications en clinique

50

Roche AmpliChipTM

* Photo courtesy of Roche Diagnostics

AmpliChip CYP450• CYP2D6 & CYP2C19 genotyping• Analyzes 2 CYP2C19 and 31 CYP2D6 alleles• Accounts for ~99% of known poor and ultra-

rapid metabolizer genetic variation worldwide

“Powered by Affymetrix”

51

Génomique appliquée

• Identification•Diagnostique•Tests

Microbiologie

Applications chez l’homme Agro-alimentaire

Génomique des plantes

52

Les puces à ADN Une révolution en génétique

Agriculture

Agro-alimentaire

Santé humaine

Environnement

Tracabilité des aliments

Recherche fondamentale

Diagnostique

Médecine personalisée

53

Analyse du transcriptome

54

Vérification biologiqueet interprétation

Expérience DNAchip

Stratégie expérimentale

Analyse de l’image

Normalisation

Question Biologique

ComparaisonEstimation DiscriminationAnalyse

Cluster

WorkFlow

Qualité de la mesure

Mauvais

Bon

Preprocessing

55

Dessin de la sondeSéquenceSéquence publiéepubliée

Multiple (11Multiple (11--20) 2520) 25--mer mer sondessondes

Perfect MatchPerfect MatchMismatchMismatch

5´5´ 3´3´

PM est exactement complémentaire à la séquence publiéeMM est changé à la 13ième base

56

Lecture de l’image

• Environ 100 pixels par carré

• Choisir 16-25 pixels les plus brillants et contigus

• Faire la moyenne• Variabilité dans les

meilleurs pixels de 10-25 %

Image courtesy of Affymetrix

57

Model-based QC for Affy Chips

• Outliers from fitted model may show spatial pattern

Portion of an Affy chip

Image made with dChip

Pink pixels represent probes that do not fit consensus pattern of relative probe intensities

These probes will be down-weighted or ignored

by a robust multi-chip model.If non-conforming probes

are numerous and wide-spread then suspect such a chip

58

Logiciels pour affymetrix

• MAS by Affymetrix– Current version 6 in beta testing now

expression consolle• dChip from www.dchip.org• RMA from www.bioconductor.org

– affy package– Regularly updated– R software (Bioconductor)

59

Normalisation

• Simple: moyenne de la puce ; diviser les valeurs de la puce par la moyenne

• MAS5: normaliser par rapport à une puce de référence• Ensemble de génes de références : Trouver un ensemble de

génes qui se trouvent dans les 2 puces dans le même ordred’intensité.

• Quantile normalisation: Faire une moyenne par quantile et directement sur toute la puce

• Autres méthodes : faire une normalisation en fonction de l’endroit où l’on se trouve sur la puce.

60

Reproductibilité des puces

Deux puces sur la même expérience

61

MAS 5.0 Normalization

• Plot probes from each chip against common base-line chip

• Fit regression line to middle 98% of probes

This method fits the ends well, but seems to miss an importanttrend between 1500 and 4000

62

Invariant Set (Li-Wong) Method

• Select baseline chip X• For each other chip Y:• Select probes p1, …, pK, (K ~ 10000), such

that p1 < p2 < …< pK in both chips X and Y• Fit running median through points

{ (xp1,yp1), …, (xpK, ypK) }• Subtract fitted value along running median

from each y value

63

Quantile Method (part of RMA)

• Distributions of probe intensities vary substantially among replicate chips

• This cannot be even approximately resolved by any linear transformation

• Apply a non-linear transform, based on the idea that comparable quantiles of the probe distribution should have comparable values

• This doesn’t wipe out individual gene differences, although it compresses variation at the high end

64

Calculer l’intensité de l’expressiond’un géne

• Affymetrix MicroArray Suite: v. 5 – robust average of probes on one chip

• Linear Model (multi-chip) methods– dChip: Li and Wong– Bioconductor affy package (RMA)

• Bolstad, Irizarry, Speed, et al

• Many others published– Some based on thermodynamic considerations

65

Variation des sondes• L’intensité d’une sonde varie par au moins

deux ordres de grandeur sur chaque puce

Résultat du géne GAPDH (16 sondes)

•Les sondes individuelles ne donnent pas toutesle même résultat.

66

Sonde Variation - II

•Typical probes are two orders of magnitude different!•CG content is most important factor•RNA target folding also affects hybridization

3x104

0

67

Linear Models

• Extension of linear regression• Essential features:

– Measurement errors independent of each other • ‘random noise’• Needs normalization to eliminate systematic variation

– Noise levels comparable at different levels of signal– Small number of factors combine in linear function or

simple algebraic form to give predicted levels

68

Model for Probe Signal• Each probe signal is proportional to

– i) the amount of target sample –

– ii) the affinity of the specific probe sequence to the target – j

• NB: High affinity is not the same as specificity– Probe can give high signal to intended target and also to

other transcripts

1

2

Probes 1 2 3

chip 1

chip 2

69

Li & Wong (dChip)

• Model: PMij = ij + ij- Original model (dChip 1.0) used PMij - MMij = ij + ij

by analogy with Affy MAS 4

• Outlier removal:– Identify extreme residuals– Remove– Re-fit– Iterate until converge

Dark blue: PM valuesRed: fitted valuesLight blue: probe SD

Fitting probes in one set on one chip

70

Critique of Li-Wong model

• Model assumes that noise for all probes has same magnitude

• All biological measurements exhibit intensity-dependent noise

71

• For each probe set, take the log transform of

PMij = ij:

• i.e. fit the model:

• Fit this additive model by iteratively re-weighted least-squares or median polish

ijjiij baPM )bg(nlog

Bolstad, Irizarry & Speed – (RMA)

Where nlog() stands for logarithm after normalization

)log()log()(log jiijPM

72

Critique of RMA

• Assumes probe noise is homoschedastic(comparable variances) on log scale

• In fact noise for low signal probes appears to be much greater

• Depends on normalization & bgcompensation

• Variance-stabilizing transform seems better in principle; so far not a great deal of improvement in practice

73

Comparing Expression Measures

Compare gene abundance estimates based on identical samples (These were non spike-in genes in the spike-in experiment)Better performance means variation of estimates should be smallerThe figure shows standard deviations of expression estimates across Arrays arranged in four groups of genes by increasing mean expression level

Green: MAS5.0; Black: Li-Wong; Blue, Red: RMACourtesy of Terry Speed

74

Comparison Summary

• Affymetrix Suite gets better every year– Affymetrix is developing their own multi-chip model

• MAS P & A calls reasonable proxies for confidence (not gene abundance)– based on probe-by probe comparison of PM & MM

• MAS 5.0 estimation does a reasonable job on abundant genes

• dChip and RMA do better on genes that are less abundant – Signalling proteins, transcription factors, etc

top related