les - omiques

71
Les -omiques ENSPS 2 TIC-Santé 2012-2013 1

Upload: coral

Post on 24-Feb-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Les - omiques. ENSPS 2 TIC-Santé 2012-2013. Plan. Introduction: La définition des – omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip, - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Les - omiques

1

Les -omiques

ENSPS 2 TIC-Santé2012-2013

Page 2: Les - omiques

2

Plan

• Introduction:– La définition des –omiques et leurs apparitions en

Biologie– L’analyse de l’information dans les données

• Les génomes : de la cartographie au séquençage,• Les ARN messagers : de l’hybridation au DNA chip,• La protéomique : Du gel bidimensionnel à la

spectrométrie de masse. L’interactome.• La métabolomique (l’analyse des métabolites)

Page 3: Les - omiques

3

ARN, TRANSCRIPTOME, TRANSCRIPTOMIQUE

Page 4: Les - omiques

4

Plan

• Survol de la méthode• L’évolution des puces• Méthodes d’analyse

Page 5: Les - omiques

5

Measure of gene expression• DNA arrays

– Small oligos (Affymetrix)– Larger oligo (Agilent)

• PCR quantitative– 96 wells plaques– 384 wells MicroFluidic Cards

• Xenograf• Leukemia• Megacaryoblast

tutorial qPCR

Page 6: Les - omiques

Analysis of total RNA• Quality

– Agilent 2100 Bioanalyzer (RNA 6000 Nano LabChip kit; 5 ng of total RNA (200 pg ARN 6000 Pico LabChip kit)

• Ratio 28S/18S as a criteria for integrity Ratio rRNA 28S(4,7Kb)/ rRNA 18S(1,9Kb)~ 2

(>1,6)

• Quantity• Purity

• Quantity– SmartSpec 3000 (Biorad)

• determined by UV absorption 260 nm.

YieldMouse Brain (400-450 mg), 350-400 µg of total RNA (Expected from the protocol manufacturer, brain (1-1.5 µg RNA/mg tissue)

Avantages Automation for better accuracy and reproducibilityRNA are separated by capillary electrophoresis. Rapid visualisation of sample quality, quantity and purityHigh sensitivity with only a small amount of sample Significant time savings (up to12 samples in 30 minutes) Easy comparison or sharing of sample data Simple, robust protocols

6

Page 7: Les - omiques

Agilent Bioanalyser

1. The sample moves through the micro channels from the sample well.

2. The sample is injected into the separation channel.

3. Sample components are electrophoretically separated.

4. Components are detected by their fluorescence and translated into gel-like images (bands) and electropherograms (peaks).

7

Page 8: Les - omiques

8

Agilent 2100 Bioanalyzer analysis

Page 9: Les - omiques

Oven 640 Fluidics Station 400 GeneArray® Scanner

Affymetrix platform: instruments

total RNA

Raw data as an image (fichier .cel)

Microarray Suite Software • controls instrument Scanner 3000 and Fluidics Station 400. • provides array image acquisition • provides the interface for the Affymetrix Lims software for data

storage and management• analyzes the array data

GeneArray Chip

9

Page 10: Les - omiques

10

Affymetrix standard eukaryotic gene expression assay.

Page 11: Les - omiques

11

Eukaryotic Target Labeling for GeneChip® Expression Analysis

1. First Strand cDNASynthesis (RT)

AAAAAAA – 3'5'Total RNA

TTTTTTT -5'T7 promoter

2. Second Strand cDNASynthesis (Polymerase)

AAAAAAA -3'5'cDNA

TTTTTTT -5'T7 promotercDNA

3. Transcription (T7Polym, XTP, UTP-biotin)

UUUUUU-5' Labeled-cRNAb b b bb bbb bbb

3’-

AAAAAAA – 3'5'Total RNA

TTTTTTT -5'T7 promotercDNA

Page 12: Les - omiques

12

Gene expression monitoring with oligonucleotide arrays

oligonucleotide arrays

1.28 cm

1.28 cm

One probe cell

25 mer-oligo

20 mm

20 mm

Oligo chip

ATGTGTGGATTACCCATCAGTACTAGTGGACTTGCCAATATCGGATGGAgene reference sequence

5’ 3’

mRNA gene: target

25 mer-oligo: probe

probe sequence: PMprobe sequence: MM

ACCCATCAGTACTAGTGGACTTGCCACCCATCAGTACCAGTGGACTTGCC

probe set

probe pair

Fluorescence intensity image

PMMM

Page 13: Les - omiques

13

Affymetrix GeneChip® Arrays are manufactured through a process that combines photolithography and combinational chemistry.

Page 14: Les - omiques

14

SpecificationsNumber of Arrays in Set 2Array Size Standard formatFeature Size 20 µmOligonucleotide Probe Length 25merProbe Pairs/Sequence ~16Sensitivity 1:100,000Control sequencesHybridization controls bioB, bioC, bioD and crePoly A controls dap, lys, phe, thr, and trpMaintenance Genes actin, GAPDH, hexokinase

Human Genome U133 (HG-U133) Set A (represent ~33,000 full-length genes and some EST clusters).

Page 15: Les - omiques

CEL file

• 1 Probe cell : 24mm/24mm

• Scanning resolution : 3 mm

• 64 pixels (8x8) per probe cell in average

x x x x x x x x x x x x x x x x x x x x x x x x x x x x Intensity 300

# of

pixe

ls

Probe cellAvg Intensity = 300

75% percentile value

15

Page 16: Les - omiques

16

Evolution des puces

Page 17: Les - omiques

Affymetrix Evolution

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001

Premier brevet microarrays

Science

1st Catalog GeneChip® Product

Collaboration avec Roche

Lancement commercial

West Sacramento Manufacturing

2002

Roche AmpliChipTM

launched

2003

U133 Set 10K SNP

Array

DéveloppementTechnologique

Commercialisation Marchésspécifiques 17

Page 18: Les - omiques

Un génome complet sur une puce

Recherche FondamentaleDéveloppement Pharmaceutique

Recherche cliniqueMarché

Expression génique

Analyse des SNPsA/A B/BA/B

Reséquençage

ACGT

A A A T A G G A T T G G C A T

18

Page 19: Les - omiques

191.28cm

Environ 1,3 millions de cararés par puce

1.28cm

Puce/galette

5”

5”11µm

11µm

Millions de

sondes identiques

* **

**

Galette, Puces et carrés

Page 20: Les - omiques

20

Graver de plus en plus fin

Date Taille en micron

Carrés/puce

1996 100 16,000

1997 50 65,000

1998 24 256,000

2000 20 400,000

2002 18 500,000

2003 11 1,300,000

2007 5 8,000,000

Page 21: Les - omiques

21

7 x 7

20 x 20

80 x 80

Puces par galette

49 puces/galettes~60K genes/puce

400 puces/galette~2200 genes/puces

6400 puces/galette~50 genes/puce

Page 22: Les - omiques

22

Graver plus fin

Taille du carréFo

rmat

11um18um 8um

49

400

1600

2500

20,000 110,000 100,000

500,000 1,400,000 2,600,000

4,900 13,000 25,000

3,000 8,000 16,000

5um

500,000

6,500,000

64,000

40,000

Page 23: Les - omiques

23

Nombre de génes /puceTaille du carré

Form

at

11um18um 8um

900 5,000

23,000 64,000 118,000

200 600 1,200

150 400 750

4,500

49

400

1600

2500

*22 sondes par transcrit

5um

295,500

22,700

3,000

2,000

Page 24: Les - omiques

24

La puissance de la photolitographie

600,000

500,000

400,000

300,000

200,000

100,000

01996 1997 1998 2000 20011999

Carré par chip

Car

ré p

ar p

uce

Euros par carré

Euro

s pa

r car

2002

Page 25: Les - omiques

Diminution des carrés

11 mm carré 5 mm carré20 mm

2 mm carré

20 mm

Produits actuels

25

Page 26: Les - omiques

26

Contrôle de qualité de la puce

Vérification du design

Vérification de la synthése

Vérification du signal

Page 27: Les - omiques

27

Le dessin du masque est important

CréationDu masque

Analyse de séquence

PM MM

ACGT

GG

Génotypage SNP

Expression génique

Page 28: Les - omiques

28

425 25mers

(1.12 X1015 oligos )

4N sondes peuvent être synthétisé en 4 x N étapes

100 étapes

Synthése combinatoire

Synthése linéaire: 500,000 25 mers = 12.5 m étapes + deposition 20,000 60 mers = 1.2 m étapes + deposition

Résumé

Page 29: Les - omiques

29

L’usine affymetrix (GMP)

Page 30: Les - omiques

30

Sources de variabilité

• BiologieLa source principale de variabilité

• Préparation des échantillonsDépends des échantillons et de l’opérateur

• SystèmeDépends des puces, des appareils Et de l’opérateur

Sam

ple

1

Sam

p le

2

Sam

ple

3

Haut

Bas

Page 31: Les - omiques

Puces

FluidicsStation

SoftwareData Analysis

Scanner

Systéme affymetrix

31

Page 32: Les - omiques

32

Applications

2000 2002 2004 2006 20122010

Time

1998

Expression

Analyse ADNTailleDu marché

Page 33: Les - omiques

33

Puces par organismePROKARYA EUKARYA

Sequence Databases

Yeast

Mouse

HumanRat

Drosophila

Arabidopsis

E. coli

P. aeruginosa

B. subtilis

C. elegans

http://www.genomesonline.org/cgi-bin/GOLD/index.cgi

Page 34: Les - omiques

34

Utilisation des puces

Discovery Applicationscliniques

Validation etOptimisation

Essais cliniques et pré-cliniques

RecherchePhase 0

Publications utilisant les puces

0

100

200

300

400

500

600

1997 1998 1999 2000 2001 2002

# of

pub

licat

ions

/ann

um

Page 35: Les - omiques

35

Validation de cibles

Discovery Applicationscliniques

Validation and Optimization

Essais cliniques et pré-cliniques

RecherchePhase 0

Validation etOptimisation

Page 36: Les - omiques

36

Discovery Applicationscliniques

Validation and Optimization

Pre-Clinical andClinical Trials

Essais cliniques et pré-cliniques

Toxicologie Presque tous les essais cliniques

GeneChip Technology in Pharma/Healthcare Continuum

Page 37: Les - omiques

39

Compréhension d’une maladie génétique

Glazier, Nadeau, & Aitman, Science 20 Dec 2002, p. 2345

Cartographiefine

Reduction pour des gènes candidats

AnalyseSéquence

IdentificationDes variants

Tests fonctionnelsTranscriptome

Liaison et association

Genome entier

Description•2006 : 500K

• CustomSeq• Future: 10x

• Expression analysis• Tag arrays• NetAffx

Produit

• Tag arrays

Page 38: Les - omiques

500K SNPs et plus …

+100 + 10,000

40

Page 39: Les - omiques

41

Blue = microsatellitesBlack = Gaps in coverageRed = at least 1 SNP per 100 kb

De 400 microsatellite à 1 SNP pour 100Kb

Page 40: Les - omiques

42

Nombre de SNPs par pucesTaille d’un carré

Form

at

11um18um 8um

49

400

1600

2500

500 2,750 2,500

12,500 35,000 65,000

125 325 625

75 200 400

* 40 sondes par SNPs

5um

12,500

162,500

1,600

1000

Page 41: Les - omiques

Reséquençage

• Reséquence 30 Kb

A

C

G

T

A A A T A G G A T T G G C A T

43

Page 42: Les - omiques

44

Nombre de base/ puce Taille du carré

Form

at

11um18um 8um

49

400

1600

2500

2,500 14,000 12,500

63,000 175,000 325,000

500 1,600 3,000

375 1,000 2,000

*8 sondes par base

5um

62,500

812,500

8,000

5,000

Page 43: Les - omiques

45

Recherche clinique et génomique appliquée

Marché

2000 2002 2004 2006 20122010

Temps

1998

Recherche clinique

Page 44: Les - omiques

NCCLS

Aspects réglementaires

47

Page 45: Les - omiques

48

Pipeline en recherche clinique

Obtention des échantillons

Dessin des puces

Préparation et hybridation

Analyse etrapport

Page 46: Les - omiques

49

Recherche ClinicalApplications

Validation etOptimisation

Recherche clinique

Applicationscliniques

Les applications en clinique

Page 47: Les - omiques

50

Roche AmpliChipTM

* Photo courtesy of Roche Diagnostics

AmpliChip CYP450• CYP2D6 & CYP2C19 genotyping• Analyzes 2 CYP2C19 and 31 CYP2D6 alleles• Accounts for ~99% of known poor and ultra-

rapid metabolizer genetic variation worldwide

“Powered by Affymetrix”

Page 48: Les - omiques

51

Génomique appliquée

• Identification•Diagnostique•Tests

Microbiologie

Applications chez l’homme Agro-alimentaire

Génomique des plantes

Page 49: Les - omiques

52

Les puces à ADN Une révolution en génétique

Agriculture

Agro-alimentaire

Santé humaine

Environnement

Tracabilité des aliments

Recherche fondamentale

Diagnostique

Médecine personalisée

Page 50: Les - omiques

53

Analyse du transcriptome

Page 51: Les - omiques

54

Vérification biologiqueet interprétation

Expérience DNAchip

Stratégie expérimentale

Analyse de l’image

Normalisation

Question Biologique

ComparaisonEstimation DiscriminationAnalyse

Cluster

WorkFlow

Qualité de la mesure

Mauvais

Bon

Preprocessing

Page 52: Les - omiques

55

Dessin de la sondeSéquenceSéquence publiéepubliée

Multiple (11Multiple (11--20) 2520) 25--mer mer sondessondes

Perfect MatchPerfect MatchMismatchMismatch

5´5´ 3´3´

PM est exactement complémentaire à la séquence publiéeMM est changé à la 13ième base

Page 53: Les - omiques

56

Lecture de l’image

• Environ 100 pixels par carré

• Choisir 16-25 pixels les plus brillants et contigus

• Faire la moyenne• Variabilité dans les

meilleurs pixels de 10-25 %

Image courtesy of Affymetrix

Page 54: Les - omiques

57

Model-based QC for Affy Chips

• Outliers from fitted model may show spatial pattern

Portion of an Affy chip

Image made with dChip

Pink pixels represent probes that do not fit consensus pattern of relative probe intensities

These probes will be down-weighted or ignored

by a robust multi-chip model.If non-conforming probes

are numerous and wide-spread then suspect such a chip

Page 55: Les - omiques

58

Logiciels pour affymetrix

• MAS by Affymetrix– Current version 6 in beta testing now

expression consolle• dChip from www.dchip.org• RMA from www.bioconductor.org

– affy package– Regularly updated– R software (Bioconductor)

Page 56: Les - omiques

59

Normalisation

• Simple: moyenne de la puce ; diviser les valeurs de la puce par la moyenne

• MAS5: normaliser par rapport à une puce de référence• Ensemble de génes de références : Trouver un ensemble de

génes qui se trouvent dans les 2 puces dans le même ordred’intensité.

• Quantile normalisation: Faire une moyenne par quantile et directement sur toute la puce

• Autres méthodes : faire une normalisation en fonction de l’endroit où l’on se trouve sur la puce.

Page 57: Les - omiques

60

Reproductibilité des puces

Deux puces sur la même expérience

Page 58: Les - omiques

61

MAS 5.0 Normalization

• Plot probes from each chip against common base-line chip

• Fit regression line to middle 98% of probes

This method fits the ends well, but seems to miss an importanttrend between 1500 and 4000

Page 59: Les - omiques

62

Invariant Set (Li-Wong) Method

• Select baseline chip X• For each other chip Y:• Select probes p1, …, pK, (K ~ 10000), such

that p1 < p2 < …< pK in both chips X and Y• Fit running median through points

{ (xp1,yp1), …, (xpK, ypK) }• Subtract fitted value along running median

from each y value

Page 60: Les - omiques

63

Quantile Method (part of RMA)

• Distributions of probe intensities vary substantially among replicate chips

• This cannot be even approximately resolved by any linear transformation

• Apply a non-linear transform, based on the idea that comparable quantiles of the probe distribution should have comparable values

• This doesn’t wipe out individual gene differences, although it compresses variation at the high end

Page 61: Les - omiques

64

Calculer l’intensité de l’expressiond’un géne

• Affymetrix MicroArray Suite: v. 5 – robust average of probes on one chip

• Linear Model (multi-chip) methods– dChip: Li and Wong– Bioconductor affy package (RMA)

• Bolstad, Irizarry, Speed, et al

• Many others published– Some based on thermodynamic considerations

Page 62: Les - omiques

65

Variation des sondes• L’intensité d’une sonde varie par au moins

deux ordres de grandeur sur chaque puce

Résultat du géne GAPDH (16 sondes)

•Les sondes individuelles ne donnent pas toutesle même résultat.

Page 63: Les - omiques

66

Sonde Variation - II

•Typical probes are two orders of magnitude different!•CG content is most important factor•RNA target folding also affects hybridization

3x104

0

Page 64: Les - omiques

67

Linear Models

• Extension of linear regression• Essential features:

– Measurement errors independent of each other • ‘random noise’• Needs normalization to eliminate systematic variation

– Noise levels comparable at different levels of signal– Small number of factors combine in linear function or

simple algebraic form to give predicted levels

Page 65: Les - omiques

68

Model for Probe Signal• Each probe signal is proportional to

– i) the amount of target sample –

– ii) the affinity of the specific probe sequence to the target – j

• NB: High affinity is not the same as specificity– Probe can give high signal to intended target and also to

other transcripts

1

2

Probes 1 2 3

chip 1

chip 2

Page 66: Les - omiques

69

Li & Wong (dChip)

• Model: PMij = ij + ij- Original model (dChip 1.0) used PMij - MMij = ij + ij

by analogy with Affy MAS 4

• Outlier removal:– Identify extreme residuals– Remove– Re-fit– Iterate until converge

Dark blue: PM valuesRed: fitted valuesLight blue: probe SD

Fitting probes in one set on one chip

Page 67: Les - omiques

70

Critique of Li-Wong model

• Model assumes that noise for all probes has same magnitude

• All biological measurements exhibit intensity-dependent noise

Page 68: Les - omiques

71

• For each probe set, take the log transform of

PMij = ij:

• i.e. fit the model:

• Fit this additive model by iteratively re-weighted least-squares or median polish

ijjiij baPM )bg(nlog

Bolstad, Irizarry & Speed – (RMA)

Where nlog() stands for logarithm after normalization

)log()log()(log jiijPM

Page 69: Les - omiques

72

Critique of RMA

• Assumes probe noise is homoschedastic(comparable variances) on log scale

• In fact noise for low signal probes appears to be much greater

• Depends on normalization & bgcompensation

• Variance-stabilizing transform seems better in principle; so far not a great deal of improvement in practice

Page 70: Les - omiques

73

Comparing Expression Measures

Compare gene abundance estimates based on identical samples (These were non spike-in genes in the spike-in experiment)Better performance means variation of estimates should be smallerThe figure shows standard deviations of expression estimates across Arrays arranged in four groups of genes by increasing mean expression level

Green: MAS5.0; Black: Li-Wong; Blue, Red: RMACourtesy of Terry Speed

Page 71: Les - omiques

74

Comparison Summary

• Affymetrix Suite gets better every year– Affymetrix is developing their own multi-chip model

• MAS P & A calls reasonable proxies for confidence (not gene abundance)– based on probe-by probe comparison of PM & MM

• MAS 5.0 estimation does a reasonable job on abundant genes

• dChip and RMA do better on genes that are less abundant – Signalling proteins, transcription factors, etc