bioinformatique modélisation et analyse des données génomiques et post-génomiques françois...

48
Bioinformatique modélisation et analyse des données génomiques et post- génomiques François Rechenmann

Upload: ann-mahieu

Post on 03-Apr-2015

108 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Bioinformatiquemodélisation et analyse des données

génomiques et post-génomiques

François Rechenmann

Page 2: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

ARN

Transcriptome

ADN

Génome

enzymes

P

O

O

O P

O

O

O P

O

OO

ON

O

N

N

O

N

N

O

ATP

Métabolome

Protéome

Protéinesrégulation

Page 3: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Le codage del’information génomique

• macromolécule d’ADN ≈ enchaînement d’acides nucléiques– adénine : A– thymine : T– cytosine : C– guanine : G

• génome ≈ texte écrit dans l’alphabet de ces quatre lettres

Page 4: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Cellules procaryotes

Page 5: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

ADN double brin

chaîne d’acides aminés

traduction

repliement

transcription

messager

Page 6: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Le code génétique

Premièreposition

Deuxième position

Troisièmeposition

UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C)UUC " UCC " UAC UGCUUA Leu (L) UCA " UAA Ter UGA TerUUG " UCG " UAG Ter UGG Trp

(W)

CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R)CUC " CCC " CAC " CGC "CUA " CCA " CAA Gln (Q) CGA "CUG " CCG " CAG " CGG "

AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S)AUC " ACC " AAC " AGC "AUA " ACA " AAA Lys (K) AGA Arg (R)AUG Met (M) ACG " AAG " AGG "

GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G)GUC " GCC " GAC " GGC "GUA " GCA " GAA Glu (E) GGA "GUG " GCG " GAG " GGG "

U C A G

U

C

A

G

UCAG

UCAG

UCAG

UCAG

Page 7: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Cellules eucaryotes

Page 8: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

ARN prémessager

ADN double brin

chaîne d’acides aminés

traduction

repliement

transcription

messager

exonexon exon

intronintron

maturation(excision - épissage)

Page 9: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN

Transcriptome

ADN

Génome

enzymes

P

O

O

O P

O

O

O P

O

OO

ON

O

N

N

O

N

N

O

ATP

Métabolome

Protéome

Protéinesrégulation

Page 10: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

De très nombreux domaines de recherche en informatique,

automatique et mathématiques appliquées sont concernés

algorithmique sur les séquences, sur les graphes…

statistique, analyse de donnéesapprentissage symbolique et

numériquevisualisation de donnéesmodélisation et simulation dynamiques calcul parallèlebases de données et de connaissances

Page 11: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Le projet HELIX« Informatique et génomique »

• Projet de l’unité de recherche INRIA Rhône-Alpes– à Grenoble (Montbonnot) et Lyon (campus de La

Doua, UMR CNRS UCB 5558)– 40 chercheurs, ingénieurs et doctorants

• Quatre exemples– GenoStar : plate-forme de génomique

exploratoire– Génomique comparative et synténie– Modélisation et simulation de réseaux

d’interactions– PepMap et la bioinformatique de la protéomique

Page 12: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Le consortium Genostar

Page 13: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Les objectifs du consortium

Concevoir et développerune plate–forme bioinformatique

de génomique exploratoire

Page 14: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

La plate-forme Genostar

• Des modules interopérables

GenoExpertBacteria

• autour d’un noyau qui assure – la gestion et la persistance des données et des connaissances– l’enchaînement de l’exécution des méthodes d’analyse

Page 15: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

La plate-forme Genostar

• Des données structurées dans un modèle à objets et relations

Page 16: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

is-located-onchromosomesize

shape

genemnemo

type

is-located-onBasudnaA

is-located-onHepysecG

is-located-onBasusecD

is-located-onBobusecG

Page 17: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Proteinclass

Regulator“is-A”

inheritance

Regulates

association

regulatorregulated-prot roles

Km

associationslots

Compoundeffector

N-aryassociation

s

MWLengthSequence

classslots

Page 18: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

La plate-forme Genostar

• Des données structurées dans un modèle à objets et relations

• Un ensemble de méthodes d’analyse et de visualisation

• Des tâches paramétrables enchaînant ces méthodes sur les données

Page 19: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

CDS

ORF ORF

RBS

STOP START STOP STOP

Un exemple : la recherche de CDS bactériennes

Page 20: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Recherche de CDS

Recherche des ORF

Recherche des RBS

Enregistrement et visualisation des objets créés

Page 21: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche

– Direction de la Recherche : programme

Génomique– Direction de la Technologie :

programme GenHomme

Page 22: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

• Genostar est mis à disposition des laboratoires de recherche publics

• Le consortium est ouvert aux partenariats avec les sociétés privées

Page 23: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

http://www.genostar.org

Page 24: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Comparative genomics

bioWbioD bioFbioBbioAS.aureus

Gene order conservation: NO

Gene cluster conservation: YES

B.subtilisbioBbioDbioFbioW bioA

Pimelate

Pimeloyl-CoA

8-Amino-7-Oxononanoate

7,8-Diaminonanoate

Dethiobiotin

Biotin

EC 6.2.1.14

EC 2.3.1.47

EC 2.6.1.62

EC 6.3.3.3

EC 2.8.1.6

BioWBioW

BioFBioF

BioABioA

BioBBioB

BioDBioD

Page 25: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species)

conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion)

Unformal definition of a synton

A

B

A

B

A

B

B

A

B

A

B

A

Page 26: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

A

B

a1 a2 a3 a4 a5 a6

b9

b8

b7

b6

b5

b4

b3

b2

b1

A synthon is a maximal set of homolog gene pairs with conserved gene organizationon both chromosomes

A synton is defined by a double path in the plane

: gap parameter = 0

Page 27: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Aa1 a2 a3 a4 a5 a6

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

B

b9

b8

b7

b6

b5

b4

b3

b2

b1

= maximal set of gene couples such that a path exits on A and B axes

A synton is defined by a double path in the plane

A synthon is a maximal set of homolog gene pairs with conserved gene organizationon both chromosomes

(a1,b2)

(a2,b1)

(a3,b8)

(a4,b9)

(a5,b3)

(a6,b4)

(a1,b2)

(a2,b1)

(a3,b8)

(a4,b9)

(a5,b3)

(a6,b4)

Page 28: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

(a1,b2)

(a2,b1)

(a3,b8)

(a4,b9)

(a5,b3)

(a6,b4)

Design of an O(n2)algorithm on graphs

n = number of pairs of homolog genes

Page 29: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

= 0

(a2,b1)

(a1,b2)

(a3,b8) (a4,b9)

(a5,b3)

(a6,b4)

= 2

(a2,b1)

(a1,b2)

(a3,b8) (a4,b9)

(a5,b3)

(a6,b4)

= 3

(a2,b1)

(a1,b2)

(a3,b8) (a4,b9)

(a5,b3)

(a6,b4)

Page 30: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Simulation of gene interaction networks

kinA

-

+

HKinA

+ phospho- relay

Spo0A˜P

+

Spo0A

H A

A H

spo0A

-

sinR sinI

SinI

SinR

SinR/SinI

-

spoIIA H

+

+

hpr (scoR)A

A AabrB

-

-

Hpr

AbrB

spo0E A

sigH(spo0H)

A

-

-

-

Spo0E

H

F

-

+

+

Signal

Regulatory network controling the initiation of sporulation in B.

subtilis

Page 31: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Cellular concentration of gene product i at time-point t represented

by variable xi(t)

Regulatory interactions modeled by differential equations

xi = fi(x) – i xi xi 0, 1 i n.

Piece-wise linear differential equations

xj

s+(xj , ij)

0

1

ij

where fi(x) is the synthesis term and – i xi the degradation

term

Synthesis term fi(x) : sum of products of step functions

s+/-(xj , ij) weighted by rate constants kij > 0

Page 32: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Within a volume, the model simplifies to linear differential equations

i is sum of products of rate constantsxi = i – i xi 1 i n.

max3

33

x3

x2

x1

max212

23

21 31 max10

Equations in shaded volume:

x1 = - 1 x1 x2 = - 2 x2

x3 = k33 - 3 x3

.

.

.

Phase space box and volumes

Page 33: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Equations in shaded volume vinit :

x1 = - 1 x1 x2 = - 2 x2

x3 = k33 - 3 x3

.

.

.

.

Example of simulation

Page 34: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2

.

Example of simulation

Equations in shaded volume :

x1 = - 1 x1

x2 = - 2 x2 x3 = k31 + k33 - 3 x3

.

.

.

Page 35: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Example of simulation

.

Page 36: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Example of simulation

.

Page 37: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2.

Example of simulation

Page 38: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2. x3 = k31 + k33 - 3 x3

Equations in shaded volume :x1 = - 1 x1

x2 = - 2 x2

.

.

.

Example of simulation

Page 39: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2.

Example of simulation

Page 40: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Equations in shaded volume :

x1 = - 1 x1

x2 = - 2 x2

x3 = k31 + k33 - 3 x3

.

.

..

Volume contains a steady state

Example of simulation

Page 41: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

GNA : Gene Networks Analyser

Page 42: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Un dernier exemple en protéomique

• Collaboration– CEA– GENOME express– INRIA Rhône-Alpes

• Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole

Page 43: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

« cocktail » de protéines

étiquettes peptidiques

fragments

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

spectrométrie de masse

analyse des spectres

digestion

trypsique G L I FmN m

C

masses des séquences adjacentes

courte séquence

peptidique

Page 44: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

analyse des spectres

« cocktail » de protéines

étiquettes peptidiques

fragments

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

spectrométrie de masse

« mapping » sur les chromosomes

recherches en bioinformatique

digestion

trypsique

Page 45: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . .

L R T G Q G G L I F T E R F . . .

G L I FmN mC

. . . D H

GAT acide aspartique = Asp = D

code génétiaue

CAC histidine = His = H

Page 46: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

G L I FmN mC

. . . D H

. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . .

L R T G Q G G L I F T E R F . . .

Page 47: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

1) « mapping » des étiquettes

pb. algorithmique

2) « clustering »

pb. statistique

?

gène ?

Page 48: Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann