inférence de génomes ancestraux

34
Nadia El- Mabrouk Inférence de génomes ancestraux

Upload: eris

Post on 20-Jan-2016

33 views

Category:

Documents


0 download

DESCRIPTION

Inférence de génomes ancestraux. Nadia El- Mabrouk. ?. Étant donné: Un ensemble d’espèces actuelles Un arbre de phylogénie Une représentation des génomes actuels sous forme d’ordre de gènes (ou de markeurs, ou de synténies…) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Inférence de génomes ancestraux

Nadia El- Mabrouk

Inférence de génomes ancestraux

Page 2: Inférence de génomes ancestraux

Étant donné:Un ensemble

d’espèces actuellesUn arbre de phylogénie Une représentation des

génomes actuels sous forme d’ordre de gènes (ou de markeurs, ou de synténies…)

Trouver une configuration des génomes ancestraux (aux nœuds internes de l’arbre).

?

?

?

E1 E2 E3 E4

Page 3: Inférence de génomes ancestraux

a b a c a b a –a –b c a b a b a c b c a b a –b –c c

a b a c a b a b a c b c

a b a c b

E1 E2 E3 E4

Page 4: Inférence de génomes ancestraux

MéthodesApproche globale: Basée sur la notion de

distance (réarrangement, breakpoint, DCJ…). Trouver les génomes ancestraux qui permettent de minimiser la somme des distances des arêtes de l’arbre.M. Blanchette et D. Sankoff 1999;; Moret et al. 2002; Bourque

et Pevzner 2002..

Approche locale: (1) Inférer des adjacences ancestrales; (2) Chaîner les adjacences de façon optimale. Généralement abouti à la formation de CAR (Contiguous Ancestral Regions) plutôt que de génomes entiers.

Ma et al. 2007; Chauve et Tannier 2008; Bertrand et al. 2010…

Page 5: Inférence de génomes ancestraux

Approche globaleMéthode générale de Sankoff 1996

Différentes versions ont été publiées: BPAnalysis de Blanchette et Sankoff, GRAPPA de Moret…)

Méthode générale:• Commencer par un ordre initial « raisonnable »

des nœuds internes;• Assigner un nouvel ordre à chaque nœud interne,

par un calcul de la médiane des trois génomes adjacents au nœud considéré;

• Continuer un nombre fixé de fois ou jusqu’à convergence.

Étant donnée une distance d et trois génomes G1, G2, G3, la médiane des trois génomes est un génome G minimisant d(G,G1)+d(G,G2)+d(G,G3)

Page 6: Inférence de génomes ancestraux

A B C

X

W

A B C

X

Y

A B C

X

YY

W W

Amélioration de X

Amélioration de Y

Page 7: Inférence de génomes ancestraux

A B C

X

W

A B C

X

Y

A B C

X

YY

W W

Amélioration de X

Amélioration de Y

A B C D E F G H

I1

I4

I2I3

I6

I5

I’1

I’4

I’3

I’5

I’2

I’6

I7I’7

Page 8: Inférence de génomes ancestraux

Calcul de la médiane

Même contenu en gènes, gènes uniques, distance des points de cassure (BP): NP-difficile pour des permutations signées ou non, circulaires (Pe’er et Shamir 1998) ou linéaires (Bryant 1998)

Meilleures heuristiques bornées: 7/6 pour permutations signées (Pe’er et Shamir 2000) et 5/3 pour permutations non signées (Caprara 2002)

Algorithme exact proposé par Blanchette et Sankoff,1998: Réduction au problème du commis voyageur. Étendu à des génomes contenant des gènes différents (Sankoff et Bryant 2000).

Page 9: Inférence de génomes ancestraux

Calcul de la médianeAlgorithme de Blanchette et Sankoff 1998

A: 1 3 4 2 5B: 1 4 5 3 2C: 1 2 3 4 5

1

2

34

5

1

1

1

1

1

22

2

• Poids d’une arête: nb de génomes où les gènes ne sont pas voisins.

• Trouver un chemin de poids minimal passant par chaque sommet une unique fois

• Problème du commis voyageur (Traveling Salesman Problem, ou TSP). Peut-être résolu en temps O(n2 2n). Mais plusieurs heuristiques efficaces existent.

1

2

34

5

1

11

1

1

Page 10: Inférence de génomes ancestraux

Calcul de la médianeDistance d’inversion

Étudié uniquement dans le cas de permutations signées.

Introduit par Sankoff et Kececioglu, 1996NP-difficile, même pour 3 génomes (Caprara 1999)Caprara 2001 combine les stratégies branch-and-

bound et divide-and-conquere sur une généralisation du graphe des BP.

Moret et. al 2001 recherchent l’espace des réarrangements par une stratégie branch-and-bound. Implémenté dans GRAPPA.

Bourque et Pevzner 2002 utilisent une stratégie « gready »

Page 11: Inférence de génomes ancestraux

Effectuer les inversions qui ``rapprochent’’ du génome ancestral.

Soit G1, G2 G3 trois génomes. Une bonne inversion sur G1 est une inversion qui réduit la distance d’inversion de G1 à G2 ET de G1 à G3, i.e.

d(G1, G2) + d(G1, G3)) –(d(G1. , G2) + d(G1. , G3)) = 2

G1

G2 G3

M

Calcul de la médianeAlgorithme de Bourque et Pevzner (MGR)

Page 12: Inférence de génomes ancestraux

Effectuer des inversions successivement sur G1, G2 et G3, jusqu’à arriver à une seule et même permutation M.

Les triplets qui peuvent être résolus en n’effectuant que des bonnes inversions sont appelés « triplets parfaits »

Afin d’augmenter les chances de ne pas arriver à une étape sans bonne inversions, la stratégie suivante est utilisée:À chaque ‘’bonne’’ étape, essayer toutes les bonnes

inversions, et effectuer celle qui donne lieu au plus de bonnes inversions à l’étape suivante.

Dans le cas où il n’y a pas de bonne inversion, effectuer une recherche de profondeur k dans l’espace de recherche de toutes les inversions possibles. Prendre la ‘’meilleure’’ suite d’inversions.

Calcul de la médianeAlgorithme de Bourque et Pevzner (MGR)

Page 13: Inférence de génomes ancestraux

Problèmes de l’approche globaleLa convergence de l’algorithme dépend

grandement de l’initialisation des nœuds internes. Blanchette et Sankoff proposent 3 initialisations possibles, basées sur la résolution du TSP à chaque nœud. Moret et al. 2001 proposent 6 autres procédures.

L’efficacité de l’algorithme dépend grandement de la résolution de la médiane, qui est un problème NP, autant pour la distance de BP que pour la distance de réarrangement, et même la distance DCJ

Problème principal soulevé par Gordon et al. 2009 et Sankoff 2009: Grand nombre de solutions possibles « équivalentes » du point de vue de la distance.

Page 14: Inférence de génomes ancestraux

Approche localeApproche générale:

Inférer les gènes ancestrauxInférer un ensemble de conservation ancestrales de synténie (d’ordre)

Chaîner les synténies ancestrales pour former des CARs (Contiguous Ancestral Regions).

Synténies les plus simples à considérées: adjacences conservées.

Page 15: Inférence de génomes ancestraux

Approche localeMa et al. 2006Problème: Inférer le génome ancestral à un

nœud de spéciation donné.Ma J et al. Genome Res. 2006;16:1557-1565

Position of the Boreoeutherian ancestor.

Page 16: Inférence de génomes ancestraux

Approche localeMa et al. 2006Trouver pour, chaque gène, le scénario maximisant

le nombre d’adjacences conservées dans l’arbre.

x b x a x a x a

Page 17: Inférence de génomes ancestraux

Approche localeMa et al. 20061. Inférer le contenu de chaque nœud ancestral.

Soit g un gène et N le LCA de toutes les feuilles contenant g. Alors affecter g à tous les nœuds sur un chemin de N à une feuille contenant g.

Page 18: Inférence de génomes ancestraux

Approche localeMa et al. 20062. Inférer l’ensemble Pu (g) des adjacences

ancestrales (gauches et droites) potentielles de chaque gène g au nœud u. Méthode similaire à l’algorithme de Fitch. Procéder des feuilles vers la racine de l’arbre de la façon suivante:

Si u est une feuille, alors Pu(g) est simplement l’adjacence observée de g dans le génome associé à u;

Sinon, soient v et w les fils de u. Si l’intersection de Pv(g) et Pw(g) est vide, alors

Pu(g) est l’union des deux ensembles Sinon, Pu(g) est l’intersection de Pv(g) et Pw(g)

Page 19: Inférence de génomes ancestraux

Approche localeMa et al. 20062. Adjacences ancestrales potentielles de

chaque gène g à chaque nœud de l’arbre

g b g a g a g c

P(g) = {a,c}

P(g) = {a,b}

P(g) = {a}

Page 20: Inférence de génomes ancestraux

Approche localeMa et al. 20063. Propager l’information de la racine au

nœud d’intérêt dans l’arbre de la façon suivante. Soit une branche (O,A) où O est le père de A. Pour tout gène g dans A:

Si PO(g) et PA(g) sont d’intersection non vide, alors remplacer PA(g) par cette intersection;

Sinon, PA(g) reste inchangé.

Page 21: Inférence de génomes ancestraux

Approche localeMa et al. 20063. Propager l’information de la racine au nœud

d’intérêt dans l’arbre de la façon suivante.

g b g a g a g c

P(g) = {a,c}

P(g) = {a,b}

P(g) = {a}

Page 22: Inférence de génomes ancestraux

Approche localeMa et al. 20063. Propager l’information de la racine au nœud

d’intérêt dans l’arbre de la façon suivante.

g b g a g a g c

P(g) = {a,c}

P(g) = {a}

P(g) = {a}

Suppression de b

Page 23: Inférence de génomes ancestraux

Approche localeMa et al. 20064. Un poids est associé à chaque adjacence. Calculé

récursivement, de bas en haut dans l’arbre.

g

a

c

L R

WA(g,a)

WA(g,c)

D (A,L)

A

D (A,R)

WL(g,a) WR(g,a)

Le poids WA(g,a) d’une adjacence (ga) au nœud A est calculé en fonction des valeurs WL(g,a)et WR(g,a) aux de la même adj. aux nœuds fils L et R de A, et des longueurs de branches D(A,L) et D(A,R).

Hypothèse considérée: une adjacence a plus de chance d’être cassée sur les longues branches.

Page 24: Inférence de génomes ancestraux

Approche localeMa et al. 20065. Pour retrouver les CARs encestraux, trouver

un ensemble de chemins recouvrant de poids maximum.

Page 25: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

L’algorithme a été conçut pour inférer des génomes pré-dupliqués ancestraux. Ici, je présente l’idée, sans duplications de génomes.

1.Inférer le contenu en gène des génomes ancestraux, comme dans Ma et al.

2.Pour chaque nœud interne x et chaque gène g, on considère TOUTES les adjacences droites et gauches potentielles de g, i.e. toutes celles observées aux feuilles.

Page 26: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

2. Considérer TOUTES les adjacences à chaque nœud.

g b g a g a g c

g ba

c

g ba

c

g ba

c

Page 27: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

3. Attribuer un poids à chaque adjacence potentielle ancestrale par une méthode rigoureuse. A chaque nœud interne x et pour chaque gène g, le poids attribué à une adjacence (droite ou gauche) (ga) représente le nombre maximum d’adjacences conservées de g dans l’arbre si g est adjacent à a au nœud x.

Page 28: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

3. Attribuer un poids à chaque adjacence ancestrale.

g b g a g a g c

g ba

c

Page 29: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

3. Attribuer un poids à chaque adjacence ancestrale.

g b g a g a g c

g ba

c

= 4g a

g a

0

1

1

1

01

Page 30: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

3. Attribuer un poids à chaque adjacence ancestrale.

g b g a g a g c

g ba

c

= 3

g b

g b

1

1

0

0

01

Page 31: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

3. Attribuer un poids à chaque adjacence ancestrale.

g b g a g a g c

g ba

c = 2

g a

g a

0

0

0

1

01

Page 32: Inférence de génomes ancestraux

Approche localeBertrand et al. 2010

3. Attribuer un poids à chaque adjacence ancestrale. Par programmation dynamique

w

u

v

p adjCons (a, X, u) : Nb d’adj. cons. de a dans T si a est adj. à X au noeud u. Calculé à partir de:- Lbelow (u,v,a,X): Nbre max d’adj. conservées de a sur la branche (u,v) et le sous-arbre de racine v, sous la condition que a est adj. à X au noeud u;- Lbelow (u,w,a,X);- Labove (p,u,a,X): Nbre max d’adj. conservées de a sur la branche (p,u) et le sous arbre de racine p, sous la condition que a est adj. à X au noeud u;

Page 33: Inférence de génomes ancestraux

Approche localeBertrand et al. 20104. Construction des CARs, similaire à Ma et

al.: Retrouver un ensemble de chemins recouvrant de poids minimum.

Algorithme glouton; Modélisation du problème sous la forme du

problème du voyageur de commerce (TSP).

Page 34: Inférence de génomes ancestraux

Forces et faiblesses de l’approche localeL’approche permet, pour chaque gène, de

maximiser son nombre d’adjacences conservées dans l’arbre. Mais le génome inféré n’est pas garanti d’être celui qui maximise les adjacences.

Généralement ne parvient pas à former des chromosomes entiers, seulement des « synténies ancestrales » (CARs)

Ne considère que les adjacences « observées » ou fortement supportées par les données.

En conclusion, donne moins d’informations que l’approche globale, mais prédictions plus sûres.