sélection doligonucléotides spécifiques à laide de familles de graines as indexation de texte et...

58
Sélection d’oligonucléotides Sélection d’oligonucléotides spécifiques à l’aide de familles de spécifiques à l’aide de familles de graines graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Upload: eugenie-papin

Post on 04-Apr-2015

106 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Sélection d’oligonucléotides Sélection d’oligonucléotides spécifiques à l’aide de familles de spécifiques à l’aide de familles de

graines graines

AS Indexation de Texte et Découverte de Motifs

Lina (Nantes)27-28 mai 2004

Page 2: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Laboratoire lorrain de recherche en Laboratoire lorrain de recherche en informatique et ses applications (LORIA)informatique et ses applications (LORIA)

Description du Laboratoire– Plus de 400 personnes– ~ 30 équipes de tailles variées (3-30 permanents) – 4 équipes ont des thèmes Bioinfo …

tant pis pour les autres ;-)

Place de la Bioinfo dans l’équipe ADAGE

Page 3: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

PlanPlan

Introduction– Oligonucléotide– Spécificité

Filtrage– Méthodes proposées

Familles de graines– Principe– Design– Propriétés

Experimentations Conclusion

Page 4: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Problème poséProblème posé

Problème biologiqueOligonucléotide : fragment d’ADN de taille fixée qui ne s’apparie qu’avec une région déterminée sur une séquence cible.

Rechercher les oligonucléotides spécifiques à une séquence.

Design d’oligos • Puces à ADN.

Design d’amorces• PCR

Page 5: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Problème poséProblème posé

Spécificité Etant données:

– Une séquence cible S– Une séquence de fond B

Trouver un motif de taille m qui s’apparie avec une région de S et aucune région de B

Page 6: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Problème poséProblème posé

Comment définir un oligonucléotides spécifique?– C’est un fragment d’ADN M de taille fixée m.

– Il doit être spécifique : • s’apparier avec une région d’une séquence cible S

appariement exact

• être éloignée de tout fragment d’un séquence de fond B.

Page 7: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Représentation des similaritésReprésentation des similarités

On utilisera la représentation suivante simplifiée (distance de Hamming).

Le problème considéré sera appelé problème (m,k)

GCTACGACTTCGAGCTGC ||||x|||x||||||x||...CTCAGCTATGACCTCGAGCGGCCTATCTA...

mk(m,k)

M

B

Page 8: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ObjectifObjectif

Recherche dans la séquence cible S de tous les motifs spécifiques.– motifs spécifiques : ceux dont les variantes obtenues en substituant k lettres

ne sont pas retrouvées dans le texte B.

– faire appel à des techniques de Pattern-Matching approché (filtrage du texte).

Page 9: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Filtrage du texteFiltrage du texte

Filtrage considéré : filtrage sans perte. Éliminer les régions qui n’ont aucune chance d’être

similaires selon un critère donné.– Principe couramment adopté par de nombreuses méthodes de

Pattern-Matching approché.– En général basé sur la connaissance de sous-parties conservées.

Page 10: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Techniques traditionnellesTechniques traditionnelles

PEX[4] – Recherche du plus long fragment conservé.

PEX (avec erreurs)– Recherche du plus long fragment k’-conservé.

• parcours des mots k’-dérivés dans l’index. Efficace si– petites tailles d’alphabets (ADN,ARN)– nombre k’ relativement faible ( <= 2)

m

k

11

km

conservé'1

####

#########(1)

(m,k)

Page 11: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Techniques utilisant des graines espacées Techniques utilisant des graines espacées

Graines espacées (Q-grams espacés)– Technique étudiée par Burkhardt & Kärkkäinen[1] .

– Utilisées pour la recherches de motifs approchés (m,k) .– Méthode à la fois originale et satisfaisante.

Principe– Plutôt que rechercher des fragments contigus dans le texte, baser

sa recherche sur des fragments dits espacés.

– Sélectivité• Liée au poids de la graine (nombre d’éléments ’#’).• Différent de la notion d’envergure de la graine (sa taille).

###.##

Page 12: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 13: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 14: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 15: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 16: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 17: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 18: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 19: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 20: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 21: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 22: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 23: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 24: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 25: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 26: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Page 27: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Combinaison de FiltresCombinaison de Filtres

De nombreux algorithmes proposent une solution de double filtrage, et donnent comme mesure la sélectivité globale de l’ensemble des deux filtres.

Filtre 1

Filtre 2Q

T

Page 28: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Combinaison de filtresCombinaison de filtres

Combinaison de filtres améliore toujours la sélectivité théorique

En pratique, l’efficacité dépend de la sélectivité du premier filtre utilisé.

Filtre 1

Filtre 2

Page 29: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Techniques utilisant des graines espacéesTechniques utilisant des graines espacées

Technique utilisant une combinaison de deux filtres.Pevzner Waterman [2]

Idée: combiner le filtre PEX avec un filtre utilisant une graine espacée régulière (~PEX espacé).

– PEX :

– PEX espacé : utiliser une graine régulière ayant des espacements de taille k.

####

#...#...#...#

#...#...#...# #...#...#...# #...#...#...# #...#...#...#

#...#...#...# #...#...#...# #...#...#...# #...#...#...#

k+1

Page 30: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Extension de la méthode proposée par B&K[1]

– L’extension directe nous amènerait à utiliser une combinaison de filtres utilisant chacun une graine espacée différente.

– Approche pas très intéressante au niveau du gain en sélectivité : il vaut mieux s’orienter vers un seul filtre global même si ce dernier utilise plusieurs graines.

Famille de graines espacéesFamille de graines espacées

Page 31: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Famille de graines espacéesFamille de graines espacées

– L’extension proposée se base• Sur la mise en place d’un filtre global utilisant

plusieurs graines• Sur une conception des graines permettant de

garantir la complétude du filtre (filtrage sans perte).

– Chaque graine ne garantie de détecter qu’une partie des instances éventuelles d’un problème (m,k).

– L’ensemble de graines doit détecter toutes les instances possibles d’un problème (m,k).

Page 32: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Utiliser un ensemble de graines de manière disjonctiveUne famille de graines est un ensemble de s graines qui résout toutes les instances d’un problème (m,k).

Les graines d’une famille sont de même poids

Si elles étaient de poids différent, la plus « légère » serait la moins sélective et donc celle qui ralentirait l’algorithme.

Famille de graines espacéesFamille de graines espacées

Dans toute instance de (m,k), Il existe au moins une occurrence d’une des graines de la famille qui détecte cette instance

La famille F résoutle problème (m=18,k=3)

##.#.#######...#..##.#

F

Page 33: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Exemple

##.##.########.####..#####.##...#.#####....####.######...#.#.##.#####.#.#.#.....###

Famille de graines espacéesFamille de graines espacées

##.#.#######...#..##.#

###.##...#.###

###...#..##.# ###...#..##.#

Page 34: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Exemple

##.##.########.####..#####.##...#.#####....####.######...#.#.##.#####.#.#.#.....###

Famille de graines espacéesFamille de graines espacées

##.#.#######...#..##.#

###...#.#.##.## ##....####.######.#.#.#.....###

##.#.#### ##.#.####

Page 35: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Comparaison des différentes approches

– 1

– 2

– 3a

– 3b

– Sélectivité des approches sur des textes i.i.d (|Σ| = 4)• (1) Probabilité d’obtenir la même graine ~ 3.9 10-3

• (2) Probabilité d’obtenir la même graine ~ 9.8 10.-4

• (3a) Probabilité d’obtenir une de ces graines ~ 1.2 10.-4

• (3b) Probabilité d’obtenir une de ces graines ~ 2.3 10.-5

####

###.##

##.##.########.####..#####.##...#.#####....####.######...#.#.##.#####.#.#.#.....###

Famille de graines espacéesFamille de graines espacées

##.#.#######...#..##.#

Page 36: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Famille de graines espacéesFamille de graines espacées

Si l’on poussait l’approche à l’extrême… – Reviendrait à prendre graines de poids m - k.

sélectivité = 1 (filtre parfait), coûteux sauf sur très petits problèmes.

• construction d’index multiples (impossible à gérer en mémoire)

Une approche intermédiaire est, semble t-il, préférable– Nombre de graines suffisamment faible (< 10) pour générer un

index multiple de taille raisonnable.– Poids de graines suffisamment élevé pour obtenir une sélectivité

satisfaisante sur le texte considéré.

knC ~

Page 37: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Design des familles de grainesDesign des familles de graines

Recherche exhaustive proposée par B&K[1] – Construction de toutes les solutions de poids w à partir des

solutions de poids w – 1

– Exemplesi ##..#..# et ##.#...# sont solutions de poids w-1,

considérer la graine «union» ##.##..# de poids w.

– Coût élevé « 1 (bonne) semaine pour la recherche de toutes les solutions du problème (m=50,k=5) pour une seule graine »

• La dimension de recherche augmente avec le nombre de graines par famille.

peu d’espoir de résoudre complètement le problème au delà de 3 graines par famille.

Page 38: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Méthode proposée pour le designMéthode proposée pour le design

Algorithme réalisant le design d’une famille de graines– Données :

• Un problème (m,k)

• Une taille de famille s et le poids w des graines souhaitées

– Résultat :• éventuellement une famille de s graines de poids w résolvant

le problème (m,k)• Sinon la meilleure famille actuellement trouvée et le nombre

d’instances de (m,k) qui ne sont pas détectées par cette famille

Méthode développée: méthode heuristique.

Page 39: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Méthode proposée pour le designMéthode proposée pour le design

Pré Filtrage

– On sélectionne des instance de (m,k) dites difficiles.– On teste des familles de graines aléatoires.

• Les instances sont réordonnées en fonction de leur succès à bloquer les familles de graines (méthode list as a tree).

• Les familles de graines qui ne satisfont pas l’une des instances sont éliminées.

– Bit-optimisation

des instances de (m,k)

des famillesde graines

sélectionnent et ordonnentsélectionnent

Page 40: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Evolution des grainesEvolution des graines

B&K : deux solutions de poids 12 pour le problème (m=50,k=5): ###.#..###.#..###.# et

#.#.#...#.....#.#.#...#.....#.#.#...#

Définition– On note le i espacement régulier d’une famille

de graines• Exemple

– Si F = { ###.# , ##.## } alors – = { #.#.#...# , #.#...#.# }– = { #..#..#.....# , #..#.....#..# }

Fi

F2F3

Page 41: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Evolution des grainesEvolution des graines

Propriétés– Si une famille F résout un problème (m,k) donné, alors

les familles F et résolvent le problème (i.m, i.k + k - 1)

– Si une famille résout un problème (m,k) alors son i contraction F résout le problème (m, )

Fi

Fi

ik

##.#.#######...#..##.#

##.#.#######...#..##.#

#.#...#...#.#.#.##.#.#.......#.....#.#...#

Page 42: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Méthode proposée pour le designMéthode proposée pour le design

Optimisation

Algorithme génétique (optimisation stochastique)– Sélection de familles de graines résolvant le plus grand

nombre d’instances de (m,k)• évolution (par un certain nombre de techniques) des graines

constituant la famille• mesure du nombre d’instances de (m,k) non résolues

– Algorithme génétique : convergence vers solution optimale non garantie …

(et peu probable sur grandes instances)

Page 43: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Méthode proposée pour le design rapideMéthode proposée pour le design rapide

Optimisation

utilisation de motifs «courts» ayant de bonnes propriétés

concaténation de motifs pour former des graines.

###-#--###-#--###-#

###-#--

Page 44: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ExplicationsExplications

Le motif “court” résout un problème “circulaire”

Problème Circulaire (m=11,k=3)

Problème Linéaire (m’=30,k=3)

###-#--#---

###-#--#---###-#--#

Page 45: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Famille des graines espacéesFamille des graines espacées

La propriété de circularité s’applique également

Problème Circulaire (m=11,k=3)

Problème Linéaire (m’=25,k=3)

###-#--#---

###-#--#---###-#--##--#---###-#--#---###

Page 46: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Famille de graines espacéesFamille de graines espacées

La propriété de circularité s’applique également

Problème Circulaire (m=11,k=3)

Problème Linéaire (m’=25,k=3)

###-#--#---

###-#--#---###-#--# #--#---###-#--#---###

Page 47: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Mesure de l’efficacité des famillesMesure de l’efficacité des familles

Problèmes posés : – Mesurer le nombre d’instances non détectées par une famille.– Mesurer la contribution d’une graine sur le nombre d’instances

résolues.

Algorithme de programmation dynamique– Idée : ramener les instances des problèmes (m,k) à des sous

problèmes (m’< m, k’< k) en introduisant un mot connu w.– Ne pas parcourir les sous instances triviales ou amenant à des

résultats prévisibles par un pré-calcul.

w (m’,k’)

Page 48: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Mesure de l’efficacité des famillesMesure de l’efficacité des familles

Schéma général

Les mots w peuvent être de taille limitée– Span de la plus grande graine de la famille

– Ne conserver que le suffixe w[ |w| - spmax+1 .. w ] Pré-calcul

Considérer pour chaque mot w son plus grand suffixe qui peut donner lieu à un match.

G (w,m’,k’)G (w.1, m’+1 ,k’ )

G (w.0, m’+1 ,k’-1 )

w (m’,k’)

Page 49: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Résultats asymptotiquesRésultats asymptotiques

Principe :

On fixe le nombre d’erreurs autorisées k.

On fait varier la taille du motif m (vers l’infini).

poids de la graine optimale pour le problème (m,k) ?

Page 50: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Résultats asymptotiques sur le problème Résultats asymptotiques sur le problème ((mm,,kk)) circulaire circulaire

On considère le poids de la graine optimale w(m) d’un problème (m,k) circulaire (k fixé)

Nouvelles

Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0.

Mauvaise : c’est une convergence d’autant plus lente que k est grand

Page 51: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Résultats asymptotiques sur le problème Résultats asymptotiques sur le problème ((mm,,kk)) linéaire linéaire

On considère le poids de la graine optimale w(m) d’un problème (m,k) linéaire (k fixé)

Nouvelles

Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0.

Mauvaise : c’est une convergence d’autant plus lente que k est grand

Page 52: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

RésultatsRésultats

Graines obtenues pour le problème (25,2)

Page 53: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

RésultatsRésultats

Graines obtenues pour le problème (25,3)

Page 54: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

Application à la recherche d’oligosApplication à la recherche d’oligos

La méthode proposée peut servir de filtre pour la recherche d’oligos spécifiques– Elle ne peut s’y substituer totalement

• Calcul de l’énergie libre (énergie de non hybridation) sur la séquence cible, et la séquence de fond (modèle de SantaLucia[3])

• En particulier, vérifier que l’oligo ne puisse pas se replier sur lui même.

– Elle ne représente qu’une heuristique pour la recherche de l’oligo optimal (en terme d’énergie de liaison)

• Il faut quelquefois considérer les erreurs de type indel.• l’oligo optimal (en terme de sélectivité) n’est pas

nécessairement le complémentaire exact.

Page 55: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

RésultatsRésultats

Graines obtenues pour le problème (32,5)

Page 56: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

PropriétésPropriétés

Garanties sur les résultats d’outils heuristiques.– Blast : garantie si la séquence contient un fragment similaire exact

de poids 11.– Pattern-Hunter : sensible mais garantie d’une graine est peu

compréhensible …– Yass : + sensible mais critère encore + confus donne une garantie

moins discernable …– Famille de graines : apporterait une garantie sur le résultat trouvé:

Garantie de trouver une répétition si elle contient un fragment commun de taille m ayant au plus k substitutions.Coût en sélectivité pas nécessairement plus élevé si les graines sont bien choisies.

Page 57: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

ConclusionConclusion

Méthode de filtrage pour pattern-matching approché– Basée sur le design et l’utilisation d’une famille de graines

espacées.– Sélective en pratique mais nécessite un effort de calcul pour le

design des graines.

Extensions possibles– Considérer des graines espacées autorisant une erreur.

Problèmes ouverts– Un algorithme efficace pour le design de la famille de graines

optimale ?

Page 58: Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) 27-28 mai 2004

RéférencesRéférences

[1] S. Burkhardt and J. Kärkkäinen, Better Filtering with Gapped q-Grams, Fundamenta Informaticae, 23:1001-1018 2003

[2] P.Pevzner and M.Waterman, Multiple Filtration and Approximate Pattern Matching, Algorithmica 13(1/2), 135-154 1995

[3] J.SantaLucia, A unified view of polymer and oligonucleotide DNA nearest-neighbor thermodynamics, Biochemistry 95:1460-1465 1998

[4] G.Navarro and M.Raffinot, Flexible Pattern Matching in Strings -- Practical on-line search algorithms for texts, Cambridge University Press 2002

[5] …