sélection doligonucléotides spécifiques à laide de familles de graines as indexation de texte et...

Sélection d’oligonucléotides Sélection d’oligonucléotides spécifiques à l’aide de familles de spécifiques à l’aide de familles de

graines graines

AS Indexation de Texte et Découverte de Motifs

Lina (Nantes)27-28 mai 2004

Laboratoire lorrain de recherche en Laboratoire lorrain de recherche en informatique et ses applications (LORIA)informatique et ses applications (LORIA)

Description du Laboratoire– Plus de 400 personnes– ~ 30 équipes de tailles variées (3-30 permanents) – 4 équipes ont des thèmes Bioinfo …

tant pis pour les autres ;-)

Place de la Bioinfo dans l’équipe ADAGE

PlanPlan

Introduction– Oligonucléotide– Spécificité

Filtrage– Méthodes proposées

Familles de graines– Principe– Design– Propriétés

Experimentations Conclusion

Problème poséProblème posé

Problème biologiqueOligonucléotide : fragment d’ADN de taille fixée qui ne s’apparie qu’avec une région déterminée sur une séquence cible.

Rechercher les oligonucléotides spécifiques à une séquence.

Design d’oligos • Puces à ADN.

Design d’amorces• PCR


Spécificité Etant données:

– Une séquence cible S– Une séquence de fond B

Trouver un motif de taille m qui s’apparie avec une région de S et aucune région de B


Comment définir un oligonucléotides spécifique?– C’est un fragment d’ADN M de taille fixée m.

– Il doit être spécifique : • s’apparier avec une région d’une séquence cible S

appariement exact

• être éloignée de tout fragment d’un séquence de fond B.

Représentation des similaritésReprésentation des similarités

On utilisera la représentation suivante simplifiée (distance de Hamming).

Le problème considéré sera appelé problème (m,k)

GCTACGACTTCGAGCTGC ||||x|||x||||||x||...CTCAGCTATGACCTCGAGCGGCCTATCTA...

mk(m,k)

M

B

ObjectifObjectif

Recherche dans la séquence cible S de tous les motifs spécifiques.– motifs spécifiques : ceux dont les variantes obtenues en substituant k lettres

ne sont pas retrouvées dans le texte B.

– faire appel à des techniques de Pattern-Matching approché (filtrage du texte).

Filtrage du texteFiltrage du texte

Filtrage considéré : filtrage sans perte. Éliminer les régions qui n’ont aucune chance d’être

similaires selon un critère donné.– Principe couramment adopté par de nombreuses méthodes de

Pattern-Matching approché.– En général basé sur la connaissance de sous-parties conservées.

Techniques traditionnellesTechniques traditionnelles

PEX[4] – Recherche du plus long fragment conservé.

PEX (avec erreurs)– Recherche du plus long fragment k’-conservé.

• parcours des mots k’-dérivés dans l’index. Efficace si– petites tailles d’alphabets (ADN,ARN)– nombre k’ relativement faible ( <= 2)

m

k

11

km

conservé'1

####

#########(1)

(m,k)

Techniques utilisant des graines espacées Techniques utilisant des graines espacées

Graines espacées (Q-grams espacés)– Technique étudiée par Burkhardt & Kärkkäinen[1] .

– Utilisées pour la recherches de motifs approchés (m,k) .– Méthode à la fois originale et satisfaisante.

Principe– Plutôt que rechercher des fragments contigus dans le texte, baser

sa recherche sur des fragments dits espacés.

– Sélectivité• Liée au poids de la graine (nombre d’éléments ’#’).• Différent de la notion d’envergure de la graine (sa taille).

###.##

ExempleExemple

Sur le problème (m=18,k=3)

###.##

###.##

###.##

###.## ###.## ###.##

Combinaison de FiltresCombinaison de Filtres

De nombreux algorithmes proposent une solution de double filtrage, et donnent comme mesure la sélectivité globale de l’ensemble des deux filtres.

Filtre 1

Filtre 2Q

T

Combinaison de filtresCombinaison de filtres

Combinaison de filtres améliore toujours la sélectivité théorique

En pratique, l’efficacité dépend de la sélectivité du premier filtre utilisé.

Filtre 1

Filtre 2

Techniques utilisant des graines espacéesTechniques utilisant des graines espacées

Technique utilisant une combinaison de deux filtres.Pevzner Waterman [2]

Idée: combiner le filtre PEX avec un filtre utilisant une graine espacée régulière (~PEX espacé).

– PEX :

– PEX espacé : utiliser une graine régulière ayant des espacements de taille k.

####

#...#...#...#

#...#...#...# #...#...#...# #...#...#...# #...#...#...#

#...#...#...# #...#...#...# #...#...#...# #...#...#...#

k+1

Extension de la méthode proposée par B&K[1]

– L’extension directe nous amènerait à utiliser une combinaison de filtres utilisant chacun une graine espacée différente.

– Approche pas très intéressante au niveau du gain en sélectivité : il vaut mieux s’orienter vers un seul filtre global même si ce dernier utilise plusieurs graines.

Famille de graines espacéesFamille de graines espacées


– L’extension proposée se base• Sur la mise en place d’un filtre global utilisant

plusieurs graines• Sur une conception des graines permettant de

garantir la complétude du filtre (filtrage sans perte).

– Chaque graine ne garantie de détecter qu’une partie des instances éventuelles d’un problème (m,k).

– L’ensemble de graines doit détecter toutes les instances possibles d’un problème (m,k).

Utiliser un ensemble de graines de manière disjonctiveUne famille de graines est un ensemble de s graines qui résout toutes les instances d’un problème (m,k).

Les graines d’une famille sont de même poids

Si elles étaient de poids différent, la plus « légère » serait la moins sélective et donc celle qui ralentirait l’algorithme.


Dans toute instance de (m,k), Il existe au moins une occurrence d’une des graines de la famille qui détecte cette instance

La famille F résoutle problème (m=18,k=3)

##.#.#######...#..##.#

F

Exemple

##.##.########.####..#####.##...#.#####....####.######...#.#.##.#####.#.#.#.....###


##.#.#######...#..##.#

###.##...#.###

###...#..##.# ###...#..##.#

Exemple

##.##.########.####..#####.##...#.#####....####.######...#.#.##.#####.#.#.#.....###


##.#.#######...#..##.#

###...#.#.##.## ##....####.######.#.#.#.....###

##.#.#### ##.#.####

Comparaison des différentes approches

– 1

– 2

– 3a

– 3b

– Sélectivité des approches sur des textes i.i.d (|Σ| = 4)• (1) Probabilité d’obtenir la même graine ~ 3.9 10-3

• (2) Probabilité d’obtenir la même graine ~ 9.8 10.-4

• (3a) Probabilité d’obtenir une de ces graines ~ 1.2 10.-4

• (3b) Probabilité d’obtenir une de ces graines ~ 2.3 10.-5

####

###.##

##.##.########.####..#####.##...#.#####....####.######...#.#.##.#####.#.#.#.....###


##.#.#######...#..##.#


Si l’on poussait l’approche à l’extrême… – Reviendrait à prendre graines de poids m - k.

sélectivité = 1 (filtre parfait), coûteux sauf sur très petits problèmes.

• construction d’index multiples (impossible à gérer en mémoire)

Une approche intermédiaire est, semble t-il, préférable– Nombre de graines suffisamment faible (< 10) pour générer un

index multiple de taille raisonnable.– Poids de graines suffisamment élevé pour obtenir une sélectivité

satisfaisante sur le texte considéré.

knC ~

Design des familles de grainesDesign des familles de graines

Recherche exhaustive proposée par B&K[1] – Construction de toutes les solutions de poids w à partir des

solutions de poids w – 1

– Exemplesi ##..#..# et ##.#...# sont solutions de poids w-1,

considérer la graine «union» ##.##..# de poids w.

– Coût élevé « 1 (bonne) semaine pour la recherche de toutes les solutions du problème (m=50,k=5) pour une seule graine »

• La dimension de recherche augmente avec le nombre de graines par famille.

peu d’espoir de résoudre complètement le problème au delà de 3 graines par famille.

Méthode proposée pour le designMéthode proposée pour le design

Algorithme réalisant le design d’une famille de graines– Données :

• Un problème (m,k)

• Une taille de famille s et le poids w des graines souhaitées

– Résultat :• éventuellement une famille de s graines de poids w résolvant

le problème (m,k)• Sinon la meilleure famille actuellement trouvée et le nombre

d’instances de (m,k) qui ne sont pas détectées par cette famille

Méthode développée: méthode heuristique.


Pré Filtrage

– On sélectionne des instance de (m,k) dites difficiles.– On teste des familles de graines aléatoires.

• Les instances sont réordonnées en fonction de leur succès à bloquer les familles de graines (méthode list as a tree).

• Les familles de graines qui ne satisfont pas l’une des instances sont éliminées.

– Bit-optimisation

des instances de (m,k)

des famillesde graines

sélectionnent et ordonnentsélectionnent

Evolution des grainesEvolution des graines

B&K : deux solutions de poids 12 pour le problème (m=50,k=5): ###.#..###.#..###.# et

#.#.#...#.....#.#.#...#.....#.#.#...#

Définition– On note le i espacement régulier d’une famille

de graines• Exemple

– Si F = { ###.# , ##.## } alors – = { #.#.#...# , #.#...#.# }– = { #..#..#.....# , #..#.....#..# }

Fi

F2F3

Evolution des grainesEvolution des graines

Propriétés– Si une famille F résout un problème (m,k) donné, alors

les familles F et résolvent le problème (i.m, i.k + k - 1)

– Si une famille résout un problème (m,k) alors son i contraction F résout le problème (m, )

Fi

Fi

ik

##.#.#######...#..##.#

##.#.#######...#..##.#

#.#...#...#.#.#.##.#.#.......#.....#.#...#


Optimisation

Algorithme génétique (optimisation stochastique)– Sélection de familles de graines résolvant le plus grand

nombre d’instances de (m,k)• évolution (par un certain nombre de techniques) des graines

constituant la famille• mesure du nombre d’instances de (m,k) non résolues

– Algorithme génétique : convergence vers solution optimale non garantie …

(et peu probable sur grandes instances)

Méthode proposée pour le design rapideMéthode proposée pour le design rapide

Optimisation

utilisation de motifs «courts» ayant de bonnes propriétés

concaténation de motifs pour former des graines.

###-#--###-#--###-#

###-#--

ExplicationsExplications

Le motif “court” résout un problème “circulaire”

Problème Circulaire (m=11,k=3)

Problème Linéaire (m’=30,k=3)

###-#--#---

###-#--#---###-#--#

Famille des graines espacéesFamille des graines espacées

La propriété de circularité s’applique également



###-#--#---

###-#--#---###-#--##--#---###-#--#---###


La propriété de circularité s’applique également



###-#--#---

###-#--#---###-#--# #--#---###-#--#---###

Mesure de l’efficacité des famillesMesure de l’efficacité des familles

Problèmes posés : – Mesurer le nombre d’instances non détectées par une famille.– Mesurer la contribution d’une graine sur le nombre d’instances

résolues.

Algorithme de programmation dynamique– Idée : ramener les instances des problèmes (m,k) à des sous

problèmes (m’< m, k’< k) en introduisant un mot connu w.– Ne pas parcourir les sous instances triviales ou amenant à des

résultats prévisibles par un pré-calcul.

w (m’,k’)

Mesure de l’efficacité des famillesMesure de l’efficacité des familles

Schéma général

Les mots w peuvent être de taille limitée– Span de la plus grande graine de la famille

– Ne conserver que le suffixe w[ |w| - spmax+1 .. w ] Pré-calcul

Considérer pour chaque mot w son plus grand suffixe qui peut donner lieu à un match.

G (w,m’,k’)G (w.1, m’+1 ,k’ )

G (w.0, m’+1 ,k’-1 )

w (m’,k’)

Résultats asymptotiquesRésultats asymptotiques

Principe :

On fixe le nombre d’erreurs autorisées k.

On fait varier la taille du motif m (vers l’infini).

poids de la graine optimale pour le problème (m,k) ?

Résultats asymptotiques sur le problème Résultats asymptotiques sur le problème ((mm,,kk)) circulaire circulaire

On considère le poids de la graine optimale w(m) d’un problème (m,k) circulaire (k fixé)

Nouvelles

Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0.

Mauvaise : c’est une convergence d’autant plus lente que k est grand

Résultats asymptotiques sur le problème Résultats asymptotiques sur le problème ((mm,,kk)) linéaire linéaire

On considère le poids de la graine optimale w(m) d’un problème (m,k) linéaire (k fixé)

Nouvelles

Bonne : le ratio entre le nombre de jokers de la graine et sa longueur totale tend vers 0.

Mauvaise : c’est une convergence d’autant plus lente que k est grand

RésultatsRésultats

Graines obtenues pour le problème (25,2)

Application à la recherche d’oligosApplication à la recherche d’oligos

La méthode proposée peut servir de filtre pour la recherche d’oligos spécifiques– Elle ne peut s’y substituer totalement

• Calcul de l’énergie libre (énergie de non hybridation) sur la séquence cible, et la séquence de fond (modèle de SantaLucia[3])

• En particulier, vérifier que l’oligo ne puisse pas se replier sur lui même.

– Elle ne représente qu’une heuristique pour la recherche de l’oligo optimal (en terme d’énergie de liaison)

• Il faut quelquefois considérer les erreurs de type indel.• l’oligo optimal (en terme de sélectivité) n’est pas

nécessairement le complémentaire exact.

PropriétésPropriétés

Garanties sur les résultats d’outils heuristiques.– Blast : garantie si la séquence contient un fragment similaire exact

de poids 11.– Pattern-Hunter : sensible mais garantie d’une graine est peu

compréhensible …– Yass : + sensible mais critère encore + confus donne une garantie

moins discernable …– Famille de graines : apporterait une garantie sur le résultat trouvé:

Garantie de trouver une répétition si elle contient un fragment commun de taille m ayant au plus k substitutions.Coût en sélectivité pas nécessairement plus élevé si les graines sont bien choisies.

ConclusionConclusion

Méthode de filtrage pour pattern-matching approché– Basée sur le design et l’utilisation d’une famille de graines

espacées.– Sélective en pratique mais nécessite un effort de calcul pour le

design des graines.

Extensions possibles– Considérer des graines espacées autorisant une erreur.

Problèmes ouverts– Un algorithme efficace pour le design de la famille de graines

optimale ?

RéférencesRéférences

[1] S. Burkhardt and J. Kärkkäinen, Better Filtering with Gapped q-Grams, Fundamenta Informaticae, 23:1001-1018 2003

[2] P.Pevzner and M.Waterman, Multiple Filtration and Approximate Pattern Matching, Algorithmica 13(1/2), 135-154 1995

[3] J.SantaLucia, A unified view of polymer and oligonucleotide DNA nearest-neighbor thermodynamics, Biochemistry 95:1460-1465 1998

[4] G.Navarro and M.Raffinot, Flexible Pattern Matching in Strings -- Practical on-line search algorithms for texts, Cambridge University Press 2002

[5] …

sélection doligonucléotides spécifiques à laide de familles de graines as indexation de texte et...

Documents