changement de représentation et alignement de séquences

24
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo

Upload: jaclyn

Post on 24-Jan-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Changement de représentation et alignement de séquences.. Hugues DELALIN. Encadrement: E. Mephu Nguifo. Plan. Présentation Etude comparative des codages des acides aminés Alignement de séquences. Présentation. CRIL = Apprentissage symbolique Bioinformatique: E. MEPHU NGUIFO H. FU - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Changement de représentation  et  alignement de séquences

Changement de représentation

et alignement de séquences.

Hugues DELALIN

Encadrement: E. Mephu Nguifo

Page 2: Changement de représentation  et  alignement de séquences

2

Plan

1. Présentation

2. Etude comparative des codages des acides aminés

3. Alignement de séquences

Page 3: Changement de représentation  et  alignement de séquences

3

Présentation

CRIL = Apprentissage symbolique

Bioinformatique:E. MEPHU NGUIFOH. FUH. DELALIN

Projets: Génopole Lille

Page 4: Changement de représentation  et  alignement de séquences

Etude comparative des codages des acides aminés

Huaiguo FU

Encadrement: E. MEPHU NGUIFO

Page 5: Changement de représentation  et  alignement de séquences

5

Codage des Acides Aminés

• Idée: Stocker des informations en plus du caractère.Ex: Alanine = A = 65 (ASCII)= 01000001

• But: Comparer 4 méthodes de représentation binaire des acides aminés afin de trouver la meilleure représentation possible.

Huaiguo FU[ Poster, ECCB’02 ]

Hyd

Cha

Pol Sma

Ali Aro

Ala 1 0 0 1 0 0

Page 6: Changement de représentation  et  alignement de séquences

6

• 2 codages basés sur les propriétés physico-chimiques des AAs:- Dickerson & Geis (1969)- Sallantin, Marlière & Saurin (1984)

• 2 codages obtenus par des méthodes d’intelligence artificielle (IA):- Gracy & Mephu- De la Maza (1994)

Codage des Acides AminésHuaiguo FU

[ Poster, ECCB’02 ]

Page 7: Changement de représentation  et  alignement de séquences

7

Méthode de comparaison:• Clusterisation de chaque

représentation (algorithme « Ward »)

• Analyse manuelle de chaque cluster.

• Validation grâce à l’algorithme C4.5

Codage des Acides AminésHuaiguo FU

[ Poster, ECCB’02 ]

Page 8: Changement de représentation  et  alignement de séquences

8

Résultats:- Les codages obtenus par apprentissage automatique peuvent refléter une certaine réalité biologique.

- Ce n’est pas forcément les codages basés sur les propriétés des AA qui les représentent le mieux.

Utilisation possible dans différentes applications

Codage des Acides AminésHuaiguo FU

[ Poster, ECCB’02 ]

Page 9: Changement de représentation  et  alignement de séquences

Alignement de séquences

Hugues DELALIN

Encadrement: E. MEPHU NGUIFO

Page 10: Changement de représentation  et  alignement de séquences

10

Alignement de séquences.

L’objectif de tels algorithmes est de révéler des régions proches.• Nécessité de mettre en œuvre des procédures de calcul et des modèles biologiques afin de quantifier la notion de ressemblance entre séquences.• On se base sur le principe de parcimonie.

Page 11: Changement de représentation  et  alignement de séquences

11

Calcul d’un score.

• Score peut mesurer rapprochement ou éloignement.

• Attribution d’un score élémentaire pour chaque position.

A T G C

A 1 0 0 0

T 0 1 0 0

G 0 0 1 0

C 0 0 0 1

Exemple:

A T T G C C : : : Score =

3 T T G C C C

A T T G C C : Score =

1 T T G C C C

A T T G C C : : : : : Score =

5 T T G C C C

Page 12: Changement de représentation  et  alignement de séquences

12

Gestion des gaps.

• Fixe : chaque insertion d’une base a le même coût.

• Affine : définition d’un coût de création de gap et d’un coût d’extension.

• Variable en fonction de l’endroit où on se trouve dans la séquence. (Argos et Vingron, 1990)

Page 13: Changement de représentation  et  alignement de séquences

13

Remarques:

• Le score d’un alignement dépend de la longueur de la zone de similitude que l’on considère.

• On peut nuancer le calcul du score en donnant plus ou moins d’importance aux pénalités et aux associations possibles entre résidus.

Page 14: Changement de représentation  et  alignement de séquences

14

Matrices de substitution.

• Séquences d’ADN:- coût d’un « match » > 0.- coût d’un « mismatch » < 0.

• Séquences protéiques:- matrices liées à l’évolution. (Dayhoff et al., 1978) (PAM)

(Jones et al., 1992)- matrices liées aux caractéristiques physico-chimiques. (Henikoff et Henikoff, 1992) (BLOSUM)

Page 15: Changement de représentation  et  alignement de séquences

15

Needleman & Wunsh (1970).

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -3S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

nyj

mxi

PyiS

PjxS

jiS

jisejiS

2

2 avec

),1(

)1,(

)1,1(

max),(),(

Page 16: Changement de représentation  et  alignement de séquences

16

Needleman & Wunsh (1970).

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -3S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 5 1 -2E -2 0 4 4 -1 7 2 -5A 0 1 0 0 -2 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

nyj

mxi

PyiS

PjxS

jiS

jisejiS

2

2 avec

),1(

)1,(

)1,1(

max),(),(

Page 17: Changement de représentation  et  alignement de séquences

17

Needleman & Wunsh (1970).

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -3S -1 1 0 0 7 0 1 -3H -2 -1 1 1 2 5 1 -2E -2 0 4 4 -1 7 2 -5A 0 1 0 0 -2 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

nyj

mxi

PyiS

PjxS

jiS

jisejiS

2

2 avec

),1(

)1,(

)1,1(

max),(),(

Page 18: Changement de représentation  et  alignement de séquences

18

Needleman & Wunsh (1970).

V T E E R D A FL 14 7 6 6 4 4 0 2T 10 12 9 9 6 4 3 -3S 8 10 9 9 7 4 3 -3H 6 7 9 8 9 5 1 -2E 2 4 8 8 3 7 2 -5A 2 3 2 2 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

nyj

mxi

PyiS

PjxS

jiS

jisejiS

2

2 avec

),1(

)1,(

)1,1(

max),(),(

Page 19: Changement de représentation  et  alignement de séquences

19

Needleman & Wunsh (1970).

V T E E R D A FL 14 7 6 6 4 4 0 2T 10 12 9 9 6 4 3 -3S 8 10 9 9 7 4 3 -3H 6 7 9 8 9 5 1 -2E 2 4 8 8 3 7 2 -5A 2 3 2 2 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

Résultat: VT-EERDAFLTSHE--AL

Page 20: Changement de représentation  et  alignement de séquences

20

Utilisation des représentations binaires.

• On utilise les algorithmes classiques.• Les scores élémentaires ne sont plus

obtenus grâce à une matrice de substitution.

• Une opération booléenne entre les représentations des 2 acides aminés que l’on compare sert de base au calcul des scores élémentaires.

Page 21: Changement de représentation  et  alignement de séquences

21

Choix de l’opérateur booléen.

• ET logique si on ne s’intéresse qu’à la présence des attributs.

• XOR: le OU exclusif si on s’intéresse autant à l’absence qu’à la présence des attributs.

Exemple:

A → 0001 ; L → 0011

A ET L→ 0001

A ¬XOR L → 1101

Page 22: Changement de représentation  et  alignement de séquences

22

Exemple de résultat:

Algorithme de Smith et Waterman (1981)

(b) BINALIGN (Gracy & Mephu, 12 attributs)Identité: 54/221 (24.4%)Gaps:42/221 (19.0%)

d1qqp1_ 1 TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTDVSFIM_DRFVKVT 43

|||...|...|| . |.|.. |..|. ...|......|.. ..|..||

d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQAERFFKTHLFDWVT 71

(a) EMBOSS (BLOSUM62)Identité: 34/173 (19.7%)Gaps:55/173 (31,8%)

d1qqp1_ 1 TTSAGESADPVT---TTVENY-------GGETQIQRRQHTDVSFIMDRFV 40

|||..:|:..|| .|.|:: |.||::.: .:||.

d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ---------AERFF 62

Page 23: Changement de représentation  et  alignement de séquences

23

Perspectives

• Coût en temps d’exécution et espace mémoire.

• Mesure de la qualité des alignements obtenus à partir de :- bases connues (CASA, SCOP)- alignements corrigés manuellement.

• Alignement de structures (DSSP).

Page 24: Changement de représentation  et  alignement de séquences

24

Références

• Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C. SCOP: a structural classification of proteins database. Nucleic Acids Res. 1999 27:254-256.http://scop.mrc-lmb.cam.ac.uk/scop/

• Kabsch W. & Sander C. Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features, Biopolymers. 1983 22:2577-2637.http://www.sander.ebi.ac.uk/dssp/

• Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL Jr. CASA: A Server for The Critical Assessment of Sequence Alignment Accuracy, Bioinformatics. Submitted.http://capb.dbi.udel.edu/casa/