�
2016年度「バイオインフォマティクス」講義予定表
1. 配列アライメント(五斗) 2. データベースサーチ(五斗) 3. 機能・構造予測(五斗) 4. 配列モチーフ・隠れマルコフモデル(五斗) 5. アセンブリとマッピング(Blanc-Mathieu) 6. 分子進化(緒方) 7. 分子系統解析(緒方) 8. 分子系統解析【演習】(Blanc-Mathieu) 9. 遺伝子予測(緒方) 10. 機能アノテーション・比較ゲノム(緒方) 11. システムズバイオロジー(五斗) 12. メタゲノム解析(緒方) 13. メタゲノム解析(緒方)
http://goto.kuicr.kyoto-u.ac.jp/lecture/bioinfo.html 1
本日のトピック
2
マルチプルアライメント n 多数の配列を並べて同時に比較
配列モチーフ:パターン表現 n 共通の機能を持つ遺伝子で保存されている領域
配列モチーフ:プロファイル表現
マルチプルアライメント
3
マルチプルアライメントとは n 多数の配列を並べて同時に比較 マルチプルアライメントが利用される局面 n 特定配列グループの機能的に重要な部位の同定
w ファミリー共通のモチーフ探索 n 配列相互の進化的関連の解析
w 系統樹解析 n その他
w RNAやタンパク質の高次構造予測 w 相同遺伝子のフラグメントからPCRプライマーを設計 進化的な関係があることが予め分かっている 多数の配列間の関係を調べる方法�
マルチプルアライメントの例
4
E.coli EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQA H.influenzae EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQA X.fastidiosa EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQA Buchnera EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHV S.aureus NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDA A.thaliana MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQA H.pylori FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDI T.whipplei LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI . ::**** **.: : . E.coli QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAF H.influenzae QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAF X.fastidiosa QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDF Buchnera QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEF S.aureus NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---V A.thaliana QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EF H.pylori YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENF T.whipplei VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :* .
トリオースリン酸イソメラーゼ(TIM)の一部
FASTA のアライメントでは
5
10 20 30 40 50 60 eco:b3 MRHPLVMGNWKLNGSRHMVHELVSNL-----RKELAGVAGCAVAIAPPEMYIDMAKREAEGSHIMLGAQN :: :.. ::::.: . . ....:. : ::. .: :: :: . . . .:.: .: :::: sav:SA MRTPIIAGNWKMNKTVQEAKDFVNALPTLPDSKEVESVI-CAPAIQLDALTTAVKEGKAQGLEI--GAQN 10 20 30 40 50 60 70 80 90 100 110 120 130 eco:b3 VDLNLSGAFTGETSAAMLKDIGAQYIIIGHSERRTYHKESDELIAKKFAVLKEQGLTPVLCIGETEAENE . .. .:::::::: . : :.:..:..::::::: .:.:: : :: .. ..:.::..:.:::. : : sav:SA TYFEDNGAFTGETSPVALADLGVKYVVIGHSERRELFHETDEEINKKAHAIFKHGMTPIICVGETDEERE 70 80 90 100 110 120 130 140 150 160 170 180 190 200 eco:b3 AGKTEEVCARQIDAVLKTQGAAAFEGAVIAYEPVWAIGTGKSATPAQAQAVHKFIRDHIAKVDAN-IAEQ .::...: ..:. .. . ....::::::.::::::::.: .:. . :.:. :: .... ..: sav:SA SGKANDVVGEQVKKAVAGLSEDQLKSVVIAYEPIWAIGTGKSSTSEDANEMCAFVRQTIADLSSKEVSEA 140 150 160 170 180 190 200 210 220 230 240 250 eco:b3 VIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAFAVIVKAAEAAKQA . :::::::. .: : .:: :::::::::::::.. :. ....:. sav:SA TRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLKVEDFVQLLEGAK 210 220 230 240 250
大腸菌 (eco) と黄色ブドウ球菌 (sav) の TIM
マルチプルアライメント法
6
ダイナミックプログラミングの多次元化 n n本の配列であれば、n次元空間でDPをかける
w 時間的空間的制約が厳しい 累進法 (Progressive method) n 逐次的にアライメントの数を増やす n 例:ClustalW http://www.genome.jp/tools/clustalw 反復改善法 (Iterative method) n 2つのグループに分けてグループ間のアライメント n 乱数でグループ分けをし直してアライメントし、評価値を改善していく
n 例:PRRN http://www.genome.jp/tools/prrn/
累進法
7
すべての組み合わせのペアについて、ペアワイズアライメントで距離行列を作成する。 距離行列からガイドツリーを作成する。 n 配列の類似度をもとにクラスタ解析 ガイドツリーの枝の順番にアライメントを行う → ツリーベース法ともいう。 n 近いものから順にペアワイズアライメント n 配列と配列,配列とグループ,グループとグループ n 評価関数はグループ間でのすべての配列ペアの類似度の総和 高速だが最初に発生したエラーは残ってしまう
距離行列とクラスタ解析
8
階層型クラスタリング n 近いものから順に組み合わせる方法。
n 近さの基準の例 w 最短距離法:クラスタ間の距離に要素間の距離のうち最短のものを使う
w 最長距離法:クラスタ間の距離に要素間の距離のうち最長のものを使う
w UPGMA:クラスタ間の距離に要素間の距離の平均を使う
w 近隣結合法:全体の距離が最短になるような組み合わせを使う
距離行列の例: A, B, C, D, E 5本のアミノ酸配列すべての組み合わせで 配列の近さを計算(例えばスコアの逆数を使う)
�� A,B� C� D,E�
A,B� �� �� ��
C� 3� �� ��
D,E� 5� 2� ��
最短距離法
9
A B C D E 1 1
2 3
A B C D EAB 1C 3 3D 5 5 2E 6 7 5 1
�� A,B� C� D,E�
A,B� �� �� ��
C� 3� �� ��
D,E� 7� 5� ��
最長距離法
10
A B C D E
1 1
7 3
A B C D EAB 1C 3 3D 5 5 2E 6 7 5 1
ガイドツリー
ガイドツリーに基づいて段階的にアライメント
11
LRRARTASA LRGARAAAE
LRR-ARTASAL-RGARAAAE
DWRGRTASGLWRDGRGALQ LWRGGRGAAQ
LWRDGRGALQLWRGGRGAAQ
LWRDGRGALQLWRGGRGAAQDWR-GRTASG
クラスタ間のアライメント
12
L W R D G R G A L QL W R G G R G A A QD W R - G R T A S G
L R R - A R T A S A
L - R G A R A A A E
DP で計算する
4 * S(L,L) + 2 * S(L,D)
スコア関数 クラスタ間のアミノ酸スコアの組み合わせ (Sum of Pairs)
ClustalWでは Sum of Pairs を重み付きで計算する
アライメントスコア
13
全体のスコアは各列のスコアの和で計算する ∑S(mi)
各列のスコア計算 SP (Sum of Pairs) スコア S(mi)=∑k<l s(mi
k,mil) (mi
k = i列, k行目の文字)
最小エントロピースコア S(mi) = -∑cia log pia���(cia= i 列における a の出現回数,� pia = i 列における a の生起確率)
�
練習問題 4-1
14
クラスタ間のアライメント
BLOSUM50 BLOck SUbstitution Matrices
Ala 1Arg -5 7Asn -5 -1 7Asp -5 -2 2 8Cys -5 -4 -2 -4 13Gln -5 1 0 0 -3 7Glu -5 0 0 2 -3 2 6Gly -5 -3 0 -1 -3 -2 -3 8His -5 0 1 -1 -3 1 0 -2 10Ile -5 -4 -3 -4 -2 -3 -4 -4 -4 5Leu -5 -3 -4 -4 -2 -2 -3 -4 -3 2 5Lys -5 3 0 -1 -3 2 1 -2 0 -3 -3 6Met -5 -2 -2 -4 -2 0 -2 -3 -1 2 3 -2 7Phe -5 -3 -4 -5 -2 -4 -3 -4 -1 0 1 -4 0 8Pro -5 -3 -2 -1 -4 -1 -1 -2 -2 -3 -4 -1 -3 -4 10Ser -5 -1 1 0 -1 0 -1 0 -1 -3 -3 0 -2 -3 -1 5Thr -5 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 2 5Trp -5 -3 -4 -5 -5 -1 -3 -3 -3 -3 -2 -3 -1 1 -4 -4 -3 15Tyr -5 -1 -2 -3 -3 -1 -2 -3 2 -1 -1 -2 0 4 -3 -2 -2 2 8Val -5 -3 -3 -4 -1 -3 -3 -4 -4 4 1 -3 1 -1 -3 -2 0 -3 -1 5 A R N D C Q E G H I L K M F P S T W Y V
反復改善法
15
複数配列をランダムに二つのグループに分け,グループ間のアライメントを行う グループの再結合を行い,新たなランダム分割を行う 評価関数の値 (Weighted Sum of Pairs) が一定値に収束するまで繰り返す PRRN では Doubly Nested Randamized iterative method を用いる n DNR: 二重反復改善法 n アライメント→系統樹→重みづけ→反復改善法 多少時間はかかるが累進法よりも良い結果が得られることが多い
その他のマルチプルアライメントプログラム
16
MAFFT n フーリエ変換を用いて高速化。 n 累進法と反復改善法の両方に対応。 n http://www.genome.jp/tools/mafft/ T-COFFEE n 累進法 n http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_cgi/index.cgi ProbCons n 反復改善法 n http://probcons.stanford.edu/ MUSCLE n 累進法+反復改善法
本日のトピック
17
マルチプルアライメント n 多数の配列を並べて同時に比較
配列モチーフ:パターン表現 n 共通の機能を持つ遺伝子で保存されている領域
配列モチーフ:プロファイル表現
配列モチーフ
18
機能ドメイン(機能部位) n 機能的,構造的に重要な部位 は進化の過程で保存される傾向がある
n 進化的に保存された ドメイン
配列モチーフ n 機能ドメイン中の特徴的な 保存配列パターン n マルチプルアライメント から抽出
配列モチーフの表現方法 n パターン n プロファイル
機能ドメインの例
19
タンパク質 n ペプチド鎖切断部位 n リン酸や糖鎖などの修飾部位 n シグナル配列 n DNA結合部位、リガンド結合部位
RNA n スプライス部位:GU/AGルール n 翻訳開始点
DNA n 複製開始点 n プロモーター
ENCODE�
機能ドメインの例
20
亜鉛フィンガー DNA 結合部位 n PROSITE パターンの例�n C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H.
http://www.genome.jp/dbget-bin/www_bget?prosdoc:PDOC00028
ドメインからモチーフの抽出
21
E.coli EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQAH.influenzae EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQAX.fastidiosa EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQABuchnera EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHVS.aureus NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDAA.thaliana MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQAH.pylori FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDIT.whipplei LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI . ::**** **.: : .
E.coli QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAFH.influenzae QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAFX.fastidiosa QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDFBuchnera QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEFS.aureus NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---VA.thaliana QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EFH.pylori YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENFT.whipplei VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :* .
Triose phosphate isomerase (TIM) の活性部位 マルチプルアライメント
A-Y-E-P-[IVS]-[WS]-A-I-[GN]-[TS]-[GK] �配列パターン
データベースに登録されている配列パターンは[AVG]-[YLV]-E-P-[LIVMEPKST]-[WYEAS]-[SAL]-[IV]-[GN]-[TEKDVS]-[GKNAD]
�http://www.genome.jp/dbget-bin/www_bget?prosite:PS00171
配列パターン
22
保存配列をアミノ酸のパターンとして表現 n 正規表現による表現方法
w 文字列の集合を一つの文字列で表現する方法 n 例
w [AV]-Y-E-P-[LIVM]-W-[SA]-I-G-T-[GK]w C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
n x: 任意のアミノ酸 n x(2,4): 任意のアミノ酸が2~4個続く n []: この中のアミノ酸のどれか n {}: この中のアミノ酸以外のどれか
見た目に分かりやすいが、アミノ酸の出現頻度情報は失われてしまう
練習問題 4-2
23
マルチプルアライメントからのモチーフ(パターン)抽出
PROSITE でのパターン表現
24
POSITIVE: 機能部位に当該パターンを持つ配列の数 FALSE_POS: 機能部位を持たないが、パターンを持つ配列の数 FALSE_NEG: 機能部位を持つが、パターンを持たない配列の数�
n 機能部位の説明 n パターン n パターンを持つ配列のID
n 機能部位を持つ配列のID
n 短いパターンは偽陽性(False positive) の問題がある
PROSITE でのパターン表現
25
疑陽性が多いパターンは、SKIP-FLAG で区別できるようにしている
本日のトピック
26
マルチプルアライメント n 多数の配列を並べて同時に比較
配列モチーフ:パターン表現 n 共通の機能を持つ遺伝子で保存されている領域
配列モチーフ:プロファイル表現
頻度情報の導入
27
E.coli EEVCARQIDAVLKT----------------QGAAAFEGAVIAYEPVWAIGTGKSATPAQAH.influenzae EEVCARQIDAVINA----------------LGVEAFNGAVIAYEPIWAIGTGKSATPAQAX.fastidiosa EAILRAQLEPVLSL----------------VGSAGFARAVVAYEPIWAIGTGRTATPDQABuchnera EQVIQRQLNLILKN----------------LGTSAFKNIIIAYEPIWAIGTGVSADPEHVS.aureus NDVVGEQVKKAVAG----------------LSEDQLKSVVIAYEPIWAIGTGKSSTSEDAA.thaliana MDVVAAQTKAIADR----------------VTN--WSNVVIAYEPVWAIGTGKVASPAQAH.pylori FKAVKEFLSEQLEN----------------IDLN-YPNLVVAYEPIWAIGTKKSASLEDIT.whipplei LSRFRSVLSHLKAISDKKHSIGYALGSKTHFLDSDQLHMLVAYEPSSAINSGNCANSGDI . ::**** **.: : .
E.coli QAVHKFIRDHIAKVDAN-IAEQVIIQYGGSVNASNAAELFAQPDIDGALVGGASLKADAFH.influenzae QAVHAFIRGHIAAKSQA-VAEQVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKAPAFX.fastidiosa QAVHAFIRGEVAKADAR-IADSLPILYGGSVKPDNASELFSQPDVDGGLVGGASLVAEDFBuchnera QLIHVFIKNYILKYSSI-NRNDIIIQYGGSINHTNVKKFIEQPDINGLLIGNSSLSAKEFS.aureus NEMCAFVRQTIADLSSKEVSEATRIQYGGSVKPNNIKEYMAQTDIDGALVGGASLK---VA.thaliana QEVHDELRKWLAKNVSADVAATTRIIYGGSVNGGNCKELGGQADVDGFLVGGASLKP-EFH.pylori YLTHGFLKQILN--------QKTPLLYGGSVNTQNAKEILGIDSVDGLLIGSASWELENFT.whipplei VRMAAAIKDIVN----------VRVLYGGGVNLFNASAVFNEDLLDGILVGRASLNASDF :: : : ***.:: * ::* *:* :* .
Triose phosphate isomerase (TIM) の活性部位
V: 2/8 I: 5/8 S: 1/8 + pseudocount
A-Y-E-P-[IVS]-[WS]-A-I-[GN]-[TS]-[GK] �
配列プロファイル
28
マルチプルアライメントの各残基位置のアミノ酸出現頻度をカウント Pseudocount などを導入して正規化 表現方法 n 位置特異的スコアマトリックス(PSSM: Position Specific Score Matrix または SSSM: Site Specific Score Matrix)
n 隠れマルコフモデル n ブロック
配列プロファイル:位置特異的スコアマトリックス
29
位置 i におけるアミノ酸 j の出現頻度
n n(i,j) : 位置 i においてアミノ酸 j が出現した個数 n N : アライメントに含まれる配列の本数
位置 i におけるアミノ酸 j のスコア
n P(j) : アライメントを構築している配列全体またはデータベース全体から得られるアミノ酸組成
配列プロファイル:位置特異的スコアマトリックス
30
PROSITE Profile
SY: コンセンサス M: マトリックス
SY�位置1 2 3 4 :
配列プロファイル:隠れマルコフモデル
31
m0 m1 m2 m3 m4 m5
i0 i1 i2 i3 i4
d1 d2 d3 d4
隠れマルコフモデル(HMM: Hidden Markov Model) 1次のマルコフモデル+隠れ状態確率 プロファイルの長さを決めてモデル化
マッチ状態
挿入状態
欠失状態
配列プロファイル:隠れマルコフモデル
32
隠れマルコフモデル ≒ 有限オートマトン+確率 ・状態とその間をつなぐ遷移確率がある。 ・状態から出力される記号は確率的に決まる。
出力記号集合Σ 状態集合 S={1,2,…,n} 遷移確率(状態 k → 状態 l )ak,l 出力確率 ek(b)
3
2
1
0.4
0.6 A: 0.2 B: 0.8
0.3
0.5
0.7 0.5
A: 0.1 B: 0.9
A: 0.9 B: 0.1
配列プロファイル:隠れマルコフモデル
33
隠れマルコフモデルのアルゴリズム
Viterbi アルゴリズム 出力記号列から状態列を推定 BABBABBが観測された時どの経路を通った可能性が一番高いか?
3
2
1
0.4
0.6 A: 0.2 B: 0.8
0.3
0.5
0.7 0.5
A: 0.1 B: 0.9
A: 0.9 B: 0.1
BABBABB� 1312312
隠れマルコフモデルの Viterbi アルゴリズム
34
3
2
1
0.4
0.6 A: 0.2 B: 0.8
0.3
0.5
0.7 0.5
A: 0.1 B: 0.9
A: 0.9 B: 0.1
BABBABB� 1312312
v(l,i) の定義:状態 l において、配列x1,x2,…xi が観測されている時の最大確率
今、BABBABB が観測されたとして、v(3,2) は状態3の時点で BA が観測されている最大確率
隠れマルコフモデルの Viterbi アルゴリズム
35
k1
l
el(xi)
v(l,i) を与える直前の状態を kmax、そこまでの確率を pmax とすると、
v(l,i) = pmax × akmax,l × el(xi) 各々の k に対して、ak,l は一定
k2
kmax
k4
v(l,i)�
ekmax(xi-1) akmax,l�
pmax = v(kmax,i-1)�
状態 l につながる直前の状態 k�
隠れマルコフモデルの Viterbi アルゴリズム
36
v(l,i) を与える直前の状態を kmax、そこまでの確率を pmax とすると、
v(l,i) = pmax × akmax,l × el(xi) 各々の k に対して、ak,l は一定
v(l, i) =0 if i = 0 and l ≠ 01 if i = 0 and l = 0el (xi )maxk (v(k, i−1)× ak,l )
$
%&
'&
各状態 l と i 番目について、最大スコア v(l,i) と方角 ptr(l,i) を記録しておく(ダイナミックプログラミング)。�
隠れマルコフモデルの Viterbi アルゴリズム
37
3
2
1
0.4
0.6 A: 0.2 B: 0.8
0.3
0.5
0.7 0.5
A: 0.1 B: 0.9
A: 0.9 B: 0.1
BABB� ? 0
1.0
Viterbi のテーブル v(l,i)
38
0 � 1 � 2 � 3 � 4 �
0 1 �
1 � 0.8� 0.1728� 0.046656�
2 � 0.032� 0.1944� 0.062208�
3 � 0.432� 0.0224� 0.013608�
状態 l
配列の i�番目
0 � 1 � 2 � 3 � 4 �
0 1 � 0 � 3 � 2 �
2 � 1 � 3 � 1 �
3 � 1 � 2 � 2 �
状態 l
配列の i�番目Viterbi のテーブル ptr(l,i)
隠れマルコフモデルの Viterbi アルゴリズム
39
3
2
1
0.4
0.6 A: 0.2 B: 0.8
0.3
0.5
0.7 0.5
A: 0.1 B: 0.9
A: 0.9 B: 0.1
BABB� 1312 0
1.0
0 � 1 � 2 � 3 � 4 �
0 1 �
1 � 0.8� 0.1728� 0.046656�
2 � 0.032� 0.1944� 0.062208�
3 � 0.432� 0.0224� 0.013608�
状態 l
配列の i�番目
練習問題 4-3
40
Viterbi アルゴリズムを用いた配列とHMMの適合評価
配列プロファイル:隠れマルコフモデル
41
隠れマルコフモデルのアルゴリズム
Baum-Welch アルゴリズム EM (Expectation-Maximization) アルゴリズム 出力記号列からパラメータを推定 学習
3
2
1
0.4
0.6 A: 0.2 B: 0.8
0.3
0.5
0.7 0.5
A: 0.1 B: 0.9
A: 0.9 B: 0.1 3
2 1
BABBABB BBAABBABB ABBABBB BABAABB�
配列プロファイル:隠れマルコフモデル
42
m0 m1 m2 m3 m4 m5
i0 i1 i2 i3 i4
d1 d2 d3 d4
プロファイル HMM ファミリーごとにプロファイルの長さを決めてモデル化
マッチ状態
挿入状態
欠失状態
配列プロファイル:隠れマルコフモデル
43
隠れマルコフモデルによるプロファイル作成とモチーフ検索
ファミリー1 (マルチプル アライメント1)�
HMM1�EM
問い合わせ配列�
Viterbi
スコア1: 20.0
ファミリー2 (マルチプル アライメント2)�
HMM2�EM Viterbi
スコア2: 18.5
配列モチーフデータベース
44
配列モチーフの表現方法による分類 n 配列パターン
w PROSITE Pattern n 配列プロファイル:位置特異的スコアマトリックス
w PROSITE Profile, NCBI-CDD n 配列プロファイル:隠れマルコフモデル
w PFAM n その他
w BLOCKS, PRODOM n 統合
w InterPro(, NCBI-CDD)
PFAM での配列プロファイル表現
45
InterPro による配列モチーフデータベースの統合
46
InterPro による配列モチーフデータベースの統合
47
ホモロジー検索とモチーフ検索
48
配列データベース モチーフ辞書 知識獲得
質問配列 質問配列
類似配列 生物学的 意味解釈
専門知識
専門知識
ホモロジー検索
モチーフ検索
関連ウェブサイト
49
モチーフデータベース n キーワード検索
w http://www.genome.jp/dbget-bin/www_bfind?motifdic w http://www.ebi.ac.uk/interpro/
n 塩基配列 w 転写因子結合サイトなど:EPD, TransFac, JASPER
モチーフ検索 n http://www.genome.jp/tools/motif/
w 質問配列が既知のモチーフを持つか w 質問モチーフを持つ配列を配列データベースから探す w マルチプルアライメントからプロファイルを作る
n PSI-BLAST: Position Specific Iterated BLAST w http://www.ncbi.nlm.nih.gov/BLAST/