バイオ・データ・マイニング/HMMERで相同性検索を行うのバックアップソース(No.4)

バックアップ一覧
差分を表示
現在との差分を表示
バックアップを表示
バイオ・データ・マイニング/HMMERで相同性検索を行うへ行く。
- 1 (2014-10-19 (日) 12:49:52)
- 2 (2014-10-19 (日) 15:17:26)
- 3 (2014-10-20 (月) 00:55:55)
- 4 (2014-10-21 (火) 10:40:28)
- 5 (2014-10-24 (金) 07:05:25)
- 6 (2014-10-24 (金) 10:44:19)
- 7 (2016-10-19 (水) 13:56:44)
- 8 (2020-10-28 (水) 08:52:57)
- 9 (2022-10-14 (金) 11:46:35)

このページはまだ書きかけです．


*はじめに [#c3ccb75c]

ここでは，''HMMER''を使って相同性検索を行います．


*相同性検索 [#mfc486a6]

相同性検索については次のページで説明しています．
-[[BLASTで相同性検索を行う>バイオ・データ・マイニング/BLASTで相同性検索を行う]] - とうごろうぃき

HMMERによる相同性検索を行う前に，BLASTによる相同性検索を先に理解しておくことをおすすめします．


*HMMER [#u67fa5cf]

''HMMER''は''モチーフ''をクエリーとして相同性検索を行うツールです．
（反対に配列をクエリーとしてモチーフを検索することもできますが，ここでは説明しません．）

''モチーフ''とは，タンパク質の''ドメイン''を構造化したものです．

タンパク質の''ドメイン''は，タンパク質のアミノ酸配列の部分配列のうち，''タンパ質の機能を発現するのに必要な部分''です．
同じ機能をもつ（異なる種の）タンパク質には，同じ（あるいは，とても良く似た）ドメインが含まれています．
ドメイン以外の部分は大きく異なっていても，ドメインが同じであれば（あるいは，とても良く似ていれば）同じ機能を発現します．

HMMERでは，モチーフは''プロファイルHMM''で表現されます．

*プロファイルHMM [#qcce93e1]

''プロファイルHMM''は，多樹配列アラインメントの結果を一つにまとめたものである''プロファイル''を''隠れマルコフモデル'' (''HMM'', hidden Markov model) で表したものです．

状態遷移確率が直前の状態のみに依存するという''マルコフ性''を仮定して状態遷移確率をモデル化したものが''マルコフ・モデル''であり，マルコフ・モデルにおいて状態が''観測''できず（隠れていて）''出力''だけが観測できるものが''HMM''です．

たとえば，長さ3のドメインのHMMは次のようなものになります．
#ref(./hmm.png,25%)
Sが開始状態，Eが終端状態，Mが一致状態，Iが挿入状態，Dが削除状態を表します．
出力は，一致状態と挿入状態ではアミノ酸のいずれか，削除状態では出力なし（ギャップだけど明示的には観測できない）となります．

以下のような多重アラインメントで表されるモチーフのプロファイルHMMを考えてみましょう．
#geshi(txt){{
foo     CD-F
bar     CDEF
baz     C--Y
        *  :
}}

最初のアミノ酸は C ですべて一致していますので，[math]\Pr(M_1|S) = 1[/math] となります．（以下，明示的に書かないところは確率ゼロです．）
また，[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = 1[/math] となります．

次のアミノ酸は3本中2本が D なので，[math]\Pr(M_2|M_1) = 2/3[/math], [math]\Pr(D_2|M_1) = 1/3[/math] となります．
出力確率は [math]\Pr(D|M_2) = 1[/math] です．

その次のアミノ酸は1本に E が挿入されているので，[math]\Pr(I_2|M_2) = 1/2[/math], [math]\Pr(M_3|M_2) = 1/2[/math], [math]\Pr(M_3|D_2) = 1[/math] となります．
[math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/math] であり，[math]M_3[/math] での出力確率は [math]\Pr(F|M_3) = 2/3[/math], [math]\Pr(Y|M_3) = 1/3[/math] です．

HMMERに含まれる''hmmbuild''というツールを使って，ClustalWの多重アラインメントの出力からプロファイルHMMを作ることができます．


*プロファイルHMMデータベース [#pfe8a194]

バイオ・データ・マイニング/HMMERで相同性検索を行う のバックアップソース(No.4)

バイオ・データ・マイニング/HMMERで相同性検索を行うのバックアップソース(No.4)