このページはまだ書きかけです.


*はじめに [#c3ccb75c]

ここでは,''HMMER''を使って相同性検索を行います.


*相同性検索 [#mfc486a6]

相同性検索については次のページで説明しています.
-[[BLASTで相同性検索を行う>バイオ・データ・マイニング/BLASTで相同性検索を行う]] - とうごろうぃき

HMMERによる相同性検索を行う前に,BLASTによる相同性検索を先に理解しておくことをおすすめします.


*HMMER [#u67fa5cf]

''HMMER''は''モチーフ''をクエリーとして相同性検索を行うツールです.
(反対に配列をクエリーとしてモチーフを検索することもできますが,ここでは説明しません.)

''モチーフ''とは,タンパク質の''ドメイン''を構造化したものです.

タンパク質の''ドメイン''は,タンパク質のアミノ酸配列の部分配列のうち,''タンパ質の機能を発現するのに必要な部分''です.
同じ機能をもつ(異なる種の)タンパク質には,同じ(あるいは,とても良く似た)ドメインが含まれています.
ドメイン以外の部分は大きく異なっていても,ドメインが同じであれば(あるいは,とても良く似ていれば)同じ機能を発現します.

HMMERでは,モチーフは''プロファイルHMM''で表現されます.

*プロファイルHMM [#qcce93e1]

''プロファイルHMM''は,多樹配列アラインメントの結果を一つにまとめたものである''プロファイル''を''隠れマルコフモデル'' (''HMM'', hidden Markov model) で表したものです.

状態遷移確率が直前の状態のみに依存するという''マルコフ性''を仮定して状態遷移確率をモデル化したものが''マルコフ・モデル''であり,マルコフ・モデルにおいて状態が''観測''できず(隠れていて)''出力''だけが観測できるものが''HMM''です.

たとえば,長さ3のドメインのHMMは次のようなものになります.
#ref(./hmm.png,25%)
Sが開始状態,Eが終端状態,Mが一致状態,Iが挿入状態,Dが削除状態を表します.
出力は,一致状態と挿入状態ではアミノ酸のいずれか,削除状態では出力なし(ギャップだけど明示的には観測できない)となります.

以下のような多重アラインメントで表されるモチーフのプロファイルHMMを考えてみましょう.
#geshi(txt){{
foo     CD-F
bar     CDEF
baz     C--Y
        *  :
}}

最初のアミノ酸は C ですべて一致していますので,[math]\Pr(M_1|S) = 1[/math] となります.(以下,明示的に書かないところは確率ゼロです.)
また,[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = 1[/math] となります.

次のアミノ酸は3本中2本が D なので,[math]\Pr(M_2|M_1) = 2/3[/math], [math]\Pr(D_2|M_1) = 1/3[/math] となります.
出力確率は [math]\Pr(D|M_2) = 1[/math] です.

その次のアミノ酸は1本に E が挿入されているので,[math]\Pr(I_2|M_2) = 1/2[/math], [math]\Pr(M_3|M_2) = 1/2[/math], [math]\Pr(M_3|D_2) = 1[/math] となります.
[math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/math] であり,[math]M_3[/math] での出力確率は [math]\Pr(F|M_3) = 2/3[/math], [math]\Pr(Y|M_3) = 1/3[/math] です.

HMMERに含まれる''hmmbuild''というツールを使って,ClustalWの多重アラインメントの出力からプロファイルHMMを作ることができます.


*プロファイルHMMデータベース [#pfe8a194]
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS