バイオ・データ・マイニング/HMMERで相同性検索を行うの変更点

*はじめに [#c3ccb75c]

ここでは、''HMMER''を使って相同性検索を行います。


*相同性検索 [#mfc486a6]

相同性検索については次のページで説明しています。
-[[BLASTで相同性検索を行う>バイオ・データ・マイニング/BLASTで相同性検索を行う]] - とうごろうぃき

HMMERによる相同性検索を行う前に、BLASTによる相同性検索を先に理解しておくことをおすすめします。


*HMMER [#u67fa5cf]

''HMMER''は''モチーフ''をクエリーとして相同性検索を行うツールです。
（反対に配列をクエリーとしてモチーフを検索することもできますが、ここでは説明しません。）

''モチーフ''とは、タンパク質の''ドメイン''を構造化したものです。

タンパク質の''ドメイン''は、タンパク質のアミノ酸配列の部分配列のうち、''タンパ質の機能を発現するのに必要な部分''です。
同じ機能をもつ（異なる種の）タンパク質には、同じ（あるいは、とても良く似た）ドメインが含まれています。
ドメイン以外の部分は大きく異なっていても、ドメインが同じであれば（あるいは、とても良く似ていれば）同じ機能を発現します。

HMMERでは、モチーフは''プロファイルHMM''で表現されます。

*プロファイルHMM [#qcce93e1]

''プロファイルHMM''は、多樹配列アラインメントの結果を一つにまとめたものである''プロファイル''を''隠れマルコフモデル'' (''HMM'', hidden Markov model) で表したものです。

状態遷移確率が直前の状態のみに依存するという''マルコフ性''を仮定して状態遷移確率をモデル化したものが''マルコフ・モデル''であり、マルコフ・モデルにおいて状態が''観測''できず（隠れていて）''出力''だけが観測できるものが''HMM''です。

たとえば、長さ3のドメインのHMMは次のようなものになります。
#ref(./hmm.png,nolink,25%)
Sが開始状態、Eが終端状態、Mが一致状態、Iが挿入状態、Dが削除状態を表します。
出力は、一致状態と挿入状態ではアミノ酸のいずれか、削除状態では出力なし（ギャップだけど明示的には観測できない）となります。

以下のような多重アラインメントで表されるモチーフのプロファイルHMMを考えてみましょう。
#geshi(txt){{
foo     CD-F
bar     CDEF
baz     C--Y
        *  :
}}

最初のアミノ酸は C ですべて一致していますので、[math]\Pr(M_1|S) = 1[/math] となります。（以下、明示的に書かないところは確率ゼロです。）
また、[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = 1[/math] となります。

次のアミノ酸は3本中2本が D なので、[math]\Pr(M_2|M_1) = 2/3[/math], [math]\Pr(D_2|M_1) = 1/3[/math] となります。
出力確率は [math]\Pr(D|M_2) = 1[/math] です。

その次のアミノ酸は1本に E が挿入されているので、[math]\Pr(I_2|M_2) = 1/2[/math], [math]\Pr(M_3|M_2) = 1/2[/math], [math]\Pr(M_3|D_2) = 1[/math] となります。
[math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/math] であり、[math]M_3[/math] での出力確率は [math]\Pr(F|M_3) = 2/3[/math], [math]\Pr(Y|M_3) = 1/3[/math] です。

HMMERに含まれる''hmmbuild''というツールを使って、ClustalWの多重アラインメントの出力からプロファイルHMMを作ることができます。

プロファイルHMMは、EMアルゴリズムの一種であるBaum-Welchアルゴリズムによって作られます。

また、Viterbiアルゴリズムを用いて、プロファイルHMMに最も一致するアミノ酸配列を出力することができます。


*タンパク質のファミリー [#u18a3a82]

タンパク質の''ファミリー''とは、進化的祖先が同じタンパク質、つまり相同体を集めたものです。

進化的祖先が同じファミリーを集めたものを''スーパーファミリー''といい、あるスーパーファミリーに含まれるファミリーをそのスーパーファミリーの''サブファミリー''といいます。

たとえば、ヘモグロビン (Hemoglobin) はグロビン (Globin) というファミリーに属しています。

タンパク質が所属しているファミリーは、UniProtの''Family & Domains''で確認できます。


*プロファイルHMMデータベース [#pfe8a194]

タンパク質の機能が確認されているドメインのモチーフをプロファイルHMMにして、データベースにしたものが [[''Pfam'':http://pfam.xfam.org]] です。

しかし、Pfam は2022年10月に閉鎖され、別のタンパク質データベース [[''InterPro'':https://www.ebi.ac.uk/interpro/]] に統合されました。


ここでは、UniProt に登録されているファミリー情報 (Family & Domains) から InterPro に統合された Pfam へのリンクをたどることで、プロファイルHMMを入手します。


*HMMERによるタンパク質の相同性検索 [#cceb5bb1]

InterPro からプロファイルHMMを取得して、HMMER で相同性検索を行います。

**プロファイルHMMを取得する [#n76df931]

まず、UniProt でタンパク質を検索し、''Family & Domains'' を表示します。
#ref(./uniprot_protein_home.png,nolink,50%)

つぎに、Family and domain databases にある InterPro へのリンクをクリックします。
#ref(./uniprot_protein_family.png,nolink,50%)

複数登録されているファミリーの中から、InterPro で Pfam のエントリーが登録されているファミリーを探し、Pfam エントリーへのリンクをクリックします。
#ref(./interpro_interpro_overview.png,nolink,50%)

すると、InterPro に登録されている Pfam　エントリーのページに移動しますので、ここで、''Curation'' を表示します。
#ref(./interpro_pfam_overview.png,nolink,50%)

''Download'' のところにある「このファミリーの raw HMM をダウンロードする」をクリックし、HMM　プロファイルをダウンロードします。
#ref(./interpro_pfam_curation.png,nolink,50%)

ダウンロードしたファイルの拡張子は ''.hmm'' となっていますが、これは ZIP 圧縮されたテキスト・ファイルです。

拡張子を ''.hmm'' から ''.zip'' に変更し、ファイルのアイコンをダブル・クリックしてファイルを展開すると、拡張子が ''.txt'' の HMM プロファイルが生成されます。



*HMMERを実行する [#pa614c46]

プロファイルHMMをクエリーとしてタンパク質のアミノ酸配列を検索するには、''hmmsearch''を使います。

[[HMMERのhmmsearch:http://www.ebi.ac.uk/Tools/hmmer/search/hmmsearch]]のテキスト・エリアにダウンロードしたプロファイルHMMのテキストをすべてコピー・アンド・ペーストするか、''Upload a File''でダウンロードしたファイルを指定して、''Submit''ボタンを押します。
#ref(./hmmer.png,nolink,50%)

すると、検索結果が表示されます。
最初の画面では、スコア (E-value) が小さい順にタンパク質が並んでいます。
#ref(./hmmer_score.png,nolink,50%)

''Taxonomy''をクリックすると、種ごとに分類されて表示されます。
#ref(./hmmer_taxonomy.png,nolink,50%)

''Domain''をクリックすると、Pfamのドメインごとに分類されて表示されます。
#ref(./hmmer_domain.png,nolink,50%)

''Download''をクリックすると、検索結果をいろいろなフォーマットでダウンロードできます。
#ref(./hmmer_download.png,nolink,50%)



*演習 [#t85622e4]
UniProtからヒトのアミラーゼ AMY1_Human が所属するファミリーを調べ、PfamからそのファミリーのプロファイルHMMを入手し、HMMERを用いて相同性検索を行ってみよう。


*参考文献 [#fc0906ca]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" src="https://rcm-fe.amazon-adsystem.com/e/cm?ref=tf_til&t=tohgorohmatsu-22&m=amazon&o=9&p=8&l=as1&IS2=1&detail=1&asins=4895924262&linkId=d39e83344ba7b635eae58e4967f3c875&bc1=ffffff&lt1=_blank&fc1=444b4c&lc1=444b4c&bg1=ffffff&f=ifr"></iframe>
}}
-樋口 千洋. 2011. Rによるバイオインフォマティクスデータ解析－Bioconductorを用いたゲノムスケールのデータマイニング, 第2版. 共立出版. https://amzn.to/4nz0g7v

-6章 類似配列のデータベース検索