HMMERで相同性検索を行う

2022-10-14 (金) 12:12:03 (751d) | Topic path: Top / バイオ・データ・マイニング / HMMERで相同性検索を行う

はじめに

ここでは、HMMERを使って相同性検索を行います。

相同性検索

相同性検索については次のページで説明しています。

HMMERによる相同性検索を行う前に、BLASTによる相同性検索を先に理解しておくことをおすすめします。

HMMER

HMMERモチーフをクエリーとして相同性検索を行うツールです。 (反対に配列をクエリーとしてモチーフを検索することもできますが、ここでは説明しません。)

モチーフとは、タンパク質のドメインを構造化したものです。

タンパク質のドメインは、タンパク質のアミノ酸配列の部分配列のうち、タンパ質の機能を発現するのに必要な部分です。 同じ機能をもつ(異なる種の)タンパク質には、同じ(あるいは、とても良く似た)ドメインが含まれています。 ドメイン以外の部分は大きく異なっていても、ドメインが同じであれば(あるいは、とても良く似ていれば)同じ機能を発現します。

HMMERでは、モチーフはプロファイルHMMで表現されます。

プロファイルHMM

プロファイルHMMは、多樹配列アラインメントの結果を一つにまとめたものであるプロファイル隠れマルコフモデル (HMM, hidden Markov model) で表したものです。

状態遷移確率が直前の状態のみに依存するというマルコフ性を仮定して状態遷移確率をモデル化したものがマルコフ・モデルであり、マルコフ・モデルにおいて状態が観測できず(隠れていて)出力だけが観測できるものがHMMです。

たとえば、長さ3のドメインのHMMは次のようなものになります。

hmm.png

Sが開始状態、Eが終端状態、Mが一致状態、Iが挿入状態、Dが削除状態を表します。 出力は、一致状態と挿入状態ではアミノ酸のいずれか、削除状態では出力なし(ギャップだけど明示的には観測できない)となります。

以下のような多重アラインメントで表されるモチーフのプロファイルHMMを考えてみましょう。

foo     CD-F
bar     CDEF
baz     C--Y
        *  :

最初のアミノ酸は C ですべて一致していますので、[math]\Pr(M_1|S) = 1[/math] となります。(以下、明示的に書かないところは確率ゼロです。) また、[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = 1[/math] となります。

次のアミノ酸は3本中2本が D なので、[math]\Pr(M_2|M_1) = 2/3[/math], [math]\Pr(D_2|M_1) = 1/3[/math] となります。 出力確率は [math]\Pr(D|M_2) = 1[/math] です。

その次のアミノ酸は1本に E が挿入されているので、[math]\Pr(I_2|M_2) = 1/2[/math], [math]\Pr(M_3|M_2) = 1/2[/math], [math]\Pr(M_3|D_2) = 1[/math] となります。 [math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/math] であり、[math]M_3[/math] での出力確率は [math]\Pr(F|M_3) = 2/3[/math], [math]\Pr(Y|M_3) = 1/3[/math] です。

HMMERに含まれるhmmbuildというツールを使って、ClustalWの多重アラインメントの出力からプロファイルHMMを作ることができます。

プロファイルHMMは、EMアルゴリズムの一種であるBaum-Welchアルゴリズムによって作られます。

また、Viterbiアルゴリズムを用いて、プロファイルHMMに最も一致するアミノ酸配列を出力することができます。

タンパク質のファミリー

タンパク質のファミリーとは、進化的祖先が同じタンパク質、つまり相同体を集めたものです。

進化的祖先が同じファミリーを集めたものをスーパーファミリーといい、あるスーパーファミリーに含まれるファミリーをそのスーパーファミリーのサブファミリーといいます。

たとえば、ヘモグロビン (Hemoglobin) はグロビン (Globin) というファミリーに属しています。

タンパク質が所属しているファミリーは、UniProtのFamily & Domainsで確認できます。

プロファイルHMMデータベース

タンパク質の機能が確認されているドメインのモチーフをプロファイルHMMにして、データベースにしたものが Pfam です。

しかし、Pfam は2022年10月に閉鎖され、別のタンパク質データベース InterPro に統合されました。

ここでは、UniProt に登録されているファミリー情報 (Family & Domains) から InterPro に統合された Pfam へのリンクをたどることで、プロファイルHMMを入手します。

HMMERによるタンパク質の相同性検索

InterPro からプロファイルHMMを取得して、HMMER で相同性検索を行います。

プロファイルHMMを取得する

まず、UniProt でタンパク質を検索し、Family & Domains を表示します。

uniprot_protein_home.png

つぎに、Family and domain databases にある InterPro へのリンクをクリックします。

uniprot_protein_family.png

複数登録されているファミリーの中から、InterPro で Pfam のエントリーが登録されているファミリーを探し、Pfam エントリーへのリンクをクリックします。

interpro_interpro_overview.png

すると、InterPro に登録されている Pfam エントリーのページに移動しますので、ここで、Curation を表示します。

interpro_pfam_overview.png

Download のところにある「このファミリーの raw HMM をダウンロードする」をクリックし、HMM プロファイルをダウンロードします。

interpro_pfam_curation.png

ダウンロードしたファイルの拡張子は .hmm となっていますが、これは ZIP 圧縮されたテキスト・ファイルです。

拡張子を .hmm から .zip に変更し、ファイルのアイコンをダブル・クリックしてファイルを展開すると、拡張子が .txt の HMM プロファイルが生成されます。

HMMERを実行する

プロファイルHMMをクエリーとしてタンパク質のアミノ酸配列を検索するには、hmmsearchを使います。

HMMERのhmmsearchのテキスト・エリアにダウンロードしたプロファイルHMMのテキストをすべてコピー・アンド・ペーストするか、Upload a Fileでダウンロードしたファイルを指定して、Submitボタンを押します。

hmmer.png

すると、検索結果が表示されます。 最初の画面では、スコア (E-value) が小さい順にタンパク質が並んでいます。

hmmer_score.png

Taxonomyをクリックすると、種ごとに分類されて表示されます。

hmmer_taxonomy.png

Domainをクリックすると、Pfamのドメインごとに分類されて表示されます。

hmmer_domain.png

Downloadをクリックすると、検索結果をいろいろなフォーマットでダウンロードできます。

hmmer_download.png

演習

UniProtからヒトのアミラーゼ AMY1_Human が所属するファミリーを調べ、PfamからそのファミリーのプロファイルHMMを入手し、HMMERを用いて相同性検索を行ってみよう。

参考文献

  • 6章 類似配列のデータベース検索
トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS