- 追加された行はこの色です。
- 削除された行はこの色です。
*はじめに [#c3ccb75c]
ここでは,''HMMER''を使って相同性検索を行います.
*相同性検索 [#mfc486a6]
相同性検索については次のページで説明しています.
-[[BLASTで相同性検索を行う>バイオ・データ・マイニング/BLASTで相同性検索を行う]] - とうごろうぃき
HMMERによる相同性検索を行う前に,BLASTによる相同性検索を先に理解しておくことをおすすめします.
*HMMER [#u67fa5cf]
''HMMER''は''モチーフ''をクエリーとして相同性検索を行うツールです.
(反対に配列をクエリーとしてモチーフを検索することもできますが,ここでは説明しません.)
''モチーフ''とは,タンパク質の''ドメイン''を構造化したものです.
タンパク質の''ドメイン''は,タンパク質のアミノ酸配列の部分配列のうち,''タンパ質の機能を発現するのに必要な部分''です.
同じ機能をもつ(異なる種の)タンパク質には,同じ(あるいは,とても良く似た)ドメインが含まれています.
ドメイン以外の部分は大きく異なっていても,ドメインが同じであれば(あるいは,とても良く似ていれば)同じ機能を発現します.
HMMERでは,モチーフは''プロファイルHMM''で表現されます.
*プロファイルHMM [#qcce93e1]
''プロファイルHMM''は,多樹配列アラインメントの結果を一つにまとめたものである''プロファイル''を''隠れマルコフモデル'' (''HMM'', hidden Markov model) で表したものです.
状態遷移確率が直前の状態のみに依存するという''マルコフ性''を仮定して状態遷移確率をモデル化したものが''マルコフ・モデル''であり,マルコフ・モデルにおいて状態が''観測''できず(隠れていて)''出力''だけが観測できるものが''HMM''です.
たとえば,長さ3のドメインのHMMは次のようなものになります.
#ref(./hmm.png,25%)
#ref(./hmm.png,nolink,25%)
Sが開始状態,Eが終端状態,Mが一致状態,Iが挿入状態,Dが削除状態を表します.
出力は,一致状態と挿入状態ではアミノ酸のいずれか,削除状態では出力なし(ギャップだけど明示的には観測できない)となります.
以下のような多重アラインメントで表されるモチーフのプロファイルHMMを考えてみましょう.
#geshi(txt){{
foo CD-F
bar CDEF
baz C--Y
* :
}}
最初のアミノ酸は C ですべて一致していますので,[math]\Pr(M_1|S) = 1[/math] となります.(以下,明示的に書かないところは確率ゼロです.)
また,[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = 1[/math] となります.
次のアミノ酸は3本中2本が D なので,[math]\Pr(M_2|M_1) = 2/3[/math], [math]\Pr(D_2|M_1) = 1/3[/math] となります.
出力確率は [math]\Pr(D|M_2) = 1[/math] です.
その次のアミノ酸は1本に E が挿入されているので,[math]\Pr(I_2|M_2) = 1/2[/math], [math]\Pr(M_3|M_2) = 1/2[/math], [math]\Pr(M_3|D_2) = 1[/math] となります.
[math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/math] であり,[math]M_3[/math] での出力確率は [math]\Pr(F|M_3) = 2/3[/math], [math]\Pr(Y|M_3) = 1/3[/math] です.
HMMERに含まれる''hmmbuild''というツールを使って,ClustalWの多重アラインメントの出力からプロファイルHMMを作ることができます.
プロファイルHMMは,EMアルゴリズムの一種であるBaum-Welchアルゴリズムによって作られます.
また,Viterbiアルゴリズムを用いて,プロファイルHMMに最も一致するアミノ酸配列を出力することができます.
*タンパク質のファミリー [#u18a3a82]
タンパク質の''ファミリー''とは,進化的祖先が同じタンパク質,つまり相同体を集めたものです.
進化的祖先が同じファミリーを集めたものを''スーパーファミリー''といい,あるスーパーファミリーに含まれるファミリーをそのスーパーファミリーの''サブファミリー''といいます.
たとえば,ヘモグロビン (Hemoglobin) はグロビン (Globin) というファミリーに属しています.
タンパク質が所属しているファミリーは,UniProtの''Family & Domains''で確認できます.
*プロファイルHMMデータベース [#pfe8a194]
タンパク質の機能が確認されているドメインのモチーフをプロファイルHMMにして,データベースにしたものが [[''Pfam'':http://pfam.xfam.org]]です.
Pfamでは,アミノ酸配列をクエリーとして,クエリー配列に一致するモチーフ(プロファイルHMM)を検索することができます.
ここでは,UniProtに登録されているファミリー情報 (Family & Domains) からPfamへのリンクをたどることで,プロファイルHMMを入手します.
*HMMERによるタンパク質の相同性検索 [#cceb5bb1]
PfamからプロファイルHMMを取得して,HMMERで相同性検索を行います.
**プロファイルHMMを取得する [#n76df931]
まず,UniProtでタンパク質を検索し,Family & Domainsを表示します.
#ref(./uniprot_hba_human.png,50%)
#ref(./uniprot_hba_human.png,nolink,50%)
つぎに,Family and domain databasesにあるPfamへのリンクをクリックします.
#ref(./uniprot_hba_human_family_and_domains.png,50%)
#ref(./uniprot_hba_human_family_and_domains.png,nolink,50%)
すると,Pfamのページに移動しますので,ここで,''Curation & model''を表示します.
#ref(./pfam_globin.png,50%)
#ref(./pfam_globin.png,nolink,50%)
一番下にプロファイルHMMについての情報が載っていて,ファイルをダウンロードできます.
#ref(./pfam_globin_model.png,50%)
#ref(./pfam_globin_model.png,nolink,50%)
*HMMERを実行する [#pa614c46]
プロファイルHMMをクエリーとしてタンパク質のアミノ酸配列を検索するには,''hmmsearch''を使います.
[[HMMERのhmmsearch:http://www.ebi.ac.uk/Tools/hmmer/search/hmmsearch]]のテキスト・エリアにダウンロードしたプロファイルHMMのテキストをすべてコピー・アンド・ペーストするか,''Upload a File''でダウンロードしたファイルを指定して,''Submit''ボタンを押します.
#ref(./hmmer.png,50%)
#ref(./hmmer.png,nolink,50%)
すると,検索結果が表示されます.
最初の画面では,スコア (E-value) が小さい順にタンパク質が並んでいます.
#ref(./hmmer_score.png,50%)
#ref(./hmmer_score.png,nolink,50%)
''Taxonomy''をクリックすると,種ごとに分類されて表示されます.
#ref(./hmmer_taxonomy.png,50%)
#ref(./hmmer_taxonomy.png,nolink,50%)
''Domain''をクリックすると,Pfamのドメインごとに分類されて表示されます.
#ref(./hmmer_domain.png,50%)
#ref(./hmmer_domain.png,nolink,50%)
''Download''をクリックすると,検索結果をいろいろなフォーマットでダウンロードできます.
#ref(./hmmer_download.png,50%)
#ref(./hmmer_download.png,nolink,50%)
*演習 [#t85622e4]
UniProtからヒトのアミラーゼ AMY1_Human が所属するファミリーを調べ,PfamからそのファミリーのプロファイルHMMを入手し,HMMERを用いて相同性検索を行ってみよう.
*参考文献 [#fc0906ca]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" src="https://rcm-fe.amazon-adsystem.com/e/cm?ref=tf_til&t=tohgorohmatsu-22&m=amazon&o=9&p=8&l=as1&IS2=1&detail=1&asins=4895924262&linkId=d39e83344ba7b635eae58e4967f3c875&bc1=ffffff<1=_blank&fc1=444b4c&lc1=444b4c&bg1=ffffff&f=ifr"></iframe>
}}
-6章 類似配列のデータベース検索