バイオ・データ・マイニング/HMMERで相同性検索を行う
をテンプレートにして作成
開始行:
*はじめに [#c3ccb75c]
ここでは、''HMMER''を使って相同性検索を行います。
*相同性検索 [#mfc486a6]
相同性検索については次のページで説明しています。
-[[BLASTで相同性検索を行う>バイオ・データ・マイニング/BLA...
HMMERによる相同性検索を行う前に、BLASTによる相同性検索を...
*HMMER [#u67fa5cf]
''HMMER''は''モチーフ''をクエリーとして相同性検索を行うツ...
(反対に配列をクエリーとしてモチーフを検索することもでき...
''モチーフ''とは、タンパク質の''ドメイン''を構造化したも...
タンパク質の''ドメイン''は、タンパク質のアミノ酸配列の部...
同じ機能をもつ(異なる種の)タンパク質には、同じ(あるい...
ドメイン以外の部分は大きく異なっていても、ドメインが同じ...
HMMERでは、モチーフは''プロファイルHMM''で表現されます。
*プロファイルHMM [#qcce93e1]
''プロファイルHMM''は、多樹配列アラインメントの結果を一...
状態遷移確率が直前の状態のみに依存するという''マルコフ性'...
たとえば、長さ3のドメインのHMMは次のようなものになりま...
#ref(./hmm.png,nolink,25%)
Sが開始状態、Eが終端状態、Mが一致状態、Iが挿入状態、Dが削...
出力は、一致状態と挿入状態ではアミノ酸のいずれか、削除状...
以下のような多重アラインメントで表されるモチーフのプロフ...
#geshi(txt){{
foo CD-F
bar CDEF
baz C--Y
* :
}}
最初のアミノ酸は C ですべて一致していますので、[math]\Pr(...
また、[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = ...
次のアミノ酸は3本中2本が D なので、[math]\Pr(M_2|M_1) = 2...
出力確率は [math]\Pr(D|M_2) = 1[/math] です。
その次のアミノ酸は1本に E が挿入されているので、[math]\Pr...
[math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/mat...
HMMERに含まれる''hmmbuild''というツールを使って、ClustalW...
プロファイルHMMは、EMアルゴリズムの一種であるBaum-Welchア...
また、Viterbiアルゴリズムを用いて、プロファイルHMMに最も...
*タンパク質のファミリー [#u18a3a82]
タンパク質の''ファミリー''とは、進化的祖先が同じタンパク...
進化的祖先が同じファミリーを集めたものを''スーパーファミ...
たとえば、ヘモグロビン (Hemoglobin) はグロビン (Globin) ...
タンパク質が所属しているファミリーは、UniProtの''Family &...
*プロファイルHMMデータベース [#pfe8a194]
タンパク質の機能が確認されているドメインのモチーフをプロ...
しかし、Pfam は2022年10月に閉鎖され、別のタンパク質データ...
ここでは、UniProt に登録されているファミリー情報 (Family ...
*HMMERによるタンパク質の相同性検索 [#cceb5bb1]
InterPro からプロファイルHMMを取得して、HMMER で相同性検...
**プロファイルHMMを取得する [#n76df931]
まず、UniProt でタンパク質を検索し、''Family & Domains'' ...
#ref(./uniprot_protein_home.png,nolink,50%)
つぎに、Family and domain databases にある InterPro への...
#ref(./uniprot_protein_family.png,nolink,50%)
複数登録されているファミリーの中から、InterPro で Pfam の...
#ref(./interpro_interpro_overview.png,nolink,50%)
すると、InterPro に登録されている Pfam エントリーのペー...
#ref(./interpro_pfam_overview.png,nolink,50%)
''Download'' のところにある「このファミリーの raw HMM を...
#ref(./interpro_pfam_curation.png,nolink,50%)
ダウンロードしたファイルの拡張子は ''.hmm'' となっていま...
拡張子を ''.hmm'' から ''.zip'' に変更し、ファイルのアイ...
*HMMERを実行する [#pa614c46]
プロファイルHMMをクエリーとしてタンパク質のアミノ酸配列を...
[[HMMERのhmmsearch:http://www.ebi.ac.uk/Tools/hmmer/searc...
#ref(./hmmer.png,nolink,50%)
すると、検索結果が表示されます。
最初の画面では、スコア (E-value) が小さい順にタンパク質が...
#ref(./hmmer_score.png,nolink,50%)
''Taxonomy''をクリックすると、種ごとに分類されて表示され...
#ref(./hmmer_taxonomy.png,nolink,50%)
''Domain''をクリックすると、Pfamのドメインごとに分類され...
#ref(./hmmer_domain.png,nolink,50%)
''Download''をクリックすると、検索結果をいろいろなフォー...
#ref(./hmmer_download.png,nolink,50%)
*演習 [#t85622e4]
UniProtからヒトのアミラーゼ AMY1_Human が所属するファミリ...
*参考文献 [#fc0906ca]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0"...
}}
-6章 類似配列のデータベース検索
終了行:
*はじめに [#c3ccb75c]
ここでは、''HMMER''を使って相同性検索を行います。
*相同性検索 [#mfc486a6]
相同性検索については次のページで説明しています。
-[[BLASTで相同性検索を行う>バイオ・データ・マイニング/BLA...
HMMERによる相同性検索を行う前に、BLASTによる相同性検索を...
*HMMER [#u67fa5cf]
''HMMER''は''モチーフ''をクエリーとして相同性検索を行うツ...
(反対に配列をクエリーとしてモチーフを検索することもでき...
''モチーフ''とは、タンパク質の''ドメイン''を構造化したも...
タンパク質の''ドメイン''は、タンパク質のアミノ酸配列の部...
同じ機能をもつ(異なる種の)タンパク質には、同じ(あるい...
ドメイン以外の部分は大きく異なっていても、ドメインが同じ...
HMMERでは、モチーフは''プロファイルHMM''で表現されます。
*プロファイルHMM [#qcce93e1]
''プロファイルHMM''は、多樹配列アラインメントの結果を一...
状態遷移確率が直前の状態のみに依存するという''マルコフ性'...
たとえば、長さ3のドメインのHMMは次のようなものになりま...
#ref(./hmm.png,nolink,25%)
Sが開始状態、Eが終端状態、Mが一致状態、Iが挿入状態、Dが削...
出力は、一致状態と挿入状態ではアミノ酸のいずれか、削除状...
以下のような多重アラインメントで表されるモチーフのプロフ...
#geshi(txt){{
foo CD-F
bar CDEF
baz C--Y
* :
}}
最初のアミノ酸は C ですべて一致していますので、[math]\Pr(...
また、[math]M_1[/math] での出力確率は [math]\Pr(C|M_1) = ...
次のアミノ酸は3本中2本が D なので、[math]\Pr(M_2|M_1) = 2...
出力確率は [math]\Pr(D|M_2) = 1[/math] です。
その次のアミノ酸は1本に E が挿入されているので、[math]\Pr...
[math]I_2[/math] での出力確率は [math]\Pr(E|I_2) = 1[/mat...
HMMERに含まれる''hmmbuild''というツールを使って、ClustalW...
プロファイルHMMは、EMアルゴリズムの一種であるBaum-Welchア...
また、Viterbiアルゴリズムを用いて、プロファイルHMMに最も...
*タンパク質のファミリー [#u18a3a82]
タンパク質の''ファミリー''とは、進化的祖先が同じタンパク...
進化的祖先が同じファミリーを集めたものを''スーパーファミ...
たとえば、ヘモグロビン (Hemoglobin) はグロビン (Globin) ...
タンパク質が所属しているファミリーは、UniProtの''Family &...
*プロファイルHMMデータベース [#pfe8a194]
タンパク質の機能が確認されているドメインのモチーフをプロ...
しかし、Pfam は2022年10月に閉鎖され、別のタンパク質データ...
ここでは、UniProt に登録されているファミリー情報 (Family ...
*HMMERによるタンパク質の相同性検索 [#cceb5bb1]
InterPro からプロファイルHMMを取得して、HMMER で相同性検...
**プロファイルHMMを取得する [#n76df931]
まず、UniProt でタンパク質を検索し、''Family & Domains'' ...
#ref(./uniprot_protein_home.png,nolink,50%)
つぎに、Family and domain databases にある InterPro への...
#ref(./uniprot_protein_family.png,nolink,50%)
複数登録されているファミリーの中から、InterPro で Pfam の...
#ref(./interpro_interpro_overview.png,nolink,50%)
すると、InterPro に登録されている Pfam エントリーのペー...
#ref(./interpro_pfam_overview.png,nolink,50%)
''Download'' のところにある「このファミリーの raw HMM を...
#ref(./interpro_pfam_curation.png,nolink,50%)
ダウンロードしたファイルの拡張子は ''.hmm'' となっていま...
拡張子を ''.hmm'' から ''.zip'' に変更し、ファイルのアイ...
*HMMERを実行する [#pa614c46]
プロファイルHMMをクエリーとしてタンパク質のアミノ酸配列を...
[[HMMERのhmmsearch:http://www.ebi.ac.uk/Tools/hmmer/searc...
#ref(./hmmer.png,nolink,50%)
すると、検索結果が表示されます。
最初の画面では、スコア (E-value) が小さい順にタンパク質が...
#ref(./hmmer_score.png,nolink,50%)
''Taxonomy''をクリックすると、種ごとに分類されて表示され...
#ref(./hmmer_taxonomy.png,nolink,50%)
''Domain''をクリックすると、Pfamのドメインごとに分類され...
#ref(./hmmer_domain.png,nolink,50%)
''Download''をクリックすると、検索結果をいろいろなフォー...
#ref(./hmmer_download.png,nolink,50%)
*演習 [#t85622e4]
UniProtからヒトのアミラーゼ AMY1_Human が所属するファミリ...
*参考文献 [#fc0906ca]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0"...
}}
-6章 類似配列のデータベース検索
ページ名: