バイオ・データ・マイニング/ClustalWで多重アラインメントを行うのバックアップソース(No.4)

バックアップ一覧
差分を表示
現在との差分を表示
バックアップを表示
バイオ・データ・マイニング/ClustalWで多重アラインメントを行うへ行く。
- 1 (2014-10-03 (金) 11:28:13)
- 2 (2014-10-03 (金) 19:08:13)
- 3 (2014-10-09 (木) 03:57:24)
- 4 (2014-10-09 (木) 09:49:48)
- 5 (2014-10-10 (金) 07:12:22)
- 6 (2014-10-10 (金) 07:15:59)
- 7 (2014-10-10 (金) 10:53:12)
- 8 (2014-10-17 (金) 07:36:57)
- 9 (2014-10-17 (金) 07:36:57)
- 10 (2019-10-09 (水) 13:15:57)

*はじめに [#t90e8c3c]

ここでは，''ClustalW''を使ってタンパク質のアミノ酸配列の多重アラインメントを行います．

ClustalWの基本的な使い方については，以下のページを参照してください．
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき


*多重アラインメント [#ff3821f6]

3本以上の配列に対する配列アラインメント（シーケンス・アラインメント）を多重配列アラインメント（多重アラインメント，マルチアラインメント）と言います．


*多重アラインメントの仕組み [#u063de5e]

ここではClustalWによる多重アラインメントについて説明します．
その他の方法もありますが，ここでは説明しません．

ClustalWは，''累進法''と呼ばれる方法を用いて多重アラインメントを行います．

まずはじめに，すべての配列からペアを作成し，ペアワイズ・アラインメントを行ってスコア（距離行列）を求めます．

次に，このスコア（距離行列）に基づいて，''近隣結合法''（''NJ''）または''非加重結合法''（''UPGMA''）を用いて階層クラスタリングを行い，''案内木''（''guide tree''）と呼ばれるデンドログラムを作成します．

最後に，案内木に従って，多重アラインメントを作成します．


*近隣結合法 (NJ) [#x8090bb1]

近隣結合法は，枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です．
この方法では，根がない木（無根系統樹）を作成します．

A, B, C, D, E という5つの種があり，ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします．

このとき，近隣結合法では，まずはじめにそれぞれの種をOTU (Operational Taxonomic Unit)とし，全てのOTUに連結した節を作ります．
#ref(./nj_before.png,25%)

それから，最も近いOTUである A と B を結合してノードを作り，このノードと葉 A, B を含む部分木を新しいOTUとし，新しい枝を作ります．
#ref(./nj_after.png,25%)
これを繰り返します．


*非加重結合法 (UPGMA) [#nfa73950]

非加重結合法は，進化速度が一定であると仮定して，最も近いクラスターを結合することを繰り返す方法です．
この方法では，根つき木（有根系統樹）を作成します．

上と同様に，A, B, C, D, E という5つの種があり，ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします．

このとき，非加重結合法は，まずはじめにそれぞれの種をOTUとし，最も近いOTUを結合し，新しいOTUを作ります．
#ref(./upgma_before.png,25%)

それから，再び最も近いOTUを結合し，新しいOTUを作ります．
#ref(./upgma_after.png,25%)
これを繰り返します．


*タンパク質の多重アラインメント [#n893a818]

タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して，ClustalWで多重アラインメントを行います．

UniProtからアミノ酸配列を取得する方法については，以下のページを参照してください．
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき

ここでは，以下のヘモグロビンのアミノ酸配列に対してペアワイズ・アラインメントをやってみます．（''Hemoglobin HBB''で検索します．）
-HBB_HUMAN ヒト
-HBB_PANTR チンパンジー
-HBB_RABIT ウサギ
-HBB_BOVIN 牛
-HBB_PIG 豚
-HBB_HORSE 馬
-HBB_SHEEP 羊
-HBB_ODOVI 鹿
-HBB_MESAU ゴールデン・ハムスター
-HBB_CHICK 鶏

まず，ClustalWにかけると，次のような多重アラインメントが得られます．
#geshi(txt){{

CLUSTAL 2.1 multiple sequence alignment


HBB_HUMAN      MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
HBB_PANTR      MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
HBB_RABIT      MVHLSSEEKSAVTALWGKVNVEEVGGEALGRLLVVYPWTQRFFESFGDLSSANAVMNNPK
HBB_HORSE      -VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPK
HBB_BOVIN      --MLTAEEKAAVTAFWGKVKVDEVGGEALGRLLVVYPWTQRFFESFGDLSTADAVMNNPK
HBB_SHEEP      --MLTAEEKAAVTGFWGKVKVDEVGAEALGRLLVVYPWTQRFFEHFGDLSNADAVMNNPK
HBB_ODOVI      --MLTAEEKAAVTGFWGKVNVDVVGAEALGRLLVVYPWTQRFFEHFGDLSSAGAVMGNPK
HBB_PIG        MVHLSAEEKEAVLGLWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSNADAVMGNPK
HBB_MESAU      MVHLTDAEKALVTGLWGKVNADAVGAEALGRLLVVYPWTQRFFEHFGDLSSASAVMNNPQ
HBB_CHICK      MVHWTAEEKQLITGLWGKVNVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPM
                   :  **  : .:*.**:    *.***.***:*********  **:**.. *::.** 

HBB_HUMAN      VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
HBB_PANTR      VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
HBB_RABIT      VKAHGKKVLAAFSEGLSHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVIVLSHHFG
HBB_HORSE      VKAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFG
HBB_BOVIN      VKAHGKKVLDSFSNGMKHLDDLKGTFAALSELHCDKLHVDPENFKLLGNVLVVVLARNFG
HBB_SHEEP      VKAHGKKVLDSFSNGMKHLDDLKGTFAQLSELHCDKLHVDPENFRLLGNVLVVVLARHHG
HBB_ODOVI      VKAHGKRVLDAFSEGLKHLDDLKGAFAELSELHCNKLHVDPENFRLLGNVLVVVLARNFG
HBB_PIG        VKAHGKKVLQSFSDGLKHLDNLKGTFAKLSELHCDQLHVDPENFRLLGNVIVVVLARRLG
HBB_MESAU      VKAHGKKVIHSFADGLKHLDNLKGAFSSLSELHCDKLHVDPENFKLLGNMIIIVLSHDLG
HBB_CHICK      VRAHGKKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFS
               *:****:*: :*.:.: :**::*.:*: ******::********:***:::: **:   .

HBB_HUMAN      KEFTPPVQAAYQKVVAGVANALAHKYH
HBB_PANTR      KEFTPPVQAAYQKVVAGVANALAHKYH
HBB_RABIT      KEFTPQVQAAYQKVVAGVANALAHKYH
HBB_HORSE      KDFTPELQASYQKVVAGVANALAHKYH
HBB_BOVIN      KEFTPVLQADFQKVVAGVANALAHRYH
HBB_SHEEP      NEFTPVLQADFQKVVAGVANALAHKYH
HBB_ODOVI      GEFTPLVQADFQKVVAGVANALAHRYH
HBB_PIG        HDFNPNVQAAFQKVVAGVANALAHKYH
HBB_MESAU      KDFTPSAQSAFHKVVAGVANALAHKYH
HBB_CHICK      KDFTPECQAAWQKLVRVVAHALARKYH
                :*.*  *: ::*:*  **:***::**
}}

NJで系統樹を作成すると，次のようになります．
#ref(./unroot_nj.png,50%)

これはすべての枝を同じ長さで描いたもので，それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります．
#ref(./unrootbl_nj.png,50%)

また，UPGMAで系統樹を作成すると，次のようになります．
#ref(./tree_upgma.png,50%)

これもすべての枝を同じ長さで描いたもので，それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります．
#ref(./treebl_upgma.png,50%)


*演習 [#x0cfe471]

UniProtからEntry Nameが AMY1_ で始まるアミラーゼ（Amylase）のアミノ酸配列をいくつか入手し，多重配列アラインメントを行って系統樹を作成してみよう．


*参考文献 [#v04c1e7e]
#html{{
<iframe src="http://rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=FFFFFF&IS2=1&bg1=FFFFFF&fc1=444B4C&lc1=444B4C&t=tohgorohmatsu-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=ss_til&asins=4895924262" style="width:120px;height:240px;" scrolling="no" marginwidth="0" marginheight="0" frameborder="0"></iframe>
}}
-5章 多重配列アラインメント

バイオ・データ・マイニング/ClustalWで多重アラインメントを行う のバックアップソース(No.4)

バイオ・データ・マイニング/ClustalWで多重アラインメントを行うのバックアップソース(No.4)