*はじめに [#t90e8c3c]
ここでは,''ClustalW''を使ってタンパク質のアミノ酸配列の多重アラインメントを行います.
ClustalWの基本的な使い方については,以下のページを参照してください.
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき
*多重アラインメント [#ff3821f6]
3本以上の配列に対する配列アラインメント(シーケンス・アラインメント)を多重配列アラインメント(多重アラインメント,マルチアラインメント)と言います.
*多重アラインメントの仕組み [#u063de5e]
ここではClustalWによる多重アラインメントについて説明します.
その他の方法もありますが,ここでは説明しません.
ClustalWは,''累進法''と呼ばれる方法を用いて多重アラインメントを行います.
まずはじめに,すべての配列からペアを作成し,ペアワイズ・アラインメントを行ってスコア(距離行列)を求めます.
次に,このスコア(距離行列)に基づいて,''近隣結合法''(''NJ'')または''非加重結合法''(''UPGMA'')を用いて階層クラスタリングを行い,''案内木''(''guide tree'')と呼ばれるデンドログラムを作成します.
最後に,案内木に従って,多重アラインメントを作成します.
*近隣結合法 (NJ) [#x8090bb1]
近隣結合法は,枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です.
この方法では,根がない木(無根系統樹)を作成します.
A, B, C, D, E という5つの種があり,ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします.
このとき,近隣結合法では,まずはじめにそれぞれの種をOTU (Operational Taxonomic Unit)とし,全てのOTUに連結した節を作ります.
#ref(./nj_before.png,25%)
それから,最も近いOTUである A と B を結合してノードを作り,このノードと葉 A, B を含む部分木を新しいOTUとし,新しい枝を作ります.
#ref(./nj_after.png,25%)
これを繰り返します.
*非加重結合法 (UPGMA) [#nfa73950]
非加重結合法は,進化速度が一定であると仮定して,最も近いクラスターを結合することを繰り返す方法です.
この方法では,根つき木(有根系統樹)を作成します.
上と同様に,A, B, C, D, E という5つの種があり,ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします.
このとき,非加重結合法は,まずはじめにそれぞれの種をOTUとし,最も近いOTUを結合し,新しいOTUを作ります.
#ref(./upgma_before.png,25%)
それから,再び最も近いOTUを結合し,新しいOTUを作ります.
#ref(./upgma_after.png,25%)
これを繰り返します.
*タンパク質の多重アラインメント [#n893a818]
タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して,ClustalWで多重アラインメントを行います.
UniProtからアミノ酸配列を取得する方法については,以下のページを参照してください.
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき
ここでは,以下のヘモグロビンのアミノ酸配列に対してペアワイズ・アラインメントをやってみます.(''Hemoglobin HBB''で検索します.)
-HBB_HUMAN ヒト
-HBB_PANTR チンパンジー
-HBB_RABIT ウサギ
-HBB_BOVIN 牛
-HBB_PIG 豚
-HBB_HORSE 馬
-HBB_SHEEP 羊
-HBB_ODOVI 鹿
-HBB_MESAU ゴールデン・ハムスター
-HBB_CHICK 鶏
まず,ClustalWにかけると,次のような多重アラインメントが得られます.
#geshi(txt){{
CLUSTAL 2.1 multiple sequence alignment
HBB_HUMAN MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
HBB_PANTR MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
HBB_RABIT MVHLSSEEKSAVTALWGKVNVEEVGGEALGRLLVVYPWTQRFFESFGDLSSANAVMNNPK
HBB_HORSE -VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPK
HBB_BOVIN --MLTAEEKAAVTAFWGKVKVDEVGGEALGRLLVVYPWTQRFFESFGDLSTADAVMNNPK
HBB_SHEEP --MLTAEEKAAVTGFWGKVKVDEVGAEALGRLLVVYPWTQRFFEHFGDLSNADAVMNNPK
HBB_ODOVI --MLTAEEKAAVTGFWGKVNVDVVGAEALGRLLVVYPWTQRFFEHFGDLSSAGAVMGNPK
HBB_PIG MVHLSAEEKEAVLGLWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSNADAVMGNPK
HBB_MESAU MVHLTDAEKALVTGLWGKVNADAVGAEALGRLLVVYPWTQRFFEHFGDLSSASAVMNNPQ
HBB_CHICK MVHWTAEEKQLITGLWGKVNVAECGAEALARLLIVYPWTQRFFASFGNLSSPTAILGNPM
: ** : .:*.**: *.***.***:********* **:**.. *::.**
HBB_HUMAN VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
HBB_PANTR VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
HBB_RABIT VKAHGKKVLAAFSEGLSHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVIVLSHHFG
HBB_HORSE VKAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFG
HBB_BOVIN VKAHGKKVLDSFSNGMKHLDDLKGTFAALSELHCDKLHVDPENFKLLGNVLVVVLARNFG
HBB_SHEEP VKAHGKKVLDSFSNGMKHLDDLKGTFAQLSELHCDKLHVDPENFRLLGNVLVVVLARHHG
HBB_ODOVI VKAHGKRVLDAFSEGLKHLDDLKGAFAELSELHCNKLHVDPENFRLLGNVLVVVLARNFG
HBB_PIG VKAHGKKVLQSFSDGLKHLDNLKGTFAKLSELHCDQLHVDPENFRLLGNVIVVVLARRLG
HBB_MESAU VKAHGKKVIHSFADGLKHLDNLKGAFSSLSELHCDKLHVDPENFKLLGNMIIIVLSHDLG
HBB_CHICK VRAHGKKVLTSFGDAVKNLDNIKNTFSQLSELHCDKLHVDPENFRLLGDILIIVLAAHFS
*:****:*: :*.:.: :**::*.:*: ******::********:***:::: **: .
HBB_HUMAN KEFTPPVQAAYQKVVAGVANALAHKYH
HBB_PANTR KEFTPPVQAAYQKVVAGVANALAHKYH
HBB_RABIT KEFTPQVQAAYQKVVAGVANALAHKYH
HBB_HORSE KDFTPELQASYQKVVAGVANALAHKYH
HBB_BOVIN KEFTPVLQADFQKVVAGVANALAHRYH
HBB_SHEEP NEFTPVLQADFQKVVAGVANALAHKYH
HBB_ODOVI GEFTPLVQADFQKVVAGVANALAHRYH
HBB_PIG HDFNPNVQAAFQKVVAGVANALAHKYH
HBB_MESAU KDFTPSAQSAFHKVVAGVANALAHKYH
HBB_CHICK KDFTPECQAAWQKLVRVVAHALARKYH
:*.* *: ::*:* **:***::**
}}
NJで系統樹を作成すると,次のようになります.
#ref(./unroot_nj.png,50%)
これはすべての枝を同じ長さで描いたもので,それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります.
#ref(./unrootbl_nj.png,50%)
また,UPGMAで系統樹を作成すると,次のようになります.
#ref(./tree_upgma.png,50%)
これもすべての枝を同じ長さで描いたもので,それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります.
#ref(./treebl_upgma.png,50%)
*演習 [#x0cfe471]
UniProtからEntry Nameが AMY1_ で始まるアミラーゼ(Amylase)のアミノ酸配列をいくつか入手し,多重配列アラインメントを行って系統樹を作成してみよう.
*参考文献 [#v04c1e7e]
#html{{
<iframe src="http://rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=FFFFFF&IS2=1&bg1=FFFFFF&fc1=444B4C&lc1=444B4C&t=tohgorohmatsu-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=ss_til&asins=4895924262" style="width:120px;height:240px;" scrolling="no" marginwidth="0" marginheight="0" frameborder="0"></iframe>
}}
-5章 多重配列アラインメント