*はじめに [#t90e8c3c]
ここでは、''ClustalW''を使ってタンパク質のアミノ酸配列の多重アラインメントを行います。
ClustalWの基本的な使い方については、以下のページを参照してください。
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき
ここでは、系統樹を表示できる[[GenomeNetのClustalW:http://www.genome.jp/tools/clustalw/]]を使います。
*多重アラインメント [#ff3821f6]
3本以上の配列に対する配列アラインメント(シーケンス・アラインメント)を多重配列アラインメント(多重アラインメント、マルチアラインメント)と言います。
*多重アラインメントの仕組み [#u063de5e]
ここではClustalWによる多重アラインメントについて説明します。
その他の方法もありますが、ここでは説明しません。
ClustalWは、''累進法''と呼ばれる方法を用いて多重アラインメントを行います。
まずはじめに、すべての配列からペアを作成し、ペアワイズ・アラインメントを行ってスコア(距離行列)を求めます。
次に、このスコア(距離行列)に基づいて、''近隣結合法''(''NJ'')または''非加重結合法''(''UPGMA'')を用いて階層クラスタリングを行い、''案内木''(''guide tree'')と呼ばれるデンドログラムを作成します。
次に、このスコア(距離行列)に基づいて、''近隣結合法''(''NJ'')を用いて階層クラスタリングを行い、''案内木''(''guide tree'')と呼ばれるデンドログラムを作成します。
最後に、案内木に従って、多重アラインメントを作成します。
*近隣結合法 (NJ) [#x8090bb1]
近隣結合法は、枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です。
この方法では、根がない木(無根系統樹)を作成します。
A, B, C, D, E という5つの種があり、ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします。
このとき、近隣結合法では、まずはじめにそれぞれの種を操作上の分類ユニットOTU (Operational Taxonomic Unit)とし、全てのOTUに連結した節を作ります。
#ref(./nj_before.png,25%)
それから、最も近いOTUである A と B を結合してノードを作り、このノードと葉 A, B を含む部分木を新しいOTUとし、新しい枝を作ります。
#ref(./nj_after.png,25%)
これを繰り返します。
genome.jpのCLUSTALWでは、NJの改良版である''BIONJ''と''fasttree''を使うことができます。
*非加重結合法 (UPGMA) [#nfa73950]
非加重結合法は、進化速度が一定であると仮定して、最も近いクラスターを結合することを繰り返す方法です。
この方法では、根つき木(有根系統樹)を作成します。
上と同様に、A, B, C, D, E という5つの種があり、ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします。
このとき、非加重結合法は、まずはじめにそれぞれの種をOTUとし、最も近いOTUを結合し、新しいOTUを作ります。
#ref(./upgma_before.png,25%)
それから、再び最も近いOTUを結合し、新しいOTUを作ります。
#ref(./upgma_after.png,25%)
これを繰り返します。
*タンパク質の多重アラインメント [#n893a818]
タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して、ClustalWで多重アラインメントを行います。
UniProtからアミノ酸配列を取得する方法については、以下のページを参照してください。
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき
ここでは、以下のヘモグロビン(Hemoglobin subunit alpha)のアミノ酸配列に対してペアワイズ・アラインメントをやってみます。
-HBA_HUMAN ヒト
-HBA_RAT ラット
-HBA_MOUSE マウス
-HBA_BOVIN 牛
-HBA_RABIT ウサギ
-HBA_CHICK 鶏
-HBA_HORSE 馬
-HBA_PANTR チンパンジー
+HBA_DANRE ゼブラフィッシュ
+HBA_EQUHE ロバ
+HBA_XENTR カエル
+HBA_PANPA ボノボ
-HBA_CYPCA 鯉
+HBA_LEPWE アザラシ
+HBA_SHEEP 羊
まず、UniProtで Hemoglobin HBA を検索し、アミノ酸配列を入手します。
次に、ClustalWにかけると、次のような多重アラインメントが得られます。
CLUSTAL 2.1 multiple sequence alignment
HBA_RAT MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHI-DVSPGSAQVKAH
HBA_MOUSE MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHF-DVSHGSAQVKGH
HBA_HUMAN MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_PANTR MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_PANPA MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_BOVIN MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_SHEEP MVLSAADKSNVKAAWGKVGGNAGAYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_HORSE MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
HBA_EQUHE MVLSAADKTNVKAAWSKVGGNAGDFGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
HBA_RABIT MVLSPADKTNIKTAWEKIGSHGGEYGAEAVERMFLGFPTTKTYFPHF-DFTHGSEQIKAH
HBA_LEPWE -VLSPADKTNVKTTWDKIGGHAGEYGGEALERTFMAFPTTKTYFPHF-DLSPGSAQVKTH
HBA_CHICK MVLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHF-DLSHGSAQIKGH
HBA_XENTR MHLTADDKKHIKAIWPSVAAHGDKYGGEALHRMFMCAPKTKTYFPDF-DFSEHSKHILAH
HBA_DANRE MSLSDTDKAVVKAIWAKISPKADEIGAEALARMLTVYPQTKTYFSHWADLSPGSGPVKKH
HBA_CYPCA MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
*: ** :* : .:. :. * *:: * : * *****.. *.: * : *
HBA_RAT GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
HBA_MOUSE GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
HBA_HUMAN GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANTR GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANPA GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_BOVIN GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
HBA_SHEEP GEKVAAALTKAVGHLDDLPGTLSDLSDLHAHKLRVDPVNFKLLSHSLLVTLACHLPNDFT
HBA_HORSE GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_EQUHE GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_RABIT GKKVSEALTKAVGHLDDLPGALSTLSDLHAHKLRVDPVNFKLLSHCLLVTLANHHPSEFT
HBA_LEPWE GKKVADALTTAVSHIDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLACHHPADFT
HBA_CHICK GKKVVAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGQCFLVVVAIHHPAALT
HBA_XENTR GKKVSDALNEACNHLDNIAGCLSKLSDLHAYDLRVDPGNFPLLAHQILVVVAIHFPKQFD
HBA_DANRE GKTIMGAVGEAISKIDDLVGGLAALSELHAFKLRVDPANFKILSHNVIVVIAMLFPADFT
HBA_CYPCA GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
* : *: * ::::: . *: **:***..***** ** :*.: .: .:. * :
HBA_RAT PAMHASLDKFLASVSTVLTSKYR
HBA_MOUSE PAVHASLDKFLASVSTVLTSKYR
HBA_HUMAN PAVHASLDKFLASVSTVLTSKYR
HBA_PANTR PAVHASLDKFLASVSTVLTSKYR
HBA_PANPA PAVHASLDKFLASVSTVLTSKYR
HBA_BOVIN PAVHASLDKFLANVSTVLTSKYR
HBA_SHEEP PAVHASLDKFLANVSTVLTSKYR
HBA_HORSE PAVHASLDKFLSSVSTVLTSKYR
HBA_EQUHE PAVHASLDKFLSTVSTVLTSKYR
HBA_RABIT PAVHASLDKFLANVSTVLTSKYR
HBA_LEPWE PAVHASLDKFFSAVSTVLTSKYR
HBA_CHICK PEVHASLDKFLCAVGTVLTAKYR
HBA_XENTR PATHKALDKFLVSVSNVLTSKYR
HBA_DANRE PEVHVSVDKFFNNLALALSEKYR
HBA_CYPCA PEVHMSVDKFFQNLALALSEKYR
* * ::***: :. .*: ***
BIONJで系統樹を作成すると、次のようになります。
#ref(./BIONJ.png,75%)
また、fasttreeで系統樹を作成すると、次のようになります。
#ref(./fasttree.png,75%)
*演習 [#x0cfe471]
UniProtからEntry Nameが AMY1_ で始まるアミラーゼのアミノ酸配列をいくつか入手し、ClustalWを用いて多重配列アラインメントを行って系統樹を作成してみよう。
*参考文献 [#v04c1e7e]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" src="https://rcm-fe.amazon-adsystem.com/e/cm?ref=tf_til&t=tohgorohmatsu-22&m=amazon&o=9&p=8&l=as1&IS2=1&detail=1&asins=4895924262&linkId=d39e83344ba7b635eae58e4967f3c875&bc1=ffffff<1=_blank&fc1=444b4c&lc1=444b4c&bg1=ffffff&f=ifr"></iframe>
}}
-5章 多重配列アラインメント