バイオ・データ・マイニング/ClustalWで多重アラインメントを行うの変更点

追加された行はこの色です。
削除された行はこの色です。
バイオ・データ・マイニング/ClustalWで多重アラインメントを行うへ行く。
バイオ・データ・マイニング/ClustalWで多重アラインメントを行うの差分を削除
*はじめに [#t90e8c3c]

ここでは、''ClustalW''を使ってタンパク質のアミノ酸配列の多重アラインメントを行います。

ClustalWの基本的な使い方については、以下のページを参照してください。
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき

ここでは、系統樹を表示できる[[GenomeNetのClustalW:http://www.genome.jp/tools/clustalw/]]を使います。


*多重アラインメント [#ff3821f6]

3本以上の配列に対する配列アラインメント（シーケンス・アラインメント）を多重配列アラインメント（多重アラインメント、マルチアラインメント）と言います。


*多重アラインメントの仕組み [#u063de5e]

ここではClustalWによる多重アラインメントについて説明します。
その他の方法もありますが、ここでは説明しません。

ClustalWは、''累進法''と呼ばれる方法を用いて多重アラインメントを行います。

まずはじめに、すべての配列からペアを作成し、ペアワイズ・アラインメントを行ってスコア（距離行列）を求めます。

次に、このスコア（距離行列）に基づいて、''近隣結合法''（''NJ''）を用いて階層クラスタリングを行い、''案内木''（''guide tree''）と呼ばれるデンドログラムを作成します。

最後に、案内木に従って、多重アラインメントを作成します。


*近隣結合法 (NJ) [#x8090bb1]

近隣結合法は、枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です。
この方法では、根がない木（無根系統樹）を作成します。

A, B, C, D, E という5つの種があり、ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします。

このとき、近隣結合法では、まずはじめにそれぞれの種を操作上の分類ユニットOTU (Operational Taxonomic Unit)とし、全てのOTUに連結した節を作ります。
#ref(./nj_before.png,25%)

それから、最も近いOTUである A と B を結合してノードを作り、このノードと葉 A, B を含む部分木を新しいOTUとし、新しい枝を作ります。
#ref(./nj_after.png,25%)
これを繰り返します。

genome.jpのCLUSTALWでは、NJの改良版である''BIONJ''と''fasttree''を使うことができます。





*タンパク質の多重アラインメント [#n893a818]

タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して、ClustalWで多重アラインメントを行います。

UniProtからアミノ酸配列を取得する方法については、以下のページを参照してください。
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき

ここでは、以下のヘモグロビン（Hemoglobin subunit alpha）のアミノ酸配列に対してペアワイズ・アラインメントをやってみます。
-HBA_HUMAN ヒト
-HBA_RAT ラット
+HBA_HUMAN ヒト
+HBA_RAT ラット
+HBA_MOUSE マウス
+HBA_BOVIN 牛
+HBA_RABIT ウサギ
+HBA_CHICK 鶏
+HBA_HORSE 馬
+HBA_PANTR チンパンジー
+HBA_DANRE ゼブラフィッシュ
+HBA_EQUHE ロバ
+HBA_XENTR カエル
+HBA_PANPA ボノボ
+HBA_CYPCA 鯉
+HBA_LEPWE アザラシ
+HBA_SHEEP　羊

まず、UniProtで Hemoglobin HBA を検索し、アミノ酸配列を入手します。

次に、ClustalWにかけると、次のような多重アラインメントが得られます。
 CLUSTAL 2.1 multiple sequence alignment
 
 
 HBA_RAT         MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHI-DVSPGSAQVKAH
 HBA_MOUSE       MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHF-DVSHGSAQVKGH
 HBA_HUMAN       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_PANTR       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_PANPA       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_BOVIN       MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_SHEEP       MVLSAADKSNVKAAWGKVGGNAGAYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_HORSE       MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
 HBA_EQUHE       MVLSAADKTNVKAAWSKVGGNAGDFGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
 HBA_RABIT       MVLSPADKTNIKTAWEKIGSHGGEYGAEAVERMFLGFPTTKTYFPHF-DFTHGSEQIKAH
 HBA_LEPWE       -VLSPADKTNVKTTWDKIGGHAGEYGGEALERTFMAFPTTKTYFPHF-DLSPGSAQVKTH
 HBA_CHICK       MVLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHF-DLSHGSAQIKGH
 HBA_XENTR       MHLTADDKKHIKAIWPSVAAHGDKYGGEALHRMFMCAPKTKTYFPDF-DFSEHSKHILAH
 HBA_DANRE       MSLSDTDKAVVKAIWAKISPKADEIGAEALARMLTVYPQTKTYFSHWADLSPGSGPVKKH
 HBA_CYPCA       MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
                   *:  **  :*  : .:. :.   * *:: * :   * *****..  *.:  *  :  *
 
 HBA_RAT         GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
 HBA_MOUSE       GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
 HBA_HUMAN       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
 HBA_PANTR       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
 HBA_PANPA       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
 HBA_BOVIN       GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
 HBA_SHEEP       GEKVAAALTKAVGHLDDLPGTLSDLSDLHAHKLRVDPVNFKLLSHSLLVTLACHLPNDFT
 HBA_HORSE       GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
 HBA_EQUHE       GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
 HBA_RABIT       GKKVSEALTKAVGHLDDLPGALSTLSDLHAHKLRVDPVNFKLLSHCLLVTLANHHPSEFT
 HBA_LEPWE       GKKVADALTTAVSHIDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLACHHPADFT
 HBA_CHICK       GKKVVAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGQCFLVVVAIHHPAALT
 HBA_XENTR       GKKVSDALNEACNHLDNIAGCLSKLSDLHAYDLRVDPGNFPLLAHQILVVVAIHFPKQFD
 HBA_DANRE       GKTIMGAVGEAISKIDDLVGGLAALSELHAFKLRVDPANFKILSHNVIVVIAMLFPADFT
 HBA_CYPCA       GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
                 *  :  *:  *  ::::: . *: **:***..***** ** :*.: .: .:.   *  : 
 
 HBA_RAT         PAMHASLDKFLASVSTVLTSKYR
 HBA_MOUSE       PAVHASLDKFLASVSTVLTSKYR
 HBA_HUMAN       PAVHASLDKFLASVSTVLTSKYR
 HBA_PANTR       PAVHASLDKFLASVSTVLTSKYR
 HBA_PANPA       PAVHASLDKFLASVSTVLTSKYR
 HBA_BOVIN       PAVHASLDKFLANVSTVLTSKYR
 HBA_SHEEP       PAVHASLDKFLANVSTVLTSKYR
 HBA_HORSE       PAVHASLDKFLSSVSTVLTSKYR
 HBA_EQUHE       PAVHASLDKFLSTVSTVLTSKYR
 HBA_RABIT       PAVHASLDKFLANVSTVLTSKYR
 HBA_LEPWE       PAVHASLDKFFSAVSTVLTSKYR
 HBA_CHICK       PEVHASLDKFLCAVGTVLTAKYR
 HBA_XENTR       PATHKALDKFLVSVSNVLTSKYR
 HBA_DANRE       PEVHVSVDKFFNNLALALSEKYR
 HBA_CYPCA       PEVHMSVDKFFQNLALALSEKYR
                 *  * ::***:  :. .*: ***
 
BIONJで系統樹を作成すると、次のようになります。
#ref(./BIONJ.png,75%)

また、fasttreeで系統樹を作成すると、次のようになります。
#ref(./fasttree.png,75%)


*演習 [#x0cfe471]

UniProtからEntry Nameが AMY1_ で始まるアミラーゼのアミノ酸配列をいくつか入手し、ClustalWを用いて多重配列アラインメントを行って系統樹を作成してみよう。


*参考文献 [#v04c1e7e]
-樋口 千洋. 2011. Rによるバイオインフォマティクスデータ解析－Bioconductorを用いたゲノムスケールのデータマイニング, 第2版. 共立出版. https://amzn.to/4nz0g7v