ClustalWで多重アラインメントを行う

2014-10-17 (金) 07:36:57 (920d) | Topic path: Top / バイオ・データ・マイニング / ClustalWで多重アラインメントを行う

はじめに

ここでは,ClustalWを使ってタンパク質のアミノ酸配列の多重アラインメントを行います.

ClustalWの基本的な使い方については,以下のページを参照してください.

ここでは,系統樹を表示できるGenomeNetのClustalWを使います.

多重アラインメント

3本以上の配列に対する配列アラインメント(シーケンス・アラインメント)を多重配列アラインメント(多重アラインメント,マルチアラインメント)と言います.

多重アラインメントの仕組み

ここではClustalWによる多重アラインメントについて説明します. その他の方法もありますが,ここでは説明しません.

ClustalWは,累進法と呼ばれる方法を用いて多重アラインメントを行います.

まずはじめに,すべての配列からペアを作成し,ペアワイズ・アラインメントを行ってスコア(距離行列)を求めます.

次に,このスコア(距離行列)に基づいて,近隣結合法NJ)または非加重結合法UPGMA)を用いて階層クラスタリングを行い,案内木guide tree)と呼ばれるデンドログラムを作成します.

最後に,案内木に従って,多重アラインメントを作成します.

近隣結合法 (NJ)

近隣結合法は,枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です. この方法では,根がない木(無根系統樹)を作成します.

A, B, C, D, E という5つの種があり,ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします.

このとき,近隣結合法では,まずはじめにそれぞれの種を操作上の分類ユニットOTU (Operational Taxonomic Unit)とし,全てのOTUに連結した節を作ります.

nj_before.png

それから,最も近いOTUである A と B を結合してノードを作り,このノードと葉 A, B を含む部分木を新しいOTUとし,新しい枝を作ります.

nj_after.png

これを繰り返します.

非加重結合法 (UPGMA)

非加重結合法は,進化速度が一定であると仮定して,最も近いクラスターを結合することを繰り返す方法です. この方法では,根つき木(有根系統樹)を作成します.

上と同様に,A, B, C, D, E という5つの種があり,ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします.

このとき,非加重結合法は,まずはじめにそれぞれの種をOTUとし,最も近いOTUを結合し,新しいOTUを作ります.

upgma_before.png

それから,再び最も近いOTUを結合し,新しいOTUを作ります.

upgma_after.png

これを繰り返します.

タンパク質の多重アラインメント

タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して,ClustalWで多重アラインメントを行います.

UniProtからアミノ酸配列を取得する方法については,以下のページを参照してください.

ここでは,以下のヘモグロビン(Hemoglobin subunit alpha)のアミノ酸配列に対してペアワイズ・アラインメントをやってみます.

  • HBA_HUMAN ヒト
  • HBA_RAT ラット
  • HBA_MOUSE マウス
  • HBA_HORSE 馬
  • HBA_PANTR チンパンジー
  • HBA_EQUAS ロバ
  • HBA_BOVIN 牛
  • HBA_PIG 豚
  • HBA_APTFO ペンギン
  • HBA_CYPCA 鯉

まず,UniProtで Hemoglobin HBA を検索し,アミノ酸配列を入手します.

次に,ClustalWにかけると,次のような多重アラインメントが得られます.

CLUSTAL 2.1 multiple sequence alignment


HBA_RAT        MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHID-VSPGSAQVKAH
HBA_MOUSE      MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFD-VSHGSAQVKGH
HBA_HUMAN      MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_PANTR      MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_BOVIN      MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_HORSE      MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH
HBA_EQUAS      MVLSAADKTNVKAAWSKVGGNAGEFGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH
HBA_PIG        -VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFN-LSHGSDQVKAH
HBA_APTFO      MVLSANDKSNVKSIFSKISSHAEEYGAETLERMFTTYPQTKTYFPHFD-LHHGSAQVKAH
HBA_CYPCA      MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
                 **  **  :*  :.*:. :.   * *:* **:  :* *****.*   :  **  ** *

HBA_RAT        GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
HBA_MOUSE      GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
HBA_HUMAN      GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANTR      GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_BOVIN      GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
HBA_HORSE      GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_EQUAS      GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_PIG        GQKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFN
HBA_APTFO      GKKVAAALIEAANHIDDIAGALSKLSDLHAEKLRVDPVNFKLLGQCFMVVVAIHHPSALT
HBA_CYPCA      GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
               *  :  *:  *. :::*: ..*: **:*** ******.***:*.: .: .:.   *  : 

HBA_RAT        PAMHASLDKFLASVSTVLTSKYR
HBA_MOUSE      PAVHASLDKFLASVSTVLTSKYR
HBA_HUMAN      PAVHASLDKFLASVSTVLTSKYR
HBA_PANTR      PAVHASLDKFLASVSTVLTSKYR
HBA_BOVIN      PAVHASLDKFLANVSTVLTSKYR
HBA_HORSE      PAVHASLDKFLSSVSTVLTSKYR
HBA_EQUAS      PAVHASLDKFLSTVSTVLTSKYR
HBA_PIG        PSVHASLDKFLANVSTVLTSKYR
HBA_APTFO      PEIHASLDKFLCAVGNVLTSKYR
HBA_CYPCA      PEVHMSVDKFFQNLALALSEKYR
               * :* *:***:  :. .*:.***

NJで系統樹を作成すると,次のようになります.

unroot_nj.png

これはすべての枝を同じ長さで描いたもので,それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります.

unrootbl_nj.png

また,UPGMAで系統樹を作成すると,次のようになります.

tree_upgma.png

これもすべての枝を同じ長さで描いたもので,それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります.

treebl_upgma.png

演習

UniProtからEntry Nameが AMY1_ で始まるアミラーゼのアミノ酸配列をいくつか入手し,ClustalWを用いて多重配列アラインメントを行って系統樹を作成してみよう.

参考文献

  • 5章 多重配列アラインメント
トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS