ClustalWで多重アラインメントを行う

2020-10-13 (火) 20:06:51 (42d) | Topic path: Top / バイオ・データ・マイニング / ClustalWで多重アラインメントを行う

はじめに

ここでは、ClustalWを使ってタンパク質のアミノ酸配列の多重アラインメントを行います。

ClustalWの基本的な使い方については、以下のページを参照してください。

ここでは、系統樹を表示できるGenomeNetのClustalWを使います。

多重アラインメント

3本以上の配列に対する配列アラインメント(シーケンス・アラインメント)を多重配列アラインメント(多重アラインメント、マルチアラインメント)と言います。

多重アラインメントの仕組み

ここではClustalWによる多重アラインメントについて説明します。 その他の方法もありますが、ここでは説明しません。

ClustalWは、累進法と呼ばれる方法を用いて多重アラインメントを行います。

まずはじめに、すべての配列からペアを作成し、ペアワイズ・アラインメントを行ってスコア(距離行列)を求めます。

次に、このスコア(距離行列)に基づいて、近隣結合法NJ)を用いて階層クラスタリングを行い、案内木guide tree)と呼ばれるデンドログラムを作成します。

最後に、案内木に従って、多重アラインメントを作成します。

近隣結合法 (NJ)

近隣結合法は、枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です。 この方法では、根がない木(無根系統樹)を作成します。

A, B, C, D, E という5つの種があり、ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします。

このとき、近隣結合法では、まずはじめにそれぞれの種を操作上の分類ユニットOTU (Operational Taxonomic Unit)とし、全てのOTUに連結した節を作ります。

nj_before.png

それから、最も近いOTUである A と B を結合してノードを作り、このノードと葉 A, B を含む部分木を新しいOTUとし、新しい枝を作ります。

nj_after.png

これを繰り返します。

genome.jpのCLUSTALWでは、NJの改良版であるBIONJfasttreeを使うことができます。

タンパク質の多重アラインメント

タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して、ClustalWで多重アラインメントを行います。

UniProtからアミノ酸配列を取得する方法については、以下のページを参照してください。

ここでは、以下のヘモグロビン(Hemoglobin subunit alpha)のアミノ酸配列に対してペアワイズ・アラインメントをやってみます。

  • HBA_HUMAN ヒト
  • HBA_RAT ラット
  • HBA_MOUSE マウス
  • HBA_BOVIN 牛
  • HBA_RABIT ウサギ
  • HBA_CHICK 鶏
  • HBA_HORSE 馬
  • HBA_PANTR チンパンジー
  1. HBA_DANRE ゼブラフィッシュ
  2. HBA_EQUHE ロバ
  3. HBA_XENTR カエル
  4. HBA_PANPA ボノボ
  • HBA_CYPCA 鯉
  1. HBA_LEPWE アザラシ
  2. HBA_SHEEP 羊

まず、UniProtで Hemoglobin HBA を検索し、アミノ酸配列を入手します。

次に、ClustalWにかけると、次のような多重アラインメントが得られます。

CLUSTAL 2.1 multiple sequence alignment


HBA_RAT         MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHI-DVSPGSAQVKAH
HBA_MOUSE       MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHF-DVSHGSAQVKGH
HBA_HUMAN       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_PANTR       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_PANPA       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_BOVIN       MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_SHEEP       MVLSAADKSNVKAAWGKVGGNAGAYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
HBA_HORSE       MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
HBA_EQUHE       MVLSAADKTNVKAAWSKVGGNAGDFGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
HBA_RABIT       MVLSPADKTNIKTAWEKIGSHGGEYGAEAVERMFLGFPTTKTYFPHF-DFTHGSEQIKAH
HBA_LEPWE       -VLSPADKTNVKTTWDKIGGHAGEYGGEALERTFMAFPTTKTYFPHF-DLSPGSAQVKTH
HBA_CHICK       MVLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHF-DLSHGSAQIKGH
HBA_XENTR       MHLTADDKKHIKAIWPSVAAHGDKYGGEALHRMFMCAPKTKTYFPDF-DFSEHSKHILAH
HBA_DANRE       MSLSDTDKAVVKAIWAKISPKADEIGAEALARMLTVYPQTKTYFSHWADLSPGSGPVKKH
HBA_CYPCA       MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
                  *:  **  :*  : .:. :.   * *:: * :   * *****..  *.:  *  :  *

HBA_RAT         GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
HBA_MOUSE       GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
HBA_HUMAN       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANTR       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANPA       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_BOVIN       GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
HBA_SHEEP       GEKVAAALTKAVGHLDDLPGTLSDLSDLHAHKLRVDPVNFKLLSHSLLVTLACHLPNDFT
HBA_HORSE       GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_EQUHE       GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_RABIT       GKKVSEALTKAVGHLDDLPGALSTLSDLHAHKLRVDPVNFKLLSHCLLVTLANHHPSEFT
HBA_LEPWE       GKKVADALTTAVSHIDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLACHHPADFT
HBA_CHICK       GKKVVAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGQCFLVVVAIHHPAALT
HBA_XENTR       GKKVSDALNEACNHLDNIAGCLSKLSDLHAYDLRVDPGNFPLLAHQILVVVAIHFPKQFD
HBA_DANRE       GKTIMGAVGEAISKIDDLVGGLAALSELHAFKLRVDPANFKILSHNVIVVIAMLFPADFT
HBA_CYPCA       GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
                *  :  *:  *  ::::: . *: **:***..***** ** :*.: .: .:.   *  : 

HBA_RAT         PAMHASLDKFLASVSTVLTSKYR
HBA_MOUSE       PAVHASLDKFLASVSTVLTSKYR
HBA_HUMAN       PAVHASLDKFLASVSTVLTSKYR
HBA_PANTR       PAVHASLDKFLASVSTVLTSKYR
HBA_PANPA       PAVHASLDKFLASVSTVLTSKYR
HBA_BOVIN       PAVHASLDKFLANVSTVLTSKYR
HBA_SHEEP       PAVHASLDKFLANVSTVLTSKYR
HBA_HORSE       PAVHASLDKFLSSVSTVLTSKYR
HBA_EQUHE       PAVHASLDKFLSTVSTVLTSKYR
HBA_RABIT       PAVHASLDKFLANVSTVLTSKYR
HBA_LEPWE       PAVHASLDKFFSAVSTVLTSKYR
HBA_CHICK       PEVHASLDKFLCAVGTVLTAKYR
HBA_XENTR       PATHKALDKFLVSVSNVLTSKYR
HBA_DANRE       PEVHVSVDKFFNNLALALSEKYR
HBA_CYPCA       PEVHMSVDKFFQNLALALSEKYR
                *  * ::***:  :. .*: ***

BIONJで系統樹を作成すると、次のようになります。

BIONJ.png

また、fasttreeで系統樹を作成すると、次のようになります。

fasttree.png

演習

UniProtからEntry Nameが AMY1_ で始まるアミラーゼのアミノ酸配列をいくつか入手し、ClustalWを用いて多重配列アラインメントを行って系統樹を作成してみよう。

参考文献

html(): Current page, バイオ・データ・マイニング/ClustalWで多重アラインメントを行う, must be edit_authed or frozen or whole system must be PKWK_READONLY.

  • 5章 多重配列アラインメント
トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS