バイオ・データ・マイニング/ClustalWで多重アラインメントを行うのバックアップ(No.7)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
バイオ・データ・マイニング/ClustalWで多重アラインメントを行うへ行く。
- 1 (2014-10-03 (金) 11:28:13)
- 2 (2014-10-03 (金) 19:08:13)
- 3 (2014-10-09 (木) 03:57:24)
- 4 (2014-10-09 (木) 09:49:48)
- 5 (2014-10-10 (金) 07:12:22)
- 6 (2014-10-10 (金) 07:15:59)
- 7 (2014-10-10 (金) 10:53:12)
- 8 (2014-10-17 (金) 07:36:57)
- 9 (2014-10-17 (金) 07:36:57)
- 10 (2019-10-09 (水) 13:15:57)

はじめに †

ここでは，ClustalWを使ってタンパク質のアミノ酸配列の多重アラインメントを行います．

ClustalWの基本的な使い方については，以下のページを参照してください．

ClustalWでペアワイズ・アラインメントを行う - とうごろうぃき

ここでは，系統樹を表示できるGenomeNetのClustalWを使います．

↑

多重アラインメント †

3本以上の配列に対する配列アラインメント（シーケンス・アラインメント）を多重配列アラインメント（多重アラインメント，マルチアラインメント）と言います．

↑

多重アラインメントの仕組み †

ここではClustalWによる多重アラインメントについて説明します．その他の方法もありますが，ここでは説明しません．

ClustalWは，累進法と呼ばれる方法を用いて多重アラインメントを行います．

まずはじめに，すべての配列からペアを作成し，ペアワイズ・アラインメントを行ってスコア（距離行列）を求めます．

次に，このスコア（距離行列）に基づいて，近隣結合法（NJ）または非加重結合法（UPGMA）を用いて階層クラスタリングを行い，案内木（guide tree）と呼ばれるデンドログラムを作成します．

最後に，案内木に従って，多重アラインメントを作成します．

↑

近隣結合法 (NJ) †

近隣結合法は，枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です．この方法では，根がない木（無根系統樹）を作成します．

A, B, C, D, E という5つの種があり，ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします．

このとき，近隣結合法では，まずはじめにそれぞれの種をOTU (Operational Taxonomic Unit)とし，全てのOTUに連結した節を作ります．

それから，最も近いOTUである A と B を結合してノードを作り，このノードと葉 A, B を含む部分木を新しいOTUとし，新しい枝を作ります．

これを繰り返します．

↑

非加重結合法 (UPGMA) †

非加重結合法は，進化速度が一定であると仮定して，最も近いクラスターを結合することを繰り返す方法です．この方法では，根つき木（有根系統樹）を作成します．

上と同様に，A, B, C, D, E という5つの種があり，ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします．

このとき，非加重結合法は，まずはじめにそれぞれの種をOTUとし，最も近いOTUを結合し，新しいOTUを作ります．

それから，再び最も近いOTUを結合し，新しいOTUを作ります．

これを繰り返します．

↑

タンパク質の多重アラインメント †

タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して，ClustalWで多重アラインメントを行います．

UniProtからアミノ酸配列を取得する方法については，以下のページを参照してください．

ClustalWでペアワイズ・アラインメントを行う - とうごろうぃき

ここでは，以下のヘモグロビン（Hemoglobin subunit alpha）のアミノ酸配列に対してペアワイズ・アラインメントをやってみます．

HBA_HUMAN ヒト
HBA_RAT ラット
HBA_MOUSE マウス
HBA_HORSE 馬
HBA_PANTR チンパンジー
HBA_EQUAS ロバ
HBA_BOVIN 牛
HBA_PIG 豚
HBA_APTFO ペンギン
HBA_CYPCA 鯉

まず，UniProtで Hemoglobin HBA を検索し，アミノ酸配列を入手します．

次に，ClustalWにかけると，次のような多重アラインメントが得られます．

CLUSTAL 2.1 multiple sequence alignment


HBA_RAT        MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHID-VSPGSAQVKAH
HBA_MOUSE      MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFD-VSHGSAQVKGH
HBA_HUMAN      MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_PANTR      MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_BOVIN      MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_HORSE      MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH
HBA_EQUAS      MVLSAADKTNVKAAWSKVGGNAGEFGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH
HBA_PIG        -VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFN-LSHGSDQVKAH
HBA_APTFO      MVLSANDKSNVKSIFSKISSHAEEYGAETLERMFTTYPQTKTYFPHFD-LHHGSAQVKAH
HBA_CYPCA      MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
                 **  **  :*  :.*:. :.   * *:* **:  :* *****.*   :  **  ** *

HBA_RAT        GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
HBA_MOUSE      GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
HBA_HUMAN      GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANTR      GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_BOVIN      GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
HBA_HORSE      GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_EQUAS      GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_PIG        GQKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFN
HBA_APTFO      GKKVAAALIEAANHIDDIAGALSKLSDLHAEKLRVDPVNFKLLGQCFMVVVAIHHPSALT
HBA_CYPCA      GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
               *  :  *:  *. :::*: ..*: **:*** ******.***:*.: .: .:.   *  : 

HBA_RAT        PAMHASLDKFLASVSTVLTSKYR
HBA_MOUSE      PAVHASLDKFLASVSTVLTSKYR
HBA_HUMAN      PAVHASLDKFLASVSTVLTSKYR
HBA_PANTR      PAVHASLDKFLASVSTVLTSKYR
HBA_BOVIN      PAVHASLDKFLANVSTVLTSKYR
HBA_HORSE      PAVHASLDKFLSSVSTVLTSKYR
HBA_EQUAS      PAVHASLDKFLSTVSTVLTSKYR
HBA_PIG        PSVHASLDKFLANVSTVLTSKYR
HBA_APTFO      PEIHASLDKFLCAVGNVLTSKYR
HBA_CYPCA      PEVHMSVDKFFQNLALALSEKYR
               * :* *:***:  :. .*:.***

NJで系統樹を作成すると，次のようになります．