- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- バイオ・データ・マイニング/ClustalWで多重アラインメントを行う へ行く。
はじめに †
ここでは,ClustalWを使ってタンパク質のアミノ酸配列の多重アラインメントを行います.
ClustalWの基本的な使い方については,以下のページを参照してください.
- ClustalWでペアワイズ・アラインメントを行う - とうごろうぃき
ここでは,系統樹を表示できるGenomeNetのClustalWを使います.
多重アラインメント †
3本以上の配列に対する配列アラインメント(シーケンス・アラインメント)を多重配列アラインメント(多重アラインメント,マルチアラインメント)と言います.
多重アラインメントの仕組み †
ここではClustalWによる多重アラインメントについて説明します. その他の方法もありますが,ここでは説明しません.
ClustalWは,累進法と呼ばれる方法を用いて多重アラインメントを行います.
まずはじめに,すべての配列からペアを作成し,ペアワイズ・アラインメントを行ってスコア(距離行列)を求めます.
次に,このスコア(距離行列)に基づいて,近隣結合法(NJ)または非加重結合法(UPGMA)を用いて階層クラスタリングを行い,案内木(guide tree)と呼ばれるデンドログラムを作成します.
最後に,案内木に従って,多重アラインメントを作成します.
近隣結合法 (NJ) †
近隣結合法は,枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です. この方法では,根がない木(無根系統樹)を作成します.
A, B, C, D, E という5つの種があり,ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします.
このとき,近隣結合法では,まずはじめにそれぞれの種をOTU (Operational Taxonomic Unit)とし,全てのOTUに連結した節を作ります.
それから,最も近いOTUである A と B を結合してノードを作り,このノードと葉 A, B を含む部分木を新しいOTUとし,新しい枝を作ります.
これを繰り返します.
非加重結合法 (UPGMA) †
非加重結合法は,進化速度が一定であると仮定して,最も近いクラスターを結合することを繰り返す方法です. この方法では,根つき木(有根系統樹)を作成します.
上と同様に,A, B, C, D, E という5つの種があり,ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします.
このとき,非加重結合法は,まずはじめにそれぞれの種をOTUとし,最も近いOTUを結合し,新しいOTUを作ります.
それから,再び最も近いOTUを結合し,新しいOTUを作ります.
これを繰り返します.
タンパク質の多重アラインメント †
タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して,ClustalWで多重アラインメントを行います.
UniProtからアミノ酸配列を取得する方法については,以下のページを参照してください.
- ClustalWでペアワイズ・アラインメントを行う - とうごろうぃき
ここでは,以下のヘモグロビン(Hemoglobin subunit alpha)のアミノ酸配列に対してペアワイズ・アラインメントをやってみます.
- HBA_HUMAN ヒト
- HBA_RAT ラット
- HBA_MOUSE マウス
- HBA_HORSE 馬
- HBA_PANTR チンパンジー
- HBA_EQUAS ロバ
- HBA_BOVIN 牛
- HBA_PIG 豚
- HBA_APTFO ペンギン
- HBA_CYPCA 鯉
まず,UniProtで Hemoglobin HBA を検索し,アミノ酸配列を入手します.
次に,ClustalWにかけると,次のような多重アラインメントが得られます.
CLUSTAL 2.1 multiple sequence alignment HBA_RAT MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHID-VSPGSAQVKAH HBA_MOUSE MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFD-VSHGSAQVKGH HBA_HUMAN MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH HBA_PANTR MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH HBA_BOVIN MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH HBA_HORSE MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH HBA_EQUAS MVLSAADKTNVKAAWSKVGGNAGEFGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH HBA_PIG -VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFN-LSHGSDQVKAH HBA_APTFO MVLSANDKSNVKSIFSKISSHAEEYGAETLERMFTTYPQTKTYFPHFD-LHHGSAQVKAH HBA_CYPCA MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH ** ** :* :.*:. :. * *:* **: :* *****.* : ** ** * HBA_RAT GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT HBA_MOUSE GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT HBA_HUMAN GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT HBA_PANTR GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT HBA_BOVIN GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT HBA_HORSE GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT HBA_EQUAS GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT HBA_PIG GQKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFN HBA_APTFO GKKVAAALIEAANHIDDIAGALSKLSDLHAEKLRVDPVNFKLLGQCFMVVVAIHHPSALT HBA_CYPCA GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP * : *: *. :::*: ..*: **:*** ******.***:*.: .: .:. * : HBA_RAT PAMHASLDKFLASVSTVLTSKYR HBA_MOUSE PAVHASLDKFLASVSTVLTSKYR HBA_HUMAN PAVHASLDKFLASVSTVLTSKYR HBA_PANTR PAVHASLDKFLASVSTVLTSKYR HBA_BOVIN PAVHASLDKFLANVSTVLTSKYR HBA_HORSE PAVHASLDKFLSSVSTVLTSKYR HBA_EQUAS PAVHASLDKFLSTVSTVLTSKYR HBA_PIG PSVHASLDKFLANVSTVLTSKYR HBA_APTFO PEIHASLDKFLCAVGNVLTSKYR HBA_CYPCA PEVHMSVDKFFQNLALALSEKYR * :* *:***: :. .*:.***
NJで系統樹を作成すると,次のようになります.
これはすべての枝を同じ長さで描いたもので,それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります.
また,UPGMAで系統樹を作成すると,次のようになります.
これもすべての枝を同じ長さで描いたもので,それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります.
演習 †
UniProtからEntry Nameが AMY1_ で始まるアミラーゼ(Amylase)のアミノ酸配列をいくつか入手し,多重配列アラインメントを行って系統樹を作成してみよう.
参考文献 †
- 5章 多重配列アラインメント