バイオ・データ・マイニング/ClustalWで多重アラインメントを行うのバックアップの現在との差分(No.6)

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
バイオ・データ・マイニング/ClustalWで多重アラインメントを行うへ行く。
- 1 (2014-10-03 (金) 11:28:13)
- 2 (2014-10-03 (金) 19:08:13)
- 3 (2014-10-09 (木) 03:57:24)
- 4 (2014-10-09 (木) 09:49:48)
- 5 (2014-10-10 (金) 07:12:22)
- 6 (2014-10-10 (金) 07:15:59)
- 7 (2014-10-10 (金) 10:53:12)
- 8 (2014-10-17 (金) 07:36:57)
- 9 (2014-10-17 (金) 07:36:57)
- 10 (2019-10-09 (水) 13:15:57)
追加された行はこの色です。
削除された行はこの色です。
#freeze
*はじめに [#t90e8c3c]

ここでは，''ClustalW''を使ってタンパク質のアミノ酸配列の多重アラインメントを行います．
ここでは、''ClustalW''を使ってタンパク質のアミノ酸配列の多重アラインメントを行います。

ClustalWの基本的な使い方については，以下のページを参照してください．
ClustalWの基本的な使い方については、以下のページを参照してください。
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき

ここでは、系統樹を表示できる[[GenomeNetのClustalW:http://www.genome.jp/tools/clustalw/]]を使います。


*多重アラインメント [#ff3821f6]

3本以上の配列に対する配列アラインメント（シーケンス・アラインメント）を多重配列アラインメント（多重アラインメント，マルチアラインメント）と言います．
3本以上の配列に対する配列アラインメント（シーケンス・アラインメント）を多重配列アラインメント（多重アラインメント、マルチアラインメント）と言います。


*多重アラインメントの仕組み [#u063de5e]

ここではClustalWによる多重アラインメントについて説明します．
その他の方法もありますが，ここでは説明しません．
ここではClustalWによる多重アラインメントについて説明します。
その他の方法もありますが、ここでは説明しません。

ClustalWは，''累進法''と呼ばれる方法を用いて多重アラインメントを行います．
ClustalWは、''累進法''と呼ばれる方法を用いて多重アラインメントを行います。

まずはじめに，すべての配列からペアを作成し，ペアワイズ・アラインメントを行ってスコア（距離行列）を求めます．
まずはじめに、すべての配列からペアを作成し、ペアワイズ・アラインメントを行ってスコア（距離行列）を求めます。

次に，このスコア（距離行列）に基づいて，''近隣結合法''（''NJ''）または''非加重結合法''（''UPGMA''）を用いて階層クラスタリングを行い，''案内木''（''guide tree''）と呼ばれるデンドログラムを作成します．
次に、このスコア（距離行列）に基づいて、''近隣結合法''（''NJ''）を用いて階層クラスタリングを行い、''案内木''（''guide tree''）と呼ばれるデンドログラムを作成します。

最後に，案内木に従って，多重アラインメントを作成します．
最後に、案内木に従って、多重アラインメントを作成します。


*近隣結合法 (NJ) [#x8090bb1]

近隣結合法は，枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です．
この方法では，根がない木（無根系統樹）を作成します．
近隣結合法は、枝の長さが細小になるような近隣クラスターを結合することを繰り返す方法です。
この方法では、根がない木（無根系統樹）を作成します。

A, B, C, D, E という5つの種があり，ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします．
A, B, C, D, E という5つの種があり、ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします。

このとき，近隣結合法では，まずはじめにそれぞれの種をOTU (Operational Taxonomic Unit)とし，全てのOTUに連結した節を作ります．
このとき、近隣結合法では、まずはじめにそれぞれの種を操作上の分類ユニットOTU (Operational Taxonomic Unit)とし、全てのOTUに連結した節を作ります。
#ref(./nj_before.png,25%)

それから，最も近いOTUである A と B を結合してノードを作り，このノードと葉 A, B を含む部分木を新しいOTUとし，新しい枝を作ります．
それから、最も近いOTUである A と B を結合してノードを作り、このノードと葉 A, B を含む部分木を新しいOTUとし、新しい枝を作ります。
#ref(./nj_after.png,25%)
これを繰り返します．
これを繰り返します。

genome.jpのCLUSTALWでは、NJの改良版である''BIONJ''と''fasttree''を使うことができます。

*非加重結合法 (UPGMA) [#nfa73950]

非加重結合法は，進化速度が一定であると仮定して，最も近いクラスターを結合することを繰り返す方法です．
この方法では，根つき木（有根系統樹）を作成します．

上と同様に，A, B, C, D, E という5つの種があり，ペアワイズ・アラインメントによって距離を求めたところ A と B の間の距離が最も短いとします．

このとき，非加重結合法は，まずはじめにそれぞれの種をOTUとし，最も近いOTUを結合し，新しいOTUを作ります．
#ref(./upgma_before.png,25%)

それから，再び最も近いOTUを結合し，新しいOTUを作ります．
#ref(./upgma_after.png,25%)
これを繰り返します．


*タンパク質の多重アラインメント [#n893a818]

タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して，ClustalWで多重アラインメントを行います．
タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して、ClustalWで多重アラインメントを行います。

UniProtからアミノ酸配列を取得する方法については，以下のページを参照してください．
UniProtからアミノ酸配列を取得する方法については、以下のページを参照してください。
-[[ClustalWでペアワイズ・アラインメントを行う>バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う]] - とうごろうぃき

ここでは，以下のヘモグロビン（Hemoglobin subunit alpha）のアミノ酸配列に対してペアワイズ・アラインメントをやってみます．
ここでは、以下のヘモグロビン（Hemoglobin subunit alpha）のアミノ酸配列に対してペアワイズ・アラインメントをやってみます。
-HBA_HUMAN ヒト
-HBA_RAT ラット
-HBA_MOUSE マウス
-HBA_BOVIN 牛
-HBA_RABIT ウサギ
-HBA_CHICK 鶏
-HBA_HORSE 馬
-HBA_PANTR チンパンジー
-HBA_EQUAS ロバ
-HBA_BOVIN 牛
-HBA_PIG 豚
-HBA_APTFO ペンギン
+HBA_DANRE ゼブラフィッシュ
+HBA_EQUHE ロバ
+HBA_XENTR カエル
+HBA_PANPA ボノボ
-HBA_CYPCA 鯉
+HBA_LEPWE アザラシ
+HBA_SHEEP　羊

まず，UniProtで Hemoglobin HBA を検索し，アミノ酸配列を入手します．
まず、UniProtで Hemoglobin HBA を検索し、アミノ酸配列を入手します。

次に，ClustalWにかけると，次のような多重アラインメントが得られます．
#geshi(txt){{
CLUSTAL 2.1 multiple sequence alignment
次に、ClustalWにかけると、次のような多重アラインメントが得られます。
 CLUSTAL 2.1 multiple sequence alignment
 
 
 HBA_RAT         MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHI-DVSPGSAQVKAH
 HBA_MOUSE       MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHF-DVSHGSAQVKGH
 HBA_HUMAN       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_PANTR       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_PANPA       MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_BOVIN       MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_SHEEP       MVLSAADKSNVKAAWGKVGGNAGAYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGH
 HBA_HORSE       MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
 HBA_EQUHE       MVLSAADKTNVKAAWSKVGGNAGDFGAEALERMFLGFPTTKTYFPHF-DLSHGSAQVKAH
 HBA_RABIT       MVLSPADKTNIKTAWEKIGSHGGEYGAEAVERMFLGFPTTKTYFPHF-DFTHGSEQIKAH
 HBA_LEPWE       -VLSPADKTNVKTTWDKIGGHAGEYGGEALERTFMAFPTTKTYFPHF-DLSPGSAQVKTH
 HBA_CHICK       MVLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHF-DLSHGSAQIKGH
 HBA_XENTR       MHLTADDKKHIKAIWPSVAAHGDKYGGEALHRMFMCAPKTKTYFPDF-DFSEHSKHILAH
 HBA_DANRE       MSLSDTDKAVVKAIWAKISPKADEIGAEALARMLTVYPQTKTYFSHWADLSPGSGPVKKH
 HBA_CYPCA       MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
                   *:  **  :*  : .:. :.   * *:: * :   * *****..  *.:  *  :  *
 
 HBA_RAT         GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
 HBA_MOUSE       GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
 HBA_HUMAN       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
 HBA_PANTR       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
 HBA_PANPA       GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
 HBA_BOVIN       GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
 HBA_SHEEP       GEKVAAALTKAVGHLDDLPGTLSDLSDLHAHKLRVDPVNFKLLSHSLLVTLACHLPNDFT
 HBA_HORSE       GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
 HBA_EQUHE       GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
 HBA_RABIT       GKKVSEALTKAVGHLDDLPGALSTLSDLHAHKLRVDPVNFKLLSHCLLVTLANHHPSEFT
 HBA_LEPWE       GKKVADALTTAVSHIDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLACHHPADFT
 HBA_CHICK       GKKVVAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGQCFLVVVAIHHPAALT
 HBA_XENTR       GKKVSDALNEACNHLDNIAGCLSKLSDLHAYDLRVDPGNFPLLAHQILVVVAIHFPKQFD
 HBA_DANRE       GKTIMGAVGEAISKIDDLVGGLAALSELHAFKLRVDPANFKILSHNVIVVIAMLFPADFT
 HBA_CYPCA       GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
                 *  :  *:  *  ::::: . *: **:***..***** ** :*.: .: .:.   *  : 
 
 HBA_RAT         PAMHASLDKFLASVSTVLTSKYR
 HBA_MOUSE       PAVHASLDKFLASVSTVLTSKYR
 HBA_HUMAN       PAVHASLDKFLASVSTVLTSKYR
 HBA_PANTR       PAVHASLDKFLASVSTVLTSKYR
 HBA_PANPA       PAVHASLDKFLASVSTVLTSKYR
 HBA_BOVIN       PAVHASLDKFLANVSTVLTSKYR
 HBA_SHEEP       PAVHASLDKFLANVSTVLTSKYR
 HBA_HORSE       PAVHASLDKFLSSVSTVLTSKYR
 HBA_EQUHE       PAVHASLDKFLSTVSTVLTSKYR
 HBA_RABIT       PAVHASLDKFLANVSTVLTSKYR
 HBA_LEPWE       PAVHASLDKFFSAVSTVLTSKYR
 HBA_CHICK       PEVHASLDKFLCAVGTVLTAKYR
 HBA_XENTR       PATHKALDKFLVSVSNVLTSKYR
 HBA_DANRE       PEVHVSVDKFFNNLALALSEKYR
 HBA_CYPCA       PEVHMSVDKFFQNLALALSEKYR
                 *  * ::***:  :. .*: ***
 
BIONJで系統樹を作成すると、次のようになります。
#ref(./BIONJ.png,75%)

また、fasttreeで系統樹を作成すると、次のようになります。
#ref(./fasttree.png,75%)

HBA_RAT        MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHID-VSPGSAQVKAH
HBA_MOUSE      MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFD-VSHGSAQVKGH
HBA_HUMAN      MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_PANTR      MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_BOVIN      MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFD-LSHGSAQVKGH
HBA_HORSE      MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH
HBA_EQUAS      MVLSAADKTNVKAAWSKVGGNAGEFGAEALERMFLGFPTTKTYFPHFD-LSHGSAQVKAH
HBA_PIG        -VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFN-LSHGSDQVKAH
HBA_APTFO      MVLSANDKSNVKSIFSKISSHAEEYGAETLERMFTTYPQTKTYFPHFD-LHHGSAQVKAH
HBA_CYPCA      MSLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKH
                 **  **  :*  :.*:. :.   * *:* **:  :* *****.*   :  **  ** *

HBA_RAT        GKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFT
HBA_MOUSE      GKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFT
HBA_HUMAN      GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_PANTR      GKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFT
HBA_BOVIN      GAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFT
HBA_HORSE      GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_EQUAS      GKKVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFT
HBA_PIG        GQKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFN
HBA_APTFO      GKKVAAALIEAANHIDDIAGALSKLSDLHAEKLRVDPVNFKLLGQCFMVVVAIHHPSALT
HBA_CYPCA      GKVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFP
               *  :  *:  *. :::*: ..*: **:*** ******.***:*.: .: .:.   *  : 

HBA_RAT        PAMHASLDKFLASVSTVLTSKYR
HBA_MOUSE      PAVHASLDKFLASVSTVLTSKYR
HBA_HUMAN      PAVHASLDKFLASVSTVLTSKYR
HBA_PANTR      PAVHASLDKFLASVSTVLTSKYR
HBA_BOVIN      PAVHASLDKFLANVSTVLTSKYR
HBA_HORSE      PAVHASLDKFLSSVSTVLTSKYR
HBA_EQUAS      PAVHASLDKFLSTVSTVLTSKYR
HBA_PIG        PSVHASLDKFLANVSTVLTSKYR
HBA_APTFO      PEIHASLDKFLCAVGNVLTSKYR
HBA_CYPCA      PEVHMSVDKFFQNLALALSEKYR
               * :* *:***:  :. .*:.***
}}

NJで系統樹を作成すると，次のようになります．
#ref(./unroot_nj.png,50%)

これはすべての枝を同じ長さで描いたもので，それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります．
#ref(./unrootbl_nj.png,50%)

また，UPGMAで系統樹を作成すると，次のようになります．
#ref(./tree_upgma.png,50%)

これもすべての枝を同じ長さで描いたもので，それぞれのOTUの距離を枝の長さに反映させて描くと次のようになります．
#ref(./treebl_upgma.png,50%)


*演習 [#x0cfe471]

UniProtからEntry Nameが AMY1_ で始まるアミラーゼ（Amylase）のアミノ酸配列をいくつか入手し，多重配列アラインメントを行って系統樹を作成してみよう．
UniProtからEntry Nameが AMY1_ で始まるアミラーゼのアミノ酸配列をいくつか入手し、ClustalWを用いて多重配列アラインメントを行って系統樹を作成してみよう。


*参考文献 [#v04c1e7e]
#html{{
<iframe src="http://rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=FFFFFF&IS2=1&bg1=FFFFFF&fc1=444B4C&lc1=444B4C&t=tohgorohmatsu-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=ss_til&asins=4895924262" style="width:120px;height:240px;" scrolling="no" marginwidth="0" marginheight="0" frameborder="0"></iframe>
<iframe style="width:120px;height:240px;" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" src="https://rcm-fe.amazon-adsystem.com/e/cm?ref=tf_til&t=tohgorohmatsu-22&m=amazon&o=9&p=8&l=as1&IS2=1&detail=1&asins=4895924262&linkId=d39e83344ba7b635eae58e4967f3c875&bc1=ffffff&lt1=_blank&fc1=444b4c&lc1=444b4c&bg1=ffffff&f=ifr"></iframe>
}}

-5章 多重配列アラインメント
バイオ・データ・マイニング/ClustalWで多重アラインメントを行う のバックアップの現在との差分(No.6)

バイオ・データ・マイニング/ClustalWで多重アラインメントを行うのバックアップの現在との差分(No.6)