- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う へ行く。
はじめに †
ここでは、ClustalWを使ってタンパク質のアミノ酸配列のペアワイズ・アラインメントを行います。
ClustalW †
ClustalWは、ゲノム配列あるいはアミノ酸配列のアラインメントを行うツールです。
ClustalWは、Clustalアルゴリズムを実装したCUI版のツールであり、現在の最新版はClustalW2です。
ここでは、ClustalWをWeb上で利用できるサービスGenomeNetを利用します。
ペアワイズ・アラインメント †
配列(シーケンス)を比較して対応する部分を見つけて並べることをシーケンス・アラインメント(配列アラインメント)と言います。
二つの配列に対するシーケンス・アラインメントをペアワイズ・シーケンス・アラインメント(ペアワイズ・アラインメント、ペアワイズ配列アラインメント)と言います。
ペアワイズ・アラインメントの仕組み †
突然変異によってDNAの塩基配列に変化が生じることによって、アミノ酸配列に変化が生じ、あるアミノ酸が別のアミノ酸に置換されたり、(一つ以上の)アミノ酸が挿入されたり、欠失されたりします。 二つの配列を比較し、このような置換、挿入、欠失の個所を見つけ出します。
たとえば、CDEFGHIという文字列fooとCDEGHIという文字列barを比較します。 fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです。(barはfooから文字Fが欠失したものとも言えます。)
この二つの文字列を比較して、以下のように並べます。
foo CDEFGHI 7 bar CDE-GHI 6 *** ***
ここで、文字列の後の7と6は(その行の)最後の文字の位置(先頭は1)を表しています。 また、-印は文字が欠失している個所、*印は文字が一致している個所を表しています。
このとき、このアラインメントに対してスコアが計算されます。
アミノ酸が一致している部分では正のスコアを加算し、一方が欠失している部分ではギャップ・ペナルティをスコアから差し引きます。
アミノ酸が一致している部分で加算される正のスコアや、アミノ酸が置換されている部分で加算されるスコアは、アミノ酸の置換確率から求められたスコア行列によって決まります。 スコア行列には、Dayhoffが1978年に発表したアミノ酸置換確率から求められたPAMスコア行列や、より新しい(とはいっても1992年)データから求められたBLOSUMスコア行列があります。
ここで、文字列barとCDEPGHIという文字列buzのペアワイズ・アラインメントを考えると、buzはfooから文字Fが消失して文字Pが挿入されたもの、すなわち
foo CDEF-GHI 7 buz CDE-PGHI 7 *** ***
と考えることもできるし、buzはfooの文字Fが文字Pに置換されたもの、すなわち
foo CDEFGHI 7 buz CDEPGHI 7 *** ***
と考えることもできます。
ペアワイズ・アラインメントでは、いくつものアラインメント候補に対してスコアを計算し、最もスコアが高いものを選びます。
ClustalWの使い方 †
DDBJのClustalWのページに行き、SequencesのところでProtein(タンパク質)を選びます。
ClustalWでは、FASTA形式やEMBL-SWISSPROT形式など、複数の記述形式がサポートされています。 ここでは、FASTA形式を使います。 FASTA形式では、行頭に>があるとそこから空白または改行までが配列名を表します。
そこで、
>foo CDEFGHI >bar CDEGHI
と入力し、SubmitのところにあるSend to ClustalWボタンを押します。
すると、しばらくして、以下のような結果が出力されます。
CLUSTAL 2.1 Multiple Sequence Alignments Sequence type explicitly set to Protein Sequence format is Pearson Sequence 1: foo 7 aa Sequence 2: bar 6 aa Start of Pairwise alignments Aligning... Sequences (1:2) Aligned. Score: 50 Guide tree file created: [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.dnd] There are 1 groups Start of Multiple Alignment Aligning... Group 1: Sequences: 2 Score:128 Alignment Score 32 CLUSTAL-Alignment file created [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.aln] CLUSTAL 2.1 Multiple Sequence Alignments Sequence format is CLUSTAL Sequence 1: foo 7 aa Sequence 2: bar 7 aa CLUSTAL 2.1 multiple sequence alignment foo CDEFGHI 7 bar CDE-GHI 6 *** *** (foo:0.25,bar:0.25);
Sequence 1がfoo、Sequence 2がbarで、二つのシーケンスSequences (1:2)のスコアは50でした。(スコア行列にはデフォルトのGonnet行列を用いた結果です。)
タンパク質のペアワイズ・アラインメント †
タンパク質アミノ酸配列を取得する †
タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して、ClustalWでペアワイズ・アラインメントを行います。
ここでは、ヘモグロビンのアミノ酸配列に対して、ペアワイズ・アラインメントをやってみます。 ヘモグロビンは、血液中の中の赤血球の中にあるタンパク質で、酸素と結合して肺から取り入れた酸素を筋肉などの組織へ運びます。
UniProtにHemoglobinと入力してヘモグロビンを検索します。 Entryは登録ID、Entry nameは登録名、Protein namesはタンパク質名、Gane namesは遺伝子名、Organismは生物の種類、Lengthはタンパク質の長さを表します。
ここでは、上位に出てきたヒト Homo sapiens (Human) のHBB_HUMANと牛 Bos taurus (Bovine) のHBB_BOVINを比較します。
Entryのリンクをクリックして、タンパク質の情報を表示し、左側のメニューにあるSequenceをクリックしてSequenceのセクションにジャンプし、downloadをクリックします。
すると、次のようなFASTA形式のアミノ酸配列が表示されます。
これをコピーします。
CluatalWを実行する †
DDBJのClustalWのテキスト・エリアに HBB_HUMAN と HBB_BOVIN のアミノ酸配列をコピー・アンド・ペーストし、Execute Multiple Alignmentボタンを押します。
すると、次のようなアラインメントが出力されます。
CLUSTAL 2.1 multiple sequence alignment sp|P68871|HBB_HUMAN MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK sp|P02070|HBB_BOVIN --MLTAEEKAAVTAFWGKVKVDEVGGEALGRLLVVYPWTQRFFESFGDLSTADAVMNNPK **.***:****:****:*******************************.****.*** sp|P68871|HBB_HUMAN VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG sp|P02070|HBB_BOVIN VKAHGKKVLDSFSNGMKHLDDLKGTFAALSELHCDKLHVDPENFKLLGNVLVVVLARNFG *********.:**:*: ***:******:****************:******* ***::** sp|P68871|HBB_HUMAN KEFTPPVQAAYQKVVAGVANALAHKYH sp|P02070|HBB_BOVIN KEFTPVLQADFQKVVAGVANALAHRYH ***** :** :*************:**
結果の見方 †
*は、アミノ酸が一致しているところを表します。 .と:は、置換確率が大きいアミノ酸に置換されているところを表します。 :のほうが.よりも置換確率が大きいことを表しています。 "-"は、ギャップ(長い方に挿入されていること、または、短い方が欠失していること)を表します。 何も表示されていないところは、置換確率が小さいアミノ酸に置換されているところです。
演習 †
UniProtからヒト Human のアミラーゼ(Amylase) AMY1_HUMAN とゴリラ Gorilla のアミラーゼ A8HDG5_GORGO のアミノ酸配列を入手し、ペアワイズ・アラインメントを行ってみよう(どちらも遺伝子名にAMY1が含まれまるアミラーゼです)。
参考文献 †
- 3章 対にした配列のアラインメント