バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う

はじめに †

ここでは、ClustalWを使ってタンパク質のアミノ酸配列のペアワイズ・アラインメントを行います。

↑

ClustalW †

ClustalWは、ゲノム配列あるいはアミノ酸配列のアラインメントを行うツールです。

ClustalWは、Clustalアルゴリズムを実装したCUI版のツールであり、現在の最新版はClustalW2です。

ここでは、ClustalWをWeb上で利用できるサービスGenomeNetを利用します。

↑

ペアワイズ・アラインメント †

配列（シーケンス）を比較して対応する部分を見つけて並べることをシーケンス・アラインメント（配列アラインメント）と言います。

二つの配列に対するシーケンス・アラインメントをペアワイズ・シーケンス・アラインメント（ペアワイズ・アラインメント、ペアワイズ配列アラインメント）と言います。

↑

ペアワイズ・アラインメントの仕組み †

突然変異によってDNAの塩基配列に変化が生じることによって、アミノ酸配列に変化が生じ、あるアミノ酸が別のアミノ酸に置換されたり、（一つ以上の）アミノ酸が挿入されたり、欠失されたりします。二つの配列を比較し、このような置換、挿入、欠失の個所を見つけ出します。

たとえば、CDEFGHIという文字列fooとCDEGHIという文字列barを比較します。 fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです。（barはfooから文字Fが欠失したものとも言えます。）

この二つの文字列を比較して、以下のように並べます。

foo     CDEFGHI 7
bar     CDE-GHI 6
        *** ***

ここで、文字列の後の7と6は（その行の）最後の文字の位置（先頭は1）を表しています。また、-印は文字が欠失している個所、*印は文字が一致している個所を表しています。

このとき、このアラインメントに対してスコアが計算されます。

アミノ酸が一致している部分では正のスコアを加算し、一方が欠失している部分ではギャップ・ペナルティをスコアから差し引きます。

アミノ酸が一致している部分で加算される正のスコアや、アミノ酸が置換されている部分で加算されるスコアは、アミノ酸の置換確率から求められたスコア行列によって決まります。スコア行列には、Dayhoffが1978年に発表したアミノ酸置換確率から求められたPAMスコア行列や、より新しい（とはいっても1992年）データから求められたBLOSUMスコア行列があります。

ここで、文字列barとCDEPGHIという文字列buzのペアワイズ・アラインメントを考えると、buzはfooから文字Fが消失して文字Pが挿入されたもの、すなわち

foo     CDEF-GHI 7
buz     CDE-PGHI 7
        ***  ***

と考えることもできるし、buzはfooの文字Fが文字Pに置換されたもの、すなわち

foo     CDEFGHI 7
buz     CDEPGHI 7
        *** ***

と考えることもできます。

ペアワイズ・アラインメントでは、いくつものアラインメント候補に対してスコアを計算し、最もスコアが高いものを選びます。

↑

ClustalWの使い方 †

GenomeNetのClustalWのページに行き、SequencesのところでProtein（タンパク質）を選びます。

ClustalWでは、FASTA形式やEMBL-SWISSPROT形式など、複数の記述形式がサポートされています。ここでは、FASTA形式を使います。 FASTA形式では、行頭に>があるとそこから空白または改行までが配列名を表します。

そこで、

>foo
CDEFGHI
>bar
CDEGHI

と入力し、SubmitのところにあるSend to ClustalWボタンを押します。

すると、しばらくして、以下のような結果が出力されます。

 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo            7 aa
Sequence 2: bar            6 aa
Start of Pairwise alignments
Aligning...

Sequences (1:2) Aligned. Score:  50
Guide tree file created:   [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.dnd]

There are 1 groups
Start of Multiple Alignment

Aligning...
Group 1: Sequences:   2      Score:128
Alignment Score 32

CLUSTAL-Alignment file created  [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.aln]




 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence format is CLUSTAL
Sequence 1: foo            7 aa
Sequence 2: bar            7 aa




CLUSTAL 2.1 multiple sequence alignment


foo             CDEFGHI 7
bar             CDE-GHI 6
                *** ***




(foo:0.25,bar:0.25);

Sequence 1がfoo、Sequence 2がbarで、二つのシーケンスSequences (1:2)のスコアは50でした。（スコア行列にはデフォルトのGonnet行列を用いた結果です。）

↑

タンパク質のペアワイズ・アラインメント †

↑

タンパク質アミノ酸配列を取得する †

タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して、ClustalWでペアワイズ・アラインメントを行います。

ここでは、ヘモグロビンのアミノ酸配列に対して、ペアワイズ・アラインメントをやってみます。ヘモグロビンは、血液中の中の赤血球の中にあるタンパク質で、酸素と結合して肺から取り入れた酸素を筋肉などの組織へ運びます。

UniProtにHemoglobinと入力してヘモグロビンを検索します。 Entryは登録ID、Entry nameは登録名、Protein namesはタンパク質名、Gane namesは遺伝子名、Organismは生物の種類、Lengthはタンパク質の長さを表します。

ここでは、上位に出てきたヒト Homo sapiens (Human) のHBB_HUMANと牛 Bos taurus (Bovine) のHBB_BOVINを比較します。

Entryのリンクをクリックして、タンパク質の情報を表示し、左側のメニューにあるSequenceをクリックしてSequenceのセクションにジャンプし、downloadをクリックします。

すると、次のようなFASTA形式のアミノ酸配列が表示されます。

これをコピーします。

↑

CluatalWを実行する †

GenomeNetのClustalWのテキスト・エリアに HBB_HUMAN と HBB_BOVIN のアミノ酸配列をコピー・アンド・ペーストし、Execute Multiple Alignmentボタンを押します。

すると、次のようなアラインメントが出力されます。

CLUSTAL 2.1 multiple sequence alignment


sp|P68871|HBB_HUMAN      MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
sp|P02070|HBB_BOVIN      --MLTAEEKAAVTAFWGKVKVDEVGGEALGRLLVVYPWTQRFFESFGDLSTADAVMNNPK
                            **.***:****:****:*******************************.****.***

sp|P68871|HBB_HUMAN      VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
sp|P02070|HBB_BOVIN      VKAHGKKVLDSFSNGMKHLDDLKGTFAALSELHCDKLHVDPENFKLLGNVLVVVLARNFG
                         *********.:**:*: ***:******:****************:******* ***::**

sp|P68871|HBB_HUMAN      KEFTPPVQAAYQKVVAGVANALAHKYH
sp|P02070|HBB_BOVIN      KEFTPVLQADFQKVVAGVANALAHRYH
                         ***** :** :*************:**

↑

結果の見方 †

*は、アミノ酸が一致しているところを表します。 .と:は、置換確率が大きいアミノ酸に置換されているところを表します。 :のほうが.よりも置換確率が大きいことを表しています。 "-"は、ギャップ（長い方に挿入されていること、または、短い方が欠失していること）を表します。何も表示されていないところは、置換確率が小さいアミノ酸に置換されているところです。

↑

演習 †

UniProtからヒト Human のアミラーゼ（Amylase） AMY1_HUMAN とゴリラ Gorilla のアミラーゼ A8HDG5_GORGO のアミノ酸配列を入手し、ペアワイズ・アラインメントを行ってみよう（どちらも遺伝子名にAMY1が含まれまるアミラーゼです）。

↑

参考文献 †

樋口千洋. 2011. Rによるバイオインフォマティクスデータ解析－Bioconductorを用いたゲノムスケールのデータマイニング, 第2版. 共立出版. https://amzn.to/4nz0g7v

ClustalWでペアワイズ・アラインメントを行う

はじめに †

ClustalW †

ペアワイズ・アラインメント †

ペアワイズ・アラインメントの仕組み †

ClustalWの使い方 †

タンパク質のペアワイズ・アラインメント †

タンパク質アミノ酸配列を取得する †

CluatalWを実行する †

結果の見方 †

演習 †

参考文献 †

とうごろう.jp

とうごろぐ（ブログ）

Twitter

Facebook

授業

最新の20件