バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うのバックアップ(No.4)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うへ行く。
- 1 (2014-10-01 (水) 08:00:56)
- 2 (2014-10-01 (水) 11:15:22)
- 3 (2014-10-03 (金) 07:00:40)
- 4 (2014-10-03 (金) 07:59:22)
- 5 (2014-10-03 (金) 11:13:58)
- 6 (2014-10-24 (金) 08:07:04)
- 7 (2022-09-20 (火) 16:14:54)
- 8 (2022-09-20 (火) 17:14:36)
- 9 (2024-10-02 (水) 13:22:30)

はじめに †

ここでは，ClustalWを使ってタンパク質のアミノ酸配列のペアワイズ・アラインメントを行います．

↑

ClustalW †

ClustalWは，ゲノム配列あるいはアミノ酸配列のアラインメントを行うツールです．

ClustalWは，Clustalアルゴリズムを実装したCUI版のツールであり，現在の最新版はClustalW2です．

ここでは，ClustalWをWeb上で利用できるサービスDDBJを利用します．

↑

ペアワイズ・アラインメント †

配列（シーケンス）を比較して対応する部分を見つけて並べることをシーケンス・アラインメント（配列アラインメント）と言います．

二つの配列に対するシーケンス・アラインメントをペアワイズ・シーケンス・アラインメント（ペアワイズ・アラインメント，ペアワイズ配列アラインメント）と言います．

↑

ペアワイズ・アラインメントの仕組み †

突然変異によってDNAの塩基配列に変化が生じることによって，アミノ酸配列に変化が生じ，あるアミノ酸が別のアミノ酸に置換されたり，（一つ以上の）アミノ酸が挿入されたり，欠失されたりします．二つの配列を比較し，このような置換，挿入，欠失の個所を見つけ出します．

たとえば，CDEFGHIという文字列fooとCDEGHIという文字列barを比較します． fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです．（barはfooから文字Fが欠失したものとも言えます．）

この二つの文字列を比較して，以下のように並べます．

foo     CDEFGHI 7
bar     CDE-GHI 6
        *** ***

ここで，文字列の後の7と6は（その行の）最後の文字の位置（先頭は1）を表しています．また，-印は文字が欠失している個所，*印は文字が一致している個所を表しています．

このとき，このアラインメントに対してスコアが計算されます．

アミノ酸が一致している部分では正のスコアを加算し，一方が欠失している部分ではギャップ・ペナルティをスコアから差し引きます．

アミノ酸が一致している部分で加算される正のスコアや，アミノ酸が置換されている部分で加算されるスコアは，アミノ酸の置換確率から求められたスコア行列によって決まります．スコア行列には，Dayhoffが1978年に発表したアミノ酸置換確率から求められたPAMスコア行列や，より新しい（とはいっても1992年）データから求められたBLOSUMスコア行列があります．

ここで，文字列barとCDEPGHIという文字列buzのペアワイズ・アラインメントを考えると，buzはfooから文字Fが消失して文字Pが挿入されたもの，すなわち

foo     CDEF-GHI 7
buz     CDE-PGHI 7
        ***  ***

と考えることもできるし，buzはfooの文字Fが文字Pに置換されたもの，すなわち

foo     CDEFGHI 7
buz     CDEPGHI 7
        *** ***

と考えることもできます．

ペアワイズ・アラインメントでは，いくつものアラインメント候補に対してスコアを計算し，最もスコアが高いものを選びます．

↑

ClustalWの使い方 †

DDBJのClustalWのページに行き，SequencesのところでProtein（タンパク質）を選びます．

ClustalWでは，FASTA形式やEMBL-SWISSPROT形式など，複数の記述形式がサポートされています．ここでは，FASTA形式を使います． FASTA形式では，行頭に>があるとそこから空白または改行までが配列名を表します．

そこで，

>foo
CDEFGHI
>bar
CDEGHI

と入力し，SubmitのところにあるSend to ClustalWボタンを押します．

すると，しばらくして，以下のような結果が出力されます．

 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo            7 aa
Sequence 2: bar            6 aa
Start of Pairwise alignments
Aligning...

Sequences (1:2) Aligned. Score:  50
Guide tree file created:   [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.dnd]

There are 1 groups
Start of Multiple Alignment

Aligning...
Group 1: Sequences:   2      Score:128
Alignment Score 32

CLUSTAL-Alignment file created  [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.aln]




 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence format is CLUSTAL
Sequence 1: foo            7 aa
Sequence 2: bar            7 aa




CLUSTAL 2.1 multiple sequence alignment


foo             CDEFGHI 7
bar             CDE-GHI 6
                *** ***




(foo:0.25,bar:0.25);

Sequence 1がfoo，Sequence 2がbarで，二つのシーケンスSequences (1:2)のスコアは50でした．（スコア行列にはデフォルトのGonnet行列を用いた結果です．）

↑

タンパク質のペアワイズ・アラインメント †

↑

タンパク質アミノ酸配列の取得 †

タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して，ClustalWでペアワイズ・アラインメントを行います．

ここでは，ヘモグロビンのアミノ酸配列に対して，ペアワイズ・アラインメントをやってみます．ヘモグロビンは，血液中の中の赤血球の中にあるタンパク質で，酸素と結合して肺から取り入れた酸素を筋肉などの組織へ運びます．

UniProtにHemoglobinと入力してヘモグロビンを検索します． Entryは登録ID，Entry nameは登録名，Protein namesはタンパク質名，Gane namesは遺伝子名，Organismは生物の種類，Lengthはタンパク質の長さを表します．

#ref(): File not found: "uniprot_hemoglobin.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

ここでは，上位に出てきたヒト'Homo sapiens (Human)のHBG1_HUMANとマウスMus musculus (Mouse)のHBB1_MOUSEを比較します．

Entryのリンクをクリックして，タンパク質の情報を表示します．

#ref(): File not found: "uniprot_P69891.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

下にスクロールさせて，Sequenceのところを探します．左側のDisplayメニューでNoneを選択して一旦全部消してからSEQUENCEだけを選択してもいいです．

#ref(): File not found: "uniprot_sequence.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

FASTAをクリックすると，FASTA形式のアミノ酸配列が表示されます．

CLUSTAL 2.1 multiple sequence alignment


sp|P68871|HBB_HUMAN      MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
sp|P02070|HBB_BOVIN      --MLTAEEKAAVTAFWGKVKVDEVGGEALGRLLVVYPWTQRFFESFGDLSTADAVMNNPK
                            **.***:****:****:*******************************.****.***

sp|P68871|HBB_HUMAN      VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
sp|P02070|HBB_BOVIN      VKAHGKKVLDSFSNGMKHLDDLKGTFAALSELHCDKLHVDPENFKLLGNVLVVVLARNFG
                         *********.:**:*: ***:******:****************:******* ***::**

sp|P68871|HBB_HUMAN      KEFTPPVQAAYQKVVAGVANALAHKYH
sp|P02070|HBB_BOVIN      KEFTPVLQADFQKVVAGVANALAHRYH
                         ***** :** :*************:**

これをコピーします．

↑

CluatalWを実行する †

DDBJのClustalWのテキスト・エリアにHBG1_HUMANとHBB1_MOUSEのアミノ酸配列をコピー・アンド・ペーストし，Sequenceの種類をProteinにしてからSend to ClustalWボタンを押します．

#ref(): File not found: "ddbj_clustalw.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

すると，次のようなアラインメントが出力されます．

CLUSTAL 2.1 multiple sequence alignment


sp|P69891|HBG1_HUMAN      MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPK 60
sp|P02088|HBB1_MOUSE      MVHLTDAEKAAVSCLWGKVNSDEVGGEALGRLLVVYPWTQRYFDSFGDLSSASAIMGNAK 60
                          * *:*: :**:::.****** ::.***:*************:*****:**********.*

sp|P69891|HBG1_HUMAN      VKAHGKKVLTSLGDAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFG 120
sp|P02088|HBB1_MOUSE      VKAHGKKVITAFNDGLNHLDSLKGTFASLSELHCDKLHVDPENFRLLGNMIVIVLGHHLG 120
                          ********:*::.*.::***.******.****************:****::* **. *:*

sp|P69891|HBG1_HUMAN      KEFTPEVQASWQKMVTAVASALSSRYH 147
sp|P02088|HBB1_MOUSE      KDFTPAAQAAFQKVVAGVATALAHKYH 147
                          *:*** .**::**:*:.**:**: :**

↑

結果の見方 †

*は，アミノ酸が一致しているところを表します． .と:は，置換確率が大きいアミノ酸に置換されているところを表します． :のほうが.よりも置換確率が大きいことを表しています．何も表示されていないところは，置換確率が小さいアミノ酸に置換されているところです．

配列が表示されている行の最後の値は，その配列におけるその行の最後のアミノ酸の位置を表します． HBG1_HUMANとHBB1_MOUSEの場合，両方とも長さが147で，その全体が対応しましたが，遠い種のタンパク質を比較したときには一部分だけが対応し，表示される値が異なります．

↑

演習 †

ヒトのアミラーゼ AMY1_HUMAN とゴリラのアミラーゼ A8HDG5_GORGO のペアワイズ・アラインメントを行ってみよう（どちらも遺伝子名にAMY1が含まれまるアミラーゼです）．

バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う のバックアップ(No.4)