バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うのバックアップ(No.3)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うへ行く。
- 1 (2014-10-01 (水) 08:00:56)
- 2 (2014-10-01 (水) 11:15:22)
- 3 (2014-10-03 (金) 07:00:40)
- 4 (2014-10-03 (金) 07:59:22)
- 5 (2014-10-03 (金) 11:13:58)
- 6 (2014-10-24 (金) 08:07:04)
- 7 (2022-09-20 (火) 16:14:54)
- 8 (2022-09-20 (火) 17:14:36)
- 9 (2024-10-02 (水) 13:22:30)

はじめに †

ここでは，ClustalWを使ってタンパク質のアミノ酸配列のペアワイズ・アラインメントを行います．

↑

ClustalW †

ClustalWは，ゲノム配列あるいはアミノ酸配列のアラインメントを行うツールです．

ClustalWは，Clustalアルゴリズムを実装したCUI版のツールであり，現在の最新版はClustalW2です．

ここでは，ClustalWをWeb上で利用できるサービスDDBJを利用します．

↑

ペアワイズ・アラインメント †

配列（シーケンス）を比較して対応する部分を見つけて並べることをシーケンス・アラインメント（配列アラインメント）と言います．

二つの配列に対するシーケンス・アラインメントをペアワイズ・シーケンス・アラインメント（ペアワイズ・アラインメント，ペアワイズ配列アラインメント）と言います．

↑

ペアワイズ・アラインメントの仕組み †

突然変異によってDNAの塩基配列に変化が生じることによって，アミノ酸配列に変化が生じ，あるアミノ酸が別のアミノ酸に置換されたり，（一つ以上の）アミノ酸が挿入されたり，欠失されたりします．二つの配列を比較し，このような置換，挿入，欠失の個所を見つけ出します．

たとえば，CDEFGHIという文字列fooとCDEGHIという文字列barを比較します． fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです．（barはfooから文字Fが欠失したものとも言えます．）

この二つの文字列を比較して，以下のように並べます．

foo     CDEFGHI 7
bar     CDE-GHI 6
        *** ***

ここで，文字列の後の7と6は各文字列の長さを表しています．また，-印は文字が欠失している個所，*印は文字が一致している個所を表しています．

このとき，このアラインメントに対してスコアが計算されます．

アミノ酸が一致している部分では正のスコアを加算し，一方が欠失している部分ではギャップ・ペナルティをスコアから差し引きます．

アミノ酸が一致している部分で加算される正のスコアや，アミノ酸が置換されている部分で加算されるスコアは，アミノ酸の置換確率から求められたスコア行列によって決まります．スコア行列には，Dayhoffが1978年に発表したアミノ酸置換確率から求められたPAMスコア行列や，より新しい（とはいっても1992年）データから求められたBLOSUMスコア行列があります．

ここで，文字列barとCDEPGHIという文字列buzのペアワイズ・アラインメントを考えると，buzはfooから文字Fが消失して文字Pが挿入されたもの，すなわち

foo     CDEF-GHI 7
buz     CDE-PGHI 7
        ***  ***

と考えることもできるし，buzはfooの文字Fが文字Pに置換されたもの，すなわち

foo     CDEFGHI 7
buz     CDEPGHI 7
        *** ***

と考えることもできます．

ペアワイズ・アラインメントでは，いくつものアラインメント候補に対してスコアを計算し，最もスコアが高いものを選びます．

↑

ClustalWの使い方 †

DDBJのClustalWのページに行き，SequencesのところでProtein（タンパク質）を選びます．

ClustalWでは，FASTA形式やEMBL-SWISSPROT形式など，複数の記述形式がサポートされています．ここでは，FASTA形式を使います． FASTA形式では，行頭に>があるとそこから空白または改行までが配列名を表します．

そこで，

>foo
CDEFGHI
>bar
CDEGHI

と入力し，SubmitのところにあるSend to ClustalWボタンを押します．

すると，しばらくして，以下のような結果が出力されます．

 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo            7 aa
Sequence 2: bar            6 aa
Start of Pairwise alignments
Aligning...

Sequences (1:2) Aligned. Score:  50
Guide tree file created:   [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.dnd]

There are 1 groups
Start of Multiple Alignment

Aligning...
Group 1: Sequences:   2      Score:128
Alignment Score 32

CLUSTAL-Alignment file created  [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.aln]




 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence format is CLUSTAL
Sequence 1: foo            7 aa
Sequence 2: bar            7 aa




CLUSTAL 2.1 multiple sequence alignment


foo             CDEFGHI 7
bar             CDE-GHI 6
                *** ***




(foo:0.25,bar:0.25);

Sequence 1がfoo，Sequence 2がbarで，二つのシーケンスSequences (1:2)のスコアは50でした．（スコア行列にはデフォルトのGonnet行列を用いた結果です．）

↑

タンパク質のペアワイズ・アラインメント †

↑

タンパク質アミノ酸配列の取得 †

タンパク質データベースの一つであるUniProtからタンパク質のアミノ酸配列を取得して，ClustalWでペアワイズ・アラインメントを行います．

UniProtにHemoglobinと入力してヘモグロビンを検索します． Entryは登録ID，Entry nameは登録名，Protein namesはタンパク質名，Gane namesは遺伝子名，Organismは生物の種類，Lengthはタンパク質の長さを表します．

#ref(): File not found: "uniprot_hemoglobin.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

ここでは，上位に出てきたヒト'Homo sapiens (Human)のHBG1_HUMANとマウスMus musculus (Mouse)のHBB1_MOUSEを比較します．

Entryのリンクをクリックして，タンパク質の情報を表示します．

#ref(): File not found: "uniprot_P69891.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

下にスクロールさせて，Sequenceのところを探します．左側のDisplayメニューでNoneを選択して一旦全部消してからSEQUENCEだけを選択してもいいです．

#ref(): File not found: "uniprot_sequence.png" at page "バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う"

FASTAをクリックすると，FASTA形式のアミノ酸配列が表示されます．

CLUSTAL 2.1 multiple sequence alignment


sp|P68871|HBB_HUMAN      MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK
sp|P02070|HBB_BOVIN      --MLTAEEKAAVTAFWGKVKVDEVGGEALGRLLVVYPWTQRFFESFGDLSTADAVMNNPK
                            **.***:****:****:*******************************.****.***

sp|P68871|HBB_HUMAN      VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG
sp|P02070|HBB_BOVIN      VKAHGKKVLDSFSNGMKHLDDLKGTFAALSELHCDKLHVDPENFKLLGNVLVVVLARNFG
                         *********.:**:*: ***:******:****************:******* ***::**

sp|P68871|HBB_HUMAN      KEFTPPVQAAYQKVVAGVANALAHKYH
sp|P02070|HBB_BOVIN      KEFTPVLQADFQKVVAGVANALAHRYH
                         ***** :** :*************:**

これをコピーします．

バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う のバックアップ(No.3)