*はじめに [#c844e1d8]
ここでは,''ClustalW''を使ってタンパク質のアミノ酸配列のペアワイズ・アラインメントを行います.


*ClustalW [#d87e4f43]
''ClustalW''は,ゲノム配列あるいはアミノ酸配列の''アラインメント''を行うツールです.

ClustalWは,''Clustalアルゴリズム''を実装したCUI版のツールであり,現在の最新版はClustalW2です.

ここでは,ClustalWをWeb上で利用できるサービス[[DDBJ:http://clustalw.ddbj.nig.ac.jp/index.php?lang=ja]]を利用します.


*ペアワイズ・アラインメント [#zf1a04b1]
配列(シーケンス)を比較して対応する部分を見つけて並べることをシーケンス・アラインメント(配列アラインメント)と言います.

二つの配列に対するシーケンス・アラインメントをペアワイズ・シーケンス・アラインメント(ペアワイズ・アラインメント,ペアワイズ配列アラインメント)と言います.


*ペアワイズ・アラインメントの仕組み [#u0c8759f]
突然変異によってDNAの塩基配列に変化が生じることによって,アミノ酸配列に変化が生じ,あるアミノ酸が別のアミノ酸に置換されたり,(一つ以上の)アミノ酸が挿入されたり,欠失されたりします.
二つの配列を比較し,このような置換,挿入,欠失の個所を見つけ出します.

たとえば,''CDEFGHI''という文字列fooと''CDEGHI''という文字列barを比較します.
fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです.(barはfooから文字Fが欠失したものとも言えます.)

この二つの文字列を比較して,以下のように並べます.
#geshi(txt){{
foo     CDEFGHI 7
bar     CDE-GHI 6
        *** ***
}}
ここで,文字列の後の7と6は各文字列の長さを表しています.
また,''-''印は文字が欠失している個所,''*''印は文字が一致している個所を表しています.

このとき,このアラインメントに対して''スコア''が計算されます.

アミノ酸が一致している部分では正のスコアを加算し,一方が欠失している部分では''ギャップ・ペナルティ''をスコアから差し引きます.

アミノ酸が一致している部分で加算される正のスコアや,アミノ酸が置換されている部分で加算されるスコアは,アミノ酸の置換確率から求められた''スコア行列''によって決まります.
スコア行列には,Dayhoffが1978年に発表したアミノ酸置換確率から求められた''PAMスコア行列''や,より新しい(とはいっても1992年)データから求められた''BLOSUMスコア行列''があります.

ここで,文字列barと''CDEPGHI''という文字列buzのペアワイズ・アラインメントを考えると,buzはfooから文字Fが消失して文字Pが挿入されたもの,すなわち
#geshi(txt){{
foo     CDEF-GHI 7
buz     CDE-PGHI 7
        ***  ***
}}
と考えることもできるし,buzはfooの文字Fが文字Pに置換されたもの,すなわち
#geshi(txt){{
foo     CDEFGHI 7
buz     CDEPGHI 7
        *** ***
}}
と考えることもできます.

ペアワイズ・アラインメントでは,いくつものアラインメント候補に対してスコアを計算し,最もスコアが高いものを選びます.


*ClustalWの使い方 [#u7551c37]
[[DDBJのClustalWのページ:http://clustalw.ddbj.nig.ac.jp/index.php?lang=ja]]に行き,''Sequences''のところで''Protein''(タンパク質)を選びます.

ClustalWでは,FASTA形式やEMBL-SWISSPROT形式など,複数の記述形式がサポートされています.
ここでは,FASTA形式を使います.
FASTA形式では,行頭に''>''があるとそこから空白または改行までが配列名を表します.

そこで,
#geshi(txt){{
>foo
CDEFGHI
>bar
CDEGHI
}}
と入力し,''Submit''のところにある''Send to ClustalW''ボタンを押します.

すると,しばらくして,以下のような結果が出力されます.
#geshi(txt){{
 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo            7 aa
Sequence 2: bar            6 aa
Start of Pairwise alignments
Aligning...

Sequences (1:2) Aligned. Score:  50
Guide tree file created:   [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.dnd]

There are 1 groups
Start of Multiple Alignment

Aligning...
Group 1: Sequences:   2      Score:128
Alignment Score 32

CLUSTAL-Alignment file created  [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.aln]




 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence format is CLUSTAL
Sequence 1: foo            7 aa
Sequence 2: bar            7 aa




CLUSTAL 2.1 multiple sequence alignment


foo             CDEFGHI 7
bar             CDE-GHI 6
                *** ***




(foo:0.25,bar:0.25);
}}
Sequence 1がfoo,Sequence 2がbarで,二つのシーケンスSequences (1:2)のスコアは50でした.(スコア行列にはデフォルトのGonnet行列を用いた結果です.)


*タンパク質のペアワイズ・アラインメント [#s2332455]

**タンパク質アミノ酸配列の取得 [#ae59416a]
タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して,ClustalWでペアワイズ・アラインメントを行います.
#ref(./uniprot.png,50%)

UniProtに''Hemoglobin''と入力してヘモグロビンを検索します.
''Entry''は登録ID,''Entry name''は登録名,''Protein names''はタンパク質名,''Gane names''は遺伝子名,''Organism''は生物の種類,Lengthはタンパク質の長さを表します.
#ref(./uniprot_hemoglobin.png,50%)

ここでは,上位に出てきたヒト'Homo sapiens (Human)の''HBG1_HUMAN''とマウスMus musculus (Mouse)の''HBB1_MOUSE''を比較します.

''Entry''のリンクをクリックして,タンパク質の情報を表示します.
#ref(./uniprot_P69891.png,50%)

下にスクロールさせて,''Sequence''のところを探します.
左側の''Display''メニューで''None''を選択して一旦全部消してから''SEQUENCE''だけを選択してもいいです.
#ref(./uniprot_sequence.png,50%)

''FASTA''をクリックすると,FASTA形式のアミノ酸配列が表示されます.
#geshi(txt){{
>sp|P69891|HBG1_HUMAN Hemoglobin subunit gamma-1 OS=Homo sapiens GN=HBG1 PE=1 SV=2
MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPK
VKAHGKKVLTSLGDAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFG
KEFTPEVQASWQKMVTAVASALSSRYH
}}

これをコピーします.
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS