バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うのバックアップ差分(No.4)

バックアップ一覧
現在との差分を表示
ソースを表示
バックアップを表示
バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うへ行く。
- 1 (2014-10-01 (水) 08:00:56)
- 2 (2014-10-01 (水) 11:15:22)
- 3 (2014-10-03 (金) 07:00:40)
- 4 (2014-10-03 (金) 07:59:22)
- 5 (2014-10-03 (金) 11:13:58)
- 6 (2014-10-24 (金) 08:07:04)
- 7 (2022-09-20 (火) 16:14:54)
追加された行はこの色です。
削除された行はこの色です。
*はじめに [#c844e1d8]
ここでは，''ClustalW''を使ってタンパク質のアミノ酸配列のペアワイズ・アラインメントを行います．


*ClustalW [#d87e4f43]
''ClustalW''は，ゲノム配列あるいはアミノ酸配列の''アラインメント''を行うツールです．

ClustalWは，''Clustalアルゴリズム''を実装したCUI版のツールであり，現在の最新版はClustalW2です．

ここでは，ClustalWをWeb上で利用できるサービス[[DDBJ:http://clustalw.ddbj.nig.ac.jp/index.php?lang=ja]]を利用します．


*ペアワイズ・アラインメント [#zf1a04b1]
配列（シーケンス）を比較して対応する部分を見つけて並べることをシーケンス・アラインメント（配列アラインメント）と言います．

二つの配列に対するシーケンス・アラインメントをペアワイズ・シーケンス・アラインメント（ペアワイズ・アラインメント，ペアワイズ配列アラインメント）と言います．


*ペアワイズ・アラインメントの仕組み [#u0c8759f]
突然変異によってDNAの塩基配列に変化が生じることによって，アミノ酸配列に変化が生じ，あるアミノ酸が別のアミノ酸に置換されたり，（一つ以上の）アミノ酸が挿入されたり，欠失されたりします．
二つの配列を比較し，このような置換，挿入，欠失の個所を見つけ出します．

たとえば，''CDEFGHI''という文字列fooと''CDEGHI''という文字列barを比較します．
fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです．（barはfooから文字Fが欠失したものとも言えます．）

この二つの文字列を比較して，以下のように並べます．
#geshi(txt){{
foo     CDEFGHI 7
bar     CDE-GHI 6
        *** ***
}}
ここで，文字列の後の7と6は各文字列の長さを表しています．
ここで，文字列の後の7と6は（その行の）最後の文字の位置（先頭は1）を表しています．
また，''-''印は文字が欠失している個所，''*''印は文字が一致している個所を表しています．

このとき，このアラインメントに対して''スコア''が計算されます．

アミノ酸が一致している部分では正のスコアを加算し，一方が欠失している部分では''ギャップ・ペナルティ''をスコアから差し引きます．

アミノ酸が一致している部分で加算される正のスコアや，アミノ酸が置換されている部分で加算されるスコアは，アミノ酸の置換確率から求められた''スコア行列''によって決まります．
スコア行列には，Dayhoffが1978年に発表したアミノ酸置換確率から求められた''PAMスコア行列''や，より新しい（とはいっても1992年）データから求められた''BLOSUMスコア行列''があります．

ここで，文字列barと''CDEPGHI''という文字列buzのペアワイズ・アラインメントを考えると，buzはfooから文字Fが消失して文字Pが挿入されたもの，すなわち
#geshi(txt){{
foo     CDEF-GHI 7
buz     CDE-PGHI 7
        ***  ***
}}
と考えることもできるし，buzはfooの文字Fが文字Pに置換されたもの，すなわち
#geshi(txt){{
foo     CDEFGHI 7
buz     CDEPGHI 7
        *** ***
}}
と考えることもできます．

ペアワイズ・アラインメントでは，いくつものアラインメント候補に対してスコアを計算し，最もスコアが高いものを選びます．


*ClustalWの使い方 [#u7551c37]
[[DDBJのClustalWのページ:http://clustalw.ddbj.nig.ac.jp/index.php?lang=ja]]に行き，''Sequences''のところで''Protein''（タンパク質）を選びます．

ClustalWでは，FASTA形式やEMBL-SWISSPROT形式など，複数の記述形式がサポートされています．
ここでは，FASTA形式を使います．
FASTA形式では，行頭に''>''があるとそこから空白または改行までが配列名を表します．

そこで，
#geshi(txt){{
>foo
CDEFGHI
>bar
CDEGHI
}}
と入力し，''Submit''のところにある''Send to ClustalW''ボタンを押します．

すると，しばらくして，以下のような結果が出力されます．
#geshi(txt){{
 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo            7 aa
Sequence 2: bar            6 aa
Start of Pairwise alignments
Aligning...

Sequences (1:2) Aligned. Score:  50
Guide tree file created:   [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.dnd]

There are 1 groups
Start of Multiple Alignment

Aligning...
Group 1: Sequences:   2      Score:128
Alignment Score 32

CLUSTAL-Alignment file created  [../work/2014/10/03/0609/clustalw_1412284188_625002_32032.aln]




 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence format is CLUSTAL
Sequence 1: foo            7 aa
Sequence 2: bar            7 aa




CLUSTAL 2.1 multiple sequence alignment


foo             CDEFGHI 7
bar             CDE-GHI 6
                *** ***




(foo:0.25,bar:0.25);
}}
Sequence 1がfoo，Sequence 2がbarで，二つのシーケンスSequences (1:2)のスコアは50でした．（スコア行列にはデフォルトのGonnet行列を用いた結果です．）


*タンパク質のペアワイズ・アラインメント [#s2332455]

**タンパク質アミノ酸配列の取得 [#ae59416a]
タンパク質データベースの一つである[[UniProt:http://www.uniprot.org]]からタンパク質のアミノ酸配列を取得して，ClustalWでペアワイズ・アラインメントを行います．
#ref(./uniprot.png,50%)

ここでは，ヘモグロビンのアミノ酸配列に対して，ペアワイズ・アラインメントをやってみます．
ヘモグロビンは，血液中の中の赤血球の中にあるタンパク質で，酸素と結合して肺から取り入れた酸素を筋肉などの組織へ運びます．

UniProtに''Hemoglobin''と入力してヘモグロビンを検索します．
''Entry''は登録ID，''Entry name''は登録名，''Protein names''はタンパク質名，''Gane names''は遺伝子名，''Organism''は生物の種類，Lengthはタンパク質の長さを表します．
#ref(./uniprot_hemoglobin.png,50%)

ここでは，上位に出てきたヒト'Homo sapiens (Human)の''HBG1_HUMAN''とマウスMus musculus (Mouse)の''HBB1_MOUSE''を比較します．

''Entry''のリンクをクリックして，タンパク質の情報を表示します．
#ref(./uniprot_P69891.png,50%)

下にスクロールさせて，''Sequence''のところを探します．
左側の''Display''メニューで''None''を選択して一旦全部消してから''SEQUENCE''だけを選択してもいいです．
#ref(./uniprot_sequence.png,50%)

''FASTA''をクリックすると，FASTA形式のアミノ酸配列が表示されます．
#geshi(txt){{
>sp|P69891|HBG1_HUMAN Hemoglobin subunit gamma-1 OS=Homo sapiens GN=HBG1 PE=1 SV=2
MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPK
VKAHGKKVLTSLGDAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFG
KEFTPEVQASWQKMVTAVASALSSRYH
}}

これをコピーします．


**CluatalWを実行する [#j7789a95]
[[DDBJのClustalW:http://clustalw.ddbj.nig.ac.jp/index.php?lang=ja]]のテキスト・エリアにHBG1_HUMANとHBB1_MOUSEのアミノ酸配列をコピー・アンド・ペーストし，Sequenceの種類を''Protein''にしてから''Send to ClustalW''ボタンを押します．
#ref(./ddbj_clustalw.png,50%)

すると，次のようなアラインメントが出力されます．
#geshi(txt){{
CLUSTAL 2.1 multiple sequence alignment


sp|P69891|HBG1_HUMAN      MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPK 60
sp|P02088|HBB1_MOUSE      MVHLTDAEKAAVSCLWGKVNSDEVGGEALGRLLVVYPWTQRYFDSFGDLSSASAIMGNAK 60
                          * *:*: :**:::.****** ::.***:*************:*****:**********.*

sp|P69891|HBG1_HUMAN      VKAHGKKVLTSLGDAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFG 120
sp|P02088|HBB1_MOUSE      VKAHGKKVITAFNDGLNHLDSLKGTFASLSELHCDKLHVDPENFRLLGNMIVIVLGHHLG 120
                          ********:*::.*.::***.******.****************:****::* **. *:*

sp|P69891|HBG1_HUMAN      KEFTPEVQASWQKMVTAVASALSSRYH 147
sp|P02088|HBB1_MOUSE      KDFTPAAQAAFQKVVAGVATALAHKYH 147
                          *:*** .**::**:*:.**:**: :**
}}

**結果の見方 [#q0c830c1]

''*''は，アミノ酸が一致しているところを表します．
''.''と'':''は，置換確率が大きいアミノ酸に置換されているところを表します．
'':''のほうが''.''よりも置換確率が大きいことを表しています．
何も表示されていないところは，置換確率が小さいアミノ酸に置換されているところです．

配列が表示されている行の最後の値は，その配列におけるその行の最後のアミノ酸の位置を表します．
HBG1_HUMANとHBB1_MOUSEの場合，両方とも長さが147で，その全体が対応しましたが，遠い種のタンパク質を比較したときには一部分だけが対応し，表示される値が異なります．


*演習 [#d5647d7b]

ヒトのアミラーゼ AMY1_HUMAN とゴリラのアミラーゼ A8HDG5_GORGO のペアワイズ・アラインメントを行ってみよう（どちらも遺伝子名にAMY1が含まれまるアミラーゼです）．
バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う のバックアップ差分(No.4)

バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行うのバックアップ差分(No.4)