バイオ・データ・マイニング/ClustalWでペアワイズ・アラインメントを行う
をテンプレートにして作成
開始行:
*はじめに [#c844e1d8]
ここでは、''ClustalW''を使ってタンパク質のアミノ酸配列の...
*ClustalW [#d87e4f43]
''ClustalW''は、ゲノム配列あるいはアミノ酸配列の''アライ...
ClustalWは、''Clustalアルゴリズム''を実装したCUI版のツー...
ここでは、ClustalWをWeb上で利用できるサービス[[GenomeNet:...
*ペアワイズ・アラインメント [#zf1a04b1]
配列(シーケンス)を比較して対応する部分を見つけて並べる...
二つの配列に対するシーケンス・アラインメントをペアワイズ...
*ペアワイズ・アラインメントの仕組み [#u0c8759f]
突然変異によってDNAの塩基配列に変化が生じることによって、...
二つの配列を比較し、このような置換、挿入、欠失の個所を見...
たとえば、''CDEFGHI''という文字列fooと''CDEGHI''という文...
fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです...
この二つの文字列を比較して、以下のように並べます。
#geshi(txt){{
foo CDEFGHI 7
bar CDE-GHI 6
*** ***
}}
ここで、文字列の後の7と6は(その行の)最後の文字の位置(...
また、''-''印は文字が欠失している個所、''*''印は文字が一...
このとき、このアラインメントに対して''スコア''が計算され...
アミノ酸が一致している部分では正のスコアを加算し、一方が...
アミノ酸が一致している部分で加算される正のスコアや、アミ...
スコア行列には、Dayhoffが1978年に発表したアミノ酸置換確率...
ここで、文字列barと''CDEPGHI''という文字列buzのペアワイズ...
#geshi(txt){{
foo CDEF-GHI 7
buz CDE-PGHI 7
*** ***
}}
と考えることもできるし、buzはfooの文字Fが文字Pに置換され...
#geshi(txt){{
foo CDEFGHI 7
buz CDEPGHI 7
*** ***
}}
と考えることもできます。
ペアワイズ・アラインメントでは、いくつものアラインメント...
*ClustalWの使い方 [#u7551c37]
[[GenomeNetのClustalWのページ:https://www.genome.jp/tools...
ClustalWでは、FASTA形式やEMBL-SWISSPROT形式など、複数の記...
ここでは、FASTA形式を使います。
FASTA形式では、行頭に''>''があるとそこから空白または改行...
そこで、
#geshi(txt){{
>foo
CDEFGHI
>bar
CDEGHI
}}
と入力し、''Submit''のところにある''Send to ClustalW''ボ...
すると、しばらくして、以下のような結果が出力されます。
#geshi(txt){{
CLUSTAL 2.1 Multiple Sequence Alignments
Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo 7 aa
Sequence 2: bar 6 aa
Start of Pairwise alignments
Aligning...
Sequences (1:2) Aligned. Score: 50
Guide tree file created: [../work/2014/10/03/0609/clust...
There are 1 groups
Start of Multiple Alignment
Aligning...
Group 1: Sequences: 2 Score:128
Alignment Score 32
CLUSTAL-Alignment file created [../work/2014/10/03/0609/...
CLUSTAL 2.1 Multiple Sequence Alignments
Sequence format is CLUSTAL
Sequence 1: foo 7 aa
Sequence 2: bar 7 aa
CLUSTAL 2.1 multiple sequence alignment
foo CDEFGHI 7
bar CDE-GHI 6
*** ***
(foo:0.25,bar:0.25);
}}
Sequence 1がfoo、Sequence 2がbarで、二つのシーケンスSeque...
*タンパク質のペアワイズ・アラインメント [#s2332455]
**タンパク質アミノ酸配列を取得する [#ae59416a]
タンパク質データベースの一つである[[UniProt:http://www.un...
#ref(./uniprot.png,50%)
ここでは、ヘモグロビンのアミノ酸配列に対して、ペアワイズ...
ヘモグロビンは、血液中の中の赤血球の中にあるタンパク質で...
UniProtに''Hemoglobin''と入力してヘモグロビンを検索します。
''Entry''は登録ID、''Entry name''は登録名、''Protein name...
#ref(./hemoglobin.png,50%)
ここでは、上位に出てきたヒト Homo sapiens (Human) の''HBB...
''Entry''のリンクをクリックして、タンパク質の情報を表示し...
#ref(./P68871.png,50%)
すると、次のようなFASTA形式のアミノ酸配列が表示されます。
#ref(./FASTA.png,50%)
これをコピーします。
**CluatalWを実行する [#j7789a95]
[[GenomeNetのClustalW:https://www.genome.jp/tools-bin/clu...
#ref(./ClustalW.png,50%)
すると、次のようなアラインメントが出力されます。
#geshi(txt){{
CLUSTAL 2.1 multiple sequence alignment
sp|P68871|HBB_HUMAN MVHLTPEEKSAVTALWGKVNVDEVGGEALGRL...
sp|P02070|HBB_BOVIN --MLTAEEKAAVTAFWGKVKVDEVGGEALGRL...
**.***:****:****:************...
sp|P68871|HBB_HUMAN VKAHGKKVLGAFSDGLAHLDNLKGTFATLSEL...
sp|P02070|HBB_BOVIN VKAHGKKVLDSFSNGMKHLDDLKGTFAALSEL...
*********.:**:*: ***:******:****...
sp|P68871|HBB_HUMAN KEFTPPVQAAYQKVVAGVANALAHKYH
sp|P02070|HBB_BOVIN KEFTPVLQADFQKVVAGVANALAHRYH
***** :** :*************:**
}}
**結果の見方 [#q0c830c1]
''*''は、アミノ酸が一致しているところを表します。
''.''と'':''は、置換確率が大きいアミノ酸に置換されている...
'':''のほうが''.''よりも置換確率が大きいことを表していま...
"-"は、''ギャップ''(長い方に挿入されていること、または、...
何も表示されていないところは、置換確率が小さいアミノ酸に...
*演習 [#d5647d7b]
UniProtからヒト Human のアミラーゼ(Amylase) AMY1_HUMAN ...
*参考文献 [#l96db884]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0"...
}}
-3章 対にした配列のアラインメント
終了行:
*はじめに [#c844e1d8]
ここでは、''ClustalW''を使ってタンパク質のアミノ酸配列の...
*ClustalW [#d87e4f43]
''ClustalW''は、ゲノム配列あるいはアミノ酸配列の''アライ...
ClustalWは、''Clustalアルゴリズム''を実装したCUI版のツー...
ここでは、ClustalWをWeb上で利用できるサービス[[GenomeNet:...
*ペアワイズ・アラインメント [#zf1a04b1]
配列(シーケンス)を比較して対応する部分を見つけて並べる...
二つの配列に対するシーケンス・アラインメントをペアワイズ...
*ペアワイズ・アラインメントの仕組み [#u0c8759f]
突然変異によってDNAの塩基配列に変化が生じることによって、...
二つの配列を比較し、このような置換、挿入、欠失の個所を見...
たとえば、''CDEFGHI''という文字列fooと''CDEGHI''という文...
fooはbarの3文字目と4文字目の間に文字Fが挿入されたものです...
この二つの文字列を比較して、以下のように並べます。
#geshi(txt){{
foo CDEFGHI 7
bar CDE-GHI 6
*** ***
}}
ここで、文字列の後の7と6は(その行の)最後の文字の位置(...
また、''-''印は文字が欠失している個所、''*''印は文字が一...
このとき、このアラインメントに対して''スコア''が計算され...
アミノ酸が一致している部分では正のスコアを加算し、一方が...
アミノ酸が一致している部分で加算される正のスコアや、アミ...
スコア行列には、Dayhoffが1978年に発表したアミノ酸置換確率...
ここで、文字列barと''CDEPGHI''という文字列buzのペアワイズ...
#geshi(txt){{
foo CDEF-GHI 7
buz CDE-PGHI 7
*** ***
}}
と考えることもできるし、buzはfooの文字Fが文字Pに置換され...
#geshi(txt){{
foo CDEFGHI 7
buz CDEPGHI 7
*** ***
}}
と考えることもできます。
ペアワイズ・アラインメントでは、いくつものアラインメント...
*ClustalWの使い方 [#u7551c37]
[[GenomeNetのClustalWのページ:https://www.genome.jp/tools...
ClustalWでは、FASTA形式やEMBL-SWISSPROT形式など、複数の記...
ここでは、FASTA形式を使います。
FASTA形式では、行頭に''>''があるとそこから空白または改行...
そこで、
#geshi(txt){{
>foo
CDEFGHI
>bar
CDEGHI
}}
と入力し、''Submit''のところにある''Send to ClustalW''ボ...
すると、しばらくして、以下のような結果が出力されます。
#geshi(txt){{
CLUSTAL 2.1 Multiple Sequence Alignments
Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: foo 7 aa
Sequence 2: bar 6 aa
Start of Pairwise alignments
Aligning...
Sequences (1:2) Aligned. Score: 50
Guide tree file created: [../work/2014/10/03/0609/clust...
There are 1 groups
Start of Multiple Alignment
Aligning...
Group 1: Sequences: 2 Score:128
Alignment Score 32
CLUSTAL-Alignment file created [../work/2014/10/03/0609/...
CLUSTAL 2.1 Multiple Sequence Alignments
Sequence format is CLUSTAL
Sequence 1: foo 7 aa
Sequence 2: bar 7 aa
CLUSTAL 2.1 multiple sequence alignment
foo CDEFGHI 7
bar CDE-GHI 6
*** ***
(foo:0.25,bar:0.25);
}}
Sequence 1がfoo、Sequence 2がbarで、二つのシーケンスSeque...
*タンパク質のペアワイズ・アラインメント [#s2332455]
**タンパク質アミノ酸配列を取得する [#ae59416a]
タンパク質データベースの一つである[[UniProt:http://www.un...
#ref(./uniprot.png,50%)
ここでは、ヘモグロビンのアミノ酸配列に対して、ペアワイズ...
ヘモグロビンは、血液中の中の赤血球の中にあるタンパク質で...
UniProtに''Hemoglobin''と入力してヘモグロビンを検索します。
''Entry''は登録ID、''Entry name''は登録名、''Protein name...
#ref(./hemoglobin.png,50%)
ここでは、上位に出てきたヒト Homo sapiens (Human) の''HBB...
''Entry''のリンクをクリックして、タンパク質の情報を表示し...
#ref(./P68871.png,50%)
すると、次のようなFASTA形式のアミノ酸配列が表示されます。
#ref(./FASTA.png,50%)
これをコピーします。
**CluatalWを実行する [#j7789a95]
[[GenomeNetのClustalW:https://www.genome.jp/tools-bin/clu...
#ref(./ClustalW.png,50%)
すると、次のようなアラインメントが出力されます。
#geshi(txt){{
CLUSTAL 2.1 multiple sequence alignment
sp|P68871|HBB_HUMAN MVHLTPEEKSAVTALWGKVNVDEVGGEALGRL...
sp|P02070|HBB_BOVIN --MLTAEEKAAVTAFWGKVKVDEVGGEALGRL...
**.***:****:****:************...
sp|P68871|HBB_HUMAN VKAHGKKVLGAFSDGLAHLDNLKGTFATLSEL...
sp|P02070|HBB_BOVIN VKAHGKKVLDSFSNGMKHLDDLKGTFAALSEL...
*********.:**:*: ***:******:****...
sp|P68871|HBB_HUMAN KEFTPPVQAAYQKVVAGVANALAHKYH
sp|P02070|HBB_BOVIN KEFTPVLQADFQKVVAGVANALAHRYH
***** :** :*************:**
}}
**結果の見方 [#q0c830c1]
''*''は、アミノ酸が一致しているところを表します。
''.''と'':''は、置換確率が大きいアミノ酸に置換されている...
'':''のほうが''.''よりも置換確率が大きいことを表していま...
"-"は、''ギャップ''(長い方に挿入されていること、または、...
何も表示されていないところは、置換確率が小さいアミノ酸に...
*演習 [#d5647d7b]
UniProtからヒト Human のアミラーゼ(Amylase) AMY1_HUMAN ...
*参考文献 [#l96db884]
#html{{
<iframe style="width:120px;height:240px;" marginwidth="0"...
}}
-3章 対にした配列のアラインメント
ページ名: