*はじめに [#k810488b]
シロイヌナズナのたんぱく質データに含まれるアミノ酸の生起確率を調べてみました.
シロイヌナズナのたんぱく質データに含まれるアミノ酸の生起確率を調べました.
データは[[TAIR:http://www.arabidopsis.org/]]からFTPで入手しました.
データは,[[TAIR:http://www.arabidopsis.org/]]からFTPで入手しました.
*プログラム [#wcb031c3]
FASTAフォーマットで保存されている''At_GB_all_prot.gz''を読み込んで,生起確率を標準出力にCSV形式で出力します.
Ruby 1.9用です.
#geshi(ruby){{
require 'zlib'
h = Hash.new # カウントを保存するハッシュ
"ABCDEFGHIKLMNPQRSTUVWXYZ".each_char do |c|
h[c] = 0 # カウントを0に初期化
end
sum = 0 # 合計
Zlib::GzipReader.open('At_GB_all_prot.gz') do |gz|
gz.each do |l|
next if l[0] == '>' # ヘッダ行はスキップ
l.chomp!.each_char do |c| # データ行から一文字ずつ取り出す
h[c] += 1
sum += 1
end
end
end
h.each do |key,value|
print "#{key},#{value/sum.to_f}\n" # 結果出力
end
}}
*実行結果 [#s7266b39]
#geshi(text){{
A,0.0642287712757009
B,2.08357264367207e-07
C,0.0185773741032083
D,0.0539519338703533
E,0.0660423609871986
F,0.0428138917814487
G,0.0655695502719038
H,0.0227656436116629
I,0.0533824293569103
K,0.0629008944024068
L,0.0951645680201763
M,0.0245421136751396
N,0.0440100868636627
P,0.0486483599807048
Q,0.034537203976617
R,0.0535271254632724
S,0.0894924582123078
T,0.0513570524999242
U,0.0
V,0.067004602916492
W,0.0125394851040022
X,0.000255478061077945
Y,0.0286882469337464
Z,1.60274818744005e-07
}}
*グラフ [#jf2331c2]
たんぱく質データ全体でのアミノ酸生起確率.
#ref(http://xn--p8ja5bwe1i.jp/blog/images/2011/02/amino_probabilities.jpg,nolink)
プログラムを少し変更して,開始アミノ酸だけの生起確率を調べたものがこちら.
#ref(http://xn--p8ja5bwe1i.jp/blog/images/2011/02/first_amino_probabilities.jpg,nolink)
*コメント [#u7f450de]
当初の予想に反して,X(不明)が極少数ですが含まれていました.
開始アミノ酸は,そのほとんどがM(メチオニン)でした.
ちなみに,たんぱく質の生起確率を考慮していないので,シロイヌナズナに含まれるアミノ酸の生起確率ではありません.
*参考情報 [#gaa69f56]
-[[MacでHMMERを使う>バイオ・データ・マイニング/MacでHMMERを使う]] | とうごろうぃき
-[[FASTAフォーマット>バイオ・データ・マイニング/FASTAフォーマット]] | とうごろうぃき
*修正記録 [#rcab59fc]
-2011.02.10: 開始アミノ酸を調べるプログラムに誤りがあったため,調べ直してグラフを修正しました.
-開始アミノ酸を調べるプログラムに誤りがあったため,調べ直してグラフを修正しました. (2011.02.11)