アミノ酸の生起確率を調べる

| Topic path: Top / バイオ・データ・マイニング / アミノ酸の生起確率を調べる

*はじめに [#k810488b]

シロイヌナズナのたんぱく質データに含まれるアミノ酸の生起確率を調べてみました.
シロイヌナズナのたんぱく質データに含まれるアミノ酸の生起確率を調べました.

データは[[TAIR:http://www.arabidopsis.org/]]からFTPで入手しました.
データは,[[TAIR:http://www.arabidopsis.org/]]からFTPで入手しました.


*プログラム [#wcb031c3]

FASTAフォーマットで保存されている''At_GB_all_prot.gz''を読み込んで,生起確率を標準出力にCSV形式で出力します.

Ruby 1.9用です.

#geshi(ruby){{
require 'zlib'

h = Hash.new  # カウントを保存するハッシュ
"ABCDEFGHIKLMNPQRSTUVWXYZ".each_char do |c|
  h[c] = 0  # カウントを0に初期化
end

sum = 0  # 合計
Zlib::GzipReader.open('At_GB_all_prot.gz') do |gz|
  gz.each do |l|
    next if l[0] == '>'  # ヘッダ行はスキップ
    l.chomp!.each_char do |c|  # データ行から一文字ずつ取り出す
      h[c] += 1
      sum += 1
    end
  end
end

h.each do |key,value|
  print "#{key},#{value/sum.to_f}\n"  # 結果出力
end
}}

*実行結果 [#s7266b39]
#geshi(text){{
A,0.0642287712757009
B,2.08357264367207e-07
C,0.0185773741032083
D,0.0539519338703533
E,0.0660423609871986
F,0.0428138917814487
G,0.0655695502719038
H,0.0227656436116629
I,0.0533824293569103
K,0.0629008944024068
L,0.0951645680201763
M,0.0245421136751396
N,0.0440100868636627
P,0.0486483599807048
Q,0.034537203976617
R,0.0535271254632724
S,0.0894924582123078
T,0.0513570524999242
U,0.0
V,0.067004602916492
W,0.0125394851040022
X,0.000255478061077945
Y,0.0286882469337464
Z,1.60274818744005e-07
}}


*グラフ [#jf2331c2]
たんぱく質データ全体でのアミノ酸生起確率.
#ref(http://xn--p8ja5bwe1i.jp/blog/images/2011/02/amino_probabilities.jpg,nolink)

プログラムを少し変更して,開始アミノ酸だけの生起確率を調べたものがこちら.

#ref(http://xn--p8ja5bwe1i.jp/blog/images/2011/02/first_amino_probabilities.jpg,nolink)


*コメント [#u7f450de]

当初の予想に反して,X(不明)が極少数ですが含まれていました.

開始アミノ酸は,そのほとんどがM(メチオニン)でした.

ちなみに,たんぱく質の生起確率を考慮していないので,シロイヌナズナに含まれるアミノ酸の生起確率ではありません.


*参考情報 [#gaa69f56]
-[[MacでHMMERを使う>バイオ・データ・マイニング/MacでHMMERを使う]] | とうごろうぃき
-[[FASTAフォーマット>バイオ・データ・マイニング/FASTAフォーマット]] | とうごろうぃき


*修正記録 [#rcab59fc]
-2011.02.10: 開始アミノ酸を調べるプログラムに誤りがあったため,調べ直してグラフを修正しました.
-開始アミノ酸を調べるプログラムに誤りがあったため,調べ直してグラフを修正しました. (2011.02.11)
トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS