この記事はまだ書きかけです.

*はじめに [#t5ce7b61]

RでNaïve Bayesを使います.


*準備 [#gdf2d43c]

Rのインストールについては,次のページを見てください.
-[[MacでRを使う>機械学習/MacでRを使う]]
-[[WindowsでRを使う>機械学習/WindowsでRを使う]]

今回のデータには,''kernlabパッケージ''に含まれている''spamデータ''を用います.
そこで,kernlabパッケージをインストールします.
install.packagesコマンドを実行すると,パッケージをダウンロードするサーバーを聞かれますので,リストからJapanのどれかを選択します.
#geshi(rsplus){{
> install.packages("kernlab")
> library(kernlab)
> data(spam)
}}

このデータは,4601個のメールを1813個のスパムと2788個のスパムでないものに分けたデータです.
#geshi(rsplus){{
> table(spam[,58])

nonspam    spam 
   2788    1813 
> spam[c(1811:1816),]
     make address  all num3d  our over remove internet order mail receive will
1811    0    0.00 0.77     0 0.38 0.38   0.38     0.00  0.00 0.77    0.38 0.38
1812    0    0.00 0.00     0 0.53 0.00   0.53     0.00  0.53 0.00    0.00 1.07
1813    0    0.31 0.42     0 0.00 0.10   0.00     0.52  0.21 0.52    0.00 0.52
1814    0    0.00 0.00     0 0.00 0.00   0.00     0.00  0.00 0.00    0.00 0.00
1815    0    0.00 0.00     0 0.00 0.00   0.00     0.00  0.00 0.85    0.00 0.00
1816    0    0.00 0.00     0 0.00 0.00   0.00     0.00  0.00 0.00    0.00 0.00
     people report addresses free business email  you credit your font num000 money
1811   0.00    0.0       0.0 0.77     0.77  0.77 2.31   0.00 1.15 0.00      0  0.38
1812   0.00    0.0       0.0 0.00     0.00  0.00 2.15   0.00 3.22 0.00      0  0.00
1813   0.63    0.1       0.1 0.21     0.31  0.21 2.53   0.42 1.69 0.31      0  0.10
1814   0.00    0.0       0.0 0.00     0.00  0.00 0.00   0.00 0.00 0.00      0  0.00
1815   0.00    0.0       1.7 0.00     0.00  0.00 2.56   0.00 1.70 0.00      0  0.00
1816   0.00    0.0       0.0 0.00     0.00  0.00 0.00   0.00 0.00 0.00      0  0.00
     hp hpl george num650 lab labs telnet num857 data num415 num85 technology
1811  0   0   0.00      0   0    0      0      0    0      0     0          0
1812  0   0   0.00      0   0    0      0      0    0      0     0          0
1813  0   0   0.00      0   0    0      0      0    0      0     0          0
1814  0   0   0.00      0   0    0      0      0    0      0     0          0
1815  0   0   0.00      0   0    0      0      0    0      0     0          0
1816  0   0  33.33      0   0    0      0      0    0      0     0          0
     num1999 parts pm direct cs meeting original project  re edu table conference
1811       0     0  0      0  0       0        0       0 0.0   0     0          0
1812       0     0  0      0  0       0        0       0 0.0   0     0          0
1813       0     0  0      0  0       0        0       0 0.1   0     0          0
1814       0     0  0      0  0       0        0       0 0.0   0     0          0
1815       0     0  0      0  0       0        0       0 0.0   0     0          0
1816       0     0  0      0  0       0        0       0 0.0   0     0          0
     charSemicolon charRoundbracket charSquarebracket charExclamation charDollar
1811         0.063            0.127             0.255           0.510      0.000
1812         0.000            0.000             0.000           0.082      0.000
1813         0.000            0.016             0.000           0.887      0.032
1814         0.022            0.022             0.019           0.022      0.022
1815         0.299            0.000             0.000           0.149      0.000
1816         0.000            0.000             0.000           0.000      0.000
     charHash capitalAve capitalLong capitalTotal    type
1811    0.000      3.685          62          258    spam
1812    0.000      4.391          66          101    spam
1813    0.049      3.446         318         1003    spam
1814    0.022      3.482           5         5902 nonspam
1815    0.000      1.040           2           26 nonspam
1816    0.000      1.000           1            3 nonspam
}}




*Naïve Bayes [#aef52cc4]

Naïve Bayes(ナイーブ・ベイズ)はスパム・メール・フィルターなどで用いられている機械学習の手法です.

Naïve Bayesでは,文書を単語の集合とみなし,それぞれの単語が独立に出現することを仮定して,Bayes(ベイズ)の定理に基づいて分類規則を生成します.
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS