テキスト・マイニング/MacでTermExtractを使うの変更点

追加された行はこの色です。
削除された行はこの色です。
テキスト・マイニング/MacでTermExtractを使うへ行く。
テキスト・マイニング/MacでTermExtractを使うの差分を削除

*はじめに [#f8fd8bc8]

「TermExtract」は，東京大学の[[中川裕志さん:http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/index-naka.html]]らが開発したテキスト群から専門用語を抽出するためのPerlモジュールです．
「[[TermExtract:http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html]]」は，東京大学の[[中川裕志さん:http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/index-naka.html]]らが開発したテキスト群から専門用語を抽出するためのPerlモジュールです．

たとえば，「専門用語」という言葉の場合，形態素解析だと「専門」と「用語」に分けてしまいますが，TermExtractは「専門用語」という複合語として抽出できます．

Mac OS X 10.5.6とTermExtract 4.08で確認しました．


*必要なもの [#f87afe24]
-make
-MeCab

makeはMac OS XのDVDからXcode Toolsをインストールすれば使えるようになります．


*ダウンロード [#g73d3db5]
-[[専門用語（キーワード）自動抽出用Perlモジュール「TermExtract」の解説:http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html]]


*インストール [#u88954db]
ダウンロードしたファイルを展開し，TermExtractフォルダーにあるMeCab.pmの文字コードをutf-8に変換しておきます．
#geshi(bash){{
cd TermExtract
cp MeCab.pm MeCab.org.pm
iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm
cd ..
}}

あとは普通にインストールします．
#geshi(bash){{
perl Makefile.PL
make
sudo make install
}}


*使い方 [#f277e2da]
MeCabの結果をmecab_out.txtという名前で作業ディレクトリに保存し，SampleScripts/UNIXフォルダーにあるex_mecab.plを実行します．
#geshi(bash){{
mecab target.txt > mecab_out.txt
perl SampleScripts/UNIX/ex_mecab.pl
}}
ここで，target.txtは解析する文章が書かれているプレーン・テキスト・ファイルです．


*参考情報 [#e86c804f]
-[[プログラマになりたい&#58; TermExtract Perlでできる特徴語抽出:http://d.hatena.ne.jp/dkfj/20080804/1217819879]]