MacでTermExtractを使う

| Topic path: Top / テキスト・マイニング / MacでTermExtractを使う

*はじめに [#f8fd8bc8]

「TermExtract」は,東京大学の[[中川裕志さん:http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/index-naka.html]]らが開発したテキスト群から専門用語を抽出するためのPerlモジュールです.
「[[TermExtract:http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html]]」は,東京大学の[[中川裕志さん:http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/index-naka.html]]らが開発したテキスト群から専門用語を抽出するためのPerlモジュールです.

たとえば,「専門用語」という言葉の場合,形態素解析だと「専門」と「用語」に分けてしまいますが,TermExtractは「専門用語」という複合語として抽出できます.

Mac OS X 10.5.6とTermExtract 4.08で確認しました.


*必要なもの [#f87afe24]
-make
-MeCab

makeはMac OS XのDVDからXcode Toolsをインストールすれば使えるようになります.


*ダウンロード [#g73d3db5]
-[[専門用語(キーワード)自動抽出用Perlモジュール「TermExtract」の解説:http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html]]


*インストール [#u88954db]
ダウンロードしたファイルを展開し,TermExtractフォルダーにあるMeCab.pmの文字コードをutf-8に変換しておきます.
#geshi(bash){{
cd TermExtract
cp MeCab.pm MeCab.org.pm
iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm
cd ..
}}

あとは普通にインストールします.
#geshi(bash){{
perl Makefile.PL
make
sudo make install
}}


*使い方 [#f277e2da]
MeCabの結果をmecab_out.txtという名前で作業ディレクトリに保存し,SampleScripts/UNIXフォルダーにあるex_mecab.plを実行します.
#geshi(bash){{
mecab target.txt > mecab_out.txt
perl SampleScripts/UNIX/ex_mecab.pl
}}
ここで,target.txtは解析する文章が書かれているプレーン・テキスト・ファイルです.


*参考情報 [#e86c804f]
-[[プログラマになりたい: TermExtract Perlでできる特徴語抽出:http://d.hatena.ne.jp/dkfj/20080804/1217819879]]
トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS