はじめに †
「TermExtract」は,東京大学の中川裕志さんらが開発したテキスト群から専門用語を抽出するためのPerlモジュールです.
たとえば,「専門用語」という言葉の場合,形態素解析だと「専門」と「用語」に分けてしまいますが,TermExtractは「専門用語」という複合語として抽出できます.
Mac OS X 10.5.6とTermExtract 4.08で確認しました.
必要なもの †
- make
- MeCab
makeはMac OS XのDVDからXcode Toolsをインストールすれば使えるようになります.
ダウンロード †
インストール †
ダウンロードしたファイルを展開し,TermExtractフォルダーにあるMeCab.pmの文字コードをutf-8に変換しておきます.
cd TermExtract cp MeCab.pm MeCab.org.pm iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm cd ..
あとは普通にインストールします.
perl Makefile.PL make sudo make install
使い方 †
MeCabの結果をmecab_out.txtという名前で作業ディレクトリに保存し,SampleScripts/UNIXフォルダーにあるex_mecab.plを実行します.
mecab target.txt > mecab_out.txt perl SampleScripts/UNIX/ex_mecab.pl
ここで,target.txtは解析する文章が書かれているプレーン・テキスト・ファイルです.