MacでTermExtractを使う

2009-07-03 (金) 09:08:40 (2881d) | Topic path: Top / テキスト・マイニング / MacでTermExtractを使う

はじめに

TermExtract」は,東京大学の中川裕志さんらが開発したテキスト群から専門用語を抽出するためのPerlモジュールです.

たとえば,「専門用語」という言葉の場合,形態素解析だと「専門」と「用語」に分けてしまいますが,TermExtractは「専門用語」という複合語として抽出できます.

Mac OS X 10.5.6とTermExtract 4.08で確認しました.

必要なもの

  • make
  • MeCab

makeはMac OS XのDVDからXcode Toolsをインストールすれば使えるようになります.

ダウンロード

インストール

ダウンロードしたファイルを展開し,TermExtractフォルダーにあるMeCab.pmの文字コードをutf-8に変換しておきます.

cd TermExtract
cp MeCab.pm MeCab.org.pm
iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm
cd ..

あとは普通にインストールします.

perl Makefile.PL
make
sudo make install

使い方

MeCabの結果をmecab_out.txtという名前で作業ディレクトリに保存し,SampleScripts/UNIXフォルダーにあるex_mecab.plを実行します.

mecab target.txt > mecab_out.txt
perl SampleScripts/UNIX/ex_mecab.pl

ここで,target.txtは解析する文章が書かれているプレーン・テキスト・ファイルです.

参考情報

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS