テキスト・マイニング/MacでMeCabを使う のバックアップソース(No.1)

*はじめに [#j3720ff8]

「[[MeCab:http://mecab.sourceforge.net/]]」は京都大学とNTTコミュニケーション科学基礎研究所で共同開発された形態素解析ツールです.

「すもももももももものうち」という文を「すもも/も/もも/も/もも/の/うち」というように分かち書きし,それぞれの品詞を調べることができます.

Mac OS X 10.6.1とMeCab 0.98とNAIST-jdic 0.6.1-20090630で確認しました.


*必要なもの [#z87110e9]

-辞書
-make
-gcc

MeCabには辞書が付いていません——というか,自分で解析用の辞書を用意できます.
一般的な辞書で構わない人は,MaCabと一緒に配布されている辞書をダウンロードして使うことができます.

ここでは,MeCabのサイトで推奨されている「IPA辞書」の後継として開発されている「NAIST-jdic」を辞書として使います.

makeとgccはXcodeに含まれています.
Mac OS X Snow LeopardのインストールDVDの「オプション・インストール」フォルダーにあるXcode.mpkgを実行してXcodeをインストールすると,一緒にインストールされます.


*ダウンロード [#y15cdf49]

-MeCab: Yet Another Part-of-Speech and Morphological Analyzer~
http://mecab.sourceforge.net/

mecab-0.98.tar.gzをダウンロードします.


-NAIST Japanese Dictionary~
http://sourceforge.jp/projects/naist-jdic/wiki/FrontPage

mecab-naist-jdic-0.6.1-20090630.tar.gzをダウンロードします.


*インストール [#u71281a1]

**MeCab [#ta6f47da]
mecab-0.98.tar.gzをダブル・クリックして展開し,ターミナルを開いてそのディレクトリーに移動します.

文字コードをUTF-8と指定し,コンパイルします.
#geshi(bash){{
./configure --enable-utf8-only
make
}}

ここでMeCabのサイトにある説明の通りに
#geshi(bash){{
make check
}}
とするとテストに失敗しますが,無視して先に進みます.
#geshi(bash){{
sudo make install
}}


**NAIST-jdic [#o2ccf167]

mecab-naist-jdic-0.6.1-20090630.tar.gzをダブル・クリックして展開し,ターミナルを開いてそのディレクトリーに移動します.

文字コードをUTF-8と指定し,コンパイルします.
#geshi(bash){{
./configure --with-charset=utf-8
make
sudo make install
}}

辞書を指定するため,/usr/local/etc/mecabrcファイルの
#geshi(Make){{
dicdir =  /usr/local/lib/mecab/dic/ipadic
}}
という行を
#geshi(Make){{
dicdir =  /usr/local/lib/mecab/dic/naist-jdic
}}
に変更します.


*使い方 [#hf3fd640]

MeCabを実行し,標準入力に解析したいテキストを入力してCtrl-Dを押します.
#geshi(bash){{
/usr/local/bin/mecab
すもももももももものうち
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ,,
も	助詞,係助詞,*,*,*,*,も,モ,モ,,
もも	名詞,一般,*,*,*,*,もも,モモ,モモ,,
も	助詞,係助詞,*,*,*,*,も,モ,モ,,
もも	名詞,一般,*,*,*,*,もも,モモ,モモ,,
の	助詞,連体化,*,*,*,*,の,ノ,ノ,,
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ,,
EOS
}}

テキスト・ファイルを引数として実行することもできます.


*参考情報 [#g56b438c]
-[[IPADIC(IPA辞書)とはなにものか? - ぱらめでぃうす:http://parame.mwj.jp/blog/0209]]
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS