- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- テキスト・マイニング/MacでMeCabを使う へ行く。
- 1 (2009-10-02 (金) 10:49:22)
- 2 (2013-12-02 (月) 19:44:43)
- 3 (2014-07-24 (木) 18:12:23)
はじめに †
「MeCab」は京都大学とNTTコミュニケーション科学基礎研究所で共同開発された形態素解析ツールです.
「すもももももももものうち」という文を「すもも/も/もも/も/もも/の/うち」というように分かち書きし,それぞれの品詞を調べることができます.
Mac OS X 10.9とMeCab 0.996とNAIST-jdic 0.6.3b-20111013で確認しました.
必要なもの †
- 辞書
- make
- gcc
MeCabには辞書が付いていません——というか,自分で解析用の辞書を用意できます. 一般的な辞書で構わない人は,MaCabと一緒に配布されている辞書をダウンロードして使うことができます.
ここでは,MeCabのサイトで推奨されている「IPA辞書」の後継として開発されている「NAIST-jdic」を辞書として使います.
makeとgccはXcodeに含まれています. Mac OS X Snow LeopardのインストールDVDの「オプション・インストール」フォルダーにあるXcode.mpkgを実行してXcodeをインストールすると,一緒にインストールされます.
ダウンロード †
- MeCab: Yet Another Part-of-Speech and Morphological Analyzer
http://mecab.sourceforge.net/
mecab-0.996.tar.gzをダウンロードします.
- NAIST Japanese Dictionary
http://sourceforge.jp/projects/naist-jdic/wiki/FrontPage
mecab-naist-jdic-0.6.3b-20111013.tar.gzをダウンロードします.
インストール †
MeCab †
mecab-0.996.tar.gzをダブル・クリックして展開し,ターミナルを開いてそのディレクトリーに移動します.
文字コードをUTF-8と指定し,コンパイルします.
./configure --enable-utf8-only make make check sudo make install
NAIST-jdic †
mecab-naist-jdic-0.6.3b-20111013.tar.gzをダブル・クリックして展開し,ターミナルを開いてそのディレクトリーに移動します.
文字コードをUTF-8と指定し,コンパイルします.
./configure --with-charset=utf-8 make sudo make install
辞書を指定するため,/usr/local/etc/mecabrcファイルの
dicdir = /usr/local/lib/mecab/dic/ipadic
という行を
dicdir = /usr/local/lib/mecab/dic/naist-jdic
に変更します.
使い方 †
MeCabを実行し,標準入力に解析したいテキストを入力してCtrl-Dを押します.
/usr/local/bin/mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ,, も 助詞,係助詞,*,*,*,*,も,モ,モ,, もも 名詞,一般,*,*,*,*,もも,モモ,モモ,, も 助詞,係助詞,*,*,*,*,も,モ,モ,, もも 名詞,一般,*,*,*,*,もも,モモ,モモ,, の 助詞,連体化,*,*,*,*,の,ノ,ノ,, うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ,, EOS
テキスト・ファイルを引数として実行することもできます.