はじめに

MeCab」は京都大学とNTTコミュニケーション科学基礎研究所で共同開発された形態素解析ツールです.

「すもももももももものうち」という文を「すもも/も/もも/も/もも/の/うち」というように分かち書きし,それぞれの品詞を調べることができます.

Mac OS X 10.6.1とMeCab 0.98とNAIST-jdic 0.6.1-20090630で確認しました.

必要なもの

  • 辞書
  • make
  • gcc

MeCabには辞書が付いていません——というか,自分で解析用の辞書を用意できます. 一般的な辞書で構わない人は,MaCabと一緒に配布されている辞書をダウンロードして使うことができます.

ここでは,MeCabのサイトで推奨されている「IPA辞書」の後継として開発されている「NAIST-jdic」を辞書として使います.

makeとgccはXcodeに含まれています. Mac OS X Snow LeopardのインストールDVDの「オプション・インストール」フォルダーにあるXcode.mpkgを実行してXcodeをインストールすると,一緒にインストールされます.

ダウンロード

mecab-0.98.tar.gzをダウンロードします.

mecab-naist-jdic-0.6.1-20090630.tar.gzをダウンロードします.

インストール

MeCab

mecab-0.98.tar.gzをダブル・クリックして展開し,ターミナルを開いてそのディレクトリーに移動します.

文字コードをUTF-8と指定し,コンパイルします.

./configure --enable-utf8-only
make
make check
sudo make install

ここでMeCabのサイトにある説明の通りに

./configure --with-charset=utf-8
make
sudo make install

とするとテストに失敗しますが,無視して先に進みます.

dicdir =  /usr/local/lib/mecab/dic/ipadic

NAIST-jdic

mecab-naist-jdic-0.6.1-20090630.tar.gzをダブル・クリックして展開し,ターミナルを開いてそのディレクトリーに移動します.

文字コードをUTF-8と指定し,コンパイルします.

dicdir =  /usr/local/lib/mecab/dic/naist-jdic

辞書を指定するため,/usr/local/etc/mecabrcファイルの

/usr/local/bin/mecab
すもももももももものうち
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ,,
も	助詞,係助詞,*,*,*,*,も,モ,モ,,
もも	名詞,一般,*,*,*,*,もも,モモ,モモ,,
も	助詞,係助詞,*,*,*,*,も,モ,モ,,
もも	名詞,一般,*,*,*,*,もも,モモ,モモ,,
の	助詞,連体化,*,*,*,*,の,ノ,ノ,,
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ,,
EOS

という行を

dicdir =  /usr/local/lib/mecab/dic/naist-jdic

に変更します.

使い方

MeCabを実行し,標準入力に解析したいテキストを入力してCtrl-Dを押します.

/usr/local/bin/mecab
すもももももももものうち
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ,,
も	助詞,係助詞,*,*,*,*,も,モ,モ,,
もも	名詞,一般,*,*,*,*,もも,モモ,モモ,,
も	助詞,係助詞,*,*,*,*,も,モ,モ,,
もも	名詞,一般,*,*,*,*,もも,モモ,モモ,,
の	助詞,連体化,*,*,*,*,の,ノ,ノ,,
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ,,
EOS

テキスト・ファイルを引数として実行することもできます.

参考情報

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS