2007年2月アーカイブ

「トランスポーター2」を観ました

| カテゴリ: | タグ:

前作にくらべて,格段に面白くなっています. 前作のネタを上手く使って笑わせてくれるし,格闘アクションも最低限に抑えられています. 最近の作品としては珍しいくらい短い(約80分)けれど,まったく問題ありません.

もし余裕があるなら,これを見る前に前作を観ておくことを強くオススメします. あまり面白くありませんが.

「トランスポーター」を観ました

| カテゴリ: | タグ:
the_transporter.jpg

リュック・ベンソン監督のテイストが色濃く出ている作品ですね. いつものカー・アクションに加えて,格闘アクションもやりたかったんでしょうね. でも,それが余分な感は否めません.

トランスポーター2を見る前に,ぜひ見ておきましょう.

dead_mans_chest.jpg

相変わらずジョニー・デップ演じるジャック・スパロウ船長が素敵. ちょっとやりすぎなところがいくつもありますが,そこできちんと笑わせてくれます. 次回作へと続く終わり方にはちょっと不満です.

前作を忘れている場合は,復習してから観た方がいいかも.

「インサイド・マン」を観ました

| カテゴリ: | タグ:
inside_man.jpg

見終わった後に,もう一度見たくなる映画です. 「ショーシャンクの空に」や「メメント」のように.

っていうか,一度で理解できたらすごいですね. そういう意味では,映画館では観たくない作品です :-)

「ラヂオの時間」を観ました

| カテゴリ: | タグ:
welcome_back_mr_mcdonald.jpg

面白かったです. 「そんなバカな」と何度も笑わせてくれますし,最後もきちんと終わります. 私はTHE 有頂天ホテルよりもこちらのほうが好きです.

三谷幸喜初監督作品.

「THE 有頂天ホテル」を観ました

| カテゴリ: | タグ:
the_uchoten_hotel.jpg

三谷幸喜作品としてはイマイチでした. 一つのホテルを舞台にして同時進行するそれぞれのエピソード—というだけでつながりがあまり感じられないので,群像劇としてはクラッシュの方が良かったです.

「のだめカンタービレ 17巻」を読みました

| カテゴリ: | タグ:
nodame-17.jpg

ドラマ化,そしてアニメ化と絶好調な「のだめカンタービレ」の最新巻を読みました.

絶好調なのはうれしいけれど,終わりどころを外さないように願っています.

「24 - Season 2」を観ました

| カテゴリ: | タグ:
24-season-2.jpg

4週間かけて全部見ました. 最近,DVD のレビューがないのはこのためです.

「20世紀少年」を読んで不完全燃焼だったところに,このエンディングでさらに不完全燃焼になってしまいました. 終わったときには「え〜(なんじゃそりゃ)」としか言えませんでした.

いくらなんでも無茶しすぎなので,いくつも文句はありますが,それでも面白いです. ただし,シーズン1から見ないとダメです.

「20世紀少年 22巻」を読みました

| カテゴリ: | タグ:
the-20th-century-boy.jpg

浦沢直樹の「20世紀少年」の22巻を読みました. いちおう,これでおしまいということにしたいらしいのですが,いったいどうしたいのか,理解できませんでした.

調べてみたら,体がボロボロで,限界だったということらしいです. 最終章と銘打った「21世紀少年」でなんとかしてくれるものと期待しています.

前回の記事で考えたシェル・スクリプトをベースにして,SVM-light 用のデータ・ファイルを作成するシェル・スクリプトを考えてみました.

SVM-light のデータ・ファイルのフォーマットは,

ラベル 属性番号:値 属性値番号:値 ...
というものです. 属性番号:値 の組は,値が 0 のものは省略できます. ラベルは,正事例のとき 1負事例のとき -1 です. また,トランスダクティブ学習のためのラベルなし事例のラベルは 0 です.

つまり,(0, 1, 1, 0) というベクトルで表される正事例と (1, 1, 0, 0) というベクトルで表される負事例は

1 2:1 3:1
-1 1:1 2:1
と表されます.

SVM を用いてテキスト分類を行うためには,テキスト(文書)をベクトル・データで表現する必要があります. やりかたはいくつかありますが,ここでは,特徴語のプレゼンス(属性番号に対応する語が出現していればその値が 1,そうでなければ 0)を採用することにします.

そこで,指定されたディレクトリに含まれるファイルのいずれかに出現する語を属性として用い,それぞれのファイルを事例として SVM-light 用のデータとして出力するシェル・スクリプトを作成してみました. ディレクトリは,正事例,負事例の2つ,または,これらにラベルなしを加えて3つを指定します.

つまり,正事例のファイルが入ってる pos ディレクトリ,負事例のファイルが入っている neg ディレクトリを用意し,

% ./mksvmdata.sh pos neg
というように実行します. あるいは,さらにラベルなしのファイルが入っている unl ディレクトリを用意して
% ./mksvmdata.sh pos neg unl
というように実行します.

シェルによるテキスト処理の練習問題

| カテゴリ: | タグ:

SVM を用いたテキスト分類をする際に必要となる前処理について,UNIX のコマンドでどこまでできるかを考えてみました.

日本語の形態素解析には MeCab を使用することにします. MeCab は,入力されたデータを解析し,次のように出力します.

% echo "あのイーハトーヴォのすきとおった風," | mecab
あの    連体詞,*,*,*,*,*,あの,アノ,アノ
イーハトーヴォ  名詞,一般,*,*,*,*,*
の      助詞,格助詞,一般,*,*,*,の,ノ,ノ
すきとおっ      動詞,自立,*,*,五段・ラ行,連用タ接続,すきとおる,スキトオッ,スキトーッ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
風      名詞,一般,*,*,*,*,風,カゼ,カゼ
,      記号,読点,*,*,*,*,,,,,,
EOS

この出力のフォーマットは,左から

表層形¥t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
となっています. このうち,「原形」の部分を使用して,その出現頻度などを集計します. 英単語や未知語の原型は * になりますが,これは無視することにします.

ルール

  • できる限り効率よく処理する.
  • 一つのファイルにつき MeCab を実行するのは1回だけ.
  • MeCab 以外は UNIX のコマンドだけを使う.
  • できる限り中間出力をファイルに書き込まない.

問題1

指定されたファイルに出現する語を,TF (Term Frequency) が高い順に並べよ(難易度:低).

問題2

指定されたディレクトリに含まれるファイルのいずれかに出現する語を,DF (Document Frequency) が高い順に並べよ(難易度:中).

解答例はこの続きに示します.

Google

Google
とうごろう.jp
WWW
Powered by Movable Type 4.24-ja