- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- バイオ・データ・マイニング/Rで階層クラスタリングを使う へ行く。
- 1 (2011-12-01 (木) 13:52:31)
- 2 (2011-12-01 (木) 16:42:56)
- 3 (2011-12-01 (木) 17:04:04)
- 4 (2011-12-02 (金) 16:08:04)
- 5 (2011-12-02 (金) 19:08:30)
- 6 (2012-11-28 (水) 13:53:13)
- 7 (2012-11-29 (木) 09:29:41)
- 8 (2013-12-13 (金) 07:48:50)
- 9 (2013-12-13 (金) 07:48:50)
- 10 (2015-01-09 (金) 11:02:03)
- 11 (2015-12-02 (水) 15:37:17)
- 12 (2016-11-30 (水) 14:41:58)
- 13 (2018-10-25 (木) 16:32:15)
- 14 (2018-10-25 (木) 17:34:00)
はじめに †
『Rによるバイオインフォマティクスデータ解析』の7.8節「階層クラスタリング」を参考にして,階層クラスタリングを行います.
準備 †
Rのインストールについては,次のページを見てください.
ここでは,標準パッケージのstatsとUSArrestsデータセットを使います. USArrestsデータセットは,アメリカ合衆国の州ごとの殺人の発生件数,暴行の発生件数,都市部の人口割合,強姦の発生件数を格納したデータです. 犯罪の発生件数については人口10万人当たりの件数で,1973年のデータです.
> data(iris)
クラスタリング †
クラスタリングは,分類対象のデータ集合をいくつかのグループに分割するものです. 分割された部分データ集合をクラスターといいます.
クラスタリングの手法には,主に階層的アプローチと分割最適化アプローチがあります. ここでは,前者の階層的アプローチを行います.
階層クラスタリング †
階層クラスタリングには,トップ・ダウンに階層化する分岐型とボトム・アップに階層化する凝集型があります. ここでは,後者の凝集型をやります.
凝集型階層クラスタリングでは,まず,1つのデータだけを含むクラスターをデータと同じ数だけ作ります. それから,最も近い(似ている)クラスター同士を結合してより大きい新しいクラスターを作ります. これを全てのクラスターが一つに結合されるまで繰り返します.
Rで階層型クラスタリングを用いるには,hclust関数を用います. hclust関数の引数には距離行列を与えます. そこで,距離行列をdist関数で計算します.
> iris[sort(sample(1:150,10)),] Sepal.Length Sepal.Width Petal.Length Petal.Width Species 4 4.6 3.1 1.5 0.2 setosa 22 5.1 3.7 1.5 0.4 setosa 65 5.6 2.9 3.6 1.3 versicolor 97 5.7 2.9 4.2 1.3 versicolor 100 5.7 2.8 4.1 1.3 versicolor 108 7.3 2.9 6.3 1.8 virginica 116 6.4 3.2 5.3 2.3 virginica 122 5.6 2.8 4.9 2.0 virginica 136 7.7 3.0 6.1 2.3 virginica 146 6.7 3.0 5.2 2.3 virginica
#ref(): File not found: "usarrests_hclust_complete_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
この図を見ると,どのクラスターとどのクラスターが結合したのかがわかります.
距離 †
上でも説明したように,凝集型階層クラスタリングでは最も近い(似ている)クラスター同士をくっつけますが,この「最も近い(似ている)」クラスターを決めるのに,距離尺度が必要になります.
一般的な距離尺度としては,ユークリッド距離が用いられています.
ユークリッド距離の他に,マンハッタン距離(マンハッタンでのタクシーを利用するときのように,一つの軸と並行に移動することしかできないときの移動距離)
> d <- dist(iris[,1:4])
#ref(): File not found: "usarrests_hclust_complete_manhattan.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
この他にも,いくつもの距離尺度が提案されています. 類似度と距離尺度に付いてはこちらにたくさんまとめられています.
- 類似度と距離 - CatTail Wiki*
結合方式 †
ユークリッド距離もマンハッタン距離も二つのデータ同士の間の距離を表していますが,どのクラスターとどのクラスターが最も近い(似ている)のかを直接的には表していません.
求めた距離に基づいて,どのクラスターとどのクラスターを結合するのかを決めなくてはなりません. これが結合方式です.
上の二つの例でも用いられた標準の方式は完全連結法(complete linkage method)という方式で,クラスターC_1に含まれるデータとクラスターC_2に含まれるデータの間の距離の中で最大のもの(つまり,最も離れているもの)をC_1 C_2間の距離として,最も近い(似ている)クラスターを結合します.
単連結法(simple linkage method)では,反対に,クラスターC_1に含まれるデータとクラスターC_2に含まれるデータの間の距離の中で最小のもの(つまり,最も近いもの)をC_1 C_2間の距離として,最も近い(似ている)クラスターを結合します.
> hc <- hclust(d)
#ref(): File not found: "usarrests_hclust_simple_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
群平均法(group average method)では,クラスターC_1に含まれるデータとクラスターC_2に含まれるデータの間の距離の平均をC_1 C_2間の距離として最も近い(似ている)クラスターを結合します.
> plot(hc, labels=iris[,5], xlab="Iris")
#ref(): File not found: "usarrests_hclust_average_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
メジアン法(median linkage method)では,クラスターC_1に含まれるデータの中央値とクラスターC_2に含まれるデータの中央値の間の距離をC_1 C_2間の距離として,最も近い(似ている)クラスターを結合します. メジアン法を用いるには,hclust関数にオプションmethod="median"を指定します.
> d <- dist(iris[,1:4]) > hc <- hclust(d) > plot(hc, labels=iris[,5], xlab="Euclidean")
#ref(): File not found: "usarrests_hclust_median_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
重心法(centroid linkage method)では,クラスターC_1の重心とクラスターC_2の重心の間の距離をC_1 C_2間の距離として,最も近い(似ている)クラスターを結合します.
> d <- dist(iris[,1:4], method="manhattan") > hc <- hclust(d) > plot(hc, labels=iris[,5], xlab="Manhattan")
#ref(): File not found: "usarrests_hclust_centroid_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
Ward法では,クラスターC_1, C_2を結合してクラスターC_1 \cup C_2を作ったときに,各データとそれが含まれるクラスターの重心との距離の分散の増分をC_1 C_2間の距離として,最も近い(似ている)クラスターを結合します.
> d <- dist(iris[,1:4]) > hc <- hclust(d, method="single") > plot(hc, labels=iris[,5], xlab="Euclidean")
#ref(): File not found: "usarrests_hclust_ward_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
距離行列 †
hclustでは,距離行列を自分で作成して階層クラスタリングを行うことができます. 距離行列は,(対角要素を除いた)下三角行列からas.distを用いて作成します.
ここでは,例として,A, B, C, Dという4つのデータを含む距離行列を作成します.
まず,名前のベクトルを作成します.
> d <- dist(iris[,1:4]) > hc <- hclust(d, method="average") > plot(hc, labels=iris[,5], xlab="Euclidean")
つぎに,4次の正方行列を作成します.
> d <- dist(iris[,1:4]) > hc <- hclust(d, method="median") > plot(hc, labels=iris[,5], xlab="Euclidean")
対角要素以外の下三角行列の要素に,各データ間の距離を代入します.
> d <- dist(iris[,1:4]) > hc <- hclust(d, method="centroid") > plot(hc, labels=iris[,5], xlab="Euclidean")
このデータは,一直線上に並べることができ,Aを0とすると,Bが1,Cが5,Dが6の位置にあります.
as.distを用いてこの正方行列を距離行列に変換できることを確認します.
> d <- dist(iris[,1:4]) > hc <- hclust(d, method="ward.D") > plot(hc, labels=iris[,5], xlab="Euclidean")
この距離行列をhclustに引数として与えることで,階層クラスタリングができます.
> names = c("A", "B", "C", "D")
#ref(): File not found: "dist_hclust.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"
クラスター番号 †
階層クラスタリングによってつけられたクラスター番号を調べるには,cutree関数を使います. cutree関数には,hclust関数によって出力された結果とクラスター数を与えます.
> d = matrix(, 4, 4, dimnames=list(names, names)) > d A B C D A NA NA NA NA B NA NA NA NA C NA NA NA NA D NA NA NA NA
これはWard法による階層クラスタリングの結果をクラスター数を3として分けたときのそれぞれの州が属するクラスター番号です.
まとめ †
凝集型階層クラスタリングでは,最も近いクラスターを結合して新しいクラスターを作成することを繰り返すことによってクラスタリングを行います.
このとき,最も近い2つのクラスターを選び出すために,クラスター間の距離を測る必要があります. クラスター間の距離尺度の違いにより,完全結合法,単結合法,群平均法,メジアン法,重心法,Ward法という方法に分かれます.
また,クラスター間の距離尺度はデータ間の距離尺度に基づいているため,データ間の距離も測る必要があります. データ間の距離尺度には,ユークリッド距離,マンハッタン距離,マハラノビス距離,コサイン係数などがあります.
したがって,凝集型階層型クラスタリングでは,データ間の距離尺度とクラスター間の距離尺度の二つを選択することになります.
参考文献 †
- クラスタリングとは(クラスター分析とは) - 神嶌敏弘さん
- 類似度と距離 - CatTail Wiki*