- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- バイオ・データ・マイニング/Rで階層クラスタリングを使う へ行く。
- 1 (2011-12-01 (木) 13:52:31)
- 2 (2011-12-01 (木) 16:42:56)
- 3 (2011-12-01 (木) 17:04:04)
- 4 (2011-12-02 (金) 16:08:04)
- 5 (2011-12-02 (金) 19:08:30)
- 6 (2012-11-28 (水) 13:53:13)
- 7 (2012-11-29 (木) 09:29:41)
- 8 (2013-12-13 (金) 07:48:50)
- 9 (2013-12-13 (金) 07:48:50)
- 10 (2015-01-09 (金) 11:02:03)
- 11 (2015-12-02 (水) 15:37:17)
- 12 (2016-11-30 (水) 14:41:58)
- 13 (2018-10-25 (木) 16:32:15)
- 14 (2018-10-25 (木) 17:34:00)
はじめに †
『Rによるバイオインフォマティクスデータ解析』の7.8節「階層クラスタリング」を参考にして,回帰分析をします.
準備 †
Rのインストールについては,次のページを見てください.
ここでは,標準パッケージのstatsとUSArrestsデータセットを使います. USArrestsデータセットは,アメリカ合衆国の州ごとの殺人の発生件数,暴行の発生件数,都市部の人口割合,強姦の発生件数を格納したデータです. 犯罪の発生件数については人口10万人当たりの件数で,1973年のデータです.
> data(iris)
クラスタリング †
クラスタリングは,分類対象のデータ集合をいくつかのグループに分割するものです. 分割された部分データ集合をクラスターといいます.
クラスタリングの手法には,主に階層的アプローチと分割最適化アプローチがあります. ここでは,前者の階層的アプローチをやります.
階層クラスタリング †
階層クラスタリングには,トップ・ダウンに階層化する分岐型とボトム・アップに階層化する凝集型があります. ここでは,後者の凝集型をやります.
階層クラスタリングでは,まず,1つのデータだけを含むクラスターをデータと同じ数だけ作ります. それから,最も近い(類似している)クラスター同士を結合してより大きい新しいクラスターを作ります. これを全てのクラスターが一つに結合されるまで繰り返します.
Rで階層型クラスタリングを用いるには,hclust関数を用います. hclust関数への引数には距離行列を与えます. そこで,距離行列をdist関数で計算します.
> iris[sort(sample(1:150,10)),] Sepal.Length Sepal.Width Petal.Length Petal.Width Species 4 4.6 3.1 1.5 0.2 setosa 22 5.1 3.7 1.5 0.4 setosa 65 5.6 2.9 3.6 1.3 versicolor 97 5.7 2.9 4.2 1.3 versicolor 100 5.7 2.8 4.1 1.3 versicolor 108 7.3 2.9 6.3 1.8 virginica 116 6.4 3.2 5.3 2.3 virginica 122 5.6 2.8 4.9 2.0 virginica 136 7.7 3.0 6.1 2.3 virginica 146 6.7 3.0 5.2 2.3 virginica
#ref(): File not found: "usarrests_hclust_complete_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"