- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- バイオ・データ・マイニング/Rで階層クラスタリングを使う へ行く。
- 1 (2011-12-01 (木) 13:52:31)
- 2 (2011-12-01 (木) 16:42:56)
- 3 (2011-12-01 (木) 17:04:04)
- 4 (2011-12-02 (金) 16:08:04)
- 5 (2011-12-02 (金) 19:08:30)
- 6 (2012-11-28 (水) 13:53:13)
- 7 (2012-11-29 (木) 09:29:41)
- 8 (2013-12-13 (金) 07:48:50)
- 9 (2013-12-13 (金) 07:48:50)
- 10 (2015-01-09 (金) 11:02:03)
- 11 (2015-12-02 (水) 15:37:17)
- 12 (2016-11-30 (水) 14:41:58)
- 13 (2018-10-25 (木) 16:32:15)
- 14 (2018-10-25 (木) 17:34:00)
- 15 (2020-12-09 (水) 15:03:19)
はじめに †
『Rによるバイオインフォマティクスデータ解析』の7.8節「階層クラスタリング」を参考にして,回帰分析をします.
準備 †
Rのインストールについては,次のページを見てください.
ここでは,標準パッケージのstatsとUSArrestsデータセットを使います. USArrestsデータセットは,アメリカ合衆国の州ごとの殺人の発生件数,暴行の発生件数,都市部の人口割合,強姦の発生件数を格納したデータです. 犯罪の発生件数については人口10万人当たりの件数で,1973年のデータです.
data(iris)
クラスタリング †
クラスタリングは,分類対象のデータ集合をいくつかのグループに分割するものです. 分割された部分データ集合をクラスターといいます.
クラスタリングの手法には,主に階層的アプローチと分割最適化アプローチがあります. ここでは,前者の階層的アプローチをやります.
階層クラスタリング †
階層クラスタリングには,トップ・ダウンに階層化する分岐型とボトム・アップに階層化する凝集型があります. ここでは,後者の凝集型をやります.
階層クラスタリングでは,まず,1つのデータだけを含むクラスターをデータと同じ数だけ作ります. それから,最も近い(類似している)クラスター同士を結合してより大きい新しいクラスターを作ります. これを全てのクラスターが一つに結合されるまで繰り返します.
Rで階層型クラスタリングを用いるには,hclust関数を用います. hclust関数への引数には距離行列を与えます. そこで,距離行列をdist関数で計算します.
iris[sort(sample(1:150,10)),]
#ref(): File not found: "usarrests_hclust_complete_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"