バイオ・データ・マイニング/Rで階層クラスタリングを使うのバックアップ(No.1)

はじめに †

『Rによるバイオインフォマティクスデータ解析』の7.8節「階層クラスタリング」を参考にして，回帰分析をします．

準備 †

Rのインストールについては，次のページを見てください．

ここでは，標準パッケージのstatsとUSArrestsデータセットを使います． USArrestsデータセットは，アメリカ合衆国の州ごとの殺人の発生件数，暴行の発生件数，都市部の人口割合，強姦の発生件数を格納したデータです．犯罪の発生件数については人口10万人当たりの件数で，1973年のデータです．

data(iris)

↑

クラスタリング †

クラスタリングは，分類対象のデータ集合をいくつかのグループに分割するものです．分割された部分データ集合をクラスターといいます．

クラスタリングの手法には，主に階層的アプローチと分割最適化アプローチがあります．ここでは，前者の階層的アプローチをやります．

↑

階層クラスタリング †

階層クラスタリングには，トップ・ダウンに階層化する分岐型とボトム・アップに階層化する凝集型があります．ここでは，後者の凝集型をやります．

階層クラスタリングでは，まず，1つのデータだけを含むクラスターをデータと同じ数だけ作ります．それから，最も近い（類似している）クラスター同士を結合してより大きい新しいクラスターを作ります．これを全てのクラスターが一つに結合されるまで繰り返します．

Rで階層型クラスタリングを用いるには，hclust関数を用います． hclust関数への引数には距離行列を与えます．そこで，距離行列をdist関数で計算します．

iris[sort(sample(1:150,10)),]

#ref(): File not found: "usarrests_hclust_complete_euclidean.png" at page "バイオ・データ・マイニング/Rで階層クラスタリングを使う"

バイオ・データ・マイニング/Rで階層クラスタリングを使う のバックアップ(No.1)

はじめに †

準備 †

クラスタリング †

階層クラスタリング †

バイオ・データ・マイニング/Rで階層クラスタリングを使うのバックアップ(No.1)