はじめに †
Rで使えるマイクロアレイ・データをダウンロードして解析してみます.
マイクロアレイ・データについては,以下のページを参考にしてください.
- DNAマイクロアレイ・データを解析する - とうごろうぃき
ここでは,GitHubに公開されているR用のdatamicroarrayパッケージを利用します. このデータセットには,以下のデータが含まれています.
- 乳がん (Breast Cancer)
- Chin (2006)
- Chowdary (2006)
- Gravier (2010)
- Sorlie (2001)
- West (2001)
- 中枢神経障害 (Central Nervous System Disorders)
- Pomeroy (2002)
- クローン病 (Crohn's Disease)
- Burczynski (2006)
- 結腸がん (Colon Cancer)
- Alon (1999)
- グリオーマ (Glioma)
- Sun (2006)
- ハンチントン病 (Huntington's Disease)
- Borovecki (2005)
- 白血病 (Leukemia)
- Chiaretti (2004)
- Golub (1999)
- Yeoh (2002)
- 肺がん (Lung Cancer)
- Gordon (2002)
- リンパ腫 (Lymphoma)
- Shipp (2002)
- 骨髄腫 (Myeloma)
- Tian (2003)
- 前立腺がん (Prostate Cancer)
- Singh (2002)
- 肉腫 (Sarcoma)
- Nakayama (2007)
- 小円形青色細胞腫瘍 (Small Round Blue Cell Tumors)
- Khan (2001)
- その他 (Miscellaneous)
- Christensen (2009)
- Su (2002)
- Subramanian (2005)
ダウンロード †
GitHubで公開されているパッケージをダウンロードするには,devtoolsパッケージが必要です. そこで,まずdevtoolsパッケージをインストールします. install.packagesコマンドを実行すると,パッケージをダウンロードするサーバーを聞かれますので,リストからJapanのどれかを選択します. ただし,私がやったときは,Hyogoにしたらダウンロードに失敗したのでTsukubaにしました.
> install.packages("devtools")
次に,devtoolsパッケージを使って,datamicroarrayパッケージをダウンロードします.
> library(devtools) > install_github('datamicroarray', 'ramey')
ダウンロードするのに時間がかかりましたが,これでデータが使えるようになりました.
使い方 †
それでは,Alon (1999) の結腸がん (Coron Cancer) データセットを使ってみます.
> library(datamicroarray) > data('alon', package='datamicroarray')
マイクロアレイ・データには,2つの変数があります.
- x: [math]n \times p[/math] データ行列.[math]n[/math] はデータ数,[math]p[/math] は特徴数.
- y: 長さ [math]n[/math] のファクター・ベクトル.
> dim(alon$x) [1] 62 2000 > table(alon$y) n t 22 40
Alon (1999)には2000次元のデータが62個含まれていて,62個のデータのうち22個がラベルn,残り40個がラベルtであることがわかります.
describe_data関数を使うと,データの一覧を表示できます.
author year n p K Disease 1 alon 1999 62 2000 2 Colon Cancer 2 borovecki 2005 31 22283 2 Huntington's Disease 3 burczynski 2006 127 22283 3 Crohn's Disease 4 chiaretti 2004 111 12625 2 Leukemia 5 chin 2006 118 22215 2 Breast Cancer 6 chowdary 2006 104 22283 2 Breast Cancer 7 christensen 2009 217 1413 3 N/A 8 golub 1999 72 7129 3 Leukemia 9 gordon 2002 181 12533 2 Lung Cancer 10 gravier 2010 168 2905 2 Breast Cancer 11 khan 2001 63 2308 4 SRBCT 12 nakayama 2001 105 22283 10 Sarcoma 13 pomeroy 2002 60 7128 2 CNS Tumor 14 shipp 2002 58 6817 2 Lymphoma 15 singh 2002 102 12600 2 Prostate Cancer 16 sorlie 2001 85 456 5 Breast Cancer 17 su 2002 102 5565 4 N/A 18 subramanian 2005 50 10100 2 N/A 19 sun 2006 180 54613 4 Glioma 20 tian 2003 173 12625 2 Myeloma 21 west 2001 49 7129 2 Breast Cancer 22 yeoh 2002 248 12625 6 Leukemia
参考文献 †
- ramhiser/datamicroarray - GitHub