*はじめに [#r35eebe6]
Rで使えるマイクロアレイ・データをダウンロードして解析してみます.
マイクロアレイ・データについては,以下のページを参考にしてください.
-[[DNAマイクロアレイ・データを解析する>バイオ・データ・マイニング/DNAマイクロアレイ・データを解析する]]
-[[DNAマイクロアレイ・データを解析する>バイオ・データ・マイニング/DNAマイクロアレイ・データを解析する]] - とうごろうぃき
ここでは,GitHubに公開されているR用の[[''datamicroarray''パッケージ:https://github.com/ramhiser/datamicroarray]]を利用します.
このデータセットには,以下のデータが含まれています.
-乳がん (Breast Cancer)
--Chin (2006)
--Chowdary (2006)
--Gravier (2010)
--Sorlie (2001)
--West (2001)
-中枢神経障害 (Central Nervous System Disorders)
--Pomeroy (2002)
-クローン病 (Crohn's Disease)
--Burczynski (2006)
-結腸がん (Colon Cancer)
--Alon (1999)
-グリオーマ (Glioma)
--Sun (2006)
-ハンチントン病 (Huntington's Disease)
--Borovecki (2005)
-白血病 (Leukemia)
--Chiaretti (2004)
--Golub (1999)
--Yeoh (2002)
-肺がん (Lung Cancer)
--Gordon (2002)
-リンパ腫 (Lymphoma)
--Shipp (2002)
-骨髄腫 (Myeloma)
--Tian (2003)
-前立腺がん (Prostate Cancer)
--Singh (2002)
-肉腫 (Sarcoma)
--Nakayama (2007)
-小円形青色細胞腫瘍 (Small Round Blue Cell Tumors)
--Khan (2001)
-その他 (Miscellaneous)
--Christensen (2009)
--Su (2002)
--Subramanian (2005)
*ダウンロード [#x00fcbb8]
GitHubで公開されているパッケージをダウンロードするには,''devtools''パッケージが必要です.
そこで,まずdevtoolsパッケージをインストールします.
''install.packages''コマンドを実行すると,パッケージをダウンロードするサーバーを聞かれますので,リストからJapanのどれかを選択します.
ただし,私がやったときは,Hyogoにしたらダウンロードに失敗したのでTsukubaにしました.
#geshi((rsplus){{
> install.packages("devtools")
}}
次に,''devtools''パッケージを使って,''datamicroarray''パッケージをダウンロードします.
#geshi(rsplus){{
> library(devtools)
> install_github('datamicroarray', 'ramey')
}}
ダウンロードするのに時間がかかりましたが,これでデータが使えるようになりました.
*使い方 [#ec38e814]
それでは,Alon (1999) の結腸がん (Coron Cancer) データセットを使ってみます.
#geshi(rsplus){{
> library(datamicroarray)
> data('alon', package='datamicroarray')
}}
マイクロアレイ・データには,2つの変数があります.
-''x'': [math]n \times p[/math] データ行列.[math]n[/math] はデータ数,[math]p[/math] は特徴数.
-''y'': 長さ [math]n[/math] のファクター・ベクトル.
#geshi(rsplus){{
> dim(alon$x)
[1] 62 2000
> table(alon$y)
n t
22 40
}}
Alon (1999)には2000次元のデータが62個含まれていて,62個のデータのうち22個がラベルn,残り40個がラベルtであることがわかります.
''describe_data関数''を使うと,データの一覧を表示できます.
#geshi(rsplus){{
author year n p K Disease
1 alon 1999 62 2000 2 Colon Cancer
2 borovecki 2005 31 22283 2 Huntington's Disease
3 burczynski 2006 127 22283 3 Crohn's Disease
4 chiaretti 2004 111 12625 2 Leukemia
5 chin 2006 118 22215 2 Breast Cancer
6 chowdary 2006 104 22283 2 Breast Cancer
7 christensen 2009 217 1413 3 N/A
8 golub 1999 72 7129 3 Leukemia
9 gordon 2002 181 12533 2 Lung Cancer
10 gravier 2010 168 2905 2 Breast Cancer
11 khan 2001 63 2308 4 SRBCT
12 nakayama 2001 105 22283 10 Sarcoma
13 pomeroy 2002 60 7128 2 CNS Tumor
14 shipp 2002 58 6817 2 Lymphoma
15 singh 2002 102 12600 2 Prostate Cancer
16 sorlie 2001 85 456 5 Breast Cancer
17 su 2002 102 5565 4 N/A
18 subramanian 2005 50 10100 2 N/A
19 sun 2006 180 54613 4 Glioma
20 tian 2003 173 12625 2 Myeloma
21 west 2001 49 7129 2 Breast Cancer
22 yeoh 2002 248 12625 6 Leukemia
}}
*参考文献 [#y15be88c]
-[[ramhiser/datamicroarray | GitHub:https://github.com/ramhiser/datamicroarray]]
-[[ramhiser/datamicroarray:https://github.com/ramhiser/datamicroarray]] - GitHub