• 追加された行はこの色です。
  • 削除された行はこの色です。
この記事はまだ書きかけです.

#freeze
*はじめに [#r35eebe6]

Rで使えるマイクロアレイ・データをダウンロードして解析してみます.

マイクロアレイ・データについては,以下のページを参考にしてください.
-[[DNAマイクロアレイ・データを解析する>バイオ・データ・マイニング/DNAマイクロアレイ・データを解析する]]
-[[DNAマイクロアレイ・データを解析する>バイオ・データ・マイニング/DNAマイクロアレイ・データを解析する]] - とうごろうぃき


ここでは,GitHubに公開されているR用の''datamicroarray''パッケージを利用します.
ここでは,GitHubに公開されているR用の[[''datamicroarray''パッケージ:https://github.com/ramhiser/datamicroarray]]を利用します.
このデータセットには,以下のデータが含まれています.
-乳がん (Breast Cancer)
--Chin (2006)
--Chowdary (2006)
--Gravier (2010)
--Sorlie (2001)
--West (2001)
-中枢神経障害 (Central Nervous System Disorders)
--Pomeroy (2002)
-クローン病 (Crohn's Disease)
--Burczynski (2006)
-結腸がん (Colon Cancer)
--Alon (1999)
-グリオーマ (Glioma)
--Sun (2006)
-ハンチントン病 (Huntington's Disease)
--Borovecki (2005)
-白血病 (Leukemia)
--Chiaretti (2004)
--Golub (1999)
--Yeoh (2002)
-肺がん (Lung Cancer)
--Gordon (2002)
-リンパ腫 (Lymphoma)
--Shipp (2002)
-骨髄腫 (Myeloma)
--Tian (2003)
-前立腺がん (Prostate Cancer)
--Singh (2002)
-肉腫 (Sarcoma)
--Nakayama (2007)
-小円形青色細胞腫瘍 (Small Round Blue Cell Tumors)
--Khan (2001)
-その他 (Miscellaneous)
--Christensen (2009)
--Su (2002)
--Subramanian (2005)




*ダウンロード [#x00fcbb8]

GitHubで公開されているパッケージをダウンロードするには,''devtools''パッケージが必要です.
そこで,まずdevtoolsパッケージをインストールします.
''install.packages''コマンドを実行すると,パッケージをダウンロードするサーバーを聞かれますので,リストからJapanのどれかを選択します.
ただし,私がやったときは,Hyogoにしたらダウンロードに失敗したのでTsukubaにしました.
#geshi((rsplus){{
> install.packages("devtools")
}}

次に,''devtools''パッケージを使って,''datamicroarray''パッケージをダウンロードします.
#geshi(rsplus){{
> library(devtools)
> install_github('datamicroarray', 'ramey')
}}

回線が不安定なところでダウンロードしようとしていますが,うまくできないのでまたあとで.
ダウンロードするのに時間がかかりましたが,これでデータが使えるようになりました.



*使い方 [#ec38e814]

それでは,Alon (1999) の結腸がん (Coron Cancer) データセットを使ってみます.
#geshi(rsplus){{
> library(datamicroarray)
> data('alon', package='datamicroarray')
}}

マイクロアレイ・データには,2つの変数があります.
-''x'': [math]n \times p[/math] データ行列.[math]n[/math] はデータ数,[math]p[/math] は特徴数.
-''y'': 長さ [math]n[/math] のファクター・ベクトル.

#geshi(rsplus){{
> dim(alon$x)
[1]   62 2000
> table(alon$y)
 n  t 
22 40 
}}
Alon (1999)には2000次元のデータが62個含まれていて,62個のデータのうち22個がラベルn,残り40個がラベルtであることがわかります.

''describe_data関数''を使うと,データの一覧を表示できます.
#geshi(rsplus){{
        author year   n     p  K              Disease
1         alon 1999  62  2000  2         Colon Cancer
2    borovecki 2005  31 22283  2 Huntington's Disease
3   burczynski 2006 127 22283  3      Crohn's Disease
4    chiaretti 2004 111 12625  2             Leukemia
5         chin 2006 118 22215  2        Breast Cancer
6     chowdary 2006 104 22283  2        Breast Cancer
7  christensen 2009 217  1413  3                  N/A
8        golub 1999  72  7129  3             Leukemia
9       gordon 2002 181 12533  2          Lung Cancer
10     gravier 2010 168  2905  2        Breast Cancer
11        khan 2001  63  2308  4                SRBCT
12    nakayama 2001 105 22283 10              Sarcoma
13     pomeroy 2002  60  7128  2            CNS Tumor
14       shipp 2002  58  6817  2             Lymphoma
15       singh 2002 102 12600  2      Prostate Cancer
16      sorlie 2001  85   456  5        Breast Cancer
17          su 2002 102  5565  4                  N/A
18 subramanian 2005  50 10100  2                  N/A
19         sun 2006 180 54613  4               Glioma
20        tian 2003 173 12625  2              Myeloma
21        west 2001  49  7129  2        Breast Cancer
22        yeoh 2002 248 12625  6             Leukemia
}}


*参考文献 [#y15be88c]
-[[ramhiser/datamicroarray:https://github.com/ramhiser/datamicroarray]] - GitHub

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS