Rでマイクロアレイ・データを使う

2014-07-02 (水) 19:08:35 (1056d) | Topic path: Top / バイオ・データ・マイニング / Rでマイクロアレイ・データを使う

はじめに

Rで使えるマイクロアレイ・データをダウンロードして解析してみます.

マイクロアレイ・データについては,以下のページを参考にしてください.

ここでは,GitHubに公開されているR用のdatamicroarrayパッケージを利用します. このデータセットには,以下のデータが含まれています.

  • 乳がん (Breast Cancer)
    • Chin (2006)
    • Chowdary (2006)
    • Gravier (2010)
    • Sorlie (2001)
    • West (2001)
  • 中枢神経障害 (Central Nervous System Disorders)
    • Pomeroy (2002)
  • クローン病 (Crohn's Disease)
    • Burczynski (2006)
  • 結腸がん (Colon Cancer)
    • Alon (1999)
  • グリオーマ (Glioma)
    • Sun (2006)
  • ハンチントン病 (Huntington's Disease)
    • Borovecki (2005)
  • 白血病 (Leukemia)
    • Chiaretti (2004)
    • Golub (1999)
    • Yeoh (2002)
  • 肺がん (Lung Cancer)
    • Gordon (2002)
  • リンパ腫 (Lymphoma)
    • Shipp (2002)
  • 骨髄腫 (Myeloma)
    • Tian (2003)
  • 前立腺がん (Prostate Cancer)
    • Singh (2002)
  • 肉腫 (Sarcoma)
    • Nakayama (2007)
  • 小円形青色細胞腫瘍 (Small Round Blue Cell Tumors)
    • Khan (2001)
  • その他 (Miscellaneous)
    • Christensen (2009)
    • Su (2002)
    • Subramanian (2005)

ダウンロード

GitHubで公開されているパッケージをダウンロードするには,devtoolsパッケージが必要です. そこで,まずdevtoolsパッケージをインストールします. install.packagesコマンドを実行すると,パッケージをダウンロードするサーバーを聞かれますので,リストからJapanのどれかを選択します. ただし,私がやったときは,Hyogoにしたらダウンロードに失敗したのでTsukubaにしました.

> install.packages("devtools")

次に,devtoolsパッケージを使って,datamicroarrayパッケージをダウンロードします.

> library(devtools)
> install_github('datamicroarray', 'ramey')

ダウンロードするのに時間がかかりましたが,これでデータが使えるようになりました.

使い方

それでは,Alon (1999) の結腸がん (Coron Cancer) データセットを使ってみます.

> library(datamicroarray)
> data('alon', package='datamicroarray')

マイクロアレイ・データには,2つの変数があります.

  • x: [math]n \times p[/math] データ行列.[math]n[/math] はデータ数,[math]p[/math] は特徴数.
  • y: 長さ [math]n[/math] のファクター・ベクトル.
> dim(alon$x)
[1]   62 2000
> table(alon$y)
 n  t 
22 40 

Alon (1999)には2000次元のデータが62個含まれていて,62個のデータのうち22個がラベルn,残り40個がラベルtであることがわかります.

describe_data関数を使うと,データの一覧を表示できます.

        author year   n     p  K              Disease
1         alon 1999  62  2000  2         Colon Cancer
2    borovecki 2005  31 22283  2 Huntington's Disease
3   burczynski 2006 127 22283  3      Crohn's Disease
4    chiaretti 2004 111 12625  2             Leukemia
5         chin 2006 118 22215  2        Breast Cancer
6     chowdary 2006 104 22283  2        Breast Cancer
7  christensen 2009 217  1413  3                  N/A
8        golub 1999  72  7129  3             Leukemia
9       gordon 2002 181 12533  2          Lung Cancer
10     gravier 2010 168  2905  2        Breast Cancer
11        khan 2001  63  2308  4                SRBCT
12    nakayama 2001 105 22283 10              Sarcoma
13     pomeroy 2002  60  7128  2            CNS Tumor
14       shipp 2002  58  6817  2             Lymphoma
15       singh 2002 102 12600  2      Prostate Cancer
16      sorlie 2001  85   456  5        Breast Cancer
17          su 2002 102  5565  4                  N/A
18 subramanian 2005  50 10100  2                  N/A
19         sun 2006 180 54613  4               Glioma
20        tian 2003 173 12625  2              Myeloma
21        west 2001  49  7129  2        Breast Cancer
22        yeoh 2002 248 12625  6             Leukemia

参考文献

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS