- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- バイオ・データ・マイニング/Rでデータを読み込む へ行く。
- 1 (2012-12-04 (火) 09:55:33)
- 2 (2012-12-04 (火) 11:04:13)
- 3 (2013-11-19 (火) 18:28:04)
- 4 (2017-01-18 (水) 14:50:49)
- 5 (2018-10-24 (水) 14:27:58)
はじめに †
ここでは、Rにデータを読み込む方法を説明します。
この記事は、『Rによるバイオインフォマティクスデータ解析』を参考にしています。 Rにデータを読み込む方法は、この本の2.15節「入出力」に出てきます。
準備 †
Rのインストールについては、次のページを見てください。
データ・ファイルはCSV形式とします。 つまり、項目はコンマ区切り、データは改行区切りとします。
Excelでデータを作成し、CSV形式で保存すればできます。 保存したファイルをテキスト・エディターで開いて確認してください。
ここでは、irisデータの一部である以下のようなファイルとします。
,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species 1,5.1,3.5,1.4,0.2,setosa 51,7.0,3.2,4.7,1.4,versicolor 101,6.3,3.3,6.0,2.5,virginica
このCSVファイルは、1行目が列名、1列名がデータ名となっています。
作業ディレクトリーの変更 †
まずは、作業ディレクトリーをCSVファイルが置いてあるディレクトリーに変更します。
現在のディレクトリーを調べるには、getwd関数を使います。
getwd()
作業ディレクトリーを変更するには、setwd関数を使います。
setwd("/Users/tohgoroh/Desktop")
ここでは、作業ディレクトリーを /Users/tohgoroh/Desktop に変更しています。
行列データの読み込み †
CSVファイルを読み込んで行列を作成するには、read.csv関数を使用します。
data <- read.csv("data.csv")
デフォルトは1行目が列名(header=T)、データ名の列はなしです。
1列目がデータ名の場合、"row.names"オプションを指定します。
data <- read.csv("data.csv", row.names=1)
1行目が列名でないとき、headerオプションの値をFにします。
data <- read.csv("data.csv", header=F)
ここでは、1行目が列名、1列目がデータ名なので、次のようになります。
data <- read.csv("data.csv", row.names=1) data
読み込まれたデータは、データフレームという構造になります。
離散値のファクター化 †
カテゴリー変数やラベル(つまり離散値)はファクターになっていないと、カテゴリー分析ができません。
read.csv関数で離散値の属性を読み込むと自動でファクターにしてくれますが、自動でファクターにならなかった場合は自分でファクターにします。
まず、その属性ベクトルだけを取り出し、ファクターになっているかどうか調べます。
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 51 7.0 3.2 4.7 1.4 versicolor 101 6.3 3.3 6.0 2.5 virginica
このように、Levels: ... と表示されたらファクターになっています。
自分でファクターにするには、factor関数を使います。
data$Species
もう一度この属性ベクトルだけを取り出して、ファクターになっていることを確認してください。