• 追加された行はこの色です。
  • 削除された行はこの色です。
*はじめに [#nc1a9e7e]

Rを使って平均,分散,共分散,相関係数を求め,統計的有意性を検定します.
Rを使って相関係数を求め,統計的有意性を検定します.


*準備 [#x895f663]

Rのインストールについては,次のページを見てください.
-[[MacでRを使う>機械学習/MacでRを使う]]
-[[WindowsでRを使う>機械学習/WindowsでRを使う]]

最初は,標準で使用できる''irisデータセット''を使います.
#geshi(rsplus){{
> data(iris)
}}

このデータセットは,アヤメの種類(Species)を花びらの長さ(Sepal.Length),幅(Lepal.Width),がくの長さ(Petal.Length),幅(Petal.Width)によって分類する問題です.
長さと幅は連続値,種類はsetosa, versicolor, virginicaのいずれかをとる離散値です.

このデータセットには,setosa, versicolor, virginicaという3種類のアヤメについて,それぞれ50個ずつ,合計150個のデータが含まれています.
ランダムに10個のデータを選択して,見てみましょう.
#geshi(rsplus){{
> iris[sort(sample(1:150,10)),]
    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
4            4.6         3.1          1.5         0.2     setosa
22           5.1         3.7          1.5         0.4     setosa
65           5.6         2.9          3.6         1.3 versicolor
97           5.7         2.9          4.2         1.3 versicolor
100          5.7         2.8          4.1         1.3 versicolor
108          7.3         2.9          6.3         1.8  virginica
116          6.4         3.2          5.3         2.3  virginica
122          5.6         2.8          4.9         2.0  virginica
136          7.7         3.0          6.1         2.3  virginica
146          6.7         3.0          5.2         2.3  virginica
}}


*ヒストグラム [#wa8f8e55]
*相関係数 [#zc539586]

まずは,setosaのSepal.Lengthについて,ヒストグラムを表示してみましょう.
[math]x[/math] と [math]y[/math] の相関係数は,[math]x[/math] と [math]y[/math] の共分散を [math]x[/math] の標準偏差と [math]y[/math] の標準偏差の積で割ったものです.

Speciesの値がsetosaのデータだけを取り出すには,次のようにします.
#geshi(rsplus){{
> iris[iris$Species=='setosa',]
}}
コンマを忘れないようにしてください.
共分散については,以下の記事を読んでください.
-[[Rで統計分析する>バイオ・データ・マイニング/Rで統計分析する]]

Speciesの値がsetosaのデータのSepal.Lengthの値(つまり,1列目の値)だけを取り出して,setosa.Petal.Lengthとします.
#geshi(rsplus){{
> setosa.Petal.Length <- iris[iris['Species']=='setosa',1]
}}

そこで,これのヒストグラムを表示します.

ヒストグラムを表示するにはhist関数を使います.
#geshi(rsplus){{
> hist(setosa.Petal.Length)
}}


#geshi(rsplus){{
> hist(setosa.Petal.Length, breaks=12, col='gray')
}}



*平均 [#ee0baa35]

平均を求めるには,mean関数を使います.
#geshi(rsplus){{
> mean(iris[1:50,1])
[1] 5.006
}}

iris[1:50,1]は


この記事はまだ書きかけです.

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS