はじめに

『Rによるバイオインフォマティクスデータ解析』の7.17節LASSOを参考にして,回帰分析をします.

LASSO回帰の前に,線形回帰と最小二乗法をやります.

準備

まずは,標準で使用できるirisデータを使います.

このデータは,ユリの種類(Species)を花びらの長さ(Sepal.Length),幅(Lepal.Width),がくの長さ(Petal.Length),幅(Petal.Width)によって分類する問題です. 長さと幅は連続値,種類はsetosa, versicolor, virginicaのいずれかをとる離散値です.

data(iris)

ここでは,がくの長さ(Petal.Length)を被説明変数(目的変数)として,花びらの長さ(Sepal.Length)を説明変数としてモデルを学習します.

この関係をプロットすると次のようになります.

iris[sort(sample(1:150,10)),]

#ref(): File not found: "iris_rawdata.png" at page "バイオ・データ・マイニング/Rで回帰分析する"

最小二乗法

線形回帰

まずは,線形モデルによる回帰を行います.

ここでは,線形回帰,LASSO回帰,Ridge回帰を行います.

LASSO回帰はglmnetパッケージに含まれています. glmnetパッケージは そこで,glmnetパッケージをインストールして,使用します.

    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
4            4.6         3.1          1.5         0.2     setosa
22           5.1         3.7          1.5         0.4     setosa
65           5.6         2.9          3.6         1.3 versicolor
97           5.7         2.9          4.2         1.3 versicolor
100          5.7         2.8          4.1         1.3 versicolor
108          7.3         2.9          6.3         1.8  virginica
116          6.4         3.2          5.3         2.3  virginica
122          5.6         2.8          4.9         2.0  virginica
136          7.7         3.0          6.1         2.3  virginica
146          6.7         3.0          5.2         2.3  virginica

データは,標準で使えるiris,glmnet

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS