分析練習用データ

2017-01-18 (水) 13:43:29 (2647d) | Topic path: Top / 授業 / バイオインフォマティクス特論 / 分析練習用データ

分析練習用のデータは、RのパッケージやUCI Machine Learning Repositoryから入手できます。

Rのパッケージに含まれているもの

糖尿病 diabetes

442人の糖尿病患者について、年齢、性別、BMI、平均血圧、6種類の血清測定値から1年後の糖尿病の進行度を予測する問題です。

  • larsパッケージ

構造活性相関 dhfr

325個の化学物質について、ジヒドロ葉酸レダクターゼ(dihydrofolate reductase, DHFR) という酵素と反応する (active) かしない (inactive) かを判別する問題です。 化学物質は228の特徴で表されています。

  • caretパッケージ

UCI Machine Learning Repositoryに含まれているもの

乳ガン診断 Breast Cancer Wisconsin (Diagnostic)

569症例の乳房の腫瘍について、10種類の腫瘍の特徴(それぞれの平均値、標準偏差、最悪値)から腫瘍が悪性 (M) か良性 (B) かを判別する問題です。

アメリカ国勢調査 Adult

48,842人の国勢調査の記録から、年齢、職種、学歴、性別などから年収が5万ドル以上 (>50K) かそうでないか (<=50K) を予測する問題です。

ワイン Wince

178本のワインについて、アルコール、リンゴ酸、灰などの化学物質の成分からワインの等級 (1-3) を分類する問題です。

中古車審査 Car Evaluation

1,728台の中古車について、購入価格、維持費、ドアの数、定員、荷室の広さ、安全性から中古車として不可 (unacc)、可 (acc)、良 (good)、優 (v-good) を判定する問題です。

森林火災 Forest Fires

ポルトガルのモンテジーニョ自然公園で発生した517件の森林火災の事例について、発生場所、発生月、発生日、気温、湿度、風速などから、延焼面積を推定する問題です。

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS