- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- 授業/バイオインフォマティクス特論/分析練習用データ へ行く。
- 1 (2017-01-17 (火) 19:29:56)
- 2 (2017-01-18 (水) 07:03:05)
分析練習用のデータは、RのパッケージやUCI Machine Learning Repositoryから入手できます。
Rのパッケージに含まれているもの †
糖尿病 diabetes †
442人の糖尿病患者について、年齢、性別、BMI、平均血圧、6種類の血清測定値から1年後の糖尿病の進行度を予測する問題です。
- larsパッケージ
構造活性相関 dhfr †
325個の化学物質について、ジヒドロ葉酸レダクターゼ(dihydrofolate reductase, DHFR) という酵素と反応する (active) かしない (inactive) かを判別する問題です。 化学物質は228の特徴で表されています。
- caretパッケージ
UCI Machine Learning Repositoryに含まれているもの †
乳ガン診断 Breast Cancer Wisconsin (Diagnostic) †
569症例の乳房の腫瘍について、10種類の腫瘍の特徴(それぞれの平均値、標準偏差、最悪値)から腫瘍が悪性 (M) か良性 (B) かを判別する問題です。
アメリカ国勢調査 Adult †
48,842人の国勢調査の記録から、年齢、職種、学歴、性別などから年収が5万ドル以上 (>50K) かそうでないか (<=50K) を予測する問題です。
ワイン Wince †
178本のワインについて、アルコール、リンゴ酸、灰などの化学物質の成分からワインの等級 (1-3) を分類する問題です。
中古車審査 Car Evaluation †
1,728台の中古車について、購入価格、維持費、ドアの数、定員、荷室の広さ、安全性から中古車として不可 (unacc)、可 (acc)、良 (good)、優 (v-good) を判定する問題です。
森林火災 Forest Fires †
ポルトガルのモンテジーニョ自然公園で発生した517件の森林火災の事例について、発生場所、発生月、発生日、気温、湿度、風速などから、延焼面積を推定する問題です。