- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- 機械学習/Pythonで説明変数を減らす へ行く。
- 1 (2017-09-05 (火) 15:08:40)
- 2 (2017-09-05 (火) 15:53:49)
- 3 (2017-09-05 (火) 19:44:28)
- 4 (2017-09-06 (水) 10:46:49)
- 5 (2017-09-13 (水) 14:59:26)
目次 †
はじめに †
前回、Pythonの機械学習ライブラリーscikit-learnを用いて、決定木による分類を行いました。
- Pythonで決定木を使う - とうごろうぃき
前回はすべての説明変数を用いて予測モデルを学習しましたが、実際のデータに対する分析では、予測に不要な説明変数が含まれていることや、説明変数が多すぎて予測モデルがうまく作れないことがあります。
ここでは、特徴を選択する方法について説明します。
環境やデータは前回と同じです。
分散が低い特徴を削除する †
分散が低い特徴は出力に影響を与えにくいので、分散が閾値よりも小さい特徴を削除します。 sklearn.feature_selection.VarianceThresholdを使います。
import pandas as pd df_iris_train = pd.read_csv('train.tsv', delimiter='\t', index_col=0) df_iris_test = pd.read_csv('test_X.tsv', delimiter='\t', index_col=0)