*目次 [#he9ab66a]
#contents
*はじめに [#s17a8242]
前回、Pythonの機械学習ライブラリーscikit-learnを用いて、決定木による分類を行いました。
-[[Pythonで決定木を使う>機械学習/Pythonで決定木を使う]] - とうごろうぃき
前回はすべての説明変数を用いて予測モデルを学習しましたが、実際のデータに対する分析では、予測に不要な説明変数が含まれていることや、説明変数が多すぎて予測モデルがうまく作れないことがあります。
ここでは、特徴を選択する方法について説明します。
環境やデータは前回と同じです。
*分散が低い特徴を削除する [#s797aea4]
分散が低い特徴は出力に影響を与えにくいので、分散が閾値よりも小さい特徴を削除します。
sklearn.feature_selection.VarianceThresholdを使います。
#geshi(python){{
from sklearn.feature_selection import VarianceThreshold
X_ = VarianceThreshold(threshold=1.0).fit_transform(X)
}}