機械学習/Pythonで説明変数を減らす のバックアップソース(No.1)

*目次 [#he9ab66a]
#contents

*はじめに [#s17a8242]

前回、Pythonの機械学習ライブラリーscikit-learnを用いて、決定木による分類を行いました。
-[[Pythonで決定木を使う>機械学習/Pythonで決定木を使う]] - とうごろうぃき

前回はすべての説明変数を用いて予測モデルを学習しましたが、実際のデータに対する分析では、予測に不要な説明変数が含まれていることや、説明変数が多すぎて予測モデルがうまく作れないことがあります。

ここでは、特徴を選択する方法について説明します。

環境やデータは前回と同じです。


*分散が低い特徴を削除する [#s797aea4]

分散が低い特徴は出力に影響を与えにくいので、分散が閾値よりも小さい特徴を削除します。
sklearn.feature_selection.VarianceThresholdを使います。
#geshi(python){{
from sklearn.feature_selection import VarianceThreshold
X_ = VarianceThreshold(threshold=1.0).fit_transform(X)
}}
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS