目次

はじめに

前回、Pythonの機械学習ライブラリーscikit-learnを用いて、決定木による分類を行いました。

前回はすべての説明変数を用いて予測モデルを学習しましたが、実際のデータに対する分析では、予測に不要な説明変数が含まれていることや、説明変数が多すぎて予測モデルがうまく作れないことがあります。

ここでは、特徴を選択する方法について説明します。

環境やデータは前回と同じです。

分散が低い特徴を削除する

分散が低い特徴は出力に影響を与えにくいので、分散が閾値よりも小さい特徴を削除します。 sklearn.feature_selection.VarianceThresholdを使います。

import pandas as pd
df_iris_train = pd.read_csv('train.tsv',  delimiter='\t', index_col=0)
df_iris_test  = pd.read_csv('test_X.tsv', delimiter='\t', index_col=0)
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS