機械学習/Pythonで決定木を使う のバックアップ(No.1)


はじめに

データ

ここでは、irisデータをサンプルとして用います。

このデータセットは,アヤメの種類(class)を花びらの長さ(sepal length),幅(sepal width),がくの長さ(petal length),幅(petal width)によって分類する問題です. 長さと幅は連続値,種類はIris-setosa, Iris-versicolor, Iris-virginicaのいずれかをとる離散値です.

DeepAnalyticsのフォーマットに倣って、訓練データを train.tsv、テストデータを test_X.tsvとして、タブ区切りのCSVファイルで保存されているものとします。

今回のサンプルファイルはこれです。

train.tsv

idsepal lentghsepal widthpetal lengthpetal widthclass
24.931.40.2Iris-setosa
526.43.24.51.5Iris-versicolor
1016.33.362.5Iris-virginica

test_X.tsv

idsepal lengthsepal widthpetal lengthpetal width
15.13.51.40.2
5173.24.71.4
1037.135.92.1

データの読み込み

pandasのread_csvを使って、タブ区切りのCSVファイルを読み込みます。 タブ区切りなのでdelimiterオプションを、先頭の列がインデックスなのでindex_colオプションを指定します。

import pandas as pd
df_iris_train = pd.read_csv('train.tsv',  delimiter='\t', index_col=0)
df_iris_test  = pd.read_csv('test_X.tsv', delimiter='\t', index_col=0)

読み込んだデータは、pandasのDataFrameとなります。

df_iris_train

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS