- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- 機械学習/Pythonで決定木を使う へ行く。
- 1 (2017-08-21 (月) 13:16:16)
- 2 (2017-08-21 (月) 13:59:48)
- 3 (2017-08-22 (火) 00:46:39)
- 4 (2017-08-22 (火) 07:20:39)
- 5 (2017-08-22 (火) 11:50:16)
- 6 (2017-08-23 (水) 12:35:44)
- 7 (2017-08-25 (金) 13:49:18)
- 8 (2017-08-29 (火) 11:42:06)
- 9 (2017-09-06 (水) 20:05:52)
- 10 (2017-09-06 (水) 20:05:52)
- 11 (2017-09-06 (水) 20:05:52)
はじめに †
データ †
ここでは、irisデータをサンプルとして用います。
このデータセットは,アヤメの種類(class)を花びらの長さ(sepal length),幅(sepal width),がくの長さ(petal length),幅(petal width)によって分類する問題です. 長さと幅は連続値,種類はIris-setosa, Iris-versicolor, Iris-virginicaのいずれかをとる離散値です.
DeepAnalyticsのフォーマットに倣って、訓練データを train.tsv、テストデータを test_X.tsvとして、タブ区切りのCSVファイルで保存されているものとします。
今回のサンプルファイルはこれです。
train.tsv †
id | sepal lentgh | sepal width | petal length | petal width | class |
2 | 4.9 | 3 | 1.4 | 0.2 | Iris-setosa |
52 | 6.4 | 3.2 | 4.5 | 1.5 | Iris-versicolor |
101 | 6.3 | 3.3 | 6 | 2.5 | Iris-virginica |
test_X.tsv †
id | sepal length | sepal width | petal length | petal width |
1 | 5.1 | 3.5 | 1.4 | 0.2 |
51 | 7 | 3.2 | 4.7 | 1.4 |
103 | 7.1 | 3 | 5.9 | 2.1 |
データの読み込み †
pandasのread_csvを使って、タブ区切りのCSVファイルを読み込みます。 タブ区切りなのでdelimiterオプションを、先頭の列がインデックスなのでindex_colオプションを指定します。
import pandas as pd df_iris_train = pd.read_csv('train.tsv', delimiter='\t', index_col=0) df_iris_test = pd.read_csv('test_X.tsv', delimiter='\t', index_col=0)
読み込んだデータは、pandasのDataFrameとなります。
df_iris_train