はじめに

Pythonで定番のツールを使ってデータ・マイニングを行う環境を整えます。

  • pandas
  • scikit-learn
  • Jupyter Notebook

pandasはデータを扱うためのライブラリーです。

scikit-learnは機械学習のライブラリーです。

Jupyter NotebookはPythonのコードや出力結果をHTML形式で出力するツールです。

この記事の内容は、以下のバージョンで確認しました。

  • macOS Sierra 10.12.3
  • Python 3.5.1

インストール

pipを使ってインストールしますので、まず、pipを最新版にします。

from sklearn import datasets
from sklearn.svm import SVC
iris = datasets.load_iris()
clf = SVC()
clf.fit(iris.data, iris.target)

scikit-learnに必要なWheel, NumPy, SciPyをインストールします。

list(clf.predict(iris.data[:3]))

pandas

clf.fit(iris.data, iris.target_names[iris.target])

scikit-learn

list(clf.predict(iris.data[:3]))

Jupyter Notebook

iris.data

動作確認

Jupyter Notebook

まず、macOSのTerminalからJupyter Notebookを起動します。

import pandas as pd
iris.df = pd.DataFrame(iris.data, 
                       columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
iris.df

すると、ローカルでWebサーバーが起動し、Webブラウザが自動的に起動します。

jupyter_boot.png

New から Python 3 を選択します。

jupyter_new_python.png

すると、新しいノートブックが作成されます。

jupyter_notebook.png

scikit-learn

標準で入っているirisデータをSVM (SVC)で学習してみます。

入力ボックスにPython 3のプログラムを入力し、ボタンを押して実行します。

jupyter_iris.png
iris.df['predict'] = clf.predict(iris.data)
iris.df

まだ書きかけです。

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS