機械学習/Pythonでデータ分析する次の一歩（データ分析支援ライブラリー、pandas編）のバックアップ(No.1)

目次 †

pandasはデータを扱うためのライブラリーです。

pandasの基本は、データフレーム (DataFrame) と呼ばれるデータ構造です。

データフレームは、二次元配列の行と列にインデックスが付いたもので、pandas.DataFrameクラスで表されます。

データ分析をするときはデータをファイルから読み込むことになりますが、pandasには、read_csv関数というCSVファイルを読み込んでデータフレームを作ってくれる関数があります。

例えば、次のような data.csv という名前のCSVファイルを考えてみましょう。

import pandas as pd

これを読み込んでデータフレームを作るには、次のようにread_csv関数を使います。

,X1,X2,X3,Y
1,t,1.0,1.2,+
2,t,0.9,0.8,-
3,f,0.9,1.1,+
4,f,0.8,1.0,-

index_colオプションは、行（データ）のインデックスを表す列番号を指定します。

すると、見出し（インデックス）付きの表の形になります。

df = pd.read_csv('data.csv', index_col=0)

データフレーム・オブジェクトのindex属性に、行のインデックス・オブジェクトが格納されています。

df

df.dtypes

インデックス・オブジェクトのvalues属性には、インデックスの値がnumpy.ndarrayで格納されています。

X1    object
X2    float64
X3    float64
Y      object
dtype: object

df.X1.astype('category').cat.codes

データフレーム・オブジェクトのcolumns属性に、列のインデックス・オブジェクトが格納されています。

1    0
2    0
3    1
4    1
dtype: int8

df_cat = df
df_cat.X1 = df.X1.astype('category').cat.codes
df_cat.dtypes

行のインデックスと同様に、インデックス・オブジェクトのvalues属性には、インデックスの値がnumpy.ndarrayで格納されています。

X1    int8
X2    float64
X3    float64
Y        object
dtype: object

df_dum = pd.get_dummies(df)
df_dum