Pandasでよく使うもの
import pandas as pd
csvファイルの読み込み
X = pd.read_csv("ファイル名")
csvファイルの出力
output.to_csv('output.csv')
#index=Falseで、index名なし
#columns=Falseで、columns名なし
DataFrameを作成
辞書型で作成
col_array1 = np.array([1,2,3,4,5])
col_array2 = col_array1 + 1
data_dic = {'a':col_array1,
'b' : col_array2}
dataset2 = pd.DataFrame(data_dic)
dataset
値、行、列を取得する
locとiloc
locは、明示的なインデックスを使う。
ilocは、Python由来のインデックスを使う。

列(columns)を抽出したい
#columnsは、列の名前 data.columns #または data['columns']
列の削除
.drop()を使用
pd.drop(['columns'], axis=1)
numpy配列に変換する
.valuesを使用
pd.values
列の名前を取得する
pd.columns
演算メソッド
+:.add()
-:sub(), subtract()
*:mul(), multiply()
/:truediv(), div(), divide()
//:floordiv()
%:mod()
**:pow()
データの基本統計量をみる
train.describe()
| stats | id |
|---|---|
| count | データの個数 |
| mean | 平均 |
| std | 標準偏差 |
| min | 最小値 |
| 25% | 四分の1の値 |
| 50% | 四分の2の値 |
| 75% | 四分の3の値 |
| max | 最大値 |
