Pandaでよく使うもの

Pandasでよく使うもの
csvファイルの読み込み
csvファイルの出力
DataFrameを作成
1. 辞書型で作成
値、行、列を取得する
numpy配列に変換する
列の名前を取得する
演算メソッド
1. データの基本統計量をみる
参考

Pandasでよく使うもの

import pandas as pd

csvファイルの読み込み

X = pd.read_csv("ファイル名")

csvファイルの出力

output.to_csv('output.csv')
#index=Falseで、index名なし
#columns=Falseで、columns名なし

DataFrameを作成

辞書型で作成

col_array1 = np.array([1,2,3,4,5])
col_array2 = col_array1 + 1
data_dic = {'a':col_array1,
           'b' : col_array2}
dataset2 = pd.DataFrame(data_dic)
dataset

値、行、列を取得する

locとiloc

locは、明示的なインデックスを使う。
ilocは、Python由来のインデックスを使う。

列(columns)を抽出したい

#columnsは、列の名前
data.columns

#または
data['columns']

列の削除

.drop()を使用

pd.drop(['columns'], axis=1)

numpy配列に変換する

.valuesを使用

pd.values

列の名前を取得する

pd.columns

演算メソッド

+:.add()
-:sub(), subtract()
*:mul(), multiply()
/:truediv(), div(), divide()
//:floordiv()
%:mod()
**:pow()

データの基本統計量をみる

train.describe()

stats	id
count	データの個数
mean	平均
std	標準偏差
min	最小値
25%	四分の１の値
50%	四分の２の値
75%	四分の３の値
max	最大値

参考

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonによるデータ分析入門第2版 ―NumPy、pandasを使ったデータ処理