Pandaでよく使うもの

機械学習




Pandasでよく使うもの

import pandas as pd

csvファイルの読み込み

X = pd.read_csv("ファイル名")

csvファイルの出力

output.to_csv('output.csv')
#index=Falseで、index名なし
#columns=Falseで、columns名なし

DataFrameを作成

辞書型で作成

col_array1 = np.array([1,2,3,4,5])
col_array2 = col_array1 + 1
data_dic = {'a':col_array1,
           'b' : col_array2}
dataset2 = pd.DataFrame(data_dic)
dataset

値、行、列を取得する

locとiloc

locは、明示的なインデックスを使う。
ilocは、Python由来のインデックスを使う。

列(columns)を抽出したい

#columnsは、列の名前
data.columns

#または
data['columns']

列の削除

.drop()を使用

pd.drop(['columns'], axis=1)

numpy配列に変換する

.valuesを使用

pd.values

列の名前を取得する

pd.columns

演算メソッド

+:.add()
-:sub(), subtract()
*:mul(), multiply()
/:truediv(), div(), divide()
//:floordiv()
%:mod()
**:pow()

データの基本統計量をみる

train.describe()
stats id
count データの個数
mean 平均
std 標準偏差
min 最小値
25% 四分の1の値
50% 四分の2の値
75% 四分の3の値
max 最大値

参考

[amazonjs asin=”4873118417″ locale=”JP” title=”Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習”]
[amazonjs asin=”487311845X” locale=”JP” title=”Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理”]

タイトルとURLをコピーしました