Pandaでよく使うもの

機械学習




Pandasでよく使うもの

1
import pandas as pd

csvファイルの読み込み

1
X = pd.read_csv("ファイル名")

csvファイルの出力

1
2
3
output.to_csv('output.csv')
#index=Falseで、index名なし
#columns=Falseで、columns名なし

DataFrameを作成

辞書型で作成

1
2
3
4
5
6
col_array1 = np.array([1,2,3,4,5])
col_array2 = col_array1 + 1
data_dic = {'a':col_array1,
           'b' : col_array2}
dataset2 = pd.DataFrame(data_dic)
dataset

値、行、列を取得する

locとiloc

locは、明示的なインデックスを使う。
ilocは、Python由来のインデックスを使う。

列(columns)を抽出したい

1
2
3
4
5
#columnsは、列の名前
data.columns
 
#または
data['columns']

列の削除

.drop()を使用

1
pd.drop(['columns'], axis=1)

numpy配列に変換する

.valuesを使用

1
pd.values

列の名前を取得する

1
pd.columns

演算メソッド

+:.add()
-:sub(), subtract()
*:mul(), multiply()
/:truediv(), div(), divide()
//:floordiv()
%:mod()
**:pow()

データの基本統計量をみる

1
train.describe()
stats id
count データの個数
mean 平均
std 標準偏差
min 最小値
25% 四分の1の値
50% 四分の2の値
75% 四分の3の値
max 最大値

参考


タイトルとURLをコピーしました