Pandasでよく使うもの
1 | import pandas as pd |
csvファイルの読み込み
1 | X = pd.read_csv( "ファイル名" ) |
csvファイルの出力
1 2 3 | output.to_csv( 'output.csv' ) #index=Falseで、index名なし #columns=Falseで、columns名なし |
DataFrameを作成
辞書型で作成
1 2 3 4 5 6 | col_array1 = np.array([ 1 , 2 , 3 , 4 , 5 ]) col_array2 = col_array1 + 1 data_dic = { 'a' :col_array1, 'b' : col_array2} dataset2 = pd.DataFrame(data_dic) dataset |
値、行、列を取得する
locとiloc
locは、明示的なインデックスを使う。
ilocは、Python由来のインデックスを使う。
列(columns)を抽出したい
1 2 3 4 5 | #columnsは、列の名前 data.columns #または data[ 'columns' ] |
列の削除
.drop()を使用
1 | pd.drop([ 'columns' ], axis = 1 ) |
numpy配列に変換する
.valuesを使用
1 | pd.values |
列の名前を取得する
1 | pd.columns |
演算メソッド
+:.add()
-:sub(), subtract()
*:mul(), multiply()
/:truediv(), div(), divide()
//:floordiv()
%:mod()
**:pow()
データの基本統計量をみる
1 | train.describe() |
stats | id |
---|---|
count | データの個数 |
mean | 平均 |
std | 標準偏差 |
min | 最小値 |
25% | 四分の1の値 |
50% | 四分の2の値 |
75% | 四分の3の値 |
max | 最大値 |