数値データのPython前処理まとめ

データサイエンス




数値データの前処理まとめ

随時更新予定

Min-Max-Scaler

標準化
画像データの画素値の前処理に使われたりする。

from sklearn.preprocessing import MinMaxScaler
 
scaler_mm = MinMaxScaler()
scaler_mm.fit(train_X)
mm_train_X = scaler_mm.transform(train_X)
mm_val_X = scaler_mm.transform(val_X)

参考
データの正規化|データの前処理

Standard Scaler

正規化

from sklearn.preprocessing import StandardScaler
 
scaler_std = StandardScaler()
 
scaler_std.fit(train_X)
 
std_train_X = scaler_std.transform(train_X)
std_val_X = scaler_std.transform(val_X)

参考
データの正規化|データの前処理

L2正規化

from sklearn.preprocessing import Normalizer

norm = Normalizer()
norm.fit(train_X)
norm_train_X = norm.transform(train_X)
norm_test_X = norm.transform(test_X)

対数変換

データの分布を正規分布に近づけるために使用されることが多い。
線形回帰モデルに有用

import numpy as np
#自然対数の底
np.log()

#底が10
np.log10()

#(1+x)の自然対数
np.log1p()
タイトルとURLをコピーしました