数値データの前処理まとめ
随時更新予定
Min-Max-Scaler
標準化
画像データの画素値の前処理に使われたりする。
from sklearn.preprocessing import MinMaxScaler scaler_mm = MinMaxScaler() scaler_mm.fit(train_X) mm_train_X = scaler_mm.transform(train_X) mm_val_X = scaler_mm.transform(val_X)
Standard Scaler
正規化
from sklearn.preprocessing import StandardScaler scaler_std = StandardScaler() scaler_std.fit(train_X) std_train_X = scaler_std.transform(train_X) std_val_X = scaler_std.transform(val_X)
L2正規化
from sklearn.preprocessing import Normalizer norm = Normalizer() norm.fit(train_X) norm_train_X = norm.transform(train_X) norm_test_X = norm.transform(test_X)
対数変換
データの分布を正規分布に近づけるために使用されることが多い。
線形回帰モデルに有用
import numpy as np #自然対数の底 np.log() #底が10 np.log10() #(1+x)の自然対数 np.log1p()