数値データとカテゴリデータの前処理まとめ

機械学習




数値データとカテゴリデータ

簡単に説明すると

  1. 数値データは、数値である。
  2. カテゴリデータは、文字である。

数値データは、数値であるので計算できるが、計算量を減らすためなど、データの前処理が必要になる。

カテゴリデータは、文字であるので、まず数値化(=エンコード)する必要がある。

数値データの前処理

数値データの前処理を下にまとめます。

  1. Min-Max-Scaler
  2. Standard Scaler
  3. \(l^2\)正規化
  4. 対数変換
  5. べき変換
  6. Robust Scaler

カテゴリデータの前処理

カテゴリデータの前処理を下にまとめます。

  1. 2値化
  2. One-Hotエンコーディング
  3. ダミー変数化
  4. 特徴量ハッシュ
  5. ビンカウンティング

参考

  1. カテゴリカル変数のEncoding手法のまとめ

次元圧縮

主成分分析
ZCA

参考書


タイトルとURLをコピーしました