データの前処理

数値データとカテゴリデータ

簡単に説明すると

  1. 数値データは、数値である。
  2. カテゴリデータは、文字である。
  3. 数値データは、数値であるので計算できるが、データの分布を見るのなど、データの前処理が必要になる。

    カテゴリデータは、文字であるので、まず数値化(=エンコード)する必要がある。

    数値データの前処理

    1. Min-Max-Scaler
    2. Standard Scaler
    3. \(l^2\)正規化
    4. 対数変換
    5. べき変換
    6. Robust Scaler

    カテゴリデータの前処理

    1. 2値化
    2. One-Hotエンコーディング
    3. ダミー変数化
    4. 特徴量ハッシュ

    次元圧縮

    主成分分析
    ZCA

    参考書