欠測データとは

機械学習




欠測データとは

欠測データとは、無記入・誤回答・欠落などデータがないことを意味しています。

この欠測データを処理しない場合、統計的な計算処理が出来なくなります。
例えば、平均や標準偏差などです。

データが欠測している場合、その欠測を含むデータを削除する方法が適用されていました。
この方法をリストワイズ除去と呼びます。

これが一番簡単な欠測データの対処だと思います。

一方、欠測データを補う方法もあります。

欠測パターン

データセット内における観測値と欠測値の配置関係のことを欠測パターンといいます。

  1. 単変量欠測パターン
  2. 欠測は1つの変数のみに発生する

  3. 単調欠測パターン
  4. 変数を欠測の少ない順に並び替えることで、欠測率が左から順に増えていくパターン

  5. 計画的欠測パターン
  6. 質問項目のいくつかが意図的に欠測となっているもの

  7. 一般的な欠測パターン
  8. 欠測がデータ全体に散らばって発生している

欠測メカニズム

欠測メカニズムは、観測された変数と欠測データの確率間の起こりうる関係のことです。

MCAR

完全に無作為な欠測のことをMissing Completely At Randomの略で「MCAR」と呼びます。

ある値が欠測する確率がその対象データと無関係であることを意味します。

MAR

条件付きで無作為な欠測をMissing At Randomの略で、MARと呼美ます。

データを条件とした欠測の条件付き確率が、観測データを条件とした欠測の条件付き確率に一致することを意味します。

NMAR

無作為ではない欠測をNot Missing At Randomの略でNMARと呼びます。

欠測データへの対処

  1. リストワイズ除去
  2. 単一代入法
    1. 平均値代入法
    2. 比率代入法
    3. ホットデック法
    4. 確定的回帰代入法
    5. 確率的回帰代入法
  3. 多重代入法

参考書

タイトルとURLをコピーしました