欠測データとは
欠測データとは、無記入・誤回答・欠落などデータがないことを意味しています。
この欠測データを処理しない場合、統計的な計算処理が出来なくなります。
例えば、平均や標準偏差などです。
データが欠測している場合、その欠測を含むデータを削除する方法が適用されていました。
この方法をリストワイズ除去と呼びます。
これが一番簡単な欠測データの対処だと思います。
一方、欠測データを補う方法もあります。
欠測パターン
データセット内における観測値と欠測値の配置関係のことを欠測パターンといいます。
- 単変量欠測パターン
- 単調欠測パターン
- 計画的欠測パターン
- 一般的な欠測パターン
欠測は1つの変数のみに発生する
変数を欠測の少ない順に並び替えることで、欠測率が左から順に増えていくパターン
質問項目のいくつかが意図的に欠測となっているもの
欠測がデータ全体に散らばって発生している
欠測メカニズム
欠測メカニズムは、観測された変数と欠測データの確率間の起こりうる関係のことです。
MCAR
完全に無作為な欠測のことをMissing Completely At Randomの略で「MCAR」と呼びます。
ある値が欠測する確率がその対象データと無関係であることを意味します。
MAR
条件付きで無作為な欠測をMissing At Randomの略で、MARと呼美ます。
データを条件とした欠測の条件付き確率が、観測データを条件とした欠測の条件付き確率に一致することを意味します。
NMAR
無作為ではない欠測をNot Missing At Randomの略でNMARと呼びます。
欠測データへの対処
- リストワイズ除去
- 単一代入法
- 平均値代入法
- 比率代入法
- ホットデック法
- 確定的回帰代入法
- 確率的回帰代入法
- 多重代入法