モデル選択
機械学習、特に回帰分析について中心的にまとめていきます。
重回帰分析では、モデル選択が重要になってきます。
交差検証法:CV(Cross Validation)や、赤池情報量:AICなどの基準を使って、モデルへの当てはまりを調べる。
これらの基準は、モデルの推定をした後に計算される。
したがって、多重共線性の問題(次に説明する)がある場合、これらの基準は、あまり役割を果たさないことが分かる。
変数選択
モデルに取り入れる変数を選ぶ
選び方は2のM乗
変数がM個ある場合
選び方は、定数関数を含めると
$$ 2^M $$
の組み合わせがあり、これらを全て検証するのは現実的ではない。
多重共線性の問題
説明変数間に高い関連性がある時、多重共線性があるという。
変数間で相関が高いものが含まれていると、推定がうまくいかないことが知られている。
この場合、相関が高いもののうち、どちらか1つを取り除くか、平均を取るなどの処理が必要である。
多重共線性を見るには、VIF統計量が使われる。
このVIFが10以上または、15以上の時は、注意が必要で、変数を取り除いたりする必要がある。
この時の「10以上」などの数値は特に決まりはなく、文献によって異なることがある。
スパースモデリング
統計モデルで必要な部分を自動的に抽出する。
推定値の計算と同時に、変数選択を行う。
重要でないものを0、つまりスパースであるとして、切り捨てることで、変数選択する。