モデル選択

モデル選択

機械学習、特に回帰分析について中心的にまとめていきます。
重回帰分析では、モデル選択が重要になってきます。

交差検証法:CV(Cross Validation)や、赤池情報量:AICなどの基準を使って、モデルへの当てはまりを調べる。
これらの基準は、モデルの推定をした後に計算される
したがって、多重共線性の問題(次に説明する)がある場合、これらの基準は、あまり役割を果たさないことが分かる。

変数選択

モデルに取り入れる変数を選ぶ

選び方は2のM乗

変数がM個ある場合
選び方は、定数関数を含めると

$$ 2^M $$
の組み合わせがあり、これらを全て検証するのは現実的ではない

多重共線性の問題

説明変数間に高い関連性がある時、多重共線性があるという。
変数間で相関が高いものが含まれていると、推定がうまくいかないことが知られている。

この場合、相関が高いもののうち、どちらか1つを取り除くか、平均を取るなどの処理が必要である。

多重共線性を見るには、VIF統計量が使われる。
このVIFが10以上または、15以上の時は、注意が必要で、変数を取り除いたりする必要がある。
この時の「10以上」などの数値は特に決まりはなく、文献によって異なることがある。

スパースモデリング

統計モデルで必要な部分を自動的に抽出する。

推定値の計算と同時に、変数選択を行う。
重要でないものを0、つまりスパースであるとして、切り捨てることで、変数選択する。

参考書


岩波データサイエンス Vol.5