回帰分析の比較 in Python

使用するデータ

ボストンの住宅価格を使用する。

変数 説明
CRIM 人口1人当たりの犯罪発生数
ZN 25000平方フィート以上の住居区間の占める割合
INDUS 小売業以外の商業が占める面積の割合
CHAS チャーチルズ川によるダミー変数(1:川の周囲、2:それ以外)
NOX NOxの濃度
RM 住居の平均部屋数
AGE 1940年より前に建てられた物件の割合
DIS 5つのボストン市の雇用施設からの距離(重み付け済)
RAD 環状高速道路へのアクセスのしやすさ
TAX $10,000当たりの不動産税率の総計
PTRATIO 町毎の児童と教師の比率
B 町毎の黒人(Bk)の比率1000(Bk-0.63)^2
LSTAT 給与の低い職業に従事する人口の割合

引用:https://pythondatascience.plavox.info/scikit-learn/scikit-learnに付属しているデータセット

使用する回帰

OLS・ridge・Lasso・Elastic_netの4種類の回帰を行った。

また、OLSについては、statsmodelsのVIFを使用して、変数選択をした。
VIFが10以上の変数を削除していった(減少法)

結果

参考書

おすすめ