使用するデータ
ボストンの住宅価格を使用する。
| 変数 | 説明 |
|---|---|
| CRIM | 人口1人当たりの犯罪発生数 |
| ZN | 25000平方フィート以上の住居区間の占める割合 |
| INDUS | 小売業以外の商業が占める面積の割合 |
| CHAS | チャーチルズ川によるダミー変数(1:川の周囲、2:それ以外) |
| NOX | NOxの濃度 |
| RM | 住居の平均部屋数 |
| AGE | 1940年より前に建てられた物件の割合 |
| DIS | 5つのボストン市の雇用施設からの距離(重み付け済) |
| RAD | 環状高速道路へのアクセスのしやすさ |
| TAX | $10,000当たりの不動産税率の総計 |
| PTRATIO | 町毎の児童と教師の比率 |
| B | 町毎の黒人(Bk)の比率1000(Bk-0.63)^2 |
| LSTAT | 給与の低い職業に従事する人口の割合 |
引用:https://pythondatascience.plavox.info/scikit-learn/scikit-learnに付属しているデータセット
使用する回帰
OLS・ridge・Lasso・Elastic_netの4種類の回帰を行った。
また、OLSについては、statsmodelsのVIFを使用して、変数選択をした。
VIFが10以上の変数を削除していった(減少法)
結果

