使用するデータ
ボストンの住宅価格を使用する。
変数 | 説明 |
---|---|
CRIM | 人口1人当たりの犯罪発生数 |
ZN | 25000平方フィート以上の住居区間の占める割合 |
INDUS | 小売業以外の商業が占める面積の割合 |
CHAS | チャーチルズ川によるダミー変数(1:川の周囲、2:それ以外) |
NOX | NOxの濃度 |
RM | 住居の平均部屋数 |
AGE | 1940年より前に建てられた物件の割合 |
DIS | 5つのボストン市の雇用施設からの距離(重み付け済) |
RAD | 環状高速道路へのアクセスのしやすさ |
TAX | $10,000当たりの不動産税率の総計 |
PTRATIO | 町毎の児童と教師の比率 |
B | 町毎の黒人(Bk)の比率1000(Bk-0.63)^2 |
LSTAT | 給与の低い職業に従事する人口の割合 |
引用:https://pythondatascience.plavox.info/scikit-learn/scikit-learnに付属しているデータセット
使用する回帰
OLS・ridge・Lasso・Elastic_netの4種類の回帰を行った。
また、OLSについては、statsmodelsのVIFを使用して、変数選択をした。
VIFが10以上の変数を削除していった(減少法)