train_test_splitで、データを分割する

訓練データを分割する

データの説明変数Xと、被説明変数yを訓練データと検証データに分割します。

学習データを、学習データと検証データに分けて、モデルの精度を検証します。

train_test_split

ScikitLearnのtrain_test_splitを使って、訓練データとテストデータに分割します。

from sklearn.model_selection import train_test_split

train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.4, random_state=0)

引数は、(説明変数, 被説明変数, test_size, random_state)

test_sizeは、データの何割をテストデータに渡すかを指定します。

random_stateは、0の場合、オフセットで同じ値が返ってきます。
1の場合、ランダムな値が返ってきます。

参考

scikit-learn.org/stable/modules/cross_validation.html