訓練データを分割する
データの説明変数Xと、被説明変数yを訓練データと検証データに分割します。
学習データを、学習データと検証データに分けて、モデルの精度を検証します。
train_test_split
ScikitLearnのtrain_test_splitを使って、訓練データとテストデータに分割します。
from sklearn.model_selection import train_test_split train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.4, random_state=0)
引数は、(説明変数, 被説明変数, test_size, random_state)
test_sizeは、データの何割をテストデータに渡すかを指定します。
random_stateは、0の場合、オフセットで同じ値が返ってきます。
1の場合、ランダムな値が返ってきます。
参考
scikit-learn.org/stable/modules/cross_validation.html