不均衡データ対策としてのimbalanced-learn

データサイエンス




不均衡データ対策としてのimbalanced-learn

分類問題において、予測したいクラスが不均衡でうまく学習できないという場合があります。
不均衡データの対策としてimbalanced-learnというライブラリの使い方をまとめます。

OverSampling

RandomOverSampler

RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)

SMOTE

 X_resampled, y_resampled = SMOTE().fit_resample(X, y)

UnderSampling

 RandomUnderSampler
rus = RandomUnderSampler(random_state=0, replacement=True)
X_resampled, y_resampled = rus.fit_resample(X, y)

参考

  1. https://ohke.hateblo.jp/entry/2017/08/18/230000?amp=1
  2. https://imbalanced-learn.readthedocs.io/en/stable/index.html
  3. https://imbalanced-learn.readthedocs.io/en/stable/user_guide.html
タイトルとURLをコピーしました