SIGNATEの始め方-Titanic入門-

データサイエンス




SIGNATEの始め方

SIGNATEとは、データの予測精度を競うコンペティションです。
日本版のKaggleです。
Kaggleについては、こちらから

SIGNATEは、機械学習やディープラーニングを勉強されている方にオススメできるサイトです

SIGNATEに登録する

https://signate.jp/
上のリンクから、SIGNATEのサイトにアクセスできます。

まずは登録しましょう。

SIGNATEコンペの参加の仕方

登録が完了したら、コンペに参加してみましょう!!(下の画像)

まずは、練習問題から始めましょう。

TitanicコンペでSIGNATEを知る

【練習問題】タイタニックの生存予測で、SIGNATEに慣れていきましょう。

Lets Try!!

早速予測をしていきましょう!!

コンペの予測学習モデルを作っていきましょう。
まずはじめに、データをダウンロード

データから、必要なデータをダウンロードしましょう。

Kaggelと違って、Kernelという機能がないので、少し不便なように感じます。。。
kaggleの始め方-titanicコンペに参加

予測モデルを作っていこう

今回は、サンプルプログラムとして、私が試したプログラムを載せます。

精度評価が、0.788と低いですが、ご容赦を。。。

import time
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
 
import matplotlib.pyplot as plt
import seaborn as sns
 
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

train_raw = pd.read_csv('train.tsv', delimiter='\t')
test_raw = pd.read_csv('test.tsv', delimiter='\t')

train_raw = train_raw.drop('id', axis=1)
columns_list_raw = train_raw.columns
id_list_raw = test_raw.id.values
test_raw = test_raw.drop('id', axis=1)

train_raw.describe(include="all")

print(train_raw.isnull().sum())

train = train_raw.drop(['age', 'embarked'], axis=1)
test = test_raw.drop(['age', 'embarked'], axis=1)

#sklearnのmapを使用して、置き換えをする。
sex_mapping = {'male': 0, 'female': 1}
train['sex'] = train_raw['sex'].map(sex_mapping)
test['sex'] = test_raw['sex'].map(sex_mapping)

X = train.drop('survived', axis=1)
y= train.survived

train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.2)
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()

rfc.fit(train_X, train_y)

rfc.score(train_X, train_y)

pred_y = rfc.predict(val_X)

accuracy_score(pred_y, val_y)

submit_pred_rfc = rfc.predict(test)
submit_dic = {'id':id_list_raw,
             '生存確率': submit_pred_rfc}

submits = pd.DataFrame(submit_dic)
submits.to_csv('submit_rfc2.tsv', sep='\t', header=None, index=None)

予測を提出しよう

予測データが入った、提出用ファイルを、SIGNATEに提出しましょう。

投稿から、ファイルを提出します。

結果発表

自分の予測の結果は、投稿済みファイルで確認することが出来ます。

順位を確認しよう

順位は、ランキングから確認することが出来ます。

初心者は、Kaggleで勉強しよう

Kaggleには、Kernelという機能があります。

Kernelでは、Kagglerの先輩方の分析・モデル構築のプログラムを見ることが出来ます。

分析方法の勉強にかなりなると思います。

Kaggleで分析方法や、流れを勉強しつつ、実践問題としてSIGNATEを活用するといいかもしれません。
kaggleの始め方-titanicコンペに参加

おすすめのSIGNATEコンペ

まず初めは、練習問題から始めましょう。

練習問題は、20種類あります。

豊富です。

参考書

下の参考書で学んだ知識をKaggleで実践するといいかもしれない、
[amazonjs asin=”4873117984″ locale=”JP” title=”Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎”]
[amazonjs asin=”4295003379″ locale=”JP” title=”第2版Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)”]

タイトルとURLをコピーしました