ストライク? ヒット? それともホームラン!?
Oregin
既出でしたら申し訳ございませんが、1点、ご教示ください。予測対象の y について、ストライクの場合は「1」、アウトの場合は「3」という定義になっていますが、三振(ストライク且つアウト)の場合は、どちらになりますでしょうか。ストライクとなる場合は、ストライクカウントに依存しないのですが、アウトとなる場合は、ストライクカウント「2」のレコードにフラグを立てるなど、特徴量追加の判断材料となるため、お伺いさせていただきました。
ちなみに、ストライクカウント「2」の時のyの分布は以下の通りとなっていました。
# ------------------------------------------------------------------------------ # ProbSpace: プロ野球データ分析チャレンジ # ------------------------------------------------------------------------------ import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns
# データ読み込み ##################################### ###### train ######################## ##################################### train = pd.read_csv('/content/drive/MyDrive/probspace/baseball/data/train_data.csv') ##################################### #### test ########################### ##################################### test = pd.read_csv('/content/drive/MyDrive/probspace/baseball/data/test_data.csv') ##################################### #### test ########################### ##################################### game = pd.read_csv('/content/drive/MyDrive/probspace/baseball/data/game_info.csv')
strike_2_df = train[train['S']==0]['y']
strike_2_df.hist()
<matplotlib.axes._subplots.AxesSubplot at 0x7f0a305c9f10>
Oregin様
ご質問ありがとうございます。三振(ストライク且つアウト)の場合は、y=1(ストライク)としております。また三振の場合には、IsOuts=TRUEとしておりますので、三振のみにフラグを立てる場合にはこちらのカラムをご活用ください。
ご回答ありがとうございました。 三振(ストライク且つアウト)の場合は、y=1(ストライク)となる旨、拝承いたしました。 また、IsOuts=TRUEのカラムは訓練データにしかないため、特徴量としては採用できないかと。 別の方法を試みてみます。