hiroki
先程出ていたリークに関するトピックに関連して、時系列データの可能性があること発見したので共有、質問させていただきます。
import pandas as pd import matplotlib.pyplot as plt
train_df = pd.read_csv("train_data.csv") test_df = pd.read_csv("test_data.csv")
columns = ["id", "credit", "gender", "education", "marriage", "age"] columns += [f"payment_{i}" for i in range(9, 3, -1)] columns += [f"claim_{i}" for i in range(9, 3, -1)] columns += [f"advance_{i}" for i in range(9, 3, -1)] train_df.columns = columns + ["y"] test_df.columns = columns
性別とIDの関係を散布図にしたものが以下のようになります。
plt.figure(figsize=(20,10)) feature = "gender" plt.subplot(2,1,1) plt.tick_params(axis='x', which='major', labelsize=12) plt.tick_params(axis='y', which='major', labelsize=12) plt.yticks( [1, 2] ) plt.scatter(train_df["id"], train_df[feature]) plt.xlabel('ID', fontsize=20) plt.ylabel('1 : man, 2 : woman', fontsize=20) plt.title('train_data', fontsize=20) plt.subplots_adjust(hspace=0.4) plt.subplot(2,1,2) plt.tick_params(axis='x', which='major', labelsize=12) plt.tick_params(axis='y', which='major', labelsize=12) plt.yticks( [1, 2] ) plt.scatter(test_df["id"], test_df[feature]) plt.xlabel('ID', fontsize=20) plt.ylabel('1 : man, 2 : woman', fontsize=20) plt.title('test_data', fontsize=20) plt.show()
年齢とIDの関係を散布図にしたものが以下のようになります。
plt.figure(figsize=(20,10)) feature = "age" plt.subplot(2,1,1) plt.tick_params(axis='x', which='major', labelsize=12) plt.tick_params(axis='y', which='major', labelsize=12) plt.scatter(train_df["id"], train_df[feature]) plt.xlabel('ID', fontsize=20) plt.ylabel('age', fontsize=20) plt.title('train_data', fontsize=20) plt.subplots_adjust(hspace=0.4) plt.subplot(2,1,2) plt.tick_params(axis='x', which='major', labelsize=12) plt.tick_params(axis='y', which='major', labelsize=12) plt.scatter(test_df["id"], test_df[feature]) plt.xlabel('ID', fontsize=20) plt.ylabel('age', fontsize=20) plt.title('test_data', fontsize=20) plt.savefig('agescatter.png') plt.show()
性別、年齢についてIDの後半で何らかのパターンを確認することができました。時系列データになっているか、あるいは何かしらの処理が施されたデータであると考えられます。 私はこの情報をスコア向上に活かすことはできませんでした。もし活かすことができるとしたらどんな方法があるのか知りたいです。 よろしくお願いいたします。
カラム名の設定の仕方、その他のEDAなどは下記URLを参考にさせていただきました。 https://prob.space/competitions/credit_default_risk/discussions/nadare-Post80bd84e2dd385da870da