クレジットカードの支払い履行・不履行の予測

β版ProbSpaceコンペ第１弾！

賞金: 100,000 円参加ユーザー数: 385 6年以上前に終了

参加する

hiroki

データの周期性

性別、年齢からわかるデータの周期性

先程出ていたリークに関するトピックに関連して、時系列データの可能性があること発見したので共有、質問させていただきます。

import pandas as pd
import matplotlib.pyplot as plt

train_df = pd.read_csv("train_data.csv")
test_df = pd.read_csv("test_data.csv")

columns = ["id", "credit", "gender", "education", "marriage", "age"]
columns += [f"payment_{i}" for i in range(9, 3, -1)]
columns += [f"claim_{i}" for i in range(9, 3, -1)]
columns += [f"advance_{i}" for i in range(9, 3, -1)]
train_df.columns = columns + ["y"]
test_df.columns = columns

性別とIDの関係を散布図にしたものが以下のようになります。

plt.figure(figsize=(20,10))
feature = "gender"
plt.subplot(2,1,1)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.yticks( [1, 2] )
plt.scatter(train_df["id"], train_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('1 : man, 2 : woman', fontsize=20)
plt.title('train_data', fontsize=20)
plt.subplots_adjust(hspace=0.4)

plt.subplot(2,1,2)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.yticks( [1, 2] )
plt.scatter(test_df["id"], test_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('1 : man, 2 : woman', fontsize=20)
plt.title('test_data', fontsize=20)
plt.show()

年齢とIDの関係を散布図にしたものが以下のようになります。

plt.figure(figsize=(20,10))
feature = "age"
plt.subplot(2,1,1)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.scatter(train_df["id"], train_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('age', fontsize=20)
plt.title('train_data', fontsize=20)
plt.subplots_adjust(hspace=0.4)

plt.subplot(2,1,2)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.scatter(test_df["id"], test_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('age', fontsize=20)
plt.title('test_data', fontsize=20)
plt.savefig('agescatter.png')
plt.show()

性別、年齢についてIDの後半で何らかのパターンを確認することができました。時系列データになっているか、あるいは何かしらの処理が施されたデータであると考えられます。
私はこの情報をスコア向上に活かすことはできませんでした。もし活かすことができるとしたらどんな方法があるのか知りたいです。
よろしくお願いいたします。

カラム名の設定の仕方、その他のEDAなどは下記URLを参考にさせていただきました。
https://prob.space/competitions/credit_default_risk/discussions/nadare-Post80bd84e2dd385da870da

添付データ

%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%91%A8%E6%9C%9F%E6%80%A7.ipynb?X-Amz-Expires=10800&X-Amz-Date=20260125T082429Z&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIP7GCBGMWPMZ42PQ

クレジットカードの支払い履行・不履行の予測

データの周期性

性別、年齢からわかるデータの周期性

添付データ

new user