分類後の"commute - salary"散布図
2つ散布図を載せます。左が上で示したのと同じ図で、右が"partner"と"area"によって4つに分けたときのものです。
"partner"については「既婚」か「独身」の2種類、"area"については「東京または大阪勤務」か「それ以外」の2種類で分け、合計4種類の分類をしました。
<Figure size 432x288 with 0 Axes>
plt.figure()
fig, ax = plt.subplots(2,2,figsize=(22,22))
cmap = plt.get_cmap("tab10")
plt.subplot(2,2,1)
corr = round(df1.corr()["commute"]["salary"],roundnum)
plt.scatter(df1["commute"], df1["salary"],color=cmap(0), label=corr)
plt.xlabel('commute',fontsize=fs)
plt.ylabel('salary',fontsize=fs)
plt.title('1, married & working in tokyo or osaka\nR: '+str(corr),fontsize = fs)
plt.tick_params(labelsize=fs)
plt.subplot(2,2,2)
plt.scatter(df2["commute"], df2["salary"],color=cmap(1))
corr = round(df2.corr()["commute"]["salary"],roundnum)
plt.xlabel('commute',fontsize=fs)
plt.ylabel('salary',fontsize=fs)
plt.title("2, married & working except in tokyo or osaka\nR: "+str(corr),fontsize=fs)
plt.tick_params(labelsize=fs)
plt.subplot(2,2,3)
plt.scatter(df3["commute"], df3["salary"],color=cmap(2))
corr = round(df3.corr()["commute"]["salary"],roundnum)
plt.xlabel('commute',fontsize=fs)
plt.ylabel('salary',fontsize=fs)
plt.title("3, unmarried & working in tokyo or osaka\nR: "+str(corr),fontsize=fs)
plt.tick_params(labelsize=fs)
plt.subplot(2,2,4)
plt.scatter(df4["commute"], df4["salary"],color=cmap(3))
corr = round(df4.corr()["commute"]["salary"],roundnum)
plt.xlabel('commute',fontsize=fs)
plt.ylabel('salary',fontsize=fs)
plt.title("4, unmarried & working iexcept in tokyo or osaka\nR: "+str(corr),fontsize=fs)
plt.tick_params(labelsize=fs)
plt.subplots_adjust(hspace=0.3)
<Figure size 432x288 with 0 Axes>
まとめ
・"partner"と"area"の特徴量を使い4つに分類することで、分類後のcommuteとsalaryの相関係数が分類前に比べ大きくなりました。
(分類前 R : 0.6233 → 分類後 R1 : 0.848, R2 : 0.8459, R3 :0.9539, R4 : 0.9231)
・commtue - salary 分布を複数の傾向を持つ集団に分けることができました。
・もっと適切な分け方があるかもしれません。(特に1, 2の分布はまだ複数の集団が重なっているように見えます。)
・ここから有効な特徴量を作る方法がわかりません。