給与推定により人事の赤池くんの窮地を救おう
senkin13
運営さん、参加者お疲れ様でした。このコンペがやればやるほど面白いと思います。データが綺麗だけど、一部予測難しいデータもある、こういうデータを洗い出して(残差分析),downsamplingしたら大幅改善できる。feature engingeering部分はcommuteをベースにたくさんaggregation作った,あとは少しinteraction feature 人材ポイントとか(df['point1'] = df['position']10 + df['age'] + df['education']10 )。一番面白いのがmodelingの部分、NNが結構良いscore出てる、NNの予測値残差を新しいtargetでLGBで大幅改善できた、さらにLGBの予測値残差またLGBで前のstageの予測値をfeatureに入れて少しも改善もできた。後処理はtrainとtestに同じくらい(areaのみ違う、commuteのみ違う)のデータを直接trainのtargetをreplaceしたら少し改善もできた。takedartsさんとの順位争いが結構激しい、運がよかっただけです。ありがとうございました。
https://github.com/senkin13/kaggle/tree/master/salary_prediction