yshr10ic
CVとLBに少し乖離があるのですが、皆様はどうでしょうか?
KFold(n_splits=5)
CV: 252.24851LB: 287.63817
自分も結構な乖離があります。CV: 249.01LB: 303.58
地域的変数群(Country, Currency, Language, Town)とローン内容変数群(Description, LOAN_USE, TAGS, Sector, Activity)それぞれの変数群内での内容の重複や包含関係をうまく整理できていないので過学習しているのかな、と思っています
CV:230前後、LB:270前後
乖離の一番の要因は、テスト期間が長いために遠い将来の予測が外れがちになることだと思います。以下に私の仮説を書きますが、どれを解消するにもテストデータに寄せるような調整が必要です。リークの問題があるため、チーティングを疑われないよう乖離の解消はあきらめてCVを信じるのが賢明かなと思っています。