YouTuberとしておさえるべきポイントとは?
TATEI
皆さまprobspaceの「YouTube動画視聴回数予測」お疲れさまでした。今回のコンペはCVとPublicLBとPrivateLBすべてが上手く連動しており、非常に面白みのあるコンペでした。ここまでコンペを盛り上げて下さった参加者及び運営の皆様に感謝申し上げます。またこの投稿自体が初めてなので至らぬ点があると思いますがどうかご容赦ください。
特に有効だった特徴量を簡単に箇条書きで書いていきます。
※ train["past"] = (train["publishedAt"].dt.floor("D").max() - train["publishedAt"].dt.floor("D")).dt.daysまた基本的にgroupbyはtrainとtestをまとめてやってます。comments_disabled・ratings_disabledがTrueのデータは集約から外しています。
LightGBM単体のモデルではcv:0.721 , publiclb:0.717, privatelb:0.720となりました。データセットはtagのダミー変数があるものとないものの2つ作成し、lightgbmとxgboostとcatboostに訓練させ、またそれぞれ5つのseedで平均をとりました。これにより合計30個のモデルを作成しました。最終的にlightgbm_emsemble = lightgbm×0.55 + lightgbm_drop_dummy×0.45xgboost_emsemble = xgboost×1 + xgboost_drop_dummy×0catboost_emsemble = catboost×0.65 + catboost_drop_dummy×0.35上記のアンサンブルを作成しそれをさらにlightgbm_emsemble×0.5 + xgboost_emsemble×0.1 + catboost_emsemble×0.4の割合で作成した予測値でcv:0.716 , publiclb:0.714, privatelb:0.713を達成しました。
このような手法でで7位をとったのですがPrivateを見ると7位と6位の差が結構激しいのでどの様な点で差がついたのかが気になっています。上位陣はどの様な解法でPrivateに合わせられたのでしょうか?また気になる点等があればコメントしていただければと思います。