YouTuberとしておさえるべきポイントとは?
rauta
運営の皆様、参加者の皆様ありがとうございました。 既に上位の方々もSolutionを公開されており、特別自分のアプローチが特殊だとは感じませんでしたのであまり長くならない程度に簡単にやったことの箇条書きだけさせていただきます。
他の方のSolutionでもありましたように、yのbinを切ったStratifiedKfoldです。
Null Importanceを使用しました。
senkin13さんとBIZENさんチームの1st Solutionにもあるように、dislikes数などは再生回数とかなり相関が高い&disabledされているものはvalidationの精度が低かったので、diaabledされているdislikes数などを予測し、予測に使いました。これが自分の中でもCVとLB共に良かった気づきだったと思います。
シングルモデルとしてはLGBM, XGB, Catboostを試しましたが、自分の環境ではCatboostが一番良かったです。次にXGBで、LGBMは今回は微妙でした。 特徴量セットもいくつか作り20個ほどCatboostとXGB, NNでモデルを作り、Stackingを行いました。
簡単で恐縮ですが、以上です。ありがとうございました。
(あまり分析周りの知り合いがいないので、またどこかで見かけたらチームとか組んでくれたら嬉しいです..プロフィールにtwitterは貼っているのでどうぞ気軽にフォローしてください..)