8th place solution
public 3位 private 8位
身近なテーマで、とても面白いコンペでした。楽しくコンペ期間を過ごすことができました。参加者の皆様、運営の皆様に感謝申し上げます。
特徴量
- likes等の評価数は再生数と高い相関があったため likes, dislikes, comment_count に加え publishAt に関して四則演算等用いて特徴量を作成
- comments_disabled, ratings_disabled の評価数をそれぞれを予測し、元の特徴量に追加
- channelTitle, title, tags, descriptionに関して、英語や日本語、その他言語(ハングル、ラテン文字、キリル文字、インドで使われている文字など7~8種類程度)の文字の特徴量(文字数、割合、全体からの差など)
- groupby で categoryId や channelId などで集約した特徴量を作成
モデル
- feature engineering で作った2000個程度の特徴量を、重要度上位30%だけ使用
- lightgbm, random forest, extra trees regressor で 1層目のstacking, 2層目は likes, dislikes を加えて線形回帰
cross pseudo labeling + stacking
➡最終的には、4つのモデルの出力の平均をとったものが best score でした
うまくいかなかったこと
- 画像データや、テキストデータからの特徴量は、あまり効果がなかった。画像の良しあしや概要欄の情報などは、ほかの変数が吸収しているのかも?
- target encodeing系
- ニューラルネットワーク(CV はよかったが, LBが全然だった)
github
https://github.com/mst8823/ProbSpace_youtube