8th place solution

public 3位 private 8位

身近なテーマで、とても面白いコンペでした。楽しくコンペ期間を過ごすことができました。参加者の皆様、運営の皆様に感謝申し上げます。

特徴量

  1. likes等の評価数は再生数と高い相関があったため likes, dislikes, comment_count に加え publishAt に関して四則演算等用いて特徴量を作成
  2. comments_disabled, ratings_disabled の評価数をそれぞれを予測し、元の特徴量に追加
  3. channelTitle, title, tags, descriptionに関して、英語や日本語、その他言語(ハングル、ラテン文字、キリル文字、インドで使われている文字など7~8種類程度)の文字の特徴量(文字数、割合、全体からの差など)
  4. groupby で categoryId や channelId などで集約した特徴量を作成

モデル

  1. feature engineering で作った2000個程度の特徴量を、重要度上位30%だけ使用
  2. lightgbm, random forest, extra trees regressor で 1層目のstacking, 2層目は likes, dislikes を加えて線形回帰
  3. cross pseudo labeling + stacking

    ➡最終的には、4つのモデルの出力の平均をとったものが best score でした

うまくいかなかったこと

  1. 画像データや、テキストデータからの特徴量は、あまり効果がなかった。画像の良しあしや概要欄の情報などは、ほかの変数が吸収しているのかも?
  2. target encodeing系
  3. ニューラルネットワーク(CV はよかったが, LBが全然だった)

github

https://github.com/mst8823/ProbSpace_youtube

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。