YouTube動画視聴回数予測

YouTuberとしておさえるべきポイントとは?

賞金: 100,000 参加ユーザー数: 612 4年以上前に終了

2nd Place Solution (Team : s123000_ | Mochoppyi & omegawvw)

Overview

Youtubeという身近な題材で、とても面白いコンペティションでした。開催してくださった運営様と参加者皆さん、そしてチームを組んだomegawvwに感謝申し上げます。

Feature Engineering

1, Numerical data

dislike, likeを中心に四則演算,log,二乗など大量の特徴を作成。

2, Text data

tf-idf+t-sneを利用し、処理しました。またtitle+description,title+channelTitleなどテキストデータ同士を結合した特徴を作成。

3, Image data

トピックにて申請があったtorchvisionからResnet18の学習済みモデルを使用し、特徴を抽出。その後t-sneを用いて次元削減を行った。

Model

シングルモデルではLightGBMを使用し、LB:0.709, CV:0.706。K-foldは20回。 Stackingでは、LightGBM, CatBoost, XGBoost, RandomForest, Lasso, Ridge, LinerSVR, ElasticNet, Neural Network, ExtraTree, GradientBoosting, KNNの合計56個のモデルをStackingを行った。

Ensemble

b784198e-deab-4d9a-bc5f-8d2e8f0e775e.png

モデル図が見れない場合はこちら https://twitter.com/_nanimowakarann/status/1277605737531953152/photo/1

上記のモデルが私たちの最終的な最良スコアのStackingモデルになります。(LB:0.698 Private:0.696) LightGBM,XGBoostはパラメータ違いのモデルを作成。

SmallNNとLargeNNはNNの層の作り方が違い、SmallNN、LargeNNともにすべてoptunaにチューニングを任せ、一番良いモデルから10個利用しています。またSmallNNは層の深さを1~3のシンプルなMLP,LargeNNは層の構造が複雑なモデルで作成しました。

また今回のコンペでNN単体での使用ではスコアがあまり伸びませんでしたが(CV:0.80~0.85)、Stackingに組み込むことによって大幅にスコアを更新することができました。

NNなし LB:0.707, Private:0.705 NNあり LB:0.698 Private:0.696

Comment

・Textデータの特徴を作成するときに、Doc2Vecや学習済みEmbedding Modelを利用したがTf-idfのスコアを超える物はなかった。また画像データの特徴でhttps://www.kaggle.com/shivamb/ideas-for-image-features-and-image-quality を試したがあまりスコアは向上しなかった。 また次元削減の際にSVDやPCAを利用したが、t-sneに勝る物はなかった。 不明確な点がございましたらコメントをいただければ回答いたします。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。