2nd Place Solution (Team : s123000_ | Mochoppyi & omegawvw)
Overview
Youtubeという身近な題材で、とても面白いコンペティションでした。開催してくださった運営様と参加者皆さん、そしてチームを組んだomegawvwに感謝申し上げます。
Feature Engineering
1, Numerical data
dislike, likeを中心に四則演算,log,二乗など大量の特徴を作成。
2, Text data
tf-idf+t-sneを利用し、処理しました。またtitle+description,title+channelTitleなどテキストデータ同士を結合した特徴を作成。
3, Image data
トピックにて申請があったtorchvisionからResnet18の学習済みモデルを使用し、特徴を抽出。その後t-sneを用いて次元削減を行った。
Model
シングルモデルではLightGBMを使用し、LB:0.709, CV:0.706。K-foldは20回。
Stackingでは、LightGBM, CatBoost, XGBoost, RandomForest, Lasso, Ridge, LinerSVR, ElasticNet, Neural Network,
ExtraTree, GradientBoosting, KNNの合計56個のモデルをStackingを行った。
Ensemble
モデル図が見れない場合はこちら
https://twitter.com/_nanimowakarann/status/1277605737531953152/photo/1
上記のモデルが私たちの最終的な最良スコアのStackingモデルになります。(LB:0.698 Private:0.696)
LightGBM,XGBoostはパラメータ違いのモデルを作成。
SmallNNとLargeNNはNNの層の作り方が違い、SmallNN、LargeNNともにすべてoptunaにチューニングを任せ、一番良いモデルから10個利用しています。またSmallNNは層の深さを1~3のシンプルなMLP,LargeNNは層の構造が複雑なモデルで作成しました。
また今回のコンペでNN単体での使用ではスコアがあまり伸びませんでしたが(CV:0.80~0.85)、Stackingに組み込むことによって大幅にスコアを更新することができました。
NNなし LB:0.707, Private:0.705
NNあり LB:0.698 Private:0.696
・Textデータの特徴を作成するときに、Doc2Vecや学習済みEmbedding Modelを利用したがTf-idfのスコアを超える物はなかった。また画像データの特徴でhttps://www.kaggle.com/shivamb/ideas-for-image-features-and-image-quality を試したがあまりスコアは向上しなかった。
また次元削減の際にSVDやPCAを利用したが、t-sneに勝る物はなかった。
不明確な点がございましたらコメントをいただければ回答いたします。