11th Place Solution (Team: team_MASA | h_okkah & kenta_kuwahara & Masanori)

11th place solution

public 10th・private 11thでした。チームを組んで楽しくコンペに取り組むことができました。参加者の皆様、運営の皆様に感謝申し上げます。

以下では、私たちのsolutionを簡単にまとめます。特に、Universal Sentence Encoder + TruncatedSVDで7次元圧縮した特徴量がコンペ終盤のスコアの上昇(+0.06)に大きく貢献しました。

特徴量(数値)

  • 日付に関する特徴量(時間, 曜日, 週末など)
  • 計測日と投稿日の差
  • likes, dislikes, comment_countに関する四則演算, 二乗
  • categoryIdごとに視聴回数の平均, 分散, 四分位点などを算出(参考:@hirayuki)
  • channelごとに過去のlikes, dislikes, comment_count数を集計, 四則演算, 平均, 分散, 四分位点を算出

特徴量(text)

  • CountVectorize、TfidfVectorizer, Universal Sentence Encoder + TruncatedSVDで7次元に圧縮
  • description, tags, title, channelTitleの単語数
  • ユニーク単語数, 単語数との差, 割合
  • httpsの数
  • 日本語かどうか(参考:@hirayuki)
  • 頻出単語をもとにそれが含まれているかのフラグ(Music, ted, twitter, アニメなど)
  • ユニーク単語数, その割合
  • 学習済みの言語判定(pycld2)を使って何語かを判定

model

  • Lightgbm 10fold
  • 予測値の四捨五入(スコア0.02改善?)

うまくいかなかったこと

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。