11th Place Solution (Team: team_MASA | h_okkah & kenta_kuwahara & Masanori)
11th place solution
public 10th・private 11thでした。チームを組んで楽しくコンペに取り組むことができました。参加者の皆様、運営の皆様に感謝申し上げます。
以下では、私たちのsolutionを簡単にまとめます。特に、Universal Sentence Encoder + TruncatedSVDで7次元圧縮した特徴量がコンペ終盤のスコアの上昇(+0.06)に大きく貢献しました。
特徴量(数値)
- 日付に関する特徴量(時間, 曜日, 週末など)
- 計測日と投稿日の差
- likes, dislikes, comment_countに関する四則演算, 二乗
- categoryIdごとに視聴回数の平均, 分散, 四分位点などを算出(参考:@hirayuki)
- channelごとに過去のlikes, dislikes, comment_count数を集計, 四則演算, 平均, 分散, 四分位点を算出
特徴量(text)
- CountVectorize、TfidfVectorizer, Universal Sentence Encoder + TruncatedSVDで7次元に圧縮
- description, tags, title, channelTitleの単語数
- ユニーク単語数, 単語数との差, 割合
- httpsの数
- 日本語かどうか(参考:@hirayuki)
- 頻出単語をもとにそれが含まれているかのフラグ(Music, ted, twitter, アニメなど)
- ユニーク単語数, その割合
- 学習済みの言語判定(pycld2)を使って何語かを判定
model
- Lightgbm 10fold
- 予測値の四捨五入(スコア0.02改善?)
うまくいかなかったこと