Aws4 request&x amz signedheaders=host&x amz signature=0ffb44ef2c398211468c7287199193f1e0c1b6124fd89a16fb970aae502af390

Masanori

11th Place Solution (Team: team_MASA | h_okkah & kenta_kuwahara & Masanori)

11th place solution

public 10th・private 11thでした。チームを組んで楽しくコンペに取り組むことができました。参加者の皆様、運営の皆様に感謝申し上げます。

以下では、私たちのsolutionを簡単にまとめます。特に、Universal Sentence Encoder + TruncatedSVDで7次元圧縮した特徴量がコンペ終盤のスコアの上昇(+0.06)に大きく貢献しました。

特徴量(数値)

日付に関する特徴量(時間, 曜日, 週末など)
計測日と投稿日の差
likes, dislikes, comment_countに関する四則演算, 二乗
categoryIdごとに視聴回数の平均, 分散, 四分位点などを算出(参考：@hirayuki)
channelごとに過去のlikes, dislikes, comment_count数を集計, 四則演算, 平均, 分散, 四分位点を算出

特徴量(text)

CountVectorize、TfidfVectorizer, Universal Sentence Encoder + TruncatedSVDで7次元に圧縮
description, tags, title, channelTitleの単語数
ユニーク単語数, 単語数との差, 割合
httpsの数
日本語かどうか(参考：@hirayuki)
頻出単語をもとにそれが含まれているかのフラグ(Music, ted, twitter, アニメなど)
ユニーク単語数, その割合
学習済みの言語判定(pycld2)を使って何語かを判定

model

Lightgbm 10fold
予測値の四捨五入(スコア0.02改善?)

うまくいかなかったこと

disableされたlike, dislikeの予測
画像に関する特徴量(https://www.kaggle.com/shivamb/ideas-for-image-features-and-image-quality)