sngyo
シンプルなタスクながら,マルチモーダルで面白いコンペの開催をありがとうございました.また,参加者の皆様およびチームメイトとして励んできたnozomi, sooooma, yabeaに感謝申し上げます.以下,箇条書きにて失礼します.
public 9th (PublicLB: 0.722, PrivateLB: 0.709, CV: 0.706), private 5th (PublicLB: 0.725, PrivateLB: 0.706, CV: 0.704)
コードにつきましては後日アップするかもしれませんが,かなり煩雑になってしまっているので現在のところ公開予定はありません.
likes
* dislikes
系の特徴量がかなり強く効いていたので積を中心にlogをとったりその他の特徴量 (e.x. comment_count
)と混ぜるなどして色々と作成channelId
, categoryId
, 分割したtag
ごとに1で作成した特徴量を集計した統計特徴量を大量に生成description
の長さなどをモデルがよく利用していたため,クリーニングをかけて余計な記号・絵文字・リンクを消す,日本語の場合実際の文字数を2.5倍した値を用いて英語との差を埋めるなどの工夫が効いたtitle
をトークンに分割してトークンごとに1で作成した特徴量を集計した特徴量を最終日に追加してCV・LBともに約0.003伸びた.もっと早く思いついていれば更に特徴量を生成することができたのでスコアをより伸ばせた可能性がある.(日本語と英語が基本的に多かったのでその他の言語については無視した.)likes
系の特徴量予測モデル --> PCAなどによる次元削減詳細が気になる箇所や,不明瞭な箇所がございましたらコメントいただければと思います.