スパムメール判別

スパムメールフィルターの開発にチャレンジ！

賞金: 100,000 円参加ユーザー数: 262 4年以上前に終了

参加する

ksar

Stratified 5-Fold
models
- BERT
- RoBERTa
- Electra
- 上記3つの出力の平均をとってアンサンブル
各層の[CLS]のhidden stateの重み付き平均を出力
- 重みが合計1になるように制約をかけて，訓練可能なパラメータとした
- Google QUEST Q&A Labeling 1st place より
  - https://www.kaggle.com/c/google-quest-challenge/discussion/129840
各層ごとにlearning rateを設定
- 出力から遠い層ほど小さくなるように設定
- How to Fine-Tune BERT for Text Classification? より
  - https://arxiv.org/abs/1905.05583
multi-sample dropout
- Multi-Sample Dropout for Accelerated Training and Better Generalization より
  - https://arxiv.org/abs/1905.09788
cosine_schedul_with_warmup

出力結果が7838:17000になるように最適化
- SIGNATE Sutudent Cup 2020 より
  - https://signate.jp/competitions/281/discussions/20200816040343-8180
タイトル，本文ともにnullであるメール（'Subject: \r\n'）を0と予測

前処理を蔑ろにしすぎました．せめてBeautiful Soupくらいは試すべきでした．
- preprocess用の関数は作っていましたが，どこからも呼び出されていないことに終盤で気づきました．
他の方の解法を見て気づきましたが，今回のようなスコアが高くなりやすいコンペではpseudo labelingを試すべきでした．
テストデータのラベルの割合は使用して良いのか迷いましたが，ルール上大丈夫そうかなと判断しました．
- 実運用を考えると絶対に使えない手法なのであまり褒められた手法ではないですが…

ProbSpaceの運営の皆様，本コンペの運営お疲れ様でした．ありがとうございました．次のコンペも楽しみにしています．