yshr10ic
参加者の皆様お疲れ様でした。また、運営の方々、本コンペを開催して下さりありがとうございました。
簡単ではございますが、私の解法の概要について共有します。
各特徴量に対して行ったことは以下のとおりです。
Universal Sentence Encoderは異なる言語でも同じベクトル空間で表現できることから、'DESCRIPTION'に対して適用しました。精度向上に少しは貢献していました。それ以外に関しては基本的に'DESCRIPTION_TRANSLATED'に適用しています。
おそらく'DESCRIPTION_TRANSLATED'に対してもっと色々な情報を抽出しなければいけなかったと思うのですが、あまりアイデアは浮かばず断念してしまいました。
目的変数が連続値ということだったので、以下の記事を参考に連続値のStratifiedKFoldで5分割しました。
https://www.guruguru.science/competitions/16/discussions/092c2925-6a63-4e65-8057-6ea50fc660dd/
以下のモデルでアンサンブルしました。
シングルモデルでは、CatBoost > TabNet > LightGBMという精度でした。ハイパーパラメータは手動でのみ調整したため、チューニングすればもしかしたら順番は変わるかもしれません。
後処理では以下の2つを実施しました。
本コンペでは、Universal Sentence EncoderやTabNetなど今までに試したことなかった手法を試すことができました。ただ上位の方にはまだまだ及ばないのでもっと精進せねばと思いました!上位の方の解法共有楽しみにしています。
newduck
お疲れさまでした。また、BERTの利用法のトピック公開ありがとうございました。 2点、良ければ教えて欲しいのですが、 (1)(私はTOWN_NAME絡みの特徴量がスコア改善に効いた認識なのですが)、上記では触れられていませんが如何だったでしょうか? (2)画像データ(Swin Transformer -> PCA)は、スコア改善に効いたでしょうか?