[振り返り]効いた・効かなかった解法について
皆様、お疲れさまでした。
今回、私のベストスコアはLB0.78688/PB0.73173でPB13位でした。
--
是非、効いた解法を議論して/教えていただければと思っています。
--
私の場合を少しまとめてみますと、、、
■今回スコアに効いたと思うもの
・Uhomeフラグ
⇒気付いた方が多いと思うのですが、明らかに飛びぬけて高い1泊90万円位する物件が
trainデータに40件近くあり、全てname列に"Uhome"の単語が含まれています。
そこで、Uhomeを正規表現で抜き出しフラグをたて特徴量とすることでスコアが伸びました。
・AutoGluon
⇒9つのモデルを使ったアンサンブル
(作成した特徴量は106個。うち103個をAutoGluonが利用)
・AutoGluonで特徴量の重要性を見てみると、
room_typeが最重要で、2位がis_Uhomeフラグでした
⇒5番目に緯度、9番目に経度が出ていたのですが、これらが駅からの距離や駅名よりもずっと上にあるのが、
直感的には意外でした(=人間に分かりやすい「〇〇駅から△分」と言う具合ではなくて、
「緯度、経度」で判定しているのだなあと)
■やったけどスコアに効かなかったもの(実装が悪かった?)
・言語の判定
⇒name列は英語、中国語、日本語等と混じっていたので、何語かを判別してフラグをたててみたのですが、あまり効かないようでした。
■あまり取組めなかったもの
・name列の適切なベクトル化(適切な利用)
⇒ここは様々なテクニックが使える部分だと思うのですが、多言語が含まれていたこともあり今回はあまり深く入れず、
一番聞いたのが上記のUhomeフラグでした
思い出したら追記しますが、まずはこの位です。
それでは皆様、効いた解法、効かなかった解法、コメント・アドバイス、是非教えて頂ければと思います。