評価指標をRMSLEと改めて開催します
tenajima
今回probspaceでは初めてのコンペの参加でしたが、CV、LBがマッチしていて楽しく取り組めるコンペでした。5位ならsolusion公開しても格好がつくかなと思い、初めて書きます。至らない点も多いと思いますが少しでも参考にしていただけると嬉しいです
まずはfoldの切り方についてです。今回は単純にn_splits=5のKFoldと取引時点をgroupsにしたGroupKFoldを使いました。train、testが時系列で別れていたのと、取引時期において不動産の取引価格は変動するというドメインからGroupKFoldも試しました。KFoldでもCVとLBはちゃんと相関していたので問題なかったと思いますがGroupKFoldにするとLBのスコアはあまり変わらないけれどCVは悪化していたので、KFoldのほうがもしかしたらCVを過大評価しているのかもしれないと考えました。ただ、LBのスコアはKFoldのほうがよかったので最終的にはどちらも使って(特徴量作成、モデリングともに)、最終的にアンサンブルする方針にしました。
モデルにはLightGBM、catboost、xgboostを使いました。各モデルともにKFoldとGroupKFoldのものをつくったので最終的には6モデルを使ってstackingしました。
うまく組み込めたドメインもあれば、うまく組み込めなかったドメインもありましたが、総合的には与えた特徴量に関してちゃんとスコアが返ってくる楽しいコンペでした。個人的にもcatboostを初めて使ってみたり、ちゃんとstackingまで取り組めたので実りあるコンペになりました。あと、不動産についていろいろ調べてたら広告が不動産だらけになりました。
コンペお疲れさまでした! コンペ解法読ませていただきました、勉強になります。 解法について質問です、記載がなかったのですが公示価格データ(published_land_price.csv)は使われなかったのでしょうか。私の解法では市区町村名や最寄り駅名等でグルーピングして平均した公示価格の値が結構効いたので聞いてみました。
ご質問ありがとうございます。wakameさんもコンペお疲れ様でした。(ライブラリまで作ってしまうのすごいです!)公示価格データはトピックを参考にして市区町村名と取引時点の年数ごとの地価のみ使いました。publised_land_price.csvのデータの理解を深くしていなかったのであまり使えなかったのですが、けっこう効いたのですね...勉強になります、ありがとうございます!