評価指標をRMSLEと改めて開催します
Oregin
今回は、以前開催された不動産取引価格予測コンペの評価指標を変更して新たなコンペとして開催されるという、面白い企画でした。前回優勝のコードでも、上位のスコアには到達できないということで、評価指標によってこんなに結果が変わるものかと、驚きました。運営の皆様、とても楽しく参加させていただきましたありがとうございました。また、今回はarenzero(masay)さんにお声がけいただき、初めてチームで参加させていただきました。最後の最後までとてもエキサイティングな経験をさせていただきました。ありがとうございました。
では、私が担当した部分について、共有させていただきます。
全体像としては、以下のとおり2段のスタッキングのモデルでの予測が最高精度になりました。最終的には、この出力を、arenzeroさんの最高精度の出力と平均して提出していただいたもので、3位に入賞することができました。一番力を入れたのが、前処理で、trainデータと、政府公示資料の地名や、駅名の表現のゆらぎなどを、うまく繋げられるように、カテゴリ変数化に注力しました。
前処理については、前回のコンペ時に使った前処理をベース(ベースの構成)にして、更に精査しました。具体的には、以下のようにTrainデータと、政府公示資料を見比べて、どのようにつなぎ合わせるかを検討しました。(特にカテゴリ変数)データ間で、用語が異なっていて苦労しましたが、実際の現場では、よくある話なので、良い経験になりました。
以下の処理を実施して、文字列を数値に変換。
今回は、モデル構築には、それほど時間がかけられず、1段目は、LightGBMとXGboostのハイパーパラメータをOptunaで探索して、CVがよくなるモデルを採用しました。KFoldでFold数を11のモデルとしています。また、チーム参加後、気合をいれてスタッキングにも挑戦しました、しかも、2段目は、NNを採用しました。計算に時間がかかるので、あまりパターンが試せませんでしたが、なんとか7層のNNで最高精度がだせるモデルを作ることができました。チームに参加していなければ、このモデルを試すこともなかったと思うので、チームを組んでくださって本当に感謝です。
以下のブログで、解法以外のチーム参加に関する感想や、これまでのコンペへの参加に関する記事も掲載しております。ご参考まで。ProbSpaceのRe:不動産取引価格予測コンペの振り返り