一泊の適正価格はいくら?
ktr
運営者様、参加者の皆様、コンペティションお疲れ様でした。ソリューションを投稿します。
コードリンクhttps://github.com/ktrw1011/probspace-minpaku-service
はじめは定石通りLightGBMでモデリングしましたが、有効な特徴量を見つけられず0.8くらいでスタックしました。特に駅からの距離等を入れても改善がなく、外れ値なpriceを決めるのに有効な特徴量がないように感じました。
Feature importanceを見る限りほぼroom_typeとnameで決まる感じだったのでroom_typeとnameのみ使用して、BERTで予測すると0.7後半くらい出ました。
room_type
name
最終的に日本語系+マルチリンガル系Transformerのpretrainedモデルと最初に作成していたGBDTとのアンサンブルです。テーブルコンペ的なテクニックはほとんど使用しなかったので、NLP(+カテゴリ)だったという感想です。
KFold(n_split=5)host_idでsplitされているようなのでGroupKFoldと迷いました。localとpublicの乖離が酷かったですが、KFoldでもlocalの改善がpublicに反映されたのでKFoldにしました。host_idが異なっていても似たようなnameのレコードが存在したので、GroupKFoldにしても同じかなという理由もあります。
number_of_reviews
minimum_nights
neighbourhood
sep_token = tokenizer.sep_token input_text = "number of reviews, " + str(examples["number_of_reviews"]) + sep_token +\ "minimum nights, " + str(examples["minimum_nights"]) + sep_token +\ examples["room_type"] + sep_token + examples["neighbourhood"] + sep_token + examples["name"]
9 models weighted average (Nelder-Mead)
ktr様、team pcluの皆さま
1st place solutionの公開、ありがとうございます。5/9に公開いただきましたので、オープンレビュー期間については、一週間後の5/16までと設定させていただきます。
どうぞよろしくお願いいたします。
OpenReview期間中の疑義コメントはありませんでしたので、順位確定とさせていただきます。team pcluの皆さま、改めまして優勝おめでとうございます!