一泊の適正価格はいくら?
newduck
ルール・参加規約の中で自由に雑談できる場に出来ればと思います。
本コンペで雑談したい事を書いてみます。
①基本情報⇒概要⇒課題背景に『国内2地区の宿泊施設』とあるのですが、2地区ってどこなのかなあ?と思いました。
②特徴量"y"について -『1泊あたりの宿泊料金』とあるのですが、yの全データの平均が25,104円なので、直感的には東京の一般的なホテルの『1泊1室1人』辺りの料金よりは大分高い気がします。 ⇒これは恐らく、1泊〇室△人の〇や△がいろいろ混ざっているのかと思われ(更に、清掃料・サービス料等も含まれ?)、その辺りはうまく予測できるのかと悩んでいます
-1円単位が多いなあと思います。予測値を最終的に整数へ丸め1円単位にすべきなんだろうなあと思っています(一般的なホテルの宿泊料だと100円単位が多いかと思うのですが、、、)
③特徴量"name"は『施設名称』と説明があるのですが、色々情報を含んでいるようで、ここからの特徴量作成・抽出が今回のポイントなのかと思っています。どれほど参考になるのか分かりませんが、airbnb titles等で検索するとどういう風に書くと良いのかがまとまったサイトがいろいろ見つかりました⇒"Cozy"とか目立ったのですが、この辺りを参考にしているのかと。
④投稿頂いたサンプルコードを見ていると、今回の評価指標のRMSLEは、yの対数を取った上でのRMSEで代用しているのが散見されたのですが、それでOKなんですよね?(logを取っている人と、log1pを使っている人といるようですが)
まずはこの位ですが、どのようなネタでも雑談お願いします!!
おっしゃるように"y"は高いです。このコンペのtrainデータには桁を2つ間違えてるような高額物件がかなり含まれています。他のトピックで紹介されていた元データにもそのような高額物件が結構ありますが、何件かそうした物件の詳細を見た限りではいずれもかなり違和感のある内容でした。正直、元データの段階から「どこか間違えている」と思います。
書きこみに気づいてませんでした。。。。
はい、桁を2つ間違えてるような高額物件は気になってました。「1泊」の料金だと言うのは「基本情報」の「データ」に明記されているので、そこは間違いないとすると、 ・超高級宿泊施設のスイート(本当に1泊1人100万円等する) ・実は50人で泊まれる1棟貸し(実は1泊1人2万円で50人分)等かと思うのですが、物件見てみる限りそういうふうでもないようにも見え。
上の方の方々はまだまだスコア伸ばしているようですが、しばらく手付かずになっています。
@newduck さん
最初の投稿の④についてですが RMSLE を改善するために RMSE をモデルの最小化対象とすることがあるそうです。https://www.guruguru.science/competitions/13/discussions/cbb736e9-f0f7-4847-811e-fe038e8ed0e8/
@Quvotha-nndropout100さん
情報ありがとうございます。添付のURLを見てみると、「ラベルに1を足してlogを適用したものをラベルとするとあって」、それはまさしくlog1pかと思いました。
RMSLEは、yの対数(log1p)を取った上でRMSEとして計算する。で行ってみようと思います。
全く同じ特徴量エンジニアリングで y を対数変換したものとしていないものとで CV/LB を比較したら対数変換した方がどちらも劇的に改善しました(記録を無くしましたが0.2くらい RMSLE が改善する)。私も対数変換しようと思います!
y