気象シミュレーションデータから、各商品が何個売れるか当ててみよう!
uchs
運営の方々、本コンペを開催してくださりありがとうございました。また、参加者の皆様もお疲れ様でした。私自身、コンペ初参加でしたが、楽しみながら取り組むことができ、データ分析の面白さを体感することができました。
Private LB 1位(0.693)の解法の共有です。https://github.com/uchsds/ProbSpace_weather_merchandising_solution.git説明などもこちらに記載しています。(コード汚くてすみません…)
一番スコアが良かった(Private 0.689)のは、Public 0.971のモデルだったので、PrivateとPublicで少し乖離が大きかったのかも知れないですね。(今回1位取れたのは運が良かっただけかもしれません。)この辺りのモデルの選択の仕方はもう少し勉強したいなと思いました。
1位おめでとうございます!コード非常に参考になりました(特にデータ分析部分)。
drinkでrain^2で重回帰分析をしていますが、rain^2はどうして利用しようと思ったのか(どうやって見つけたのか)教えていただけると嬉しいです。そもそも思いつかなかったのですが、いまx=rain^2, y=drink2でプロットしても意味のある傾向が掴めず……。お時間がありましたらご教示いただけると幸いです。
ご質問ありがとうございます。
rainを特徴量として使用したのは、highestに対してプロットしたときのグラフをよく見ると、rainの大きさで変わっているように見えたからです。
さらにrain^2を入れたのは、highestに対して線形ではない部分(1~4では15℃以下、5,6では10℃以上)をrainに対してプロットしたときに非線形だったからです。レンジが狭いので線形でもスコア的にはあまり変化しなさそうだったので、多重共線性は気にせず、標準化せずそのまま2乗項を作成しています。少し曲がってくれればいいやというぐらいの気持ちで入れています。ここは、標準化して2乗項作る or 正則化(Lasso,Ridge,EN)を使う or rainのkernelトリック などをしたほうが本来は良かったとは思っています。改めてグラフ見てみると、2乗項でもきれいにFittingできなさそうなので、kernel Ridgeなどで無理やりFittingするのがよさそうと思いました。
あーhighestに対してplotしたんですね。なるほど。ありがとうございます!
uchs様
お世話になっております。さっそく1st place solutionを公開いただき、ありがとうございます。
Open Review期間につきましては、11/21までと設定させていただきます。質疑対応等お手数おかけいたしますが、どうぞよろしくお願いいたします。
OpenReview期間終了となりましたので、順位確定といたします。uchs様、優勝おめでとうございます!