コンビニ商品の売上予測

気象シミュレーションデータから、各商品が何個売れるか当ててみよう!

賞金: 100,000 参加ユーザー数: 439 21日前に終了

1st place solution

運営の方々、本コンペを開催してくださりありがとうございました。また、参加者の皆様もお疲れ様でした。
私自身、コンペ初参加でしたが、楽しみながら取り組むことができ、データ分析の面白さを体感することができました。

Private LB 1位(0.693)の解法の共有です。
https://github.com/uchsds/ProbSpace_weather_merchandising_solution.git
説明などもこちらに記載しています。(コード汚くてすみません…)

一番スコアが良かった(Private 0.689)のは、Public 0.971のモデルだったので、PrivateとPublicで少し乖離が大きかったのかも知れないですね。(今回1位取れたのは運が良かっただけかもしれません。)
この辺りのモデルの選択の仕方はもう少し勉強したいなと思いました。

Icon18
tanuking0

1位おめでとうございます!コード非常に参考になりました(特にデータ分析部分)。

drinkでrain^2で重回帰分析をしていますが、rain^2はどうして利用しようと思ったのか(どうやって見つけたのか)教えていただけると嬉しいです。そもそも思いつかなかったのですが、いまx=rain^2, y=drink2でプロットしても意味のある傾向が掴めず……。お時間がありましたらご教示いただけると幸いです。

Icon6
uchs

ご質問ありがとうございます。

rainを特徴量として使用したのは、highestに対してプロットしたときのグラフをよく見ると、rainの大きさで変わっているように見えたからです。
78cfbe47-453f-4941-b9dc-b2437dba7eda.png

さらにrain^2を入れたのは、highestに対して線形ではない部分(1~4では15℃以下、5,6では10℃以上)をrainに対してプロットしたときに非線形だったからです。
69e061f1-85f9-4888-8295-65703aba177d.png
レンジが狭いので線形でもスコア的にはあまり変化しなさそうだったので、多重共線性は気にせず、標準化せずそのまま2乗項を作成しています。少し曲がってくれればいいやというぐらいの気持ちで入れています。
ここは、標準化して2乗項作る or 正則化(Lasso,Ridge,EN)を使う or rainのkernelトリック などをしたほうが本来は良かったとは思っています。
改めてグラフ見てみると、2乗項でもきれいにFittingできなさそうなので、kernel Ridgeなどで無理やりFittingするのがよさそうと思いました。

Icon18
tanuking0

あーhighestに対してplotしたんですね。なるほど。ありがとうございます!

Aws4 request&x amz signedheaders=host&x amz signature=6bc929f77eaab7c725b4186b5a618967552924bc96e0e2341d5d5015522b33e4
ProbSpace_official

uchs様

お世話になっております。
さっそく1st place solutionを公開いただき、ありがとうございます。

Open Review期間につきましては、11/21までと設定させていただきます。
質疑対応等お手数おかけいたしますが、どうぞよろしくお願いいたします。

Aws4 request&x amz signedheaders=host&x amz signature=6bc929f77eaab7c725b4186b5a618967552924bc96e0e2341d5d5015522b33e4
ProbSpace_official

OpenReview期間終了となりましたので、順位確定といたします。
uchs様、優勝おめでとうございます!

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。