1st place solution

運営の方々、本コンペを開催してくださりありがとうございました。また、参加者の皆様もお疲れ様でした。
私自身、コンペ初参加でしたが、楽しみながら取り組むことができ、データ分析の面白さを体感することができました。

Private LB 1位(0.693)の解法の共有です。
https://github.com/uchsds/ProbSpace_weather_merchandising_solution.git
説明などもこちらに記載しています。(コード汚くてすみません…)

一番スコアが良かった(Private 0.689)のは、Public 0.971のモデルだったので、PrivateとPublicで少し乖離が大きかったのかも知れないですね。(今回1位取れたのは運が良かっただけかもしれません。)
この辺りのモデルの選択の仕方はもう少し勉強したいなと思いました。

Aws4 request&x amz signedheaders=host&x amz signature=4362d88ced8dd9f4237be9c3ce705e6035d693791185818fd454b5e6a0face80
tanuking0

1位おめでとうございます!コード非常に参考になりました(特にデータ分析部分)。

drinkでrain^2で重回帰分析をしていますが、rain^2はどうして利用しようと思ったのか(どうやって見つけたのか)教えていただけると嬉しいです。そもそも思いつかなかったのですが、いまx=rain^2, y=drink2でプロットしても意味のある傾向が掴めず……。お時間がありましたらご教示いただけると幸いです。

Icon6
uchs

ご質問ありがとうございます。

rainを特徴量として使用したのは、highestに対してプロットしたときのグラフをよく見ると、rainの大きさで変わっているように見えたからです。
78cfbe47-453f-4941-b9dc-b2437dba7eda.png

さらにrain^2を入れたのは、highestに対して線形ではない部分(1~4では15℃以下、5,6では10℃以上)をrainに対してプロットしたときに非線形だったからです。
69e061f1-85f9-4888-8295-65703aba177d.png
レンジが狭いので線形でもスコア的にはあまり変化しなさそうだったので、多重共線性は気にせず、標準化せずそのまま2乗項を作成しています。少し曲がってくれればいいやというぐらいの気持ちで入れています。
ここは、標準化して2乗項作る or 正則化(Lasso,Ridge,EN)を使う or rainのkernelトリック などをしたほうが本来は良かったとは思っています。
改めてグラフ見てみると、2乗項でもきれいにFittingできなさそうなので、kernel Ridgeなどで無理やりFittingするのがよさそうと思いました。

Aws4 request&x amz signedheaders=host&x amz signature=4362d88ced8dd9f4237be9c3ce705e6035d693791185818fd454b5e6a0face80
tanuking0

あーhighestに対してplotしたんですね。なるほど。ありがとうございます!

Aws4 request&x amz signedheaders=host&x amz signature=9dcd3a5da9a6f2076f98ed6ce19c607105f2de04d2b59fcff24603a0dfcb632f
ProbSpace_official

uchs様

お世話になっております。
さっそく1st place solutionを公開いただき、ありがとうございます。

Open Review期間につきましては、11/21までと設定させていただきます。
質疑対応等お手数おかけいたしますが、どうぞよろしくお願いいたします。

Aws4 request&x amz signedheaders=host&x amz signature=9dcd3a5da9a6f2076f98ed6ce19c607105f2de04d2b59fcff24603a0dfcb632f
ProbSpace_official

OpenReview期間終了となりましたので、順位確定といたします。
uchs様、優勝おめでとうございます!

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。