野菜取引価格の予測

野菜価格に影響する要因を探り当てよう!

賞金: 100,000 参加ユーザー数: 295 8ヶ月前に終了

【運営担当者様】本コンペティションのルールに関して質問

運営担当者様

コンペの開催,いつもありがとうございます.
今回のコンペに関して,一点懸念していることがあり,質問をさせていただけると幸いです.

今回のコンペでは明記はされていないものの,提出したsubmissionの結果から野菜ごとにLBの計算と最終的なPrivateを計算するデータを分けていないのではないかと思っております.

これにより大きなShakeを避けることができるなど,いろいろメリットがあるかと思いますが,この仕様により,LBありきの実際はそこまで予測力がないsolutionが優勝してしまう可能性があるかと思います.

具体的には,同じ野菜は地域によって差はあれ,ある程度似た動きをすることが与えられたデータからわかります.
したがって,仮にある野菜がLBに4地域,privateに5地域,計算に使用されているとしたとき,LBとprivateのスコアは相関することが想定されます.

したがって,ある野菜のmodelの出力に対して,例えば1.1をかけることにより,LBのスコアが大きく改善した場合,ある野菜には1.1をかけることで,privateのスコアも向上する可能性があります.(modelの出力が全体的にやや下方気味になっているのをLBスコアで調整していくことが可能)

もちろん,必ずしもLBへのfittingが,privateスコア向上に寄与するとは限りませんが,今回のデータの特性上,そういったことが有効である可能性が高いです.

本来のコンペの目的は将来の各野菜の価格を予測できる有力なモデル(例えば,2020年や2021年の12月においても良いスコアが出るモデル)を作ることかと思いますが,今回のコンペでより良いスコアを出すためには,LBを元に野菜ごとに多少ヒューリスティックな後処理を追加したり,モデルを変えたりすることが重要となってしまうのではないかと思っております.

このような野菜ごとに対してLBの結果を元に後処理を追加することはコンペのルール上問題ないはずですが,本来の目的に合わないsolutionが上位に乱立する可能性があり,solutionとしては好ましくないとは思っております.

長くなってしまいましたが,確認したいこととしては,実際にコンペの優勝solutionとして,LBを参考にある特定の野菜にのみ後処理を加わるといったことは,許容されるのでしょうか.
過去のコンペにおいてテストデータのラベル比率を使った処理に関して,ディスカッションがあったかと思いますが,それと同様の問題が今回のコンペでは発生しうると考えております.

的外れなことを書いている可能性もありますので,その場合はご指摘いただけると幸いです.
お手数をおかけしますが,どうぞよろしくお願いいたします.

Aws4 request&x amz signedheaders=host&x amz signature=02580662b75acbed7eca53b6abb81d8b22235f34887c74997774bb057d168e0d
ProbSpace_official

takaito様

ご質問いただきありがとうございます。PROBSPACE運営事務局です。
本件について回答させていただきます。

まず前提として、複数地域データセットを用意した背景について説明させていただきます。今回のコンペティションでは、悪天候による価格影響が地域により異なる可能性や、一部地域でのみ悪天候が発生した場合でも、他地域からの供給補填により価格変動は緩和されるのではないか、といった仮説に基づき、複数地域のデータセットを用意しました。

しかしながらご指摘の通り、複数地域のモデル出力に対して特定の調整(例えば1.1を掛けるなど)を行い、パブリックリーダーボード(LB)のスコアを改善する行為が有効である可能性は否めません。

運営内でもその対応について議論しましたが、これらの調整行為を完全に取り締まることは現実的に困難と判断いたしました。そのため、今回のコンペティションでは、ご質問いただいた「LBを参考にある特定の野菜にのみ後処理を加える」という行為は許容されるものといたします。

ただし、その結果が必ずしもPrivate LBのスコアを改善するとは限らない点をご理解いただければと存じます。
以上、ご確認のほどよろしくお願いいたします。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。