【運営担当者様】本コンペティションのルールに関して質問
運営担当者様
コンペの開催,いつもありがとうございます.
今回のコンペに関して,一点懸念していることがあり,質問をさせていただけると幸いです.
今回のコンペでは明記はされていないものの,提出したsubmissionの結果から野菜ごとにLBの計算と最終的なPrivateを計算するデータを分けていないのではないかと思っております.
これにより大きなShakeを避けることができるなど,いろいろメリットがあるかと思いますが,この仕様により,LBありきの実際はそこまで予測力がないsolutionが優勝してしまう可能性があるかと思います.
具体的には,同じ野菜は地域によって差はあれ,ある程度似た動きをすることが与えられたデータからわかります.
したがって,仮にある野菜がLBに4地域,privateに5地域,計算に使用されているとしたとき,LBとprivateのスコアは相関することが想定されます.
したがって,ある野菜のmodelの出力に対して,例えば1.1をかけることにより,LBのスコアが大きく改善した場合,ある野菜には1.1をかけることで,privateのスコアも向上する可能性があります.(modelの出力が全体的にやや下方気味になっているのをLBスコアで調整していくことが可能)
もちろん,必ずしもLBへのfittingが,privateスコア向上に寄与するとは限りませんが,今回のデータの特性上,そういったことが有効である可能性が高いです.
本来のコンペの目的は将来の各野菜の価格を予測できる有力なモデル(例えば,2020年や2021年の12月においても良いスコアが出るモデル)を作ることかと思いますが,今回のコンペでより良いスコアを出すためには,LBを元に野菜ごとに多少ヒューリスティックな後処理を追加したり,モデルを変えたりすることが重要となってしまうのではないかと思っております.
このような野菜ごとに対してLBの結果を元に後処理を追加することはコンペのルール上問題ないはずですが,本来の目的に合わないsolutionが上位に乱立する可能性があり,solutionとしては好ましくないとは思っております.
長くなってしまいましたが,確認したいこととしては,実際にコンペの優勝solutionとして,LBを参考にある特定の野菜にのみ後処理を加わるといったことは,許容されるのでしょうか.
過去のコンペにおいてテストデータのラベル比率を使った処理に関して,ディスカッションがあったかと思いますが,それと同様の問題が今回のコンペでは発生しうると考えております.
的外れなことを書いている可能性もありますので,その場合はご指摘いただけると幸いです.
お手数をおかけしますが,どうぞよろしくお願いいたします.