野菜取引価格の予測

野菜価格に影響する要因を探り当てよう！

賞金: 100,000 円参加ユーザー数: 304 1年以上前に終了

参加する

marble

4th Place Solution

はじめに

コンペお疲れ様でした。また運営の方々コンペ開催ありがとうございました。
４位の解法の概要について共有致します。

モデル

model1(野菜別): lgbm, xgbm, catb
model2(地域別): lgbm, xgbm, catb
model3(野菜&地域): lgbm, xgbm, catb
model4: prophet

天気を使用しなかった理由

tanuking0氏同様に、天候不良の価格情報は事前に価格に転嫁されるとを考えて不使用。
価格のlagを入れたものと比べてcvスコアは振るわなかったので不要と判断。

lagに対する考え方

前項の価格への転嫁は不作が予測される地元の取引所から他の取引所に伝搬していくと想定し、lagは同取引所だけでなく他の取引所の価格変化もjoinしてデータを作成。
これはdata augmentationとして働きその影響かスコアはかなり改善されました。

アンサンブル

アンサンブルが良く効くコンペだったと思います。
野菜別、地域別、野菜地域別のモデルをそれぞれlgbm, xgbm, catbで行い平均アンサンブル

スコアリング

上記の方法で、
野菜別のアンサンブルスコア： 0.13262
地域別のアンサンブルスコア: 0.14293
野菜&地域のアンサンブルスコア: 0.15181
上記の平均アンサンブル： 0.12698（このスコアでも最終４位）

この結果を見て、個人的感覚ですがアンサンブル伸びすぎと感じて、各野菜ごとにsubmitしてスコアを確認。
各野菜ごと42種類x3モデル分回して
model1-3の最適モデル選択のスコア: 0.11975

これでもPL上で１０位程度だったので、さらにprophetのモデルを追加
モデルはvalidationを全期間、直近１年、直近３カ月の３種類作成して平均アンサンブル
prophet全期間モデル: 0.18607
prophet直近１年モデル: 0.15494
prophet直近３か月モデル: 0.17938
prophet平均アンサンブルモデル: 0.15837
(maruyama氏のNeuralProphetスコアと似た感じです)

これを各野菜分42回確認して
model1-4の最適モデル選択のスコア： 0.11016

言い訳

PLのスコア参考に野菜ごとの最適モデル選択は現実的な方法ではありませんが、PLスコアを参考にモデル選択するのはコンペとしては一般的と思うので許されると思いますが、、、やはり気が咎めます。
以上、ありがとうございました。