4th Place Solution

はじめに

コンペお疲れ様でした。また運営の方々コンペ開催ありがとうございました。
4位の解法の概要について共有致します。

モデル

model1(野菜別): lgbm, xgbm, catb
model2(地域別): lgbm, xgbm, catb
model3(野菜&地域): lgbm, xgbm, catb
model4: prophet

天気を使用しなかった理由

tanuking0氏同様に、天候不良の価格情報は事前に価格に転嫁されるとを考えて不使用。
価格のlagを入れたものと比べてcvスコアは振るわなかったので不要と判断。

lagに対する考え方

前項の価格への転嫁は不作が予測される地元の取引所から他の取引所に伝搬していくと想定し、lagは同取引所だけでなく他の取引所の価格変化もjoinしてデータを作成。
これはdata augmentationとして働きその影響かスコアはかなり改善されました。

アンサンブル

アンサンブルが良く効くコンペだったと思います。
野菜別、地域別、野菜地域別のモデルをそれぞれlgbm, xgbm, catbで行い平均アンサンブル

スコアリング

上記の方法で、
野菜別のアンサンブルスコア: 0.13262
地域別のアンサンブルスコア: 0.14293
野菜&地域のアンサンブルスコア: 0.15181
上記の平均アンサンブル: 0.12698(このスコアでも最終4位)

この結果を見て、個人的感覚ですがアンサンブル伸びすぎと感じて、各野菜ごとにsubmitしてスコアを確認。
各野菜ごと42種類x3モデル分回して
model1-3の最適モデル選択のスコア: 0.11975

これでもPL上で10位程度だったので、さらにprophetのモデルを追加
モデルはvalidationを全期間、直近1年、直近3カ月の3種類作成して平均アンサンブル
prophet全期間モデル: 0.18607
prophet直近1年モデル: 0.15494
prophet直近3か月モデル: 0.17938
prophet平均アンサンブルモデル: 0.15837
(maruyama氏のNeuralProphetスコアと似た感じです)

これを各野菜分42回確認して
model1-4の最適モデル選択のスコア: 0.11016

言い訳

PLのスコア参考に野菜ごとの最適モデル選択は現実的な方法ではありませんが、PLスコアを参考にモデル選択するのはコンペとしては一般的と思うので許されると思いますが、、、やはり気が咎めます。
以上、ありがとうございました。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。