Oregin
お疲れ様です。俺人です。
今回の野菜取引価格の予測で3位の解法を紹介させていただきます。
内容的には同じ内容ですが、図等を追加した記事をブログでも公開しておりますので、併せてご参照ください。
【3位解法】Probspace開催「野菜取引価格の予測」の振り返り。
(https://oregin-ai.hatenablog.com/entry/2023/08/23/190148)
野菜についてどのような分類をして予測するか、天候情報をどのように加工して、何を選択するかで知恵を絞りました。
全体構成としては、大きく分けて以下の2つの構成で構築し、それぞれの予測値の平均を最終的な提出としました。
地域に関しても考慮に入れようか悩んだのですが、今回の価格は生産地ではなく消費地の価格とのことでしたので、地域別の予測はあまり影響しないと仮定して、野菜の種類だけに注目することとしました。
特徴量については、価格の時系列データのほかに天候情報について以下の通り加工し、分類した野菜毎に、選択して学習に利用しました。
上記の各特徴量について、野菜の分類ごとに特徴量を選択して学習・予測を行いました。
| 野菜分類 | 日照時間 | 降水量 | 降雪量 |・・・・
| 茸 類 | × | × | × |・・・
| 根菜直根 | 〇 | × | × |・・・
・・・
モデルは野菜分類ごとに学習・予測を行いました。
それぞれのモデルは基本的にはProbSpaceのトピックに投稿させていただいている以下のモデルを基本として、LSTMの部分にSimpleRNN、GRUを利用した3種類のモデルにつき、野菜分類ごとにハイパーパラメーターを調整して作成しています。
LSTM Base line−コメント付き (LB 0.27614 ) by Oregin (https://comp.probspace.com/competitions/vegetable_price/discussions/Oregin-Post9ed99a078ff6b67ea44d)
今回のコンペは、野菜の価格を予測するという時系列データを扱った課題でした。
3位という結果を残せて満足しているのですが、悔いが残る点としては、以下の2点です。
1点目は、最初の段階で地域による予測の分類は行わなかったので、該当する野菜の主な産地の天候情報に絞るなどの工夫で、もう少し精度があげられたのではないかという点です。
2点目は、価格について、そのままの値を利用して予測しましたが、対数化を試すことをすっかり忘れてしまっており、対数化することでも精度があげられたのではないかという点です。
他にも細かいところでは色々できたのではないかと考えています。
皆さんの解法を参考にさせていただきながら、今後のコンペに生かしていきたいと思います。
最後となってしまいましたが、本コンペを運営してくださいました、Probspase の運営の皆様、一緒にコンペに取り組んでいらっしゃった皆様、Twitter上でやりとりを実施させていただいた皆様に心より感謝申し上げます。
今後とも、よろしくお願いいたします。
cosho
3位入賞おめでとうございます!
分かり易いご説明で大変参考になります。
素人質問で恐縮ですが、何点がご質問がございます。
①ニューラルネットワーク系のモデルを活用された根拠はございますか。
②分類ごとのモデル選択はどのような基準で行われたのでしょうか。
③価格周期のスペクトラム化の詳細について、参考になる記事がございましたらぜひ教えてください。
チームでcatboost、SARIMA等の結果をアンサンブルして予測しましたが、validation結果とLBの動きが合わずに苦戦しました。
上記、今後のために伺えますと幸いです。よろしくお願いいたします!