野菜の流通量・価格にはある季節性(周期性)があるため、今回のコンペでも重要な要素になりそうです。このnoteではその部分を確認したいと思ます。
Saving ps_yasai.zip to ps_yasai.zip
Archive: ps_yasai.zip
inflating: ps_yasai/submission.csv
inflating: ps_yasai/train_data.csv
inflating: ps_yasai/weather.csv
trainデータの列数(=品目×地域)は340、品目は42種類あります
品目ごとの時系列表示
品目・地域ごとにバラバラに動いているのではなく、同じ品目であれば地域間である程度の連動性がありそうです。
また、品目により価格に周期性がありそうです。
とはいえ、連動性・周期性は品目によりその「強さ」に違いがありそうです。
きゅうり、れんこんは連動性・周期性が強そうな品目、その他の菜類、ねぎは弱そうな品目の例です。
(注) 品目数が結構多いので、一部だけを抜粋して表示します
周期性のみを利用した場合の予測精度
各月の価格の幾何平均を予測値とした場合について調べます
|
えのきだけ_中国 |
えのきだけ_九州 |
えのきだけ_北海道 |
えのきだけ_北陸 |
えのきだけ_四国 |
えのきだけ_東北 |
えのきだけ_東海 |
えのきだけ_近畿 |
えのきだけ_関東 |
かぶ_北海道 |
... |
生しいたけ_九州 |
生しいたけ_北海道 |
生しいたけ_北陸 |
生しいたけ_四国 |
生しいたけ_東北 |
生しいたけ_東海 |
生しいたけ_近畿 |
生しいたけ_関東 |
year |
month |
date |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2016-01-01 |
5.749393 |
5.707110 |
5.717028 |
5.613128 |
5.587249 |
5.361292 |
5.627621 |
5.652489 |
5.631212 |
4.820282 |
... |
6.954639 |
6.602588 |
7.115582 |
6.928538 |
6.895683 |
7.020191 |
7.014814 |
7.019297 |
2016 |
1 |
2016-02-01 |
5.723585 |
5.755742 |
5.733341 |
5.662960 |
5.680173 |
5.627621 |
5.655992 |
5.686975 |
5.673323 |
5.056246 |
... |
6.862758 |
6.620073 |
7.123673 |
6.944087 |
6.871091 |
7.037906 |
7.027315 |
7.017506 |
2016 |
2 |
2016-03-01 |
5.501258 |
5.379897 |
5.758902 |
5.389072 |
5.424950 |
5.099866 |
5.347108 |
5.361292 |
5.318120 |
5.220356 |
... |
6.605298 |
6.590301 |
7.091742 |
6.786717 |
6.846943 |
6.896694 |
6.842683 |
6.950815 |
2016 |
3 |
2016-04-01 |
5.424950 |
5.204007 |
5.717028 |
5.273000 |
5.308268 |
5.030438 |
5.323010 |
5.313206 |
5.241747 |
5.241747 |
... |
6.618739 |
6.598509 |
6.921658 |
6.717805 |
6.787845 |
6.828712 |
6.782192 |
6.889591 |
2016 |
4 |
2016-05-01 |
5.446737 |
5.308268 |
5.723585 |
5.327876 |
5.370638 |
5.135798 |
5.398163 |
5.393628 |
5.327876 |
5.010635 |
... |
6.710523 |
6.565265 |
6.961296 |
6.793466 |
6.765039 |
6.848005 |
6.852243 |
6.897705 |
2016 |
5 |
5 rows × 342 columns
trainデータに対する予測の精度
RMLSE train data: 0.22453
2019年12月の予測値
|
id |
y |
0 |
えのきだけ_中国 |
331.571958 |
1 |
えのきだけ_九州 |
313.940243 |
2 |
えのきだけ_北海道 |
288.437246 |
3 |
えのきだけ_北陸 |
302.597708 |
4 |
えのきだけ_四国 |
315.591973 |
月ごとの価格の幾何平均でまずまずの精度が得られました。
今回のコンペにおいて、周期性(月ごとの影響)がそれなりに意味を持つことが示されたと思います。