[IterativeImputer] Completing matrix with shape (12183, 16)
[IterativeImputer] Change: 10.761506545250718, scaled tolerance: 2020033.124
[IterativeImputer] Early stopping criterion reached.
|
datetime |
precipitation_utsunomiya |
precipitation_chiba |
precipitation_tokyo |
temperature_utsunomiya |
temperature_chiba |
temperature_tokyo |
winddirection_utsunomiya |
winddirection_chiba |
winddirection_tokyo |
windspeed_utsunomiya |
windspeed_chiba |
windspeed_tokyo |
pollen_utsunomiya |
pollen_chiba |
pollen_tokyo |
0 |
2017020101 |
0.0 |
0.0 |
0.0 |
-1.0 |
4.1 |
2.9 |
16.0 |
1 |
2 |
2.7 |
2.5 |
1.3 |
0.0 |
8.0 |
0.0 |
1 |
2017020102 |
0.0 |
0.0 |
0.0 |
-1.1 |
4.2 |
2.6 |
1.0 |
1 |
1 |
3.3 |
1.5 |
0.9 |
0.0 |
24.0 |
4.0 |
2 |
2017020103 |
0.0 |
0.0 |
0.0 |
-0.7 |
4.2 |
2.4 |
1.0 |
15 |
16 |
4.0 |
1.7 |
0.6 |
4.0 |
32.0 |
12.0 |
3 |
2017020104 |
0.0 |
0.0 |
0.0 |
-1.1 |
4.4 |
1.8 |
1.0 |
15 |
1 |
4.1 |
3.1 |
1.4 |
0.0 |
12.0 |
0.0 |
4 |
2017020105 |
0.0 |
0.0 |
0.0 |
-1.2 |
4.1 |
1.5 |
2.0 |
14 |
14 |
3.7 |
3.4 |
0.9 |
0.0 |
32.0 |
4.0 |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
12178 |
2020033120 |
0.0 |
0.0 |
0.0 |
10.0 |
11.5 |
9.4 |
16.0 |
2 |
16 |
2.4 |
2.6 |
0.7 |
8.0 |
8.0 |
4.0 |
12179 |
2020033121 |
0.0 |
0.0 |
0.0 |
10.1 |
11.3 |
8.9 |
15.0 |
15 |
14 |
2.4 |
1.7 |
1.3 |
8.0 |
4.0 |
4.0 |
12180 |
2020033122 |
0.0 |
0.0 |
0.0 |
9.8 |
11.3 |
8.8 |
3.0 |
15 |
15 |
1.2 |
2.7 |
0.9 |
0.0 |
4.0 |
0.0 |
12181 |
2020033123 |
0.5 |
0.0 |
0.0 |
9.7 |
10.9 |
8.9 |
16.0 |
16 |
1 |
0.5 |
2.9 |
0.6 |
0.0 |
0.0 |
0.0 |
12182 |
2020033124 |
0.0 |
0.0 |
0.0 |
9.7 |
10.7 |
8.9 |
16.0 |
1 |
16 |
1.0 |
2.7 |
0.4 |
0.0 |
8.0 |
0.0 |
12183 rows × 16 columns
|
datetime |
precipitation_utsunomiya |
precipitation_chiba |
precipitation_tokyo |
temperature_utsunomiya |
temperature_chiba |
temperature_tokyo |
winddirection_utsunomiya |
winddirection_chiba |
winddirection_tokyo |
windspeed_utsunomiya |
windspeed_chiba |
windspeed_tokyo |
pollen_utsunomiya |
pollen_chiba |
pollen_tokyo |
time |
year |
month |
hour |
0 |
2017020101 |
0.049958 |
0.049958 |
0.049958 |
-1.0 |
4.1 |
2.9 |
16.0 |
1 |
2 |
2.7 |
2.5 |
1.3 |
0.0 |
8.0 |
0.0 |
2017-02-01 |
2017 |
2 |
1 |
1 |
2017020102 |
0.099668 |
0.099668 |
0.099668 |
-1.1 |
4.2 |
2.6 |
1.0 |
1 |
1 |
3.3 |
1.5 |
0.9 |
0.0 |
24.0 |
4.0 |
2017-02-01 |
2017 |
2 |
2 |
2 |
2017020103 |
0.148885 |
0.148885 |
0.148885 |
-0.7 |
4.2 |
2.4 |
1.0 |
15 |
16 |
4.0 |
1.7 |
0.6 |
4.0 |
32.0 |
12.0 |
2017-02-01 |
2017 |
2 |
3 |
|
datetime |
precipitation_utsunomiya |
precipitation_chiba |
precipitation_tokyo |
temperature_utsunomiya |
temperature_chiba |
temperature_tokyo |
winddirection_utsunomiya |
winddirection_chiba |
winddirection_tokyo |
windspeed_utsunomiya |
windspeed_chiba |
windspeed_tokyo |
pollen_utsunomiya |
pollen_chiba |
pollen_tokyo |
time |
year |
month |
hour |
12183 |
2020040101 |
0.099668 |
0.994536 |
0.994536 |
9.5 |
10.5 |
9.0 |
14.0 |
2 |
14 |
2.1 |
2.3 |
1.2 |
0.0 |
0.0 |
0.0 |
2020-04-01 |
2020 |
4 |
1 |
12184 |
2020040102 |
0.148885 |
0.995055 |
0.995055 |
9.2 |
10.3 |
9.0 |
2.0 |
16 |
14 |
1.4 |
2.7 |
0.8 |
0.0 |
0.0 |
0.0 |
2020-04-01 |
2020 |
4 |
2 |
12185 |
2020040103 |
0.197375 |
0.995524 |
0.995524 |
9.2 |
10.2 |
9.1 |
16.0 |
16 |
12 |
3.3 |
2.5 |
0.5 |
0.0 |
0.0 |
0.0 |
2020-04-01 |
2020 |
4 |
3 |
0%| | 0/9 [00:00<?, ?it/s]
CPU times: user 22.4 s, sys: 564 ms, total: 23 s
Wall time: 12.1 s
Text(0, 0.5, 'PublicLB Score')
検証スコア、PublicLBスコアには異なるseed間で明確なばらつきがあるようです
ここで注目すべきはPublicLBにおいて最も良いスコア(seed=6)と最も悪いスコア(seed=5)とでは0.6以上の差があるという点です
seed値が異なるだけで現時点でのPublicLBにおいて、6-20位と大きく乱高下してしまいます
このようにseed値の変更だけでPublicLB順位は大きくぶれることから、PrivateLBスコアにおいても大きなShakeが起きる可能性があると思います
また今回のように少ない特徴だけでもある程度の精度を出せること、そして自身の環境ではラグ特徴(shift,rolling...)や集計特徴(mean, std...)等様々な特徴を追加しても、大きな精度向上につながっていない点を踏まえると、更なる精度向上には特徴生成以外(補正方法の模索や予測方法の検討など)に力を入れるべきなのかもしれません
それとも最後に鍵になるのは幸運なseed値なのでしょうか??