タクシー需要予測

未来のタクシー需要を先読みしよう！

賞金: 100,000 円参加ユーザー数: 288 約2年前に終了

参加する

mini_forest

異常値？特殊日？の発見と対応方法の検討

異常値？特殊日？の共有

参加者同士が切磋琢磨し、またノウハウ・知識を共有することが目的
異常値？特殊日？を見つけたので対応方法を検討してみましたので、メモになります。

import pandas as pd
pd.options.display.max_columns = 100
pd.options.display.max_rows = 999
pd.options.display.float_format = '{:.6f}'.format
import numpy as np
import math
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
import seaborn as sns

import datetime
import time

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive

path = "/content/drive/MyDrive/tmp/7_probspace/3_taxi/"
train = pd.read_csv(path+'data/train_data.csv', parse_dates=["tpep_pickup_datetime"]).rename(columns={'tpep_pickup_datetime':'ds'})

trainにNullはないが、全ての地点で需要が極端に少ない時間がないかチェック

train_ds = train.set_index("ds").astype(int)
train_ds.loc[train_ds.sum(axis=1)<=100,:]

	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63	64	65	66	67	68	69	70	71	72	73	74	75	76	77	78
ds
2017-03-12 02:00:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2017-03-12 02:30:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	2	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	1	0	0	0	0	0	0	2	0	0	0	0	0	0
2018-03-11 02:00:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2018-03-11 02:30:00	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2019-03-10 02:00:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2019-03-10 02:30:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0

前後の時間を見る

train_ds.loc[((train_ds.index >= "2017-03-12 01:00:00")&(train_ds.index <= "2017-03-12 04:00:00")),:]
# 他の時間帯
# train_ds.loc[((train_ds.index >= "2018-03-11 01:00:00")&(train_ds.index <= "2018-03-12 04:00:00")),:]
# train_ds.loc[((train_ds.index >= "2019-03-10 01:00:00")&(train_ds.index <= "2019-03-12 04:00:00")),:]

	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63	64	65	66	67	68	69	70	71	72	73	74	75	76	77	78
ds
2017-03-12 01:00:00	82	28	23	19	22	10	14	24	17	19	38	315	72	2	8	4	243	22	27	1020	44	19	179	22	101	257	131	425	15	113	11	59	89	3	49	134	130	23	261	24	9	690	33	10	271	166	91	141	249	20	190	7	28	115	2	23	91	6	30	12	128	326	163	57	67	295	53	87	81	165	7	152	419	56	59	7	21	28	181
2017-03-12 01:30:00	78	35	14	15	11	3	4	25	13	13	37	359	53	0	7	0	238	11	28	965	32	28	165	20	72	249	131	419	9	121	7	19	104	2	32	115	102	18	280	7	7	786	23	11	262	92	85	102	223	21	170	6	23	100	2	14	77	8	14	13	113	259	138	70	52	294	47	52	69	96	11	155	420	59	38	3	16	12	132
2017-03-12 02:00:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2017-03-12 02:30:00	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	2	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	1	0	0	0	0	0	0	2	0	0	0	0	0	0
2017-03-12 03:00:00	84	29	15	14	6	5	2	21	10	9	27	330	78	1	12	2	267	18	30	1089	22	26	171	13	107	237	108	407	8	107	17	21	70	1	35	101	68	28	256	11	10	817	22	11	280	67	68	120	243	20	168	4	18	115	2	7	80	6	22	9	115	252	141	89	58	300	43	59	46	95	8	187	403	73	56	7	12	19	160
2017-03-12 03:30:00	123	38	6	12	5	4	2	28	22	6	15	332	98	2	5	4	264	23	17	947	19	11	161	13	73	202	82	383	8	76	18	7	81	1	25	76	39	10	252	12	10	715	23	9	240	58	52	99	231	11	145	6	23	96	3	10	69	21	23	23	109	219	152	77	33	272	29	38	38	66	11	186	356	66	55	7	19	11	116
2017-03-12 04:00:00	88	51	6	10	8	4	4	22	32	8	9	274	115	0	10	0	283	35	26	884	21	15	131	10	63	196	66	268	18	73	17	1	74	2	31	102	26	8	192	13	7	633	13	6	143	36	51	120	210	20	131	6	19	87	0	10	44	18	16	15	89	231	111	63	45	271	21	45	38	57	15	161	278	69	83	11	14	14	114

train_plot = train[("2017-3-10" <= train["ds"])&(train["ds"] < "2017-3-14")]

fig, ax = plt.subplots(79, 1, figsize=(20, 79*4))
for i,obj in enumerate(list(map(str, range(79)))):
    ax[i].plot(train_plot['ds'], train_plot[obj])
    ax[i].axvspan(datetime.datetime(2017, 3, 12, 2, 0), datetime.datetime(2017, 3, 12, 2, 30), color="orange")
    ax[i].set_title(obj)
plt.show()
plt.close()
plt.clf()
# グラフは添付データにて

Output hidden; open in https://colab.research.google.com to view.

ここの対応を検討

データ取得元に確認して、何か異常か確認する（今回はできない）
Google先生に聞く（外部データの使用申請）

モデル作成時の手法を検討

フラグ化する（外部データの使用申請すればOK？毎年3月の第2日曜日の午前2時）
補間する（予測期間に該当日があれば、手動でゼロ？にする）
無視する（予測期間に該当日があれば、手動でゼロ？にする）

# 補間する場合のサンプルコードをご参考までに
## pandas の interpolate を利用
train_hosei = train.copy()
train_hosei.loc[((train_hosei["ds"]>="2017-03-12 02:00:00")&(train_hosei["ds"]<="2017-03-12 02:30:00")),list(map(str, range(79)))] = float('nan')
train_hosei.loc[((train_hosei["ds"]>="2018-03-11 02:00:00")&(train_hosei["ds"]<="2018-03-11 02:30:00")),list(map(str, range(79)))] = float('nan')
train_hosei.loc[((train_hosei["ds"]>="2019-03-10 02:00:00")&(train_hosei["ds"]<="2019-03-10 02:30:00")),list(map(str, range(79)))] = float('nan')

train_hosei = train_hosei.set_index("ds")
train_hosei = train_hosei.interpolate(method='linear', axis=0)
train_hosei = train_hosei.round().astype(int)

train_hosei = train_hosei.reset_index()
train_hosei[(train_hosei["ds"]>="2019-03-10 01:00:00")&(train_hosei["ds"]<="2019-03-10 04:00:00")]

	ds	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63	64	65	66	67	68	69	70	71	72	73	74	75	76	77	78
38306	2019-03-10 01:00:00	65	18	8	7	6	1	3	23	6	23	28	232	47	0	3	2	215	17	19	718	24	14	162	8	81	186	108	308	5	48	9	53	86	21	38	89	89	13	148	7	7	472	19	5	232	94	82	78	191	18	122	4	11	115	3	29	102	2	12	9	77	209	121	33	27	172	32	63	29	69	5	85	360	29	24	4	9	17	118
38307	2019-03-10 01:30:00	88	19	3	7	8	2	3	16	14	14	30	187	49	1	4	1	214	14	15	707	12	12	127	4	58	173	112	320	9	44	3	53	77	10	29	89	70	5	161	6	10	594	18	3	254	55	72	80	176	15	81	2	10	108	2	20	76	5	8	7	51	152	102	34	31	172	34	42	27	59	5	95	347	24	32	2	12	9	71
38308	2019-03-10 02:00:00	78	20	2	7	7	3	2	14	13	11	32	188	47	1	5	1	224	15	17	705	15	11	132	5	59	172	104	323	9	58	4	41	79	7	28	84	62	9	162	7	11	594	15	4	227	52	68	81	180	14	86	2	10	99	1	19	76	4	9	7	49	144	98	37	29	170	32	37	28	55	5	111	356	27	32	2	11	11	71
38309	2019-03-10 02:30:00	69	21	2	8	6	3	1	13	11	8	35	189	45	0	5	2	234	17	20	703	17	10	138	7	61	172	95	325	9	71	4	29	81	4	26	78	54	13	164	7	11	593	12	5	201	49	63	82	184	14	90	1	11	89	1	18	76	2	10	8	47	135	93	39	26	167	30	31	28	52	5	127	365	29	31	2	10	13	71
38310	2019-03-10 03:00:00	59	22	1	8	5	4	0	11	10	5	37	190	43	0	6	2	244	18	22	701	20	9	143	8	62	171	87	328	9	85	5	17	83	1	25	73	46	17	165	8	12	593	9	6	174	46	59	83	188	13	95	1	11	80	0	17	76	1	11	8	45	127	89	42	24	165	28	26	29	48	5	143	374	32	31	2	9	15	71
38311	2019-03-10 03:30:00	64	17	4	10	8	5	3	13	6	8	19	216	49	1	6	1	253	17	10	706	8	11	150	2	61	135	71	255	11	52	9	5	73	2	37	74	36	10	132	4	9	551	8	5	91	48	29	85	174	17	87	5	12	67	2	8	43	1	9	8	53	121	76	28	23	122	15	24	23	27	13	127	291	31	37	11	6	11	61
38312	2019-03-10 04:00:00	53	29	2	3	2	3	2	18	6	7	19	247	31	0	5	1	211	16	13	528	19	12	127	5	54	127	65	160	6	36	8	7	57	2	14	51	33	4	113	4	5	441	5	5	60	35	52	75	149	14	80	9	8	70	3	11	32	5	5	4	29	116	71	35	15	125	8	20	12	19	12	119	200	28	30	4	5	16	74

その他の対応方法などございましたら、スキルアップのためにコメント頂けますと、（私は）泣いて喜びます。

# ところで、11月の第1日曜日午前2時は？
display(train_ds.loc[((train_ds.index >= "2017-11-05 01:30:00")&(train_ds.index <= "2017-11-05 03:00:00")),:])
# 直前に増加？

	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63	64	65	66	67	68	69	70	71	72	73	74	75	76	77	78
ds
2017-11-05 01:30:00	159	52	11	22	8	6	8	39	14	25	43	515	109	1	19	8	511	33	36	1583	64	32	320	29	210	399	195	640	14	125	17	18	200	0	71	153	157	24	337	13	15	1242	35	13	417	165	135	247	444	30	309	17	33	343	0	23	149	4	25	19	140	353	218	86	92	421	58	80	52	109	5	226	660	81	84	14	32	27	172
2017-11-05 02:00:00	48	23	5	15	6	2	1	13	12	5	25	207	57	1	8	2	200	19	23	596	20	10	79	5	73	87	59	242	6	73	6	4	72	0	13	54	28	5	114	3	4	487	12	2	218	22	40	95	151	5	82	1	6	82	2	9	34	2	7	10	47	129	93	39	31	127	15	21	22	27	1	108	239	27	31	8	10	4	62
2017-11-05 02:30:00	28	14	1	19	5	0	4	13	6	8	13	147	52	0	3	0	196	18	11	437	9	4	76	4	66	99	46	181	5	49	8	3	59	0	18	56	24	3	102	9	5	400	9	2	177	27	28	92	111	5	72	2	7	59	1	4	18	7	7	8	51	117	79	34	16	93	17	17	18	18	5	105	223	20	15	8	7	6	50
2017-11-05 03:00:00	23	21	4	6	4	0	6	9	6	6	11	133	33	0	9	0	179	13	6	311	5	10	58	1	61	101	43	128	3	49	8	3	38	2	13	47	15	5	71	9	5	302	4	4	142	28	24	69	112	4	54	2	4	49	1	2	20	3	5	10	35	129	74	21	18	76	6	14	14	23	2	92	158	26	21	5	11	4	38

train_plot = train[("2017-10-28" <= train["ds"])&(train["ds"] < "2017-11-14")]

fig, ax = plt.subplots(79, 1, figsize=(20, 79*4))
for i,obj in enumerate(list(map(str, range(79)))):
    ax[i].plot(train_plot['ds'], train_plot[obj])
    # ax[i].axvspan("2017-11-05 02:00:00", "2017-11-05 03:00:00", color="orange")
    ax[i].axvspan(datetime.datetime(2017, 11, 5, 2), datetime.datetime(2017, 11, 5, 3), color="orange")
    ax[i].set_title(obj)
plt.show()
plt.close()
plt.clf()
# グラフは添付データにて

Output hidden; open in https://colab.research.google.com to view.

添付データ

g_1_March_Second_Sunday.png?X-Amz-Expires=10800&X-Amz-Date=20260125T094657Z&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIP7GCBGMWPMZ42PQ

g_2_November_First_Sunday.png?X-Amz-Expires=10800&X-Amz-Date=20260125T094657Z&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIP7GCBGMWPMZ42PQ

タクシー需要予測

異常値？特殊日？の発見と対応方法の検討

異常値？特殊日？の共有

trainにNullはないが、全ての地点で需要が極端に少ない時間がないかチェック

前後の時間を見る

ここの対応を検討

モデル作成時の手法を検討

その他の対応方法などございましたら、スキルアップのためにコメント頂けますと、（私は）泣いて喜びます。

添付データ

new user