【お詫び】花粉飛散量予測コンペの学習データ再配布・リーダーボードリセットのお知らせ
花粉飛散量予測コンペティションにご参加中の皆さま
この度は、弊社コンペティションにご参加いただき、誠にありがとうございます。
先日投稿いただいたトピックの中で、2018年以降のデータセットに日付のずれがあるのではないかとのご指摘をいただきました。
社内で精査いたしましたところ、ご指摘いただいた通りの期ずれを確認いたしましたので、
本トピックを通して対応を含め、ご連絡させていただきます。
コンペ参加中の皆さまには、大変ご迷惑をおかけいたしますこと、誠に申し訳ございません。
■ データセットにおける期ずれの問題について
2018年以降の花粉飛散量データにおいて、環境省公開の実データと1日分のずれがございました。具体的には、花粉飛散量のデータが1日前(24時間)のものとなっております。
例)2018年4月2日0時のデータ
(説明変数)降水量・気温・風向・風速 2018年4月2日0時の情報
(目的変数)花粉飛散量 2018年4月1日0時の情報
また、当事象につきましては、trainデータのみならず、testデータにおいても同様に存在することが判明いたしました。
データ編集の際のケアレスミスにより生じたものでございますが、コンペティション公開前に気づくべき問題でございました。
ご参加いただいている皆さま、スポンサー企業様にご迷惑をおかけすることとなり、誠に申し訳ございません。
■ 対応について
現行データ(ただし2017年を除く)のままであっても、時系列相関が実世界と比べ24時間遅れて発現する、と解釈された仮想世界のコンペティションとして、成立されるものと存じます。
その一方で、実世界の花粉飛散量を予測するアルゴリズムとしては不適切であり、課題の趣旨から外れることや、研究題材として分析に取り組まれている方もおりますことから、
train dataの再配布と、ground truthをリセットさせていただく対応が適当であると判断させていただきました。
既にご提出済みの皆さまには、多大なご迷惑をおかけいたしますこと、改めてお詫び申し上げます。
データの再アップロードにつきましては、本日11/10(木)中に、リーダーボードのリセットにつきましては、11/11(金)昼頃を予定しております。
この度は、混乱とご迷惑をおかけしてしまいましたこと、大変失礼いたしました。
また、データ不備に一早く気づき、ご連絡いただいたumetaro様、深く感謝申し上げます。
引き続き、当コンペティションをよろしくお願いいたします。
ProbSpace代表 内藤