ProbSpace_official
花粉飛散量予測コンペティションにご参加中の皆さま
この度は、弊社コンペティションにご参加いただき、誠にありがとうございます。
先日投稿いただいたトピックの中で、2018年以降のデータセットに日付のずれがあるのではないかとのご指摘をいただきました。
社内で精査いたしましたところ、ご指摘いただいた通りの期ずれを確認いたしましたので、
本トピックを通して対応を含め、ご連絡させていただきます。
コンペ参加中の皆さまには、大変ご迷惑をおかけいたしますこと、誠に申し訳ございません。
■ データセットにおける期ずれの問題について
2018年以降の花粉飛散量データにおいて、環境省公開の実データと1日分のずれがございました。具体的には、花粉飛散量のデータが1日前(24時間)のものとなっております。
例)2018年4月2日0時のデータ
(説明変数)降水量・気温・風向・風速 2018年4月2日0時の情報
(目的変数)花粉飛散量 2018年4月1日0時の情報
また、当事象につきましては、trainデータのみならず、testデータにおいても同様に存在することが判明いたしました。
データ編集の際のケアレスミスにより生じたものでございますが、コンペティション公開前に気づくべき問題でございました。
ご参加いただいている皆さま、スポンサー企業様にご迷惑をおかけすることとなり、誠に申し訳ございません。
■ 対応について
現行データ(ただし2017年を除く)のままであっても、時系列相関が実世界と比べ24時間遅れて発現する、と解釈された仮想世界のコンペティションとして、成立されるものと存じます。
その一方で、実世界の花粉飛散量を予測するアルゴリズムとしては不適切であり、課題の趣旨から外れることや、研究題材として分析に取り組まれている方もおりますことから、
train dataの再配布と、ground truthをリセットさせていただく対応が適当であると判断させていただきました。
既にご提出済みの皆さまには、多大なご迷惑をおかけいたしますこと、改めてお詫び申し上げます。
データの再アップロードにつきましては、本日11/10(木)中に、リーダーボードのリセットにつきましては、11/11(金)昼頃を予定しております。
この度は、混乱とご迷惑をおかけしてしまいましたこと、大変失礼いたしました。
また、データ不備に一早く気づき、ご連絡いただいたumetaro様、深く感謝申し上げます。
引き続き、当コンペティションをよろしくお願いいたします。
ProbSpace代表 内藤
tanuking0
過去の提出履歴に関しましては、新しいpublicデータで再計算された値が「提出履歴」ページに入るイメージで良いでしょうか?そうであると、過去の検討が多少は使えるので嬉しいです。
ProbSpace_official
告知させていただいておりました、リーダーボードのリセット対応につきまして、
本日11/11(金)15:00頃完了いたしました。
こちらにて、コンペティションを継続させていただきます。
なお、提出期日に関しましての変更はございません。
この度は、多大なご迷惑をおかけいたしました。
引き続き、どうぞよろしくお願いいたします。