Ridgelinezとの共同開催第二弾!花粉予報にチャレンジ!
tanuking0
運営様
train_v2.csvの目的変数にtrain.csvには存在しない異常値があります。
例えば、train_v2.csvにおいては、2017020908、2017020909、2017020910のpollen_utsunomiyaの値がそれぞれ-9996, -9996, -9998となっています。こちらはtrain.csvでは0でした。
こちらの数値はtrain.csvにあった0と考えればよいでしょうか?それとも異常値として処理を考えるべきものでしょうか?
再配布の流れからいうと前者かと思いますが、もし全部0に直せばよいのだとしても、train_v2.csvに変更後にコンペに参加された方にはdisadvantageとなりますのでご対応いただければ幸いです(-9996等も混ざっていることで、単純に0にして良いかどうか迷う値かなと思います)。
もし何か勘違いだったらすみません。
自分も同じ事象を確認しました。tanuking0さんの勘違いではありません。
tanuking0様、Akahachi様
ご指摘いただき、ありがとうございます。また、train_v2.csvの異常値データに関するご連絡が遅くなり申し訳ございません。
異常値データに関しましては、以下の通りとなります。(データタブに、補足説明として追記いたしました。ご確認いただけますと幸いです)
■花粉飛散量に関する補足空白, -9996,-9997,-9998については下記を表しています-9998:降雪による欠測-9997:黄砂による欠測-9996:その他の欠測(前後の時間や周辺観測値と比較して不自然なデータ)空白:未観測または通信障害による欠測
異常値が発生する該当日時に関しましては、2月の飛散量が少ない時期 もしくは 降雨量が高い日に発生することから、旧データにおいては0とされておりました。一方で、仮にモデル精度への影響が無かったとしても、異常値データの置換についてはモデル作成者が判断すべき変数であることから、データ改変されること自体が不適切であったと判断し、データ再配布の際 異常値データを戻して提供させていただきました。
説明不備により、ご不便おかけいたしました。ご確認のほど、よろしくお願いいたします。