train.csvになくtrain_v2.csvに現れる異常値について質問

運営様

train_v2.csvの目的変数にtrain.csvには存在しない異常値があります。

例えば、train_v2.csvにおいては、2017020908、2017020909、2017020910のpollen_utsunomiyaの値がそれぞれ-9996, -9996, -9998となっています。こちらはtrain.csvでは0でした。

こちらの数値はtrain.csvにあった0と考えればよいでしょうか?それとも異常値として処理を考えるべきものでしょうか?

再配布の流れからいうと前者かと思いますが、もし全部0に直せばよいのだとしても、train_v2.csvに変更後にコンペに参加された方にはdisadvantageとなりますのでご対応いただければ幸いです(-9996等も混ざっていることで、単純に0にして良いかどうか迷う値かなと思います)。

もし何か勘違いだったらすみません。

Aws4 request&x amz signedheaders=host&x amz signature=de291b31cdb9f45c67ae075c896262a564644818684bdd5e6be3d0e2e72af19c
Akahachi

自分も同じ事象を確認しました。tanuking0さんの勘違いではありません。

Aws4 request&x amz signedheaders=host&x amz signature=5af1ae9b61e2d507e268676487cc8046239b98e944614e15a47eef7895e5e5d3
ProbSpace_official

tanuking0様、Akahachi様

ご指摘いただき、ありがとうございます。
また、train_v2.csvの異常値データに関するご連絡が遅くなり申し訳ございません。

異常値データに関しましては、以下の通りとなります。
(データタブに、補足説明として追記いたしました。ご確認いただけますと幸いです)


■花粉飛散量に関する補足
空白, -9996,-9997,-9998については下記を表しています
-9998:降雪による欠測
-9997:黄砂による欠測
-9996:その他の欠測(前後の時間や周辺観測値と比較して不自然なデータ)
空白:未観測または通信障害による欠測


異常値が発生する該当日時に関しましては、2月の飛散量が少ない時期 もしくは 降雨量が高い日に発生することから、旧データにおいては0とされておりました。
一方で、仮にモデル精度への影響が無かったとしても、異常値データの置換についてはモデル作成者が判断すべき変数であることから、データ改変されること自体が不適切であったと判断し、データ再配布の際 異常値データを戻して提供させていただきました。

説明不備により、ご不便おかけいたしました。
ご確認のほど、よろしくお願いいたします。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。