Ridgelinezとの共同開催第二弾!花粉予報にチャレンジ!
uchs
運営の方々、本コンペを開催してくださりありがとうございました。また、参加者の皆様もお疲れ様でした。
Private LB 5位(8.42503)の解法の共有です。https://github.com/uchsds/ProbSpace_pollen_counts_solution
工夫した点としては、・大きい値の比率が高くなるデータセットの構築・積算気温から計算できる花粉飛散量の予測値を特徴量として使用した点・上で計算した2020年の花粉合計量を使って、他の年の花粉飛散量を2020年のスケールに合わせた点
失敗した点としては、・交互作用項を全通り(数千個)作成したこと →特徴量削減はしたが、ノイズが乗ってしまった あと計算時間が長すぎる…(処理に1日以上かかりました)
CVでグラフ形状を毎回確認しながら進めていましたが、どうしても大きい値が予測できませんでした。いろいろ工夫しましたが、最後まで改善することはできませんでした。何か良い方法があれば今後のためにもご教授いただきたいです。
一部コード記載ミスがありましたので追記します。特徴量の移動平均、最大値、最小値を取得する関数がすべて降水量の移動平均、最大値、最小値を取得する関数になっていました。今回移動平均、最大値、最小値は最終的に使用していませんので、推論結果に影響はありませんが、移動平均、最大値、最小値が特徴量として採用されなかったのはこれが原因の可能性があります。(確認はしていません)提出ファイルはすべてこのコードで実行していますので、コードの修正はしていません。もし何かしら利用される場合はご注意ください。