5th place solution
運営の方々、本コンペを開催してくださりありがとうございました。
また、参加者の皆様もお疲れ様でした。
Private LB 5位(8.42503)の解法の共有です。
https://github.com/uchsds/ProbSpace_pollen_counts_solution
工夫した点としては、
・大きい値の比率が高くなるデータセットの構築
・積算気温から計算できる花粉飛散量の予測値を特徴量として使用した点
・上で計算した2020年の花粉合計量を使って、他の年の花粉飛散量を2020年のスケールに合わせた点
失敗した点としては、
・交互作用項を全通り(数千個)作成したこと
→特徴量削減はしたが、ノイズが乗ってしまった
あと計算時間が長すぎる…(処理に1日以上かかりました)
CVでグラフ形状を毎回確認しながら進めていましたが、どうしても大きい値が予測できませんでした。
いろいろ工夫しましたが、最後まで改善することはできませんでした。
何か良い方法があれば今後のためにもご教授いただきたいです。