未来のタクシー需要を先読みしよう!
magichan
運営担当者
一点質問がございます。ルールにおいて
『外部データの使用:原則、本コンペティションの基本情報/データから取得できるデータのみを用いてチャレンジして下さい。』
となっておりますが、下記のような米国での祝日およびイベントの日付等を特徴量として使用することは問題ありますでしょうか。
magichan様
お問い合わせいただき、ありがとうございます。ProbSpace運営事務局です。祝日やイベント等の日付利用について、回答させていただきます。
・祝日の使用ニューヨーク州の祝日につきましては、ご使用いただけるものとします。2019年の祝日情報については、下記ニューヨーク州の公式Webサイトをご参照ください。
ニューヨーク州 法定休日カレンダーhttps://www.cs.ny.gov/attendance_leave/2019_legal_holidays.cfm
・イベント日の使用祝日に該当しないイベント日の使用は、禁止とさせていただきます。理由としましては、仮にバレンタインデーのような日を許可すると、スーパーボウル・サンデーやブラックフライデーのような他のイベントについての取り扱いが問題となり、線引きが困難となるためです。
ご参考までに、例としてあげていただいたリストの中で、使用が禁止されているものは以下となります。
・利用対象外のイベントバレンタインデー:2月14日、奴隷解放記念日:6月19日(※ 2019年時点では非祝日)、ハロウィン:10月31日、New Year's Eve:12月31日
なお、外部データの使用につきましては、本コンペでは原則禁止といたしますが、例外的に利用申請可能なプロセスを用意いたしました。(運用につきましては、基本情報/ルールに追記されております)
ご確認のほど、よろしくお願いいたします。
運営様
お世話になっております。念の為確認ですが、日付を指定できる特徴量生成は一律不可という理解で良いでしょうか
具体的には以下は禁止と理解しました。1: 日付に対して影響を比較するため、各日付に対してfor文でlocalの変化を見て影響のあった日付にフラグ立てする行為2: 月、月内週、曜日をone-hot encodingし、その中で特徴量選択する行為(結果として11月、第4週、金曜日のフラグだけ残った場合、実質的にブラックフライデーを指定できるため)3: 特定の休日に対してその前後数日を指定する行為(New Year's Eveを指定は禁止のため)4: 全休日に対してその前後数日を指定する行為(フラグ立ての調整によって結果的に特定の日をフラグ立てが可能なため)
結果、かなり特徴量生成の幅が狭くなってしまうのですが……(逆に1や2などがOKの場合、知識としてイベント日付を使ったこととどう見分けるのでしょうか)。
運営担当者様
横槍になり申し訳ありませんが、自分もtanuking0さんと同様の懸念をしております。
丁寧にEDAをした人ならば誰でも、【法定休日やイベント日時といった外部情報を参照するまでもなく、】以下のような事実に常識的に辿り着き、特徴量として追加できるように思われます。
2: 毎年m月の第n曜日、あるいはM月D日に需要が急落すること。これらをフラグとして特徴量に追加するとスコアが大幅に改善すること。
4: 2に関して、その前後数日もまた、需要が急落すること。これをフラグとして特徴量に追加するとスコアが大幅に改善すること。
(番号はtanuking0さんに揃えております。)
これらを禁止する場合、EDAによる自由な創案を阻害すること、Prophetが採用しているものに代表される加法・乗法的な統計モデルにおいてパラメータ推定が正しく行えなくなること、が起きます。
まとめますと、・ご返信いただいた「法定休日は使えるがそれ以外のイベント日は使用禁止とする」というルールでは、「イベント日と認識せずに特徴量として追加可能である」というグレーゾーンが存すること。全面的な一律禁止か、一律許可、あるいは抜け道のない精緻なルール設定、のいずれかが必要である。・もし上の点についても一律禁止とするならば、特徴量の面でもモデリングの面でも選択肢が大幅に狭まり、参加者間でのバラエティが減少すること。
以上になります。ご検討のほどよろしくお願いいたします。
tanuking0様、4tsuyama様
お世話になっております。先日の回答において、誤解を招く可能性のある表現がございました。改めて、補足させていただきます。
前回は「外部データの使用」についての問い合わせと認識し、以下を意図として回答させていただきました:
1.外部からの、ニューヨーク州の法定休日情報の取得:可2.外部からの、イベント情報の取得:禁止 ※ 2.には外部情報を目視しながら手動でフラグを立てる行為も含まれます
一方、この制約には、特徴量解析に制限を加える意図はございません。すなわち、
3.外部情報を用いず行ったEDAの結果として、イベントの情報量を持つ特徴量を作成する行為は可
であり、tanuking0様、4tsuyama様の懸念される1-4の分析は、すべて許可されます。ただしその場合、2と3の判別ができないのではないか、つまり、2=外部データから得た情報を基に特徴量を作成した場合と、3=EDAの過程で特徴量を作成した場合とを、判別できないのでないか、という懸念が生まれるものと存じます。
それに対しましては、優勝者のコードをOpen Review機能で公開・監視することで、不正行為の抑止を図るものとしております。しかしながら、それでも完全な対策は難しく、いわゆるグレーゾーンの存在は避けられないと認識しています。
そのようなデメリットを認識しつつもなお、3.の分析を許容する理由といたしましては、当サイトの運営目的にございます。弊社ProbSpaceが主催するコンペにおきましては、単に参加者を順位付けすることを目的としているわけではなく、参加者同士が切磋琢磨し、またノウハウ・知識を共有することで、皆でスキルアップを目指すこと、を目的の一つとしております。
特徴量生成への制限を設けるとは、この目的から外れることとなりますため、弊社が主催するコンペにおいては、これまでも、そしてこれからも制限を設ける予定はございません。
なお、一部の参加者様からは、すべての外部データを許容すればよいのではないか、とのご意見もあるかと思います。しかしながら、本コンペのテーマであるタクシー需要予測においては、予測精度を向上させる要因が無数にあります。そのため、それが「外部データの探索」競技と化す可能性を考慮し、外部データの使用には制限を設けさせていただいております。
前回の回答で混乱を招く表現となった点、お詫び申し上げます。何かご不明点や疑問点がございましたら、いつでもお気軽にお知らせください。
ご確認のほど、よろしくお願い申し上げます。
白黒つけ難い問題に対して明確な回答ありがとうございます。
弊社ProbSpaceが主催するコンペにおきましては、単に参加者を順位付けすることを目的としているわけではなく、参加者同士が切磋琢磨し、またノウハウ・知識を共有することで、皆でスキルアップを目指すこと、を目的の一つとしております。特徴量生成への制限を設けるとは、この目的から外れることとなりますため、弊社が主催するコンペにおいては、これまでも、そしてこれからも制限を設ける予定はございません。
この精神を理解した上でコードを作成したいと思います。
詳細な回答大変ありがとうございます。日付の使用の件承知いたしました。
それでは引き続き宜しくお願いいたします。
tanuking0様、magichan様
お世話になっております。また、何かご質問・疑問 等がありましたら、いつでもお問い合わせください。
引き続き、よろしくお願いいたします。