newduck
以下、4件質問とさせてください。①データラベルの意味は、以下に説明がありますが、https://comp.probspace.com/competitions/kiva2021
の3つの意味をもう少し詳しく教えて頂けませんでしょうか?
②yshr10icさんの下記EDAによると、trainとtestでIMAGE_IDの重複が725行あるようです。https://comp.probspace.com/competitions/kiva2021/discussions/yshr10ic-Post804b21dc05c4561cee57このIMAGE_IDの重複を用いたコード(例:trainのLOAN_AMOUTを同じIMAGE_IDを持つtestにコピーする)を書いても良いでしょうか?
③特徴量作成について手動(提出コード外)での特徴量作成は許可されますでしょうか?意識合わせのための一例ですが、画像データに対して、「ローンの目的に沿った機器(ミシン等)と写っているかどうか」を人間が判断してtrain、testに特徴量を作成し、学習・推論に利用する等を許可されますでしょうか?
④提出回数のリセットのルール提出回数のリセットのルールを教えて頂けませんでしょうか?以前、下記の議論があったようですが、できれば現行のルールをサイトの分かりやすい所に明記してほしいです。https://comp.probspace.com/competitions/spam_mail/discussions/Oregin-Poste7aa3991ed4f84cb2166
(その上でですが、現行は24時間(23時間?)リセット方式かと思うのですが、上記でOregin様が書いている通りの理由で、私も定時でリセット方式の方が良いと思います)
②、③は既に投稿済の内容に影響の出る場合もあるかと心配しておりますが、回答を教えて頂ければと思います。
横から出てきてすみません。
私も④について、定時リセット方式に賛成です。「定時」直前に提出が集中することを回避したい等の理由で現行の方式を変更できないのであれば、せめて提出履歴に表示される提出時間を分単位のタイムスタンプにしてもらえるとありがたいと思っています。
ついでですが、②に関してはtrainデータとtestデータが時間で区切られていて、LOAN_IDの重複はありません。したがって仮にLOAN_ID以外のデータが重複していたとしても、それは同じ内容のまま異なるLOANとして複数回融資を募っているためで、LOAN_AMOUNTが同じ額になるとは限らないと思います。
newduck様
お問い合わせありがとうございます。大変お待たせいたしました。いただいた質問に関しまして、ご回答いたします。
①データラベルの意味大変申し訳ございませんが、データラベルの詳細については一般公開されている以上の情報については提供できないこととなっております。ただ、お問い合わせいただいたデータラベルに関して、 下記情報がございましたのでご共有いたします。(データカラムについてのkiva公式見解ではないこと予めご了承ください) ・DISTRIBUTION_MODEL(融資形態)field_partnerとdirectの2値 実際の融資については、通常フィールドパートナーと呼ばれる現地のマイクロファイナンス機関から行われます。Kivaが直接コントロールしている融資と分けるために、field_partner / directと分類されているものと思われます。 参考:http://kivajapan.web.fc2.com/10.html・CURRENCY_POLICY(通貨方針) filed partnerは為替リスクについて、自ら管理するか、融資者間でリスクを共有するリスクプログラムに参加するか、選択することができます。 参考:https://pages.kiva.org/blog/new-kiva-feature-currency-risk-protection・CURRENCY_EXCHANGE_COVERAGE_RATE(通貨交換レート) 為替リスクプログラムについては、2種類のモデルがされており、 - field partnerが10%の為替変動まではリスクを負担するモデル - 100%融資者間でリスク共有されるモデルいずれかを選択可能なようです。 参考:https://www.kiva.org/blog/what-is-currency-risk-protection
②IMAGE_IDの重複を用いた予測IMAGE_IDの重複情報をもとに機械的にデータを紐付けて予測に用いることは問題はありません。一方で、Akahachi様のコメントにもありますように、同一画像の場合で必ずしも同じLOAN_AMOUTになるわけではないことは留意いただければと思います。
③特徴量作成のルール手動(提出コード外)での特徴量作成はルール違反となります。例示いただいた、目視結果をもとに特徴量を作成して、学習・推論に利用する行為は禁止されています。異なるデータに対しても適用可能な、再現性あるモデルとなる必要がありますことご留意ください。
場合によっては判断が難しいケースも想定されますが、最終的にはオープンレビューによる判定となります。事前確認されたい場合は、具体的なプロセスと共にお問い合わせいただけましたらと思います。
④提出回数のリセットのルール現在は23時間ごとに提出回数が回復する仕様となっております。(当コンペサイトをグローバル展開していくにあたり、居住国(時差)による有利・不利を最小化したいとの意図で設定したものになります)
一方で、以前より類似の要望が多いこともあり、ご要望の大きさと、他機能開発との優先度を含め、検討させていただきます。 何卒よろしくお願いいたします。
現行の方式に関しましては「FAQ」タブにも追記しておりますので、よろしくご確認ください。
本件、年末のタイミングの質問で申し訳ありませんでした。
①、②、④はAkahachi様のコメント、FAQへの追記も含めありがとうございました(①はURL等も読んでみます)
③は、上記のルールを確認しました。
その上で、別のコンペでは特徴量の手動追加をOKとし「賛否両論がある」と言う議論もあったようです。 https://comp.probspace.com/competitions/religious_art/discussions/shinmura0-Post28f14afac122cd06cbd5
(私は未実装で、回答頂いた通りで問題ないですが)Probspaceの基本ルールとして、もしくはコンペ毎のルールとして、回答頂いた『目視結果をもとに特徴量を作成して、学習・推論に利用する行為は禁止されています。』等と記載があっても良いのかと思いました。
こちらこそ、回答が遅くなり申し訳ございませんでした。また、大変貴重なご意見ありがとうございました。
手動での特徴量作成の可否については、コンペ毎のルールに明記するようにいたします。引き続き、よろしくお願いいたします。
回答ありがとうございました。