スパムメールフィルターの開発にチャレンジ!
kokokocococo555
「学習済みモデルの禁止」に関して、2点質問がございます。
[1.BERT使用は可能なのでしょうか?]
ルールには「コンペ外データを用いて学習されたモデルの使用も禁止」とありますが、以下のトピックではBERTを使用した例とPublicスコアが記載されています。
(このトピック自体はNLPおよびBERTの勉強になります。投稿者様、ありがとうございます。)
https://prob.space/competitions/spam_mail/discussions/takaito-Postd44a7db010459f285619
私が投稿者様の意図を読み違えていたり、BERTの理解が浅かったりするのかもしれませんが、 本コンペにてBERT等の使用は可能なのでしょうか。
※学習されたモデルの使用は禁止になっているものの、上述トピックへの運営様からの注釈等が無かったため、お尋ねします。
[2.学習済みモデルを使用した結果の除外はどのように行うのでしょうか?]
BERT等の学習済みモデルを使用した予測結果を提出済みの方もいらっしゃるかもしれません。
BERT等の使用が禁止の場合かつBERT使用者が多数いた場合、Publicリーダーボードが機能しない(学習済みモデル使用者が上位に来て、提供データのみ使用者の順位が上がりにくい)のではないかと懸念しています。
恐れ入りますが、よろしくお願いいたします。
(このようなコンペの場を提供いただき、感謝しております。いつもありがとうございます。)
kokokocococo555 様.運営者様.
完全に禁止事項を見落としたまま,事前学習済みBERTを使用したモデルを提出してしまい,申し訳ありませんでした.
自身の不注意で,少なくとも何人かの方が事前学習済みモデルの使用に繋がってしまったと思われます.
自分自身,問題を起こしてしまったことに責任を感じておりますが,解決策が思いつかず申し訳ありません.
外部データ同様に,事前学習済みモデルも使用の申請をする形でご対応していただくことは可能なのでしょうか?
当初の運営者様の期待するコンペ形式を崩してしまっているようで申し訳ありませんが,ご検討どうぞよろしくお願いいたします.
takaito様
コメントありがとうございます。BERT利用につきましては、全くお気にされないでください。むしろ、コンペ開始時にあらかじめ利用可との文言を入れなかったことで混乱させてしまったこと、誠に申し訳ございません。
弊社としましては、解の直接推定に帰するデータ以外については、積極的に活用いただきたい、という思想です。ただし、使用不可のデータを明示的に定義することが難しいと判断し、必要に応じて申請いただくルールを定めさせていただいております。
学習済みモデルに関しましても、外部データと同様 ご利用申請いただけましたらと存じます。
皆さまに楽しんでもらう場を提供することを目的としておりますため、全く気にされることなく、引き続きコンペをお楽しみいただけますと幸いです。どうぞよろしくお願いいたします。
kokokocococo555様、takaito様ご返信遅くなりまして申し訳ございません。以下回答いたします。
[1.BERT使用は可能なのでしょうか?]BERT利用につきましては、以前YouTubeコンペでも同様のご質問をいただいており、その時は問題ないものさせていただきました。本コンペにおきましても、同様に利用可といたします。
[2.学習済みモデルを使用した結果の除外はどのように行うのでしょうか?]いただいたBERT利用に関するご懸念事項は回避できたかと存じます。ただし、承認外の外部データ利用が判明した際は、失格・順位の組み換えが発生いたします。入賞者(賞金対象者)に関しましては、コード公開を必須としておりますので、運営側というよりも Open Reviewをもって皆さまで判断されることとなります。入賞者外の順位組み換えについては、一つ一つ確認するプロセスは現在考えておりませんが、疑わしき場合(もしくは連絡を受けた場合等)は、個別にご連絡・確認させていただくことはあるかと存じます。
以上について、ご確認のほどよろしくお願いいたします。
ご確認・ご回答くださりありがとうございます。
承知しました。
方針につきましても、takaito様へのご返信でよく分かりました。
1.でBERTが可ということでしたので、おっしゃる通り懸念事項は回避できました。
ありがとうございました。
引き続き、よろしくお願いいたします。
運営者様.
ご連絡ありがとうございます.
ひとまず,運営の禁止事項の意図が,スパムメールのデータとかでゴリゴリにtuneされた事前学習済みモデルなどを禁止する的な意図のようで安心いたしました.
ただ本来であれば,禁止事項をきちんと読んだ上でBERTが使用可能かどうかを事前に確認していれば,このような事態にはなっていなかったので,今後は気を付けたいと思います.
引き続き,どうぞよろしくお願いいたします.
ありがとうございます。ルール設計は常に悩ましいところなのですが、
・ホワイトリスト化・データセット公開を条件に、類似データを用いた事前学習済みモデルの利用を可とするか
など、今後も手探りしながら最適なルールを考えていきたいと思います。
引き続き、どうぞよろしくお願いいたします。