宗教画テーマの分類

コンペティション
トピック
ランキング

新規登録ログイン

宗教画テーマの分類

この絵には何が書かれている？

賞金: 100,000 円参加ユーザー数: 259 4年以上前に終了

参加する

基本情報
トピック
リーダーボード

基本情報
トピック
リーダーボード

yyama

外部データとテストデータの被りについて

本コンペでは、テストデータ・外部データを用いた学習を許可します: ただし、テストデータ又は外部データのうちテストデータと被るサンプルにおいて、ゴールドラベルを用いた学習は禁止します。自己回帰学習や、疑似ラベル学習などにご使用ください。

以上のようにルールにはありますが、この被りとは、外部データを224 x 224に圧縮した際に完全に一致するようなデータを指すのでしょうか？例えばもともと同じ作者の同じ作品でもスキャンの仕方や前処理の仕方によっては一致しないnumpy ndarrayになると思いますが、この場合はテストデータと被りのないデータとして取り扱ってよいということでしょうか。

ProbSpace_official

yyama様

お問い合わせありがとうございます。
ルールに一部、不明瞭な点がありご不便おかけしました。

ご例示いただいたデータを用いた場合、著しく精度が高いモデルが作成可能で、コンペティションとしての競技性が保てなくなるため、申し訳ございませんがゴールドラベルを用いた学習の禁止対象として追加させてください。
お問い合わせ内容をふまえ、テストデータ・学習済みモデル使用に関するルールを以下のように変更いたしました。

【変更前】

本コンペでは、テストデータ・外部データを用いた学習を許可します:
ただし、テストデータ又は外部データのうちテストデータと被るサンプルにおいて、ゴールドラベルを用いた学習は禁止します。
自己回帰学習や、疑似ラベル学習などにご使用ください。

【変更後】

本コンペでは、テストデータ・外部データを用いた学習を許可します:
ただし下記データについて、ゴールドラベルを用いた学習は禁止します。
　i. テストデータ又は外部データのうち、テストデータと被るサンプル
　ii. テストデータと同一の原画より作成・加工されたサンプル
自己回帰学習や、疑似ラベル学習などにご使用ください。

※ ゴールドラベルとは、何らかの手段によって付与された正解ラベルのことです。例えば、人手で正解ラベルを付与する、外部データのメタデータなどからラベルを抽出する、などの手段によって付与されます。
人手により正解を絞り込むラベルの付与も、禁止行為とみなします。

※ ii.については、複製画・写真・スキャン画像を含みます。また、テストデータ自体の加工についても対象となります。

本コンペで初めて明記させていただいたルールにつき、一部漏れがありましたこと、お詫び申し上げます。
ご迷惑おかけいたしますが、公平性・協議制担保のための措置でありますこと、ご理解いただけますと幸いです。

yyama

詳細なご回答、誠にありがとうございます。大変妥当なご判断かと存じます。

ただここで疑問なのですが、「テストデータと同一の原画」かどうかを判断するのにはどうしたらよいのでしょうか？例えばモデルを使った特徴量抽出やハッシュ化などを用いて画像の類似度を検討することはできても、「テストデータと同一の原画かどうか」を判別するのは困難かと存じます。

ProbSpace_official

yyama様

仰る通り「テストデータと同一の原画かどうか」の判別は非常に難しいですね。
弊社としましても、不正をすべて見つけ出すことは、そもそも不可能と考えております。

こうした"悪魔の証明"が必要な不正判定に対しては、判別ロジックというよりもむしろ、参加者の皆さまに納得いただける判断ルール作りが重要であると考えております。
このような背景もあり、昨年よりOpenReviewという仕組みをご用意させていただきました。

トピック上での質疑対応を見て弊社が最終判断することとなるため、主観性を完全に排することはできませんが、参加者の皆さまにもレビューに参加いただくことで多少なりとも公平性を担保できるのかな、と考えております。

レビューについて意見が分かれる場合には、一部参加者様にとっては満足いかない結論となることもあるかと存じます。

その際は、ご理解いただけますと幸いです。

yyama

ご返信、誠にありがとうございます。今回のようにテストデータが少数かつ誰でも取得可能な場合に、外部データ利用可能となると、不正を防ぐ絶対的なルールを作るのは難しそうですね。確かに運営様に柔軟にご対応頂くのが良いのかもしれません。ご回答、ありがとうございました。

ProbSpace_official

外部データ・学習済みモデルの利用については、常に悩んでいるところでもございますので、
より良い方法などございましたら、いつでもアイディアお待ちしております。

引き続き、どうぞよろしくお願いいたします。

new user

コメントするには新規登録もしくはログインが必要です。

プライバシーポリシー
利用規約
運営会社
お問い合わせ