外部データとテストデータの被りについて

本コンペでは、テストデータ・外部データを用いた学習を許可します: ただし、テストデータ 又は 外部データのうちテストデータと被るサンプルにおいて、ゴールドラベルを用いた学習は禁止します。 自己回帰学習や、疑似ラベル学習などにご使用ください。


以上のようにルールにはありますが、 この被りとは、外部データを224 x 224に圧縮した際に完全に一致するようなデータを指すのでしょうか? 例えばもともと同じ作者の同じ作品でもスキャンの仕方や前処理の仕方によっては一致しないnumpy ndarrayになると思いますが、この場合はテストデータと被りのないデータとして取り扱ってよいということでしょうか。

Aws4 request&x amz signedheaders=host&x amz signature=510203f09128f10e2216a8d0eba90c0a42ae39b5b1be97262b9992c204d5630c
ProbSpace_official

yyama様

お問い合わせありがとうございます。
ルールに一部、不明瞭な点がありご不便おかけしました。

ご例示いただいたデータを用いた場合、著しく精度が高いモデルが作成可能で、コンペティションとしての競技性が保てなくなるため、申し訳ございませんがゴールドラベルを用いた学習の禁止対象として追加させてください。
お問い合わせ内容をふまえ、テストデータ・学習済みモデル使用に関するルールを以下のように変更いたしました。

【変更前】

  1. 本コンペでは、テストデータ・外部データを用いた学習を許可します:
    ただし、テストデータ 又は 外部データのうちテストデータと被るサンプルにおいて、ゴールドラベルを用いた学習は禁止します。
    自己回帰学習や、疑似ラベル学習などにご使用ください。

【変更後】

  1. 本コンペでは、テストデータ・外部データを用いた学習を許可します:
    ただし下記データについて、ゴールドラベルを用いた学習は禁止します。
     i. テストデータ 又は 外部データのうち、テストデータと被るサンプル
     ii. テストデータと同一の原画より作成・加工されたサンプル
    自己回帰学習や、疑似ラベル学習などにご使用ください。

    ※ ゴールドラベルとは、何らかの手段によって付与された正解ラベルのことです。例えば、人手で正解ラベルを付与する、外部データのメタデータなどからラベルを抽出する、などの手段によって付与されます。
    人手により正解を絞り込むラベルの付与も、禁止行為とみなします。


    ※ ii.については、複製画・写真・スキャン画像を含みます。また、テストデータ自体の加工についても対象となります。

本コンペで初めて明記させていただいたルールにつき、一部漏れがありましたこと、お詫び申し上げます。
ご迷惑おかけいたしますが、公平性・協議制担保のための措置でありますこと、ご理解いただけますと幸いです。

Icon7
yyama

詳細なご回答、誠にありがとうございます。大変妥当なご判断かと存じます。

ただここで疑問なのですが、「テストデータと同一の原画」かどうかを判断するのにはどうしたらよいのでしょうか? 例えばモデルを使った特徴量抽出やハッシュ化などを用いて画像の類似度を検討することはできても、「テストデータと同一の原画かどうか」を判別するのは困難かと存じます。

Aws4 request&x amz signedheaders=host&x amz signature=510203f09128f10e2216a8d0eba90c0a42ae39b5b1be97262b9992c204d5630c
ProbSpace_official

yyama様

仰る通り「テストデータと同一の原画かどうか」の判別は非常に難しいですね。
弊社としましても、不正をすべて見つけ出すことは、そもそも不可能と考えております。

こうした"悪魔の証明"が必要な不正判定に対しては、判別ロジックというよりもむしろ、参加者の皆さまに納得いただける判断ルール作りが重要であると考えております。
このような背景もあり、昨年よりOpenReviewという仕組みをご用意させていただきました。

トピック上での質疑対応を見て弊社が最終判断することとなるため、主観性を完全に排することはできませんが、参加者の皆さまにもレビューに参加いただくことで多少なりとも公平性を担保できるのかな、と考えております。

レビューについて意見が分かれる場合には、一部参加者様にとっては満足いかない結論となることもあるかと存じます。

その際は、ご理解いただけますと幸いです。

Icon7
yyama

ご返信、誠にありがとうございます。 今回のようにテストデータが少数かつ誰でも取得可能な場合に、外部データ利用可能となると、不正を防ぐ絶対的なルールを作るのは難しそうですね。 確かに運営様に柔軟にご対応頂くのが良いのかもしれません。 ご回答、ありがとうございました。

Aws4 request&x amz signedheaders=host&x amz signature=510203f09128f10e2216a8d0eba90c0a42ae39b5b1be97262b9992c204d5630c
ProbSpace_official

外部データ・学習済みモデルの利用については、常に悩んでいるところでもございますので、
より良い方法などございましたら、いつでもアイディアお待ちしております。

引き続き、どうぞよろしくお願いいたします。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。