この絵には何が書かれている?
kumalab
事前学習済みモデルの使用を許可します: ただし、事前学習済みモデルの学習に関しては、上記1.と同じ基準が適用されます。 例えば、事前学習済みモデルの学習データに、テストデータとそのゴールドラベルが含まれている場合、そのモデルは使用できません。
この項目に対して質問です。 事前学習済みモデルを学習するのに使用した巨大なデータセットに、テストデータとの被りがないことを証明することは必要になるのでしょうか。
timmなどのライブラリで提供されている事前学習モデルのいくつかを試してみたところ、imagenet 1k で学習されたモデルよりも、明らかにimagenet21k(22k) で学習されたものの方が良い結果になりました。
多くの画像/ラベルで学習したモデルの汎化性能がそれだけ高いとも言えますが、こちらのissue を参考にして試しにラベルをみてみたところ
といったものが含まれているようでした。 これらのデータが、今回のコンペのテスト画像と被っている場合、ルールに抵触すると思われます。しかし、imagenet21kのデータセットを手元環境に用意し、テスト画像との被りがないのかを検証するのはかなり骨が折れるように思います...
このような巨大な画像のデータセットの事前学習モデルを使用したい場合であっても、テストデータとの被りがないことを検証することが必要なのでしょうか。
また、imagenet21kに限らず、imagenet1kの場合でも、テスト画像とのデータ / ラベルの被りを検証する必要があるのでしょうか...(1kのラベルを見る限り被りはないように思えますが、確証はないため...)?
確認の程、よろしくお願い致します。
kumalab様
大変良い気づきとなるご質問、ありがとうございます。汎用的なライブラリについて禁止したい意図はございませんでしたが、今回のルールにより違反とみなされる可能性があることまでは、想定しきれておりませんでした。
ご質問への回答と合わせ、発生しうる問題への対応のため追加ルールを設定いたしました。合わせてご確認いただけますと幸いです。
1.ご質問への回答>事前学習済みモデルを学習するのに使用した巨大なデータセットに、テストデータとの被りがないことを証明することは必要になるのでしょうか。についてですが、モデル提出されたご本人様で証明いただく必要はございません。あくまでOpen Reviewによる検証となりますため、仮にテストデータとの被りが含まれている場合は、他ユーザー様より指摘が入ると思われます。その際は、運営側でも該当箇所を確認のうえ、可 / 不可を判断させていただきます。
2.追加ルール(ホワイトリスト)についてただし、上記プロセスにおいて、万一imagenet等ライブラリにテストデータとの被りが含まれていた場合、混乱が想定されます。そのため、下記ホワイトリストに関するルールを追加いたしました。
■追加ルール:ホワイトリストの使用について以下ライブラリについては、ホワイトリストとし、たとえテストデータとの被りが含まれる場合も、使用に際して不正とはみなされないものとします。ホワイトリストにつきましてはこちらより参照ください。
・ホワイトリストhttps://docs.google.com/spreadsheets/d/1GSOeYEl0inJdrbt00ERrKpNWJf2sTMwggOG0crvP49Y/edit?usp=sharing
もちろん本コンペにおいては、ライブラリの使用にあたる運営確認は不要ですが、ホワイトリストにないツールの使用に際してご心配になられることもあるかと存じます。その場合は運営にて、ホワイトリストへの追加を判断いたしますので、お気軽にお問い合わせいただけましたらと存じます。 (※ ホワイトリストへの追加申請はコンペ終了7日前までとさせていただきます)
ご確認のほど、よろしくお願いいたします。
運営様
返信・対応ありがとうございます。
事前学習済みモデルの扱いについて、承知いたしました。 また、追加ルールについても確認いたしました。巨大データセットを保持するストレージが手元の環境にないため、このように扱いをルールで明確に定めていただき、とても助かります。改めてありがとうございます。
ホワイトリストの確認についてなのですが、「ホワイトリストの確認」のようなトピックを1つたてておくと、参加者が全員見れる(&同じ質問が運営様に行かない)ため良いのかもしれないと思いました。
お世話になっております。ご提案いただいた「ホワイトリストの確認」についてですが、
・ 概要欄トップでの赤字記載・ Twitterによるお知らせ
の2点にて対応いたしました。トピックよりも目立つよう、概要トップに記載させていただいております。