[運営さんへ質問]imagenet などの事前学習済みモデルの扱いについて

kumalab

事前学習済みモデルの使用を許可します: ただし、事前学習済みモデルの学習に関しては、上記1.と同じ基準が適用されます。例えば、事前学習済みモデルの学習データに、テストデータとそのゴールドラベルが含まれている場合、そのモデルは使用できません。

この項目に対して質問です。 事前学習済みモデルを学習するのに使用した巨大なデータセットに、テストデータとの被りがないことを証明する
ことは必要になるのでしょうか。

timmなどのライブラリで提供されている事前学習モデルのいくつかを試してみたところ、imagenet 1k で学習されたモデルよりも、明らかにimagenet21k(22k) で学習されたものの方が良い結果になりました。

多くの画像/ラベルで学習したモデルの汎化性能がそれだけ高いとも言えますが、こちらのissue を参考にして試しにラベルをみてみたところ

といったものが含まれているようでした。これらのデータが、今回のコンペのテスト画像と被っている場合、ルールに抵触すると思われます。しかし、imagenet21kのデータセットを手元環境に用意し、テスト画像との被りがないのかを検証するのはかなり骨が折れるように思います...

このような巨大な画像のデータセットの事前学習モデルを使用したい場合であっても、テストデータとの被りがないことを検証することが必要なのでしょうか。

また、imagenet21kに限らず、imagenet1kの場合でも、テスト画像とのデータ / ラベルの被りを検証する必要があるのでしょうか...（1kのラベルを見る限り被りはないように思えますが、確証はないため...）？

確認の程、よろしくお願い致します。