yshr10icさん
コメントありがとうございました。私のColab Proの環境で、(3)を試した所、9分程度で9万ファイルは解凍されました。この時間で1回切り(計2回)の作業ですので問題等ないと思います。
Google Driveに全てのファイルが問題なく解凍されたのかを確認するのは難しいと思うのですが、ファイル数は手元のパソコンで解凍した91819個と同じでしたのでとりあえずは良しとしたいと思います。
Google Driveにzipで上げておいて、Colabのローカルにそのzipファイルをコピーし、そこでunzipするのが良いと思います。Colabのローカルに毎回コピーすることにはなりますが、プログラムからGoogle Driveの画像を読み込むのは非常に遅いので、Colabのローカルから読み取る方が段違いに速くなります。画像が少ない場合にはGoogle Driveから直接読み込むでも問題ないと思いますが、今回のように数千〜数万枚の画像があるならColabのローカルから読み取る方が良いです。
goukaisei
なんで、こんなに参加者が増えないんでしょうか。。。
yshr10ic
もう一つの米国株価予測コンペ終わったので、少しは参加者増えるかとは思いますね。 個人的には、マルチモーダルコンペは初めてなので、参加者増えて盛り上がると良いですね!
goukaisei
もう一つコンペやってましたもんね。私もマルチモーダルやったことなかったんで参加してみました!なかなかないですよね。
newduck
雑談と言うことで、、、
ColabとGoogle Driveを連携させる環境を使おうと思っているのですが、 今回の画像のような多く(注)のファイルがzipされている場合の扱い方の ベストプラクティスを知りたいです。 (注)1枚辺り10KB程度のJPGファイル9万枚程度をzipしたファイル(圧縮時950MB程度、解凍時1GB程度)
手元で試したのは、 (1)Probspaceからzipファイルをダウンロードして、手元のPCで解凍、解凍された全ファイルを含むフォルダ毎Google Driveにアップロード ⇒何分時間がかかるかすら表示されず、しばらく待ってもアップロード開始が確認できなかったので、キャンセル
(2)Probspaceからダウンロードして、Google Driveにアップロード、Google Drive上で 「アプリで開く」から適切なアプリで解凍 ⇒(私の環境で)アップロードに27分と表示され(恐らくその位の時間で?)アップロードは完了。 解凍も進んでいるが、1分で50枚程度となっており、恐らく1日以上かかる見込みだが、解凍は恐らくできそう。 と言う状態で、何かベストプラクティスがないかと思っています。
以下は試してないですが、 (3)Google Driveにはzipであげておいて、Colab上でunzipする(実はこっちが早かったりしますかね?)
-- 画像をスコア向上にどう扱えるかは別途、雑談したいところですが、まずはその前の段階です。
ojo83
この年末年始休暇に集中して挑戦するコンペとしてこちらを選択致しました。 普段はテーブルデータしか扱っていないので自然言語処理に画像処理とどこまで戦えるか不安ですが、楽しみながら勉強したいと思います。 よろしくお願いします!