2nd place solution

2nd Place Solution

終わってみて三ヶ月間と,データサイズの割りには期間の長いコンペだったなぁというのが素直な感想です.
とはいえ,浮世絵はこれまで真剣に眺めることもなかったので新鮮でしたし,色々と試したかったこともでき非常に勉強になりました.

運営の方々と参加された方々も含め,皆様お疲れ様でした.

さて,既に 1st place の ak110 氏が素晴らしい解法(https://prob.space/competitions/ukiyoe-author/discussions/ak1100-Post2b7eadf75b776093298a) を投稿してくださっていますので,私の方からは個人的に試して上手くいったこと・上手くいかなかったことを簡単にまとめてみました.
何かご参考になる点があれば幸いです.




1. Model Pipeline

solution 全体の概要は下図の通りです(見難くてすみません).
ご覧いただくと分かる通り,あまりこれといった工夫はしておらず,model ensemble に頼った形の solution であったと思います.
高解像度の図はこちらのリンク先をご覧ください.
https://speakerdeck.com/hoxomaxwell/probspace-competition-ukiyo-e-author-prediction

probspace_ukiyoe_Maxwell.png


2. Confusion Matrix

与えられたデータに対する我々の代表的な予測モデル(DenseNet-121) の混同行列は以下のような感じでした.

fig1_exp-061_oof_ft2_tta50.png

Class 7 の予測精度が芳しくなく,似通った class 3 と混同しやすいのがみてとれます.
また,class 1 の作者は多様な作品スタイルをもつ画家のようでして,FP および FN が他 class と比べて多く発生しています.多才な class 1 の作者は一体誰だったのでしょうか.ご存知の方がいらっしゃいましたらご教授ください.


3. What worked

  • 色々とモデルを試した中では,私の configuration ですと DenseNet が良い性能をだしていました.Growth Rate なども弄りましたが,あまり効果が見られず vanilla なものを使用しています.当初は,SE-ResNext あたりが最終モデルかなと漠然と思っていましたので,この結果は個人的には意外なものでした.

  • データの数が少ないので log-loss などの soft な評価指標で改善がみられるような augmentation は全て盛り込みました.

  • CutMix はこれまで上手く効いたコンペにめぐり合えていなかったのですが,今回はよく効いていました.RGB の各チャンネルの統計量をクラス毎に計算した結果,色情報が重要そうであると思っていたので,画像同士を重ね合わせることのない CutMix を選択しました.また,浮世絵が描かれた当時,その時代や場所によって,手に入る染料・顔料は限られ,CutMix を使うことで色情報を保存した方が良いのではないか,という仮説も背景にありました(下山.2017.浮世絵の色材研究: https://www1.kiui.jp/pc/bunkazai/kiyo14/08_shimoyama_pp63-74.pdf ). とはいえ,1st place の ak110 氏が MixUp を使用されていますので,あまり意味の無い配慮だったかもしれません.

  • Psuedo Labling は多少ではありますが効いていました(LB で + 0.005 つまり データ 2 個分の改善).テストデータサイズがあまり大きくない関係上,効果はあまり大きくはなかったと思っています.

  • TTA も効果は大きくなかったものの,最低でも LB + 0.002 つまり,データ 1 個分の改善はありました.数回程度ですと推論が安定しなかったため,50 回も行っています.が・・・,ここまでは本来必要なかったかもしれません.


4. What did not work

  • 距離学習である Arcface を試しましたが上手くいきませんでした.下図は,Arcface + t-SNE で各クラスの分布を各 fold 毎に可視化したものです.それなりに分類できているように見えますが,残念ながら精度は DenseNet-121 には及ばず,かつ ensemble にも寄与せず,精度向上へと繋げることができませんでした.

arcface.png

  • Stacking も試しましたが,train の画像の数が少ないためかシンプルな blending と同等かそれ以下の結果しか得られず途中で諦めました.2nd layer の meta feature として,Arcface の特徴量や各種統計量などを使用してみたりもしたのですが,こちらも効果はみとめられませんでした.

  • クラス不均衡なデータでしたので,custom loss function で調整しようとしましたが,上手くいきませんでした.個人的には,画像データにおいてクラス不均衡を調整しようとする試みが上手くいったことは殆ど無いです.テーブルデータですと,down sampling はそれなりに上手くいく気がしますが,画像データの場合では画像数の不足に悩まされることが多く, そもそも down sampling という選択肢をもてることが少ないせいもあるかと思っています.


5. Summary

SpeakerDeck にも上記のお話をまとめたものを挙げておきました.
こちらの方が図などは見やすいと思いますので,宜しければご覧ください.

Speaker Deck: ProbSpace Competition, Ukiyo-e Author Prediction
https://speakerdeck.com/hoxomaxwell/probspace-competition-ukiyo-e-author-prediction

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。