医療系AIエンジニアの技術メモ

ディープラーニング(主に画像系)の技術メモブログです

Probabilistic End-to-end Noise Correction for Learning with Noisy Labels

スポンサーリンク


f:id:y_kurashina:20191012192946p:plain
Fig1. PENCIL learning framework

論文URL

http://openaccess.thecvf.com/content_CVPR_2019/papers/Yi_Probabilistic_End-To-End_Noise_Correction_for_Learning_With_Noisy_Labels_CVPR_2019_paper.pdf
2019年のCVPRで公開

ポイント

  • 分類問題において教師ラベルのアノテーションミスを推定し、ミスを修正したラベルによりモデルを学習するPENCIL(probabilistic end-to-end noise correction in labels)フレームワークを提案
    • 数十%の大量のミスラベルが有っても一定の性能を確保している
    • アノテーションミスが少ない(と考えられている)データセットに対してPENCILフレームワークを適用した場合、通常の学習方法と比べ最終的な分類モデルの性能に有意差は無い(大きな悪影響を及ぼすことは無い)

PENCILフレームワーク

  • Fig1の構造で、分類モデルf(x;\theta)とアノテーションミス修正後教師ラベルy ^ dを推定する
  • 損失関数
    • classification loss
      • L _ c (f(x;\theta) , y ^ d) = \frac{1}{n}\sum ^ n _ {i=1} KL(f(x _ i ;\theta) || y ^ d _ i)
      • KL-divergenceでモデルの推論確率と修正後教師ラベルの確率分布を一致させる
        • 基準の分布をf(x;\theta)にしていることに注意
      • y ^ dは、教師ラベル\hat{y}を用いて以下の式で初期化されている
        • y ^ d = softmax(10 \hat{y})
      • 学習が進むとy ^ dはone-hot表現ではなく、入力画像のクラス確率分布になる
    • compatibility loss
      •  L _ o (\hat{y} , y ^ d) = - \frac{1}{n}\sum ^ n _ {i=1} \sum ^ c _ {j=1} \hat{y} _ {ij} \log y ^ d _ {ij}
      • y ^ dが教師ラベル\hat{y}から乖離しすぎないように抑制するLoss
    • entropy loss
      • L _ e (f(x;\theta)) = - \frac{1}{n}\sum ^ n _ {i=1} \sum ^ c _ {j=1} f _ j (x;\theta) \log f _ j (x;\theta)
      • このLossは推論確率がone-hot表現の時に最小となるため、推論確率がフラットになることを抑制し、特定の1クラスの推論確率にピークが出るように働く
  • 学習方法
    1. 教師ラベルの修正は行わず、Cross Entropy Lossでモデルを学習
      • アノテーションミスを学習しすぎないように、学習率を大きく設定し過学習を抑制する
    2. PENCILフレームワークでモデルと教師ラベルの両方を学習
      • このステップも、学習率は大きいままとする
    3. classification Lossだけを使用し、モデルのみをFine tuning
      • 学習率は通常通りステップ状に小さくしていく

人工的にアノテーションミスを付与したCIFARでの評価結果

  • CIFARに以下の2種類のアノテーションミスを付与して評価
    • symmetric noise : 確率 r で全クラス一様にミスラベルを付与
    • asymmetric noise
      • CIFAR-100の場合、隣接クラスと確率 r でラベルを入れ替える
      • CIFAR-10の場合、犬⇔猫のように似ているクラス間で、確率 r でラベルを入れ替える

<CIFAR-100の結果> f:id:y_kurashina:20191012210221p:plain

  • Cross Entropyで通常通り学習した結果に比べ、性能低下が有意に抑えられている
  • 2行目のForward T*は、真のノイズ遷移行列が既知と言う非現実的な条件のため単純比較はできない

<CIFAR-10の修正後ラベルの正解率> f:id:y_kurashina:20191012210949p:plain f:id:y_kurashina:20191012211010p:plain

  • CIFAR-10のケースでは上記プロットのいずれのケースも、学習の中盤以降9割前後のラベルが正しいラベルになっている

Clothing1Mでの評価結果

  • 約40%のラベルが間違っていると推定されているオンラインショッピング画像データセット
  • 一部のデータはアノテーションミスを修正した高精度の教師データとなっている
    • 以下の表のPENCILの結果は高精度の教師データを使用していない

f:id:y_kurashina:20191012213406p:plain

CUB-200での評価結果

  • 高精度のアノテーションがされていると考えられる200種の鳥類分類データセット

f:id:y_kurashina:20191012214538p:plain

  • ハイパーパラメータλ、α(詳細は論文を参照)に寄らず、Cross Entropy Lossで学習した結果と同等以上の結果が得られている

スポンサーリンク