Probabilistic End-to-end Noise Correction for Learning with Noisy Labels

f:id:y_kurashina:20191012192946p:plain — Fig1. PENCIL learning framework

論文URL

http://openaccess.thecvf.com/content_CVPR_2019/papers/Yi_Probabilistic_End-To-End_Noise_Correction_for_Learning_With_Noisy_Labels_CVPR_2019_paper.pdf
2019年のCVPRで公開

ポイント

分類問題において教師ラベルのアノテーションミスを推定し、ミスを修正したラベルによりモデルを学習するPENCIL(probabilistic end-to-end noise correction in labels)フレームワークを提案
- 数十％の大量のミスラベルが有っても一定の性能を確保している
- アノテーションミスが少ない(と考えられている)データセットに対してPENCILフレームワークを適用した場合、通常の学習方法と比べ最終的な分類モデルの性能に有意差は無い（大きな悪影響を及ぼすことは無い）

PENCILフレームワーク

Fig1の構造で、分類モデル $f(x;\theta)$ とアノテーションミス修正後教師ラベル $y ^ d$ を推定する
損失関数
- classification loss
  - $L _ c (f(x;\theta) , y ^ d) = \frac{1}{n}\sum ^ n _ {i=1} KL(f(x _ i ;\theta) || y ^ d _ i)$
  - KL-divergenceでモデルの推論確率と修正後教師ラベルの確率分布を一致させる
    - 基準の分布を $f(x;\theta)$ にしていることに注意
  - は、教師ラベルを用いて以下の式で初期化されている
    - $y ^ d = softmax(10 \hat{y})$
  - 学習が進むと $y ^ d$ はone-hot表現ではなく、入力画像のクラス確率分布になる
- compatibility loss
  - $L _ o (\hat{y} , y ^ d) = - \frac{1}{n}\sum ^ n _ {i=1} \sum ^ c _ {j=1} \hat{y} _ {ij} \log y ^ d _ {ij}$
  - $y ^ d$ が教師ラベル $\hat{y}$ から乖離しすぎないように抑制するLoss
- entropy loss
  - $L _ e (f(x;\theta)) = - \frac{1}{n}\sum ^ n _ {i=1} \sum ^ c _ {j=1} f _ j (x;\theta) \log f _ j (x;\theta)$
  - このLossは推論確率がone-hot表現の時に最小となるため、推論確率がフラットになることを抑制し、特定の1クラスの推論確率にピークが出るように働く
学習方法
1. 教師ラベルの修正は行わず、Cross Entropy Lossでモデルを学習
  - アノテーションミスを学習しすぎないように、学習率を大きく設定し過学習を抑制する
2. PENCILフレームワークでモデルと教師ラベルの両方を学習
  - このステップも、学習率は大きいままとする
3. classification Lossだけを使用し、モデルのみをFine tuning
  - 学習率は通常通りステップ状に小さくしていく

人工的にアノテーションミスを付与したCIFARでの評価結果

CIFARに以下の2種類のアノテーションミスを付与して評価
- symmetric noise : 確率 r で全クラス一様にミスラベルを付与
- asymmetric noise
  - CIFAR-100の場合、隣接クラスと確率 r でラベルを入れ替える
  - CIFAR-10の場合、犬⇔猫のように似ているクラス間で、確率 r でラベルを入れ替える

＜CIFAR-100の結果＞ f:id:y_kurashina:20191012210221p:plain