医療系AIエンジニアの技術メモ

ディープラーニング(主に画像系)の技術メモブログです

CNN-RNN: a large-scale hierarchical imageclassification framework

スポンサーリンク


f:id:y_kurashina:20190302230802j:plain
Fig1. CNN-RNN

論文URL

https://link.springer.com/content/pdf/10.1007%2Fs11042-017-5443-x.pdf

2017年3月公開

ポイント

  • 画像分類の際、粗い分類(例:犬)と細かい分類(例:プードル)を同時に学習することで、細かい分類のみで学習するモデルよりも精度が向上する。
    • CNNで抽出した特徴量をLSTMにかけ、構造化された分類を出力する(Fig1)
    • CNNのみのモデルに比べ、1~2%精度が向上
    • 任意のCNNとLSTMを組み合わせ、全体をEnd-to-Endで学習できる
  • LSTMではなく、CNNのみで粗い分類と細かい分類の両方を推論するアーキテクチャ(Fig2. Strategy1~3)も評価しているが、LSTMよりも精度が低い。その上、CNNのみでは分類クラス階層が全てのクラスで固定化されるのに対し、LSTMであれば柔軟にクラス階層を変更することもできる。

f:id:y_kurashina:20190302232721j:plain
Fig2. 粗い分類と細かい分類の両方を推定するアーキテクチャ