医療系AIエンジニアの技術メモ

ディープラーニング（主に画像系）の技術メモブログです

CNN-RNN: a large-scale hierarchical imageclassification framework

論文メモ

スポンサーリンク

f:id:y_kurashina:20190302230802j:plain — Fig1. CNN-RNN

論文URL

https://link.springer.com/content/pdf/10.1007%2Fs11042-017-5443-x.pdf

2017年3月公開

ポイント

画像分類の際、粗い分類(例：犬)と細かい分類(例：プードル)を同時に学習することで、細かい分類のみで学習するモデルよりも精度が向上する。
- CNNで抽出した特徴量をLSTMにかけ、構造化された分類を出力する(Fig1)
- CNNのみのモデルに比べ、1～2%精度が向上
- 任意のCNNとLSTMを組み合わせ、全体をEnd-to-Endで学習できる
LSTMではなく、CNNのみで粗い分類と細かい分類の両方を推論するアーキテクチャ(Fig2. Strategy1～3)も評価しているが、LSTMよりも精度が低い。その上、CNNのみでは分類クラス階層が全てのクラスで固定化されるのに対し、LSTMであれば柔軟にクラス階層を変更することもできる。

f:id:y_kurashina:20190302232721j:plain — Fig2. 粗い分類と細かい分類の両方を推定するアーキテクチャ