CNN-RNN: a large-scale hierarchical imageclassification framework
スポンサーリンク
論文URL
https://link.springer.com/content/pdf/10.1007%2Fs11042-017-5443-x.pdf
2017年3月公開
ポイント
- 画像分類の際、粗い分類(例:犬)と細かい分類(例:プードル)を同時に学習することで、細かい分類のみで学習するモデルよりも精度が向上する。
- CNNで抽出した特徴量をLSTMにかけ、構造化された分類を出力する(Fig1)
- CNNのみのモデルに比べ、1~2%精度が向上
- 任意のCNNとLSTMを組み合わせ、全体をEnd-to-Endで学習できる
- LSTMではなく、CNNのみで粗い分類と細かい分類の両方を推論するアーキテクチャ(Fig2. Strategy1~3)も評価しているが、LSTMよりも精度が低い。その上、CNNのみでは分類クラス階層が全てのクラスで固定化されるのに対し、LSTMであれば柔軟にクラス階層を変更することもできる。