医療系AIエンジニアの技術メモ

ディープラーニング（主に画像系）の技術メモブログです

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

論文メモ

スポンサーリンク

f:id:y_kurashina:20190415003413j:plain — Fig1. Spatial Pyramid Pooling Layer

論文URL

https://arxiv.org/pdf/1406.4729.pdf

2015年4月公開

ポイント

CNNにおいて、任意サイズの入力画像から固定サイズの特徴量ベクトルを出力するSpatial Pyramid Pooling (SPP)層を提案
- 例えば、ImageNetで事前学習しているモデルの多くは、入力画像サイズが224x224となっており、処理対象画像サイズが224x224でない場合、リサイズもしくはクロッピングする必要がある。
- 入力画像サイズが固定化されているのは、全結合層の入力次元数が固定であるため。
  - 畳み込み層やプーリング層では、入力層のサイズが固定化されている必要は無い。
- 全結合層の前にSPP層を追加することで、任意サイズの画像入力に対応できる。

Spatial Pyramid Pooling層

入力層の特徴量マップを固定分割数で領域分割し、分割領域ごとにmax poolingで特徴量を抽出し、全ベクトルをconcatする。
- Fig1の場合、分割無し、2x2分割、4x4分割している。
複数の分割数でmax poolingすることで、大域的な特徴から局所的な特徴まで抽出できる。
入力層のサイズに寄らず、分割領域分の特徴量ベクトルが得られる。