Deformable ConvNets v2: More Deformable, Better Results - 医療系AIエンジニアの技術メモ

deformable convolution / ROI poolingの改良版(v2)を提案
- v1では通常の畳み込み or ROI Pooling時に演算対象画素 or ROIビンの位置を入力特徴量マップの値に応じて修正していた
- 位置の修正だけではオブジェクトに関係ない範囲にまで演算対象画素 or ROIビンが広がっている(Fig1(b))ことから、オブジェクト範囲内に演算対象画素 / ROIビンが収まれば性能が向上すると予想
- v2では位置の修正に加え、各画素 / ROIビンの重み修正量を入力特徴量マップから計算
COCO2017による物体検出やインスタンスセグメンテーションで性能評価
- 基準のモデルはFaster R-CNNとMask R-CNN
- 各オブジェクトの候補領域の特徴量ベクトルがR-CNN特徴量ベクトルと一致するよう学習(R-CNN Feature Mimicking)するauxiliary lossを追加し性能が改善
  - 通常の畳み込み層とROI Pooling層のままでは、このauxiliary lossを使用しても効果なし

v1にて $k$ 番目画素のオフセット $\Delta p _ k$ を計算していた畳み込み層を1チャンネル増やし、そのチャンネルの出力値をsigmoid関数にかけ各画素の重み修正量 $\Delta m _ k$ を計算
以下の式で畳み込みを行う
- - $p$ ：出力特徴量画素位置
  - $K$ ：畳み込み画素数（3x3の場合、 $K = 9$ ）
  - $w _ k$ ：畳み込みの重み
  - $x$ ：入力特徴量
  - $p _ k$ ： $k$ 番目畳み込み画素位置への通常の畳み込み層の場合のオフセット
- $\Delta m _ k$ は実数であるので、上記式の $x()$ は共一次内挿で計算

deformable convolution v2では画素単位でオフセットや重み修正量を計算しているのに対し、ROIビン単位でこれらの値を計算する(v1と基本的な考え方は同じ)

Fig2の左側はFaster R-CNNでバックボーンの畳み込み層やROI Poolingをdeformable v2に変更したモデルのメイン部分
メインの部分で推論したROI領域を切り出し、224x224にリサイズした画像を入力としてクラスタリングを行う(Fig2の右側)
- 右側のネットワークではROI領域の抽出を行わないのでR-CNNと呼んでいる模様
  - Faster R-CNNが出てくるまでは、ROI領域抽出はselective search等の別アルゴリズムで行っていた
- 最後のclassification部を除き左右のネットワーク構造は同じで、重みも共有する
左側のネットワークの出力特徴量が右側のネットワークの出力特徴量と一致するようauxiliary lossを追加
- lossはコサイン類似度