Rethinking Atrous Convolution for Semantic Image Segmentation - 医療系AIエンジニアの技術メモ

DeepLab v3
ResNetのblock4をblock5～7にコピーして使用
- atrous convにより特徴量の解像度は落とさずに視野を広げている
Multi gridを採用
- ブロック内でのatrous conv rate(畳み込み画素間隔)を(2,4,8)と変えている
Atrous Spatial Pyramid Pooling(ASPP)を改良
- atrous convに加え、1x1 convとglobal average pooling(GAP)の特徴量を計算
  - rateが大きいと中心の1画素で1x1 convをやるだけになる領域が増え、適切な特徴量を計算できなくなるため、GAPによりそれを補完している。
- 全特徴量をconcatし、1x1 convにかけている
BN層を追加
CRFを廃止
- DeppLab v3＋CRFを組み合わせた評価結果は記載されていない。CRFをやっても精度が上がらなかったか、悪化したのか？
atrous conv rateを16で学習し、推論時は8にしている
- 学習時に8にすると性能が低下する。
- rate=16だとbatch sizeを最大16となるところ、rate=8にするとbatch sizeが最大6になってしまい、BN層を適切に学習できなくなっているため。
最後はbilinearで入力画像サイズに拡大
- v3+の論文の方にbilinearで補間していることが書かれている

f:id:y_kurashina:20210813214613p:plain f:id:y_kurashina:20210813214705p:plain