医療系AIエンジニアの技術メモ

ディープラーニング(主に画像系)の技術メモブログです

Rethinking Atrous Convolution for Semantic Image Segmentation

スポンサーリンク


論文URL

https://arxiv.org/pdf/1706.05587.pdf
2017年6月公開

ポイント

  • DeepLab v3
  • ResNetのblock4をblock5~7にコピーして使用
    • atrous convにより特徴量の解像度は落とさずに視野を広げている
  • Multi gridを採用
    • ブロック内でのatrous conv rate(畳み込み画素間隔)を(2,4,8)と変えている
  • Atrous Spatial Pyramid Pooling(ASPP)を改良
    • atrous convに加え、1x1 convとglobal average pooling(GAP)の特徴量を計算
      • rateが大きいと中心の1画素で1x1 convをやるだけになる領域が増え、適切な特徴量を計算できなくなるため、GAPによりそれを補完している。
    • 全特徴量をconcatし、1x1 convにかけている
  • BN層を追加
  • CRFを廃止
    • DeppLab v3+CRFを組み合わせた評価結果は記載されていない。CRFをやっても精度が上がらなかったか、悪化したのか?
  • atrous conv rateを16で学習し、推論時は8にしている
    • 学習時に8にすると性能が低下する。
    • rate=16だとbatch sizeを最大16となるところ、rate=8にするとbatch sizeが最大6になってしまい、BN層を適切に学習できなくなっているため。
  • 最後はbilinearで入力画像サイズに拡大
    • v3+の論文の方にbilinearで補間していることが書かれている

f:id:y_kurashina:20210813214613p:plain f:id:y_kurashina:20210813214705p:plain


スポンサーリンク