Rethinking Atrous Convolution for Semantic Image Segmentation
スポンサーリンク
論文URL
https://arxiv.org/pdf/1706.05587.pdf 2017年6月公開
ポイント
- DeepLab v3
- ResNetのblock4をblock5~7にコピーして使用
- atrous convにより特徴量の解像度は落とさずに視野を広げている
- Multi gridを採用
- ブロック内でのatrous conv rate(畳み込み画素間隔)を(2,4,8)と変えている
- Atrous Spatial Pyramid Pooling(ASPP)を改良
- atrous convに加え、1x1 convとglobal average pooling(GAP)の特徴量を計算
- rateが大きいと中心の1画素で1x1 convをやるだけになる領域が増え、適切な特徴量を計算できなくなるため、GAPによりそれを補完している。
- 全特徴量をconcatし、1x1 convにかけている
- atrous convに加え、1x1 convとglobal average pooling(GAP)の特徴量を計算
- BN層を追加
- CRFを廃止
- DeppLab v3+CRFを組み合わせた評価結果は記載されていない。CRFをやっても精度が上がらなかったか、悪化したのか?
- atrous conv rateを16で学習し、推論時は8にしている
- 学習時に8にすると性能が低下する。
- rate=16だとbatch sizeを最大16となるところ、rate=8にするとbatch sizeが最大6になってしまい、BN層を適切に学習できなくなっているため。
- 最後はbilinearで入力画像サイズに拡大
- v3+の論文の方にbilinearで補間していることが書かれている
スポンサーリンク