Pyramid Scene Parsing Network
スポンサーリンク
論文URL
https://arxiv.org/pdf/1612.01105.pdf
2017年4月公開
ポイント
- ImageNet scene parsing challenge 2016、PASCAL VOC 2012 benchmark、Cityscapes benchmarkで1位を取ったSegmentation用モデル
- Pyramid Pooling Moduleにより大域的特徴量を計算することで、画像のコンテキストを考慮したSemantic Segmentationを行う
Pyramid Scene Parsing Network(PSPNet)の流れ
- バックボーンのCNN(論文ではResNet with the dilated network)で特徴量マップを計算(Fig1.(b))
- Pyramid Pooling Moduleで大域的特徴量を計算(Fig1.(c))
- 大域的特徴量を共一次内挿でCNNの特徴量マップと同じサイズにアップサンプリングし、CNNの特徴量マップとconcat(Fig1.(c))
- 最後に畳み込み層にかけ最終的な推論結果を得る(Fig1.(d))
Pyramid Pooling Module
以下の4つの特徴量を計算している
- 入力画像全領域をカバーする特徴量:Fig1(c)の赤四角 Global Average Pooling結果を畳み込み層にかけ1×1×1chの特徴量を計算
- 入力画像を4等分した領域をカバーする特徴量:Fig1(c)のオレンジ四角 4等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ2×2×1chの特徴量を計算
- 入力画像を9等分した領域をカバーする特徴量:Fig1(c)の水色四角 9等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ3×3×1chの特徴量を計算
- 入力画像を36等分した領域をカバーする特徴量:Fig1(c)の緑四角 36等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ6×6×1chの特徴量を計算