医療系AIエンジニアの技術メモ

ディープラーニング（主に画像系）の技術メモブログです

Pyramid Scene Parsing Network

論文メモ

スポンサーリンク

f:id:y_kurashina:20190211171954j:plain — Fig1. Pyramid Scene Parsing Network

論文URL

https://arxiv.org/pdf/1612.01105.pdf

2017年4月公開

ポイント

ImageNet scene parsing challenge 2016、PASCAL VOC 2012 benchmark、Cityscapes benchmarkで1位を取ったSegmentation用モデル
Pyramid Pooling Moduleにより大域的特徴量を計算することで、画像のコンテキストを考慮したSemantic Segmentationを行う

Pyramid Scene Parsing Network(PSPNet)の流れ

バックボーンのCNN(論文ではResNet with the dilated network)で特徴量マップを計算(Fig1.(b))
Pyramid Pooling Moduleで大域的特徴量を計算(Fig1.(c))
大域的特徴量を共一次内挿でCNNの特徴量マップと同じサイズにアップサンプリングし、CNNの特徴量マップとconcat(Fig1.(c))
最後に畳み込み層にかけ最終的な推論結果を得る(Fig1.(d))

Pyramid Pooling Module

以下の4つの特徴量を計算している

入力画像全領域をカバーする特徴量：Fig1(c)の赤四角
Global Average Pooling結果を畳み込み層にかけ1×1×1chの特徴量を計算
入力画像を4等分した領域をカバーする特徴量：Fig1(c)のオレンジ四角
4等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ2×2×1chの特徴量を計算
入力画像を9等分した領域をカバーする特徴量：Fig1(c)の水色四角
9等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ3×3×1chの特徴量を計算
入力画像を36等分した領域をカバーする特徴量：Fig1(c)の緑四角
36等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ6×6×1chの特徴量を計算