医療系AIエンジニアの技術メモ

ディープラーニング(主に画像系)の技術メモブログです

Pyramid Scene Parsing Network

スポンサーリンク


f:id:y_kurashina:20190211171954j:plain
Fig1. Pyramid Scene Parsing Network

論文URL

https://arxiv.org/pdf/1612.01105.pdf

2017年4月公開

ポイント

  • ImageNet scene parsing challenge 2016、PASCAL VOC 2012 benchmark、Cityscapes benchmarkで1位を取ったSegmentation用モデル
  • Pyramid Pooling Moduleにより大域的特徴量を計算することで、画像のコンテキストを考慮したSemantic Segmentationを行う

Pyramid Scene Parsing Network(PSPNet)の流れ

  1. バックボーンのCNN(論文ではResNet with the dilated network)で特徴量マップを計算(Fig1.(b))
  2. Pyramid Pooling Moduleで大域的特徴量を計算(Fig1.(c))
  3. 大域的特徴量を共一次内挿でCNNの特徴量マップと同じサイズにアップサンプリングし、CNNの特徴量マップとconcat(Fig1.(c))
  4. 最後に畳み込み層にかけ最終的な推論結果を得る(Fig1.(d))

Pyramid Pooling Module

以下の4つの特徴量を計算している

  1. 入力画像全領域をカバーする特徴量:Fig1(c)の赤四角
    Global Average Pooling結果を畳み込み層にかけ1×1×1chの特徴量を計算
  2. 入力画像を4等分した領域をカバーする特徴量:Fig1(c)のオレンジ四角
    4等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ2×2×1chの特徴量を計算
  3. 入力画像を9等分した領域をカバーする特徴量:Fig1(c)の水色四角
    9等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ3×3×1chの特徴量を計算
  4. 入力画像を36等分した領域をカバーする特徴量:Fig1(c)の緑四角
    36等分した領域ごとのGlobal Average Pooling結果を畳み込み層にかけ6×6×1chの特徴量を計算