Collaborative Global-Local Networks for Memory-Efficient Segmentation of Ultra-High Resolution Images

Global BranchとLocal BranchのいずれもResNet50をバックボーンとしたFPN (Feature Pyramid Network)で特徴量を計算
- どちらのBranchも入力画像サイズは500x500
- Local Branchに入力するパッチは50画素ずつオーバーラップさせている
Local Branchでパッチ画像を処理する際、Global Branchで計算した同一領域の特徴量をupsampleしてconcatしている
Local Branchで計算した特徴量をdownsampleしてGlobal Branchの特徴量にconcatしたテンソルがGlobal Branchの最終的な出力となる
両Branchの出力をAggregationすることで最終的なセグメンテーション結果を得る
- 両Branchの出力をconcatし、3x3の畳み込みを行っている
学習時の工夫
- Aggregation結果だけでなく各Branchの出力テンソルからもセグメンテーションを行い、補助損失(Auxiliary Loss)を計算している
  - Main Loss, Auxiliary Loss共にFocal Lossで計算
    - 各Lossの重みは同じ(λ=1)
- 両Branchの出力テンソルの差のL2ノルムを正則化項としてLossに追加
  - λ ＝ 0.15
  - この正則化項からはLocal Branchのパラメータのみ更新している
    - この正則化を行わないと、Local Branchの方がGlobal Branchよりも学習が早く進み、局所領域の特徴を過学習してしまうとのこと

f:id:y_kurashina:20190804002958p:plain

DeepGlobeは衛星画像に対し7種の土地被覆ラベルが付いたデータセットで画像サイズは2448x2448
論文内では、皮膚がんのスクリーニングを行うISICや航空機画像で建物検出を行うInria Aerialデータセットでも評価しており、いずれのデータセットでも性能(mIoU)の向上と省メモリ化を実現している