医療系AIエンジニアの技術メモ

ディープラーニング（主に画像系）の技術メモブログです

Attention U-Net: Learning Where to Look for the Pancreas

論文メモ

スポンサーリンク

f:id:y_kurashina:20190429231337j:plain — Fig1. Attention U-Net

論文URL

https://arxiv.org/pdf/1804.03999.pdf

2018年3月公開

ポイント

CT画像を用いた腹腔内臓器(膵臓、腎臓、脾臓)segmentation
3D U-Netにattention構造を追加
- 基本的なアイデアはscSE-NetのsSEブロックと同様、空間ピクセルごとにattention gateを追加する
- attention構造はsSEブロックより複雑
- 性能は1～2%改善、パラメータ数と処理速度は10%増加
  - 評価しているデータセットが異なるため単純比較できないが、scSE-Netの方が高性能に見える

Attention U-Net

エンコードした特徴量をデコードした特徴量とconcatする前にattention機構に通す(Fig1)
attention機構への入力は、エンコードした特徴量 $x ^ l$ とデコードした特徴量 $g$
$x ^ l$ と $g$ のそれぞれに対し1x1x1の3D畳み込みを行い、 $F _ {inl}$ チャンネルの特徴量マップを計算する
これらの特徴マップの和をReLUにかけた後、再度1x1x1の3D畳み込みを行いsigmoidにかけることで、attentionの重みαを得る
複数クラスのsegmentationを行う場合、αはスカラーではなく、チャンネル毎に計算される
- Fig2のαの次元は $H _ x \times W _ x \times D _ x$ となっているが、 $F _ l \times H _ x \times W _ x \times D _ x$ となる
- 1クラスのデータセットと複数クラスのデータセットの両方を実験に使用している

f:id:y_kurashina:20190429233922j:plain — Fig2. Attention機構

githubのコードを斜め読みした補足
- $x ^ l$ と $g$ の空間解像度の違いはtrilinear補間によるアップサンプリングで吸収
- $F _ {inl} = F _ l$