Attention Augmented Convolutional Networks - 医療系AIエンジニアの技術メモ

f:id:y_kurashina:20190506002354j:plain — Fig1. Attention-augmented convolution

論文URL

https://arxiv.org/pdf/1904.09925.pdf

2019年4月公開

ポイント

画像の特徴量マップを算出するAttention Augmentation(AA)ブロックをGoogle Brainが提案
- 機械翻訳等のシーケンスデータを扱うTransfomerに、空間並進普遍性を考慮する項を追加
  - Transformerでは注意を向けるべき場所を抽出する辞書(クエリ、キー、バリュー)を学習を通して構築する
- SE blockのような従来型の注意機構では、畳み込み層の出力特徴量マップの補正重みを計算していたのに対し、AAブロックでは特徴量マップそのものを出力する
  - 論文中の実験では、畳み込み層とAAブロックの両方の特徴量マップをconcatして使用する方が高精度となっていたが、AAブロックのみで画像分類することも可能
性能
- ResNet50によるImageNet画像分類では精度が1.3%改善
- RetinaNetによるCOCO物体検出ではmAPが1.4%改善
- モデルのパラメータ数や計算コストはオリジナルのResNetと同程度
  - 特徴量マップのチャンネル数を変えない場合、畳み込み層のチャンネルを減らしAAブロックの特徴量を増やすほどパラメータ数と計算コストを減らすことができる
- AAブロックのメモリ使用量は大きい
  - $(height \times width) ^ 2$ に比例している

Attention Augmentation(AA)ブロック

数式に用いる変数
- $B, H, W, F _ {in}$ : 入力特徴量マップのバッチサイズ、行数、列数、チャンネル数
- $N _ h$ : ヘッドの個数。ヘッドごとに異なるクエリ、キー、バリューを計算する。
- $d _ k ^ h$ : $h$ 番目ヘッドのクエリおよびキー特徴量の深さ(＝チャンネル数)
- $d _ v ^ h$ : $h$ 番目ヘッドのバリュー特徴量の深さ
- $X$ : 入力テンソル。サイズは $B \times H \times W \times F _ {in}$
- $Q ^ h, K ^ h, V ^ h$ : $h$ 番目ヘッドのクエリ、キー、バリュー
- $S _ H ^ {h,rel}, S _ W ^{h,rel}$ : $h$ 番目ヘッドの行方向、列方向の空間並進普遍性考慮項
- $O _ h$ : $h$ 番目ヘッドの出力特徴量マップ
- $MHA$ : multihead-attention 。AAブロックの出力特徴量マップ
- 補足
  - 論文ではヘッドごとに異なる項の一部にしか $h$ が付記されていないが、明確化のため関連する全ての項に $h$ を追加
クエリの計算
- - $W _ q ^ h$ : $X$ をクエリ特徴量に変換する学習パラメータ。サイズは $F _ {in} \times d _ k ^ h$
  - 特徴量マップのチャンネル数を変換する演算となっており、1x1の畳み込みで計算できる
  - $Q ^ h$ のサイズは $B \times H \times W \times d _ k ^ h$
キーの計算
- - $W _ k ^ h$ : $X$ をキー特徴量に変換する学習パラメータ。サイズは $F _ {in} \times d _ k ^ h$
  - $K ^ h$ のサイズは $B \times H \times W \times d _ k ^ h$
バリューの計算
- - $W _ v ^ h$ : $X$ をバリュー特徴量に変換する学習パラメータ。サイズは $F _ {in} \times d _ v ^ h$
  - $V ^ h$ のサイズは $B \times H \times W \times d _ v ^ h$
行方向の空間並進普遍性考慮項
- - $i$ : 空間位置。行列方向成分をflat化したベクトル上のインデックスと考えれば良い。
  - $j$ : 位置 $i$ に対する相対行。相対行の範囲は $(-H+1) ～ (+H-1)$
  - $q _ i ^ h$ : $Q ^ h$ の位置 $i$ における成分
  - : におけるクエリ補正項。学習パラメータ。
    - サイズは $(2H-1) \times d _ k ^ h$
    - 全ヘッドの全列で共通の補正項となっている
    - の計算時に画像範囲外となるは使用しない
      - 例：一行目画素であれば、相対行 $0 ～ (+H-1)$ の $r _ {ij} ^ H$ 成分が使用される
  - のサイズは
    - 全画素について他の画素との相対的位置に基づく補正量が保持されている
列方向の空間並進普遍性考慮項
- 上記、行方向の普遍性考慮項において行と列を入れ替えて考えれば良い
ヘッドの出力特徴量マップ
- - 上記の式から $S _ H ^ {h,rel} , S _ W ^ {h,rel}$ を取り除くとTransformerと同じ形式のブロックになる。
- $Softmax ()$ 項のサイズは $B \times H ^2 \times W ^2$
- $O _ h$ のサイズは $B \times H \times W \times d _ v ^ h$
AAブロックの出力特徴量マップ
- - $W ^ O$ : サイズが $d _ v \times d _ v$ の学習パラメータ
  - $d _ v = \sum _ {h} d _ v ^ h$
- $MHA(X)$ のサイズは $B \times H \times W \times d _ v$

AA-ResNetによるImageNet画像分類性能

オリジナルのResNetに対してはもちろんAttentionを行っているSE-ResNetよりも高性能

f:id:y_kurashina:20190506172224j:plain