Objects as Points - 医療系AIエンジニアの技術メモ

f:id:y_kurashina:20190615233610j:plain — Fig1. CenterNetによる物体検出

論文URL

https://arxiv.org/pdf/1904.07850.pdf
2019年4月公開

ポイント

多くの物体検出モデルでは、大量の物体候補領域を抽出し、NMS(Non-Maximum Suppression)により最終的な物体位置を選択している。
本論文で提案されたCenterNetでは、候補領域ではなく、物体中心位置を直接推定する
- NMSが不要になり、高速で高精度なモデルになっている（Fig2)
- 同程度の処理速度のモデルと比較した場合はCenterNetの方が高性能となっているが、速度制約が無い場合、より高性能なモデルは存在する。

f:id:y_kurashina:20190616000047j:plain — Fig2. COCOでの性能評価

CenterNet

バックボーンのネットワークでの特徴量マップを計算
- $R$ はバックボーンの出力strideで、本論文では4
- 出力特徴量
  - $C$ 種類の物体毎の中心確率
  - 正解中心位置への行/列方向オフセット量(2成分)
    - 入力画像よりも出力特徴量マップは $R$ のストライド分解像度が粗いため、出力特徴量マップ上で検出される物体中心画素をそのまま入力画像上の位置に戻した場合、最大 $R/2$ 画素ずれるため入力画像上での位置を補正する必要がある。
  - boxのサイズ(2成分)
- 論文で評価しているバックボーン
  - 最軽量なネットワークはResNet18
    - 3層のup convolutionでdecodeしている
  - DLA34使用時が速度と精度のバランスが良い
  - Hourglass104使用時は低速になるが最高精度
    - 低速と言っても、大半の1stage detectorと同程度以上の速度にはなっている
  - ResNetとDLS34ではup convolutionをdeformable convolutionで行っている
正解とする物体中心確率
- box中心画素の確率を1とし、ガウシアンカーネルでぼかした結果を正解の物体中心確率としている
- 異なる物体の中心確率分布が重なった場合、最大の値を採用
- ガウシアンカーネルのσ値は不明
損失関数として以下の3項を考慮
- 物体中心位置確率はFocal Lossで評価
- 中心位置のオフセットは正解値との差の絶対の和を物体数で規格化した値で評価
- boxサイズも中心位置のオフセットと同様に評価
推論時は、8近傍の画素よりも物体中心確率が高い画素を物体中心として採用
- 確率上位100点に制限している

COCOでの評価結果

f:id:y_kurashina:20190616005739j:plain