Objects as Points
スポンサーリンク
論文URL
https://arxiv.org/pdf/1904.07850.pdf
2019年4月公開
ポイント
- 多くの物体検出モデルでは、大量の物体候補領域を抽出し、NMS(Non-Maximum Suppression)により最終的な物体位置を選択している。
- 本論文で提案されたCenterNetでは、候補領域ではなく、物体中心位置を直接推定する
- NMSが不要になり、高速で高精度なモデルになっている(Fig2)
- 同程度の処理速度のモデルと比較した場合はCenterNetの方が高性能となっているが、速度制約が無い場合、より高性能なモデルは存在する。
CenterNet
- バックボーンのネットワークでの特徴量マップを計算
- はバックボーンの出力strideで、本論文では4
- 出力特徴量
- 種類の物体毎の中心確率
- 正解中心位置への行/列方向オフセット量(2成分)
- 入力画像よりも出力特徴量マップはのストライド分解像度が粗いため、出力特徴量マップ上で検出される物体中心画素をそのまま入力画像上の位置に戻した場合、最大画素ずれるため入力画像上での位置を補正する必要がある。
- boxのサイズ(2成分)
- 論文で評価しているバックボーン
- 最軽量なネットワークはResNet18
- 3層のup convolutionでdecodeしている
- DLA34使用時が速度と精度のバランスが良い
- Hourglass104使用時は低速になるが最高精度
- 低速と言っても、大半の1stage detectorと同程度以上の速度にはなっている
- ResNetとDLS34ではup convolutionをdeformable convolutionで行っている
- 最軽量なネットワークはResNet18
- 正解とする物体中心確率
- box中心画素の確率を1とし、ガウシアンカーネルでぼかした結果を正解の物体中心確率としている
- 異なる物体の中心確率分布が重なった場合、最大の値を採用
- ガウシアンカーネルのσ値は不明
- 損失関数として以下の3項を考慮
- 物体中心位置確率はFocal Lossで評価
- 中心位置のオフセットは正解値との差の絶対の和を物体数で規格化した値で評価
- boxサイズも中心位置のオフセットと同様に評価
- 推論時は、8近傍の画素よりも物体中心確率が高い画素を物体中心として採用
- 確率上位100点に制限している
COCOでの評価結果