論文"Objects as Points"を読む②
の続きです。
"2. Related work "を読む
関連研究がたくさん出てきます。
Object detection by region classification. (領域分類による物体検出)
最初に成功したディープオブジェクトディテクタの1つであるRCNN [19]は、多数の領域候補[52]からオブジェクトの位置を列挙し、それらを切り取り、ディープネットワークを使用してそれぞれを分類します。
Fast-RCNN [18]は代わりに計算を節約するために画像特徴を切り取ります。
ただし、どちらの方法も低速の低レベルの領域提案(region proposal)方法に依存します。
Object detection with implicit anchors. (暗黙的アンカーを用いたオブジェクト検出)
より速いRCNN [46]は検出ネットワーク内で領域提案を生成する。
低解像度の画像グリッドの周囲の固定形状の境界ボックス(アンカー)をサンプリングし、それぞれを「前景かどうか」に分類します。
アンカーは、何らかのグラウンドトゥルースオブジェクトとのオーバーラップが0.7以上で前景、0.3未満で背景とラベル付けされ、そうでなければ無視されます。
生成された各領域提案は再び分類されます[18]。提案分類子(proposal classifier)をマルチクラス分類に変更すると、1段階検出器の基礎が形成されます。
1段検出器に対するいくつかの改善は、アンカー形状プライア[44, 45]、異なる特徴分解能[36]、および異なるサンプル間の損失の再重み付け[33]を含みます。
我々のアプローチは、アンカーベースの1段階アプローチ[33, 36, 43]と密接に関係しています。中心点は、単一の形状にとらわれないアンカーと見なすことができます(図3を参照)。ただし、いくつか重要な違いがあります。
まず、私たちのCenterNetはボックスの重なり(box overlap)[18]ではなく、単に位置に基づいて「アンカー」を割り当てます。前景と背景の分類のための手動のしきい値[18]はありません。
次に、オブジェクトごとにポジティブな「アンカー」が1つだけあるため、NonMaximum Suppression(NMS)[2]は必要ありません。キーポイントヒートマップ[4, 39]で単純に局所ピークを抽出します。
第3に、CenterNetは、従来の物体検出器[21、22](出力ストライド16)と比較して、より大きい出力解像度(出力ストライド4)を使用します。これにより、複数のアンカー[47]が不要になります。
Object detection by keypoint estimation. (キーポイント推定による物体検出)
物体検出にキーポイント推定を使用したのは、私たちが最初ではありません。
CornerNet [30]は2つのバウンディングボックスの角をキーポイントとして検出し、ExtremeNet [61]はすべてのオブジェクトの上、左、下、右端、および中心点を検出します。
これらの方法はどちらも、私たちのCenterNetと同じロバストなキーポイント推定ネットワーク上に構築されています。
しかしながら、それらは、キーポイント検出の後に組み合わせグループ化段階を必要とし、それは各アルゴリズムを著しく遅くする。
一方、私たちのCenterNetは、グループ化や後処理を必要とせずに、オブジェクトごとに1つの中心点を単純に抽出します。
Monocular 3D object detection. (単眼3Dオブジェクト検出)
3Dバウンディングボックスの推定は、自動運転を促進します[17]。
Deep3Dbox [38]は、最初に2Dオブジェクト[46]を検出し、次に各オブジェクトを3D推定ネットワークに入力することで、slow-RCNN [19]スタイルのフレームワークを使用します。
3D RCNN [29]は、Faster-RCNN [46]に追加頭部を加え、その後に3D投影を追加します。
Deep Manta [6]は、多くのタスクについて訓練された、coarse-to-fine Faster-RCNN [46] を使います。
私たちの方法は、Deep3Dbox [38]または3DRCNN [29]の1段階バージョンに似ています。そのため、CenterNetは他の競合方式よりもはるかに単純で高速です。
まとめ
"Objects as Points"の"2. Related work "を読みました。というより、たくさんの文献が引用されているのでその関係を図にまとめてみました。