数学がわからない

日々の勉強をアウトプットする。

論文"Objects as Points"を読む（５）

機械学習検出

gyokan.hatenablog.com
の続きです。

From points to bounding boxes （ポイントからバウンディングボックスまで）

推論時は、最初にヒートマップの各カテゴリのピークを個別に抽出します。我々は値が8連結近傍以上であるすべての応答を検出し、上位100のピークを維持します。

$\hat{\mathcal{P}}_c$ を、クラスｃのｎ個の検出された中心点の集合 $\hat{\mathcal{P}}=\{(\hat{x}_i, \hat{y}_i)\}^n_{i=1}$ としましょう。各キーポイント位置は整数座標 $(x_i, y_i)$ によって与えられます。我々はキーポイント値 $\hat{Y}_{x_iy_i c}$ を検出信頼度の尺度として使用し、次の場所に境界ボックスを作成します。

$\begin{align} (\hat{x}_i + \delta \hat{x}_i - \hat{w}_i/2,\ \hat{y}_i + \delta \hat{y}_i - \hat{h}_i/2,\ \hat{x}_i + \delta \hat{x}_i + \hat{w}_i/2,\ \hat{y}_i + \delta \hat{y}_i + \hat{h}_i/2), \end{align}$

ここで、 $(\delta \hat{x}_i, \delta \hat{y}_i) = \hat{O}_{\hat{x}_i,\hat{y}_i}$ はオフセット予測、 $( \hat{x}_i, \hat{y}_i) = \hat{S}_{\hat{x}_i,\hat{y}_i}$ はサイズ予測です。

IoUに基づく非最大値抑制(NMS)または他の後処理を必要とせず、すべての出力がキーポイント推定から直接生成されます。

ピークキーポイント抽出は、十分なNMS代替案として役立ち、３×３最大プール操作を用いるデバイス上で効率的に実施することができる。

推論において、中心点、オフセット、サイズが出力されるニューラルネットワークから、所望の出力形式であるバウンディングボックスを生成する方法について記載されています。

出力であるC+4枚の画像について、まずヒートマップからピーク位置を検出し、そのピーク位置（座標）について、オフセット画像、サイズ画像からそれぞれの値を取得することで、示されている式に基づいてバウンディングボックスを作成できます。

難しい内容ではないですね。

まとめ

論文"Objects as Points"の4章を読み進めました。4章はこの後、"4.1. 3D detection"、"4.2. Human pose estimation"と続くのですが、これらのタスク別の詳細にはあまり興味がないので飛ばして、次は"5. Implementation details"を読もうと思います。