論文 "The Fast Bilateral Solver" ① - 数学がわからない

論文"The fast bilateral solver. "[1]を読む。

例えばDNNで画像のセグメンテーションを行うと十分な解像度の結果が得られず、特に境界が粗くなったりする。[1]は、この問題を解決する手法の一つであるバイラテラルフィルタを高速化した、「バイラテラルソルバー」の提案を目的としている。

[1]がやろうとしていること

DNNが出力した粗いセグメンテーション結果から、精度の高い（境界が滑らかになった）セグメンテーション結果を得ることが目的。

この目的のために、次の最適化問題を解くのが「バイラテラルソルバー」。

\begin{align}
\underset {x}{minimize} \ \displaystyle \frac{\lambda}{2} \displaystyle \sum_{i,j} \hat{W}_{i,j}(x_i-x_j)^2 + \displaystyle \sum_{i} c_i (x_i - t_i)^2
\tag{１}
\end{align}

式（１）に用いられている記号について説明する。

$x_i$ ：出力画像 x（精密なセグメンテーション結果）の $i$ 番目の画素の値。
$x_j$ ：出力画像 xの $j$ 番目の画素の値。
$\hat{W}_{i,j}$ ： $i$ 番目の画素と $j$ 番目の画素にかかる重み。
$c_i$ ：信頼度画像cの $i$ 番目の画素の値。
$t_i$ ：ターゲット画像tの $i$ 番目の画素の値。

ターゲット画像、信頼度画像、出力画像について説明する。

ターゲット画像t：例えばDNNが出力した粗いセグメンテーション結果。抽出したい領域を１、それ以外の領域を０で表す２値画像。境界付近の精度が低い。
信頼度画像（confidence image）c：ターゲット画像中、セグメンテーション精度（信頼性）が高い領域を１、低い領域を０で表した画像と思われる。[1]のセクション２Problem Formulationまで読んだ時点では具体的にどうやって作ればよいか分からない。
出力画像x ：ターゲット画像が改善され、境界付近の精度が向上したもの。

式（１）の解釈

式（１）を解くとは、式（１）の値を最小化する出力画像xを取得することである。
ターゲット画像t、信頼度画像cは固定の状態で、出力画像xを様々な値に変化させ、式（１）を最小化する出力画像xを求めることを実際には行う。

式（１）は画像依存の平滑化項（image-dependent smoothness term）とデータ忠実項（data-fidelity term）との二つで構成されている。

画像依存の平滑化項（image-dependent smoothness term）

式（１）の一つ目の項 $\displaystyle \frac{\lambda}{2} \displaystyle \sum_{i,j} \hat{W}_{i,j}(x_i-x_j)^2$ は、画素値 $x_i$ と画素値 $x_j$ の差が大きくなれば大きくなる値を、重み $\hat{W}_{i,j}$ で制御している。