数学がわからない

日々の勉強をアウトプットする。

論文 "Fast bilateral-space stereo for synthetic defocus" ④

論文"Fast bilateral-space stereo for synthetic defocus. "を読む。

背景

低品質のセグメンテーション結果から高品質のセグメンテーション結果を生成するバイラテラルソルバーについて調査中、実際にプログラミングするため引用文献から本論文にたどり着いた。

疑問点

  • バイラテラルソルバーを計算するために必要な行列、ベクトルの作り方。
  • 親和性行列の作り方(二重確率化とは?)
  • 信頼度の作り方

論文を読む

論文はデフォーカスレンダリングを目的とするデプスマップ作成のために、バイラテラル空間で行なわれる新しい最適化フレームワークを提案し、高速に視差図を求めようとしている。

コア技術はバイラテラルフィルタをピクセル空間からバイラテラル空間へとリサンプリングする「バイラテラル表現」であり、まずは"2. FAST BILATERAL FILTERING"において、本論文が取り扱うパーミュテヘドラルラティスと単純化バイラテラルグリッドの簡単な説明と参考文献が紹介されている。

合続いて、3. PROBLEM FORMULATION を読み進めていく。

3. PROBLEM FORMULATION

以下、論文を和訳して適当に切り貼りする。そのため、重要な記述の抜け漏れがあるかもしれない。

グローバルステレオ最適化問題

本論文が解こうとしている最適化問題を次式に示す。

\begin{align}
\underset {\bf{p}}{\rm minimize} \ \displaystyle \frac{1}{2} \sum_i \sum_j \hat{A}_{i,j} (p_i-p_j)^2 + \lambda \sum_i f_i(p_i)
\tag{5}
\end{align}

  • \lambda:式の前半の平滑化項と、後半のデータとのバランスをとる乗数。
  • \hat{A}_{i,j}ピクセルijの間の類似性。行列Aのbistochastic (二重確率行列形、すべての行と列の合計が1。操作が簡単で、フィルターとして使用すると望ましい特性がある[20])。
  •  f_i \left( \cdot \right):異なる値のp_iにペナルティを課す凸コスト関数。ステレオ命名法(nomenclature)では、すべての f_i \left( \cdot \right)のセットが集合的にステレオペアの「コストボリューム」を形成する。

上式は前半が平滑化に関する制約、後半がデータに関する制約であり、それぞれ望ましい視差 p_iをとることで値が小さくなるので、式を最小化することで求める視差 p_iが得られる。


本章「PROBLEM FORMULATION」は、この式(5)から、次の式(10)を導出する方法を述べている。

\begin{align}
\underset {\bf{v}}{\rm minimize} \ {\bf v}^T (C_s-C_n\bar{B}C_n){\bf v} + \lambda \displaystyle \sum_j g_j(v_j)
\tag{10}
\end{align}

  • \bf v:バイラテラル空間における頂点
  •  C_s:対角がSの行の和に等しい対角行列(C_s = diag(S1)
  •  C_nC_n\bar{B}C_n1= C_s1となるように構築された対角行列
  •  \bar{B}:バイラテラル空間における「ぼかし」行列
  •  g_i \left( \cdot \right):バイラテラル空間におけるデータ項を与えるルックアップテーブル

このバイラテラル空間最適化問題は、式5のピクセル空間最適化問題と近似的に同等である。

この変換に用いているのが3章で述べた「バイラテラル表現」の考え方である。
式(5)をそのまま解くのは計算量的に現実的ではないので、「バイラテラル表現」を用いて近似した式(10)を作って最適な頂点\bf vを取得する問題に置き換えることで、計算量を抑え高速化する。なお、この頂点\bf vは、次式によってピクセル空間における対応ピクセル\bf pに変換できる。


\begin{align}
\textbf{p} = S^T \textbf{v}
\tag{7}
\end{align}

なお、式(5)から式(10)を導出する方法は、本章「PROBLEM FORMULATION」の他、「補足資料"Fast Bilateral-Space Stereo for Synthetic Defocus Supplemental Material"」に詳細が記述されている。
その変換の方法は置いておき、ここからは、式(10)の具体的な作り方(行列Sやルックアップテーブルgの作り方)、また高速化できたとはいえ、式(10)をどうやって解くのかについて調べていく。

まとめ

3. PROBLEM FORMULATION を読み、この論文が解こうとしている最適化問題は式(10)であることを理解する。
式の導出方法などは他文献にまたがるようなので詳細はまた別に調査したい。まずは式(10)を実際に動かせるようにすることを目標とする。