論文 "Fast bilateral-space stereo for synthetic defocus" ①

論文"Fast bilateral-space stereo for synthetic defocus. "[2]を読む。１回目。

gyokan.hatenablog.com

背景

前回まで

論文[0]"The fast bilateral solver"の2章「Problem Formulation」を読んだ。

論文[0]は低品質のセグメンテーション結果 $\textbf{t}$ から高品質のセグメンテーション結果 $\textbf{x}$ を生成するバイラテラルソルバーを提案している。

論文[0]の2章「Problem Formulation」は、バイラテラルソルバーを（式８）で定式化している。しかし、実際にプログラミングしようとすると（式８）に必要な行列 $S^T$ 、 $A^{-1}$ （ $A$ を構成する $\lambda, D_m, D_n, \bar{B}, S$ 、信頼度画像 $\textbf{c}$ ）、ベクトル $\textbf{b}$ の具体的な作り方が分からない。

$\begin{align} \hat{\textbf{x}}=S^T(A^{-1}\textbf{b}) \tag{8} \end{align}$
$\begin{gather} A=\lambda(D_m-D_n\bar{B}D_n)+diag(S\textbf{c})\ \ \ \ \textbf{b}=S(\textbf{c}\circ\textbf{t})\ \ \ \ c=\displaystyle\frac{1}{2}(\textbf{c}\circ\textbf{t})^T\textbf{t} \end{gather}$

疑問点

バイラテラルソルバーを計算するために必要な行列、ベクトルの作り方。

具体的には $S^T$ 、 $A^{-1}$ （ $A$ を構成する $\lambda, D_m, D_n, \bar{B}, S$ 、信頼度画像 $\textbf{c}$ ）、 $\textbf{b}$ 、何一つ分からない。

これらはバイラテラル親和性行列 $\hat{W}_{i,j}$ を行列因数分解して取得する（式（４））はずなので、“splat/blur/slice”が理解できれば良いのだろうか？だとすると、文献[1,2,5]、特に式（４）の説明に引用されている文献[2]を読めばよい？

親和性行列 $\hat{W}_{i,j}$ の作り方

なお、バイラテラル親和性行列 $\hat{W}_{i,j}$ は親和性行列 $W_{i,j}$ を二重確率化したものとのことだが、これも具体的なやり方は分からない。二重確率化というのは一般的な用語なのか？

信頼度 $c_i$ の作り方

最初からずっと不明。

その他要調査事項

複数のターゲット画像がある場合（多値化の場合？）→文献[0]補足
preconditioned conjugate gradient（共役勾配法）アルゴリズム →補足、文献[36]
ディープラーニングパイプラインに統合→（3章）
前処理と初期化のための高度な技術を使用→（4章）
ソルバーのロバストで多変量一般化→ 文献[0]補足

今回から

式（８）を計算するために必要な行列、ベクトルの作り方を調べるために文献[2]を読んでみる。
文献[2]で分からなければ、文献[0]補足、文献[1,5]を読むことになりそう。

論文を読む

Abstract をGoogle翻訳し、修正したものを引用する。

Abstract

ステレオペアが与えられると、デプスマップを復元し、そのデプスを使用して合成的にデフォーカス画像をレンダリングすることが可能になる。
ステレオアルゴリズムはよく研究されているが、「これらデフォーカスレンダリングを作成する」という文脈だけを考慮したアルゴリズムはほとんどない。
本稿では、推論が「バイラテラル空間」で行われる新しい最適化フレームワークを用いて、視差図（disparity maps）を効率的に生成する手法を提案する。
我々のアプローチは他のステレオアルゴリズムよりも高品質の「デフォーカス」結果を生成する、同等の技術よりも10倍から100倍高速である。

課題

ステレオペアからデプスマップを復元し、デプスマップからデフォーカス画像を作る。

提案

視差図生成のための、「バイラテラル空間」で行われる新しい最適化フレームワークを提案

効果

従来技術の10倍から100倍高速にデフォーカス画像を生成。

f:id:rettouseinosugakubenkyo:20190424053419p:plain

まとめ

論文[0]がセグメンテーション、こちらは視差図の生成が目的。画素ごとに「視差」というラベルを割り当てる問題と考えれば同じことか。

数学がわからない

日々の勉強をアウトプットする。