数学がわからない

日々の勉強をアウトプットする。

論文 "Fast bilateral-space stereo for synthetic defocus" ①

論文"Fast bilateral-space stereo for synthetic defocus. "[2]を読む。1回目。

gyokan.hatenablog.com

背景

前回まで

論文[0]"The fast bilateral solver"の2章「Problem Formulation」を読んだ。

論文[0]は低品質のセグメンテーション結果\textbf{t}から高品質のセグメンテーション結果\textbf{x}を生成するバイラテラルソルバーを提案している。

論文[0]の2章「Problem Formulation」は、バイラテラルソルバーを(式8)で定式化している。しかし、実際にプログラミングしようとすると(式8)に必要な行列S^TA^{-1}Aを構成する\lambda, D_m, D_n, \bar{B}, S、信頼度画像\textbf{c})、ベクトル\textbf{b}の具体的な作り方が分からない。

 \begin{align}
\hat{\textbf{x}}=S^T(A^{-1}\textbf{b})
\tag{8}
\end{align}

 
\begin{gather}
A=\lambda(D_m-D_n\bar{B}D_n)+diag(S\textbf{c})\ \ \ \ 
\textbf{b}=S(\textbf{c}\circ\textbf{t})\ \ \ \ 
c=\displaystyle\frac{1}{2}(\textbf{c}\circ\textbf{t})^T\textbf{t}
\end{gather}

疑問点

  • バイラテラルソルバーを計算するために必要な行列、ベクトルの作り方。

具体的にはS^TA^{-1}Aを構成する\lambda, D_m, D_n, \bar{B}, S、信頼度画像\textbf{c})、\textbf{b}、何一つ分からない。

これらはバイラテラル親和性行列\hat{W}_{i,j}を行列因数分解して取得する(式(4))はずなので、“splat/blur/slice”が理解できれば良いのだろうか?だとすると、文献[1,2,5]、特に式(4)の説明に引用されている文献[2]を読めばよい?

  • 親和性行列\hat{W}_{i,j}の作り方

なお、バイラテラル親和性行列\hat{W}_{i,j}は親和性行列W_{i,j}を二重確率化したものとのことだが、これも具体的なやり方は分からない。二重確率化というのは一般的な用語なのか?

  • 信頼度c_iの作り方

最初からずっと不明。

その他要調査事項

  • 複数のターゲット画像がある場合(多値化の場合?)→文献[0]補足
  • preconditioned conjugate gradient(共役勾配法アルゴリズム →補足、文献[36]
  • ディープラーニングパイプラインに統合→(3章)
  • 前処理と初期化のための高度な技術を使用→(4章)
  • ソルバーのロバストで多変量一般化→ 文献[0]補足

今回から

式(8)を計算するために必要な行列、ベクトルの作り方を調べるために文献[2]を読んでみる。
文献[2]で分からなければ、文献[0]補足、文献[1,5]を読むことになりそう。

論文を読む

Abstract をGoogle翻訳し、修正したものを引用する。

Abstract

ステレオペアが与えられると、デプスマップを復元し、そのデプスを使用して合成的にデフォーカス画像をレンダリングすることが可能になる。

ステレオアルゴリズムはよく研究されているが、「これらデフォーカスレンダリングを作成する」という文脈だけを考慮したアルゴリズムはほとんどない。

本稿では、推論が「バイラテラル空間」で行われる新しい最適化フレームワークを用いて、視差図(disparity maps)を効率的に生成する手法を提案する。

我々のアプローチは他のステレオアルゴリズムよりも高品質の「デフォーカス」結果を生成する、同等の技術よりも10倍から100倍高速である。

  • 課題

ステレオペアからデプスマップを復元し、デプスマップからデフォーカス画像を作る。

  • 提案

視差図生成のための、「バイラテラル空間」で行われる新しい最適化フレームワークを提案

  • 効果

従来技術の10倍から100倍高速にデフォーカス画像を生成。

f:id:rettouseinosugakubenkyo:20190424053419p:plain

まとめ

論文[0]がセグメンテーション、こちらは視差図の生成が目的。画素ごとに「視差」というラベルを割り当てる問題と考えれば同じことか。