Noise2Noiseを理解する① - 数学がわからない

論文"Noise2Noise: Learning Image Restoration without Clean Data"を読みます。

"Abstract"を読む

我々は、機械学習による信号の再構築 - 破損した観測値をクリーンな信号にマッピングする学習 -に、基本的な統計的推論を、単純で強力な結論を用いて適用します。

すなわち、明示的な画像の事前分布や破損の尤度モデルを使用せずに、破損した例を確認するだけで、クリーンなデータを使用したトレーニングのパフォーマンス以上に、画像復元を学ぶことができます。

実際には、我々は、ノイズの多いデータのみに基づいて、単一のモデルで、写真のノイズ除去、合成モンテカルロ画像のノイズ除去、アンダーサンプリングされたMRIスキャンの再構成（すべて異なるプロセスで破損）を、学習することを示します。

まずアブストラクトです。本論文が示す機械学習型画像復元モデルは、

明示的な画像の事前分布や尤度モデルを使用しない
破損した例を確認するだけでクリーンなデータを使用した場合以上のパフォーマンスを実現
異なる様々な破損プロセスに利用可能

という強力な方法です。

"1. Introduction"を読む

「不完全データからの信号再構成」とディープラーニング

破損または不完全な測定からの信号再構成は、統計データ解析の重要なサブフィールドです。

ディープニューラルネットワークにおける最近の進歩は、

伝統的かつ明示的な、「信号破損の先験的統計的モデリング（a priori statistical modeling）」を回避すること、

その代わりに、破損した観察を、観察されていないクリーンなバージョンにマッピングすることを学習すること、

に、大きな関心を呼び起こした。

従来より、統計データ解析の一分野に「不完全データからの信号再構成」というものがあります。

ディープラーニングの登場により、この分野に起きた革命は、「伝統的な統計的モデリング」は行わず「破損したものからは損していないものに変換する方法を学習する」というものです。

つまり、理論的に正しい方法を考えるのではなく、大量のデータを使って無理やりとりあえずうまくいく方法を見つけだす、といったところでしょうか（ディープラーニングでやっていることは全てこれな気もしますが）。

基本の式（１）

これは、回帰モデル（例えば、畳み込みニューラルネットワーク（ＣＮＮ））を、破損入力 $\hat{x}_i$ とクリーンターゲット $y_i$ とからなる多数のペア $(\hat{x}_i,y_i)$ で訓練し、経験的リスクを最小化するものであり、次式によって行われる。

$\begin{align} \underset{\theta}{argmin} \displaystyle \sum_i L(f_\theta(\hat{x}_i),y_i), \tag{1} \end{align}$
ここで、 $f_\theta$ は、損失関数 $L$ の下での、写像のパラメトリックファミリ（parametric family）（例えばCNNs）です。

我々は記法 $\hat{x}$ を使って、破損入力 $\hat{x} \thicksim p(\hat{x}|y_i)$ が、クリーンなターゲットに従って分布した確率変数（random variable）であることを強調します。

求めようとしているのは、フィルタ $f_\theta$ であり、やることはこれを入力画像 $\hat{x}_i$ と正解画像 $y_i$ のペアを用いた学習で取得するという単純なアイデアです。

重要なのは、入力画像 $\hat{x}_i$ が、正解画像 $y_i$ に従う確率変数であることのようです。

問題はトレーニングセットの取得が面倒な場合

トレーニングデータは、例えば、同じシーンの短時間露光写真と長時間露光写真のペア、磁気共鳴画像の不完全および完全なｋ空間サンプリング、合成シーンの高速だがノイズが多いものと低速だが収束した光線追跡レンダリング、等を含むことができる。

いくつかのアプリケーションにおいて一時づしい進歩が報告されています。

ガウスノイズ除去

de-JPEG

テキスト除去（Maoら、2016）

超解像性（Ledigら、2017）

カラー化（Zhangら、2016）

（Iizukaら、2017）

しかし、クリーンなトレーニングターゲットの取得は、しばしば困難あるいは面倒です。たとえば、

ノイズのない写真は長時間の露光を必要とします。

フルMRIサンプリングは動く被験者に適しません。

等々。

機械学習を用いる多くの研究と同様、問題となるのははデータの収集に手間がかかるとのことです。クラスタリング等のように人手を使えば何とかなるものと異なり、データの取得には何らかの装置や取得方法に工夫がいるというところが特徴的でしょうか。

取得が原理的に非常に難しいものもある一方で、簡単に取得可能なもの、特定の人には取得が簡単なものなどありそうです。たまたま簡単に収集できるデータが、機械学習に有効に使えるデータだった、ということがあり得て、そういう場合は思いもよらないビジネスに繋がったりするのかもしれませんね。

問題を解決する手段「クリーンなデータが不要」

本研究では、我々は、悪い画像を見るだけで、悪い画像を良い画像に変えることがしばしば学習でき、そして、これがクリーンな例を用いた場合と同等に―ときには同等以上に―良好に働く、ことを観察しています。

さらに、我々は、破損の明示的な統計的尤度モデルも事前画像も必要とせず、代わりに訓練データから間接的にこれらを学習します。（実際、我々の例の１つである合成モンテカルロレンダリングでは、非定常ノイズを分析的に特徴付けることはできない）。

ノイズ除去に加えて、本発明者らの観察は、アンダーサンプリングされたデータからのＭＲＩ再構成のような逆問題に直接適用可能である。

我々の結論は統計的観点からはほとんど自明ではないが、訓練データの利用可能性に関する要件を引き上げることによって、実際的な学習信号の再構築を著しく容易にする。

Noise2Noiseトレーニングのための参照TensorFlow実装はGitHub. で利用可能です。