数学がわからない

日々の勉強をアウトプットする。

論文を読む「Online Model Distillation for Efficient Video Inference」②

背景

「蒸留(Distillation)」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読む。

Abstractを読んだところ、「何でも理解できるが重いネットワークよりも、実運用を考慮して特化させることで軽いネットワークを作る手法」と理解。

続いて1. Introductionを読み進める。

1. Introduction

AbstractをGoogle翻訳した上で、自分の理解しやすいように修正する。

まずは1段落目。

多くのコンピュータビジョンアルゴリズムは、現実世界の画像の最も「一般的な分布」(ImageNet [37]やCOCO [27]などの「インターネット」スケールのデータセットでモデル化されていることが多い)を理解するという問題に焦点を当てています。

しかし、ある一つのカメラは、「一般的な分布」のほんの一部しか観察していません。これは、一つのカメラによって観察される画像という「特定の分布」に対するコンパクトで低コストのモデルを「特化」することによって、より効率的な推論を達成する可能性を提供します。

言い換えれば、効率を上げるためにモデルはカンニングすることを学ぶことができます。例えば、公園の芝生に座っている人々をセグメント化することは緑の色合いを探すのと同じくらい簡単かもしれません。

Abstractに書いていることとほぼ同じで、「一般的な分布」を学ばなくても「特定の分布」を学ぶことで問題の解決には十分な効率的なモデルを作ることができる、という内容。

続いて2段落目。

しかし、実際にはモデルの特化(model specialization)は困難です。なぜなら、カメラに写る画像の分布を予測することは難しいからです。

特化アプローチは次に依存する。

  • モデルの退屈な構成[28,11]
  • 稀な事象を逃さないようにサンプルを訓練したモデルの注意深い選択[29]

たとえカメラごとのキュレーション(情報収集?)が可能であったとしても、多くのビデオストリームは、低容量モデルによって単純にキャプチャすることはできません。経時的に観察された画像中の分布シフト(distribution shift)のためです。

たとえば、固定カメラは、時間が経過し、気象条件が変化し、さまざまな被写体が視野内を移動する、常に変わり続けるシーンを観察します。

移動カメラにはより大きな課題があります。テレビカメラはパンとズーム、ほとんどのスマートフォンのビデオはハンドヘルド、そして車やロボットの自己中心的(egocentric )カメラは動的なシーンを移動します。

カメラが写すであろう「特定の分布」に特化させればいい、というのは言うは易しで実際はその「特定の分布」を推測することが難しいという話。

それはそうだ。たとえば自動運転用の動くカメラはもちろん、固定カメラであっても映るモノは変わり続けるし、実運用にて「そんなものが視野に入るとは想定していませんでした」というわけにはいかない。

今日はここまで。