数学がわからない

日々の勉強をアウトプットする。

論文を読む「Online Model Distillation for Efficient Video Inference」①

背景

「蒸留(Distillation)」というキーワードが気になったので勉強開始。
ここで読む論文は、"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."

Abstract

AbstractをGoogle翻訳し、自分の理解しやすいように意訳してみる。

高度なコンピュータビジョンモデルは典型的には、実世界のあらゆる画像を理解するという問題に取り組む。

しかし、ほとんどのカメラはあらゆる画像を理解しなければならないような状況で運用されてはいない。つまり、ある一つのカメラによって観察される対象は偏っており、コンパクトで低コストのモデルを特化させることで、効率的な推論を達成できる。

本稿は、モデル蒸留(model distillation)(高コストの教師の出力を用いて低コストの学生モデルを訓練する)を用いて、正確で低コストのセマンティックセグメンテーションモデルをビデオストリームをターゲットに特化する。

ビデオストリームからのオフラインデータについて専門学生モデルを訓練するのではなく、ライブビデオを用いてオンラインで訓練し、教師を断続的に動作させて訓練のターゲットを提供する。

オンラインモデル蒸留は、ターゲットビデオ分布が非定常(non-stationary)であっても、推論実行時間コスト7〜17倍(FLOPでは11〜26倍)で、Mask R-CNN教師に近い精度のセマンティックセグメンテーションモデルが得られる。

我々の方法は、ターゲットビデオストリームのオフライン事前訓練を必要とせず、フローまたはビデオオブジェクトセグメンテーションに基づく方法よりも高精度かつ低コストを達成する。

また、長時間のビデオストリーム推論の効率を評価するための新しいビデオデータセットも提供する。

何でも理解できるが重いネットワークよりも、実運用を考慮して特化させることで軽いネットワークを作る手法という良いだろうか。方法としては重い教師モデルから学生モデルを作る、と。


次回は1. Introductionを読み進めよう。