論文を読む「Online Model Distillation for Efficient Video Inference」③

背景

「蒸留（Distillation）」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読む。

1. Introduction2段落目まで読んだところ、蒸留とは、「何でも理解できるが重いネットワークよりも、実運用を考慮して特定の対象に特化させることで軽いネットワークを作る手法」と理解。
しかし、問題は「特定の対象」を何にするか、が難しいこと。

今日は1. Introduction3段落目から。

1. Introduction-3

AbstractをGoogle翻訳した上で、自分の理解しやすいように修正する。

本稿では説明するのは、「セマンティックセグメンテーションモデルを実現するための戦略」である。このセマンティックセグメンテーションモデルは、次のような特徴を持つ。

高精度

低コスト

単一のビデオストリームに特化

我々のアプローチは、モデル蒸留に広く使用されている技術[3,18]に基づいており、軽い重みを持つ「学生」モデルは、大きな「教師」モデルの推論を出力するように訓練される。
ただし、教師予測でラベル付けされたビデオストリームからのオフラインデータで特化学生モデルを訓練する[23]のではなく、ライブデータストリームのオンライン方式で学生を訓練し、教師を断続的に実行することで訓練のためのターゲットを提供する。
直感的に、新しいフレームが到着するたびにビデオストリームの特定の内容に継続的に適応され続けるという、単純なモデルが正確であろうことは理解できる。

重要なのは「オンライン」であること？
予め特化させる対象フレームを予測・用意することはできないからオフラインでの訓練は難しい。そこで、オンラインで、予測するのではなく、来たものを訓練する、ということだろうか。

本論文は、オンラインモデル蒸留によって、Mask R-CNN [15]教師に、7〜17倍低い推論実行時間コスト（FLOPを比較すると11〜27倍）で、近い精度のセマンティックセグメンテーションモデルが得られることを示す。ターゲットビデオの分布が時間で変動する場合であっても、である。
本論文の方法は、ターゲットビデオストリームからのデータでオフライン事前訓練することは必要としない。そしてフローに基づく効率中心のビデオセマンティックセグメンテーションソリューションよりも低いコストで、より高い精度のセグメンテーション出力を提供する。
本論文はまた、長時間のビデオストリームに対する推論効率を評価するために設計された新しいビデオデータセットも提供します。

で、高い性能の軽いセマンティックセグメンテーションモデルが得られた、と。重要なのはモデルそのものではなく、モデルを生成する戦略。

ここまででIntroductionを読み終え、だいたいやろうとしていることは理解できた。

数学がわからない

日々の勉強をアウトプットする。

論文を読む「Online Model Distillation for Efficient Video Inference」③

背景

1. Introduction-3