論文を読む「Online Model Distillation for Efficient Video Inference」⑫
背景
「蒸留(Distillation)」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読む。
蒸留とは
蒸留とは、「何でも理解できるが重いネットワークよりも、実運用を考慮して特定の対象に特化させることで軽いネットワークを作る手法」。しかし「特定の対象」を明確にして予め準備して訓練するのが難しい。そこで本論文は「オンライン」で訓練する方法を提案している。
4. Long Video Streams (LVS) Dataset
Google翻訳した上で、自分の理解しやすいように修正する。
高速ビデオ推論を評価するには長時間実行ビデオストリームのデータセットが必要です。それは現実のカメラの展開を代表するものです。たとえば、自動小売チェックアウト、スポーツでのプレーヤー分析、交通違反の監視、拡張現実感のためのウェアラブルデバイスビデオ分析などのような。
既存の大規模ビデオデータセットはさまざまなタスクのための高品質モデルのトレーニングをサポートするように設計されています。たとえば、行動検出[26、44]、物体検出、追跡、およびセグメンテーション[36、50]、そして注意深くcurateされた、短いビデオクリップの広範なセット(数秒から数分)のような。
一般的な高速ビデオ推論に必要なデータセットについて。写っているものも時間も、視点や品質など様々。
実際の長期シナリオで効率的な推論のための手法を評価するために設計された新しいデータセットを作成します。
データセットLong Video Streams dataset(LVS)と名付けた我々のデータセットは、30 HDビデオが含まれ、それは各30分の長さで少なくとも720p解像度である。(合計900分、比較するとYouTube-VOS [50]は345分です。)
交通カメラのような固定視点カメラからのストリームからなる効率的な推論のための他のデータセット[21]とは異なり、我々は多彩な試みを行っている。例えば、固定視点カメラから絶えず移動してズームするテレビカメラ、そしてハンドヘルドビデオと自己中心的なビデオまで。これらのビデオストリームの性質を考えると、最も一般的に発生するオブジェクトには人、車、そして動物が含まれます。
本論文ではデータセットの作成も課題としている。30分、720p解像度のビデオストリームを30セット、計900分。
データセットの900分(160万フレーム)すべてについて、グランドトゥルース、人間ラベル付きセグメンテーションを取得することは実用的ではありません。したがって、MRCNN [15]が観察されるビデオを注意深く選択して、正確でロバストな予測を提供します。 (DeepLab V3 [7]やInplace ABN [4]などの他のセグメンテーションモデルを評価し、最も信頼できるものとしてMRCNNがあることがわかりました)。
我々は高品質のMRCNN[9]を用いる、テスト時間データ拡張なしに。そしてその出力を全てのデータセットフレームに提供する、分類、検出、およびセグメンテーション(セマンティックおよびインスタンスレベル)メソッドの評価を支援するために。
図4は、データセットからのビデオのサンプリングと、それに対応するMRCNNセグメンテーションを示しています(各グループの左の画像)。すべての動画のMRCNN予測の視覚化を含む、追加のデータセットの詳細については、付録を参照してください。
900分で160万フレーム。時間で考えると少なく感じるが、フレーム数だと非常に多い。