数学がわからない

日々の勉強をアウトプットする。

論文を読む「Online Model Distillation for Efficient Video Inference」⑫

背景

「蒸留(Distillation)」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読む。

蒸留とは

蒸留とは、「何でも理解できるが重いネットワークよりも、実運用を考慮して特定の対象に特化させることで軽いネットワークを作る手法」。しかし「特定の対象」を明確にして予め準備して訓練するのが難しい。そこで本論文は「オンライン」で訓練する方法を提案している。

提案手法

本論文の提案する手法で作るビデオの毎フレームを処理する学生モデル「JITNet」は、高解像度入力からの推論、高学習率更新での安定性が求められ、エンコーダ・デコーダに類似した、内部に修正ResNetブロックを持つアーキテクチャで目的を達成する。この学生モデルは教師モデルとして使う「MRCNN」の91倍の推論速度で実行できる。

提案手法の課題

この「JITNet」をトレーニングするには以下の課題がある。

レーニン

訓練に用いるターゲットラベルは教師モデル(MRCNN)から生成する。
また、学生モデル(JITNet)はランダム初期化ではなく事前トレーニングしておく。
オンライントレーニングにおいて、momentumを0.9と学習率を0.01とオフラインより高めに設定する。

オンライントレーニングは、"stride"フレームおきに教師モデルの生成するデータを用いて行う。その際の教師モデルと学生モデルとの比較結果に応じて、"stride"の値を調整するというもの。唯一ユーザーが設定できるパラメータ精度閾値が大きければトレーニングされやすくなり、小さければトレーニングされにくくなる。

4. Long Video Streams (LVS) Dataset

Google翻訳した上で、自分の理解しやすいように修正する。

高速ビデオ推論を評価するには長時間実行ビデオストリームのデータセットが必要です。それは現実のカメラの展開を代表するものです。たとえば、自動小売チェックアウト、スポーツでのプレーヤー分析、交通違反の監視、拡張現実感のためのウェアラブルバイスビデオ分析などのような。

既存の大規模ビデオデータセットはさまざまなタスクのための高品質モデルのトレーニングをサポートするように設計されています。たとえば、行動検出[26、44]、物体検出、追跡、およびセグメンテーション[36、50]、そして注意深くcurateされた、短いビデオクリップの広範なセット(数秒から数分)のような。

一般的な高速ビデオ推論に必要なデータセットについて。写っているものも時間も、視点や品質など様々。

実際の長期シナリオで効率的な推論のための手法を評価するために設計された新しいデータセットを作成します。

データセットLong Video Streams dataset(LVS)と名付けた我々のデータセットは、30 HDビデオが含まれ、それは各30分の長さで少なくとも720p解像度である。(合計900分、比較するとYouTube-VOS [50]は345分です。)

交通カメラのような固定視点カメラからのストリームからなる効率的な推論のための他のデータセット[21]とは異なり、我々は多彩な試みを行っている。例えば、固定視点カメラから絶えず移動してズームするテレビカメラ、そしてハンドヘルドビデオと自己中心的なビデオまで。これらのビデオストリームの性質を考えると、最も一般的に発生するオブジェクトには人、車、そして動物が含まれます。

本論文ではデータセットの作成も課題としている。30分、720p解像度のビデオストリームを30セット、計900分。

データセットの900分(160万フレーム)すべてについて、グランドトゥルース、人間ラベル付きセグメンテーションを取得することは実用的ではありません。したがって、MRCNN [15]が観察されるビデオを注意深く選択して、正確でロバストな予測を提供します。 (DeepLab V3 [7]やInplace ABN [4]などの他のセグメンテーションモデルを評価し、最も信頼できるものとしてMRCNNがあることがわかりました)。

我々は高品質のMRCNN[9]を用いる、テスト時間データ拡張なしに。そしてその出力を全てのデータセットフレームに提供する、分類、検出、およびセグメンテーション(セマンティックおよびインスタンスレベル)メソッドの評価を支援するために。

図4は、データセットからのビデオのサンプリングと、それに対応するMRCNNセグメンテーションを示しています(各グループの左の画像)。すべての動画のMRCNN予測の視覚化を含む、追加のデータセットの詳細については、付録を参照してください。

900分で160万フレーム。時間で考えると少なく感じるが、フレーム数だと非常に多い。

まとめ

今回は "4. Long Video Streams (LVS) Dataset"。評価に用いるデータセットについて。次は5.Evaluation。