数学がわからない

日々の勉強をアウトプットする。

論文を読む「Online Model Distillation for Efficient Video Inference」⑪

背景

「蒸留(Distillation)」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読む。

蒸留とは

蒸留とは、「何でも理解できるが重いネットワークよりも、実運用を考慮して特定の対象に特化させることで軽いネットワークを作る手法」。しかし「特定の対象」を明確にして予め準備して訓練するのが難しい。そこで本論文は「オンライン」で訓練する方法を提案している。

提案手法

本論文の提案する手法で作るビデオの毎フレームを処理する学生モデル「JITNet」は、高解像度入力からの推論、高学習率更新での安定性が求められ、エンコーダ・デコーダに類似した、内部に修正ResNetブロックを持つアーキテクチャで目的を達成する。この学生モデルは教師モデルとして使う「MRCNN」の91倍の推論速度で実行できる。

提案手法の課題

この「JITNet」を訓練するには以下の課題がある。

レーニン

訓練に用いるターゲットラベルは教師モデル(MRCNN)から生成する。
また、学生モデル(JITNet)はランダム初期化ではなく事前トレーニングしておく。
オンライントレーニングにおいて、momentumを0.9と学習率を0.01とオフラインより高めに設定する。

オンライントレーニングは、"stride"フレームおきに教師モデルの生成するデータを用いて行う。その際の教師モデルと学生モデルとの比較結果に応じて、"stride"の値を調整するというもの。

3.3. Adaptive Online Distillation-3

Google翻訳した上で、自分の理解しやすいように修正する。

アルゴリズムはストリーミング方式で動作し、ビデオ内のフレームを時間的順序で処理します。

教師は現在のストライドの倍数フレームのみ実行されます。教師が実行されると、アルゴリズムは教師に対する現在のJITNetモデルの精度を計算します。JITNetの精度が所望のJITNet精度しきい値(平均IoU)よりも小さい場合、教師予測を使用してモデルが更新されます(前のセクションで詳しく説明)。

JITNetモデルは、設定された精度しきい値、またはフレームごとの更新反復数の上限に達するまでトレーニングされます。トレーニングフェーズが終了すると、JITNetが精度しきい値を満たす場合、教師を実行するためのストライドを2倍に、そうでなければ、半分にします(最小および最大ストライドによって制限されます)。

精度しきい値は、アルゴリズム内で唯一のユーザーに公開されるノブです。評価で示されているように、しきい値の値を変更すると、精度と効率のトレードオフの範囲が広くなります。

アルゴリズムの説明。頭3に書かれている通りで、そう難しいことではない。

唯一ユーザーが設定できるパラメータが精度閾値で、この精度閾値が大きければ学生モデルはより教師モデルを使ってトレーニングされやすくなり、小さければトレーニングされにくくなる。

連続するビデオフレームに大きな動きが含まれていても、全体的な外観はそれほど変わらない場合があります。したがって、現在のフレームでより多くの学習反復を行う方が良い。新しいが視覚的に類似しているフレームで教師モデルを動作させることによる高いコストを払うよりも。

最大ストライドは、システムが数秒以内に変更に応答できるように選択されました(25 fpsビデオで64フレームは約2.6秒です)。

1フレームあたりの最大更新回数は、おおよそJITNetのトレーニング時間と教師の推論コストの比です。

これらのパラメータはシナリオに基づいて変更できます。

すべての実験で、最小ストライドと最大ストライドをそれぞれ8と64に設定し、フレームあたりの最大更新数を8に設定します。

付録には、これらのパラメータのアブレーション研究、ネットワーク設計の選択、およびトレーニング方法が含まれています。

精度閾値以外のパラメータについて。

学生モデルは最も頻度が高ければ8フレームに一回、最も低ければ64フレームに一回訓練される。

1フレーム当たりの最大更新回数は8で、これは学生モデルのトレーニング時間と教師の推論コストの比との事なので、教師の推論は学生モデルのトレーニング時間の8倍かかるということ。これらによるディレイはどれくらいなのだろうか。

まとめ

3章まで読み終わる。次は "4. Long Video Streams (LVS) Dataset"。データセットについての話題は ささっと読み終わりたいところ。