論文を読む「Online Model Distillation for Efficient Video Inference」⑱
背景
「蒸留(Distillation)」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読む。
蒸留とは
蒸留とは、「何でも理解できるが重いネットワークよりも、実運用を考慮して特定の対象に特化させることで軽いネットワークを作る手法」。
論文"Online Model Distillation for Efficient Video Inference."
問題
「特定の対象」を明確にして予め準備して訓練するのが難しい。
提案手法
「オンライン」で訓練する方法を提案。
提案する手法で作るビデオの毎フレームを処理する学生モデル「JITNet」は、エンコーダ・デコーダに類似した、内部に修正ResNetブロックを持つアーキテクチャで目的を達成する。
この学生モデルは教師モデルとして使う「MRCNN」の91倍の推論速度で実行できる。
課題の解決方法
訓練に用いるターゲットラベルは教師モデル(MRCNN)から生成する。
また、学生モデル(JITNet)はランダム初期化ではなく事前トレーニングしておく。
オンライントレーニングにおいて、momentumを0.9と学習率を0.01とオフラインより高めに設定する。
オンライントレーニングは、"stride"フレームおきに教師モデルの生成するデータを用いて行う。その際の教師モデルと学生モデルとの比較結果に応じて、"stride"の値を調整するというもの。唯一ユーザーが設定できるパラメータ精度閾値が大きければトレーニングされやすくなり、小さければトレーニングされにくくなる。
提案手法の評価
方法
- MRCNNとの比較で効率と精度の両方を評価
- 精度測定基準はmean IoU
- 速度の評価はMRCNNとの比較
結果
JITNetとMRCNNとの比較
- 結果のサマリ。
- 高性能を維持しながら平均10倍、パラメータを低精度側に倒せば20倍近く、困難な課題でも5倍の高速化が達成できる。
- 課題
- オブジェクトの大小による得意不得意
- 教師の推論結果すら信用できない場合
- オンラインモデル蒸留という仕組み自体が苦手とするもの
- JITNetのオンラインとオフラインの比較
- JITNetはオフラインで十分な精度を実現できる容量がないことを確認
- 少ない容量でも本論文のトレーニング方式により様々な場面に対応することが可能
- JITNetの従来手法との比較
- 教師モデルの結果を補間する手法
- Video Object Segmentation(VOS)
Appendix
- パラメータに関する研究
論文読解
Google翻訳した上で、自分の理解しやすいように修正しながら読んでいく。
7.2. DAVIS Evaluation
技法としてのオンライン蒸留は、コンパクトなモデルで精度の高い教師モデルを模倣するために用いられる。目的は実行時間効率の改善である。
本研究の主な焦点は、典型的な展開設定(deployment settings)から取得されたストリームをセマンティックセグメンテーションする、オンライン蒸留技術の実行可能性を実証することです。
このセクションでは、半教師付きビデオオブジェクトセグメンテーション手法を高速化するための、JITNetアーキテクチャと組み合わせたオンライン蒸留の、実行可能性に関する予備的な結果を示します。
具体的には、JITNetアーキテクチャをOSVOS-S[31]のような最先端の方法と組み合わせる方法、を評価します。
あえてここで何を目的にしているのかが理解できないが、最先端の方法であるOSVOS-S[31]との組み合わせる方法を評価するとのこと。
JITNetの3つの異なる構成を、さまざまなレベルの教師あり学習で評価します。
構成Aでは、各シーケンスの最初のグラウンドトゥルースフレームのみでJITNetをトレーニングし、追加の教師あり学習なしで、シーケンスの残りのフレームにおけるJITNetを評価します(標準ビデオオブジェクトセグメンテーションタスク)。
DAVISの多くのシーケンスでは、オブジェクトの外観は大きく変化し、オブジェクトの形状に関する事前知識が必要です。
JITNetはオンライントレーニング用に設計された非常に低容量のモデルであり、そのような事前情報をエンコードすることはできないことに注意してください。
構成Aはオンライン蒸留のシナリオではありませんが、容量が小さい場合でも、最初のフレームだけでトレーニングされたJITNetアーキテクチャーは妥当な結果をもたらします。
教師あり学習レベルを変えたJITNetの3つの構成を評価する。
OSVOS − S [31]のような最近の方法は、マスクR − CNNのようなインスタンスセグメンテーションモデルを利用する。フレーム毎にオブジェクト形状に関する事前情報を提供するためである。
我々は構成Bにおいて類似のアプローチを採用する。後世Bの目的は高価なOSVOS-Sモデルを模倣することである。
我々は最初のグランドトゥルースフレームでJITNetをトレーニングし、次に16フレームごとにOSVOS-S [31]のセグメンテーション予測を使用して適応します。
構成Bでは、我々の組み合わせアプローチは追加のグランドトゥルースを使用しないことに注意してください。OSVOS-S予測は最初のグランドトゥルースフレームのみを使用して作られるためです。
最後に、構成Cでは、我々は最初のグラウンドトルースフレームをトレーニングし、16フレームごとにグラウンドトルースマスクを適用します。
これにより、教師の質がオンライン蒸留にどのように影響するかがわかります。
以上、構成A,B,Cを比較評価して教師の質がオンライン蒸留にどのように影響するかを考察する。
構成A, B, Cの順に精度が上がると予想される。
評価にはDAVIS 2016 [36]データセットのバリデーションセットを使用します。
このデータセットには、合計3455フレームの50個のビデオシーケンスが含まれています。各ビデオシーケンスには、単一の前景オブジェクトのピクセル精度のセグメンテーションマスクがラベル付けされています。
我々は、メインDAVISメトリクス、すなわち、領域の類似性Jと輪郭の正確さFを、正確さ、再現率、および両者の時間による減衰、を用いて評価します。
我々は、最先端のビデオオブジェクトセグメンテーションアプローチのサブセットとともに、3つのJITNet構成すべてに対するDAVIS 2016検証セット全体のメトリクスを示します。
すべての構成において、YouTube-VOSで事前にトレーニングされたJITNet [50]から始め、フレームあたりの最大更新数を500、精度しきい値を0.95に設定し、標準のデータ拡張(反転、ランダムノイズ、ぼかし、回転)を使用します。
JITNet Aは、ビデオオブジェクトセグメンテーションのフローベースのアプローチであるOFL [47]と同様に機能します。一方、OSVOS-S予測を使用するJITNet Bは、OSVOSと同等に機能し、ランタイムコストを大幅に低減します。
最後に、適応にグランドトゥルースマスクを使用するJITNet Cは、OSVOS-S予測のみを使用する場合と同等のパフォーマンスを発揮します。
これは、わずかにノイズのある教師あり学習であっても、オンライン蒸留には十分であることを示唆している。
評価したところ、構成Aは従来技術と同等。構成Bは最先端技術と同等の精度をランタイムコストを大幅に低減した上で実現し、グランドトゥルースマスクを用いる構成Cと比較しても遜色なかったと結論する。
予測によって動作する構成Cが、グランドトゥルースを用いる構成Cに匹敵するという結果が、オンライントレーニングの有効性を示していると理解。
まとめ
Appendix7.2。オンライントレーニングの有効性を評価? あとは7.3、7.4。