論文を読む"Distilling the knowledge in a neural network."⑯
背景
「蒸留(Distillation)」に関して、論文"Ravi Teja Mullapudi, Online Model Distillation for Efficient Video Inference."を読んだ。
その中で引用されていたモデル蒸留のために広く使用されている技術の論文として、次の論文を読み進めている。
[18] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
"8 Discussion"を読む
Google翻訳した上で、自分の理解しやすいように修正しながら読んでいく。
蒸留が、アンサンブルから、または大規模な高度に正規化されたモデルから、より小さな蒸留モデルへ、知識を移すために非常にうまく働くことを、我々は示しました。
MNISTでは、蒸留モデルの学習に使用される転送セットに、1つ以上のクラスの例がない場合さえ、蒸留は非常にうまく機能します。
ディープアコースティックモデル(Androidの音声検索で使用されているバージョン)では、ディープニューラルネットのアンサンブルをトレーニングすることによって達成されるほぼすべての改善が、同じサイズの単一のニューラルネットに蒸留でき、それがずっと容易にデプロイできることを、我々は示しました。
本稿の最後の章ということで、これまでの内容の振り返りになります。
- 本稿が示したこと
- 蒸留が非常にうまく機能すること
- MNIST:転送セットに、1つ以上のクラスの例がない場合の有効性
- ディープアコースティックモデル:アンサンブルを単一のニューラルネットに蒸留可能
- 蒸留が非常にうまく機能すること
3章と4章の内容ですね。
真に大規模なニューラルネットワークでは、完全なアンサンブルを訓練することさえ不可能である場合もありますが、我々は、非常に長い間訓練された単一の真に大きなネットのパフォーマンスは、著しく改善されることがあり得ることを示しました。それぞれが非常に混乱しやすいクラスタ内のクラス間を識別することを学習する、多数の専門家ネットを学習することによって。
専門家の知識を単一の大きなネットに戻す蒸留ができることは、我々はまだ示していません。
- アンサンブル訓練が不可能な巨大ネットワークの場合
- 複数の専門家モデルを学習することで改善が可能
- 蒸留はまだ
未解決課題もあるということで、この後、検討されたのでしょうか?
まとめ
論文"Distilling the knowledge in a neural network."の8章を読みました。"Distilling the knowledge in a neural network."はこれで終わりになります。