数学がわからない

日々の勉強をアウトプットする。

論文"Objects as Points"を読む(6)

gyokan.hatenablog.com

の続きです。

5. Implementation details

4つのアーキテクチャ(ResNet-18、 ResNet101 [55]、 DLA-34 [58]、 and Hourglass-104 [30])で実験します。
ResNetsとDLA-34に関しては、「変形可能な畳み込み層[12]」を用いて修正し、Hourglassネットワークはそのまま使用します。

ここから実装の話です。本論文はバウンディングボックスを、それぞれキーポイント、オフセット、サイズを表す画像形式に変換して用いるというものなので、画像形式を出力とするネットワークがそのまま使えます。

Hourglass

stacked Hourglassネットワーク[30、40]は、入力を4倍ダウンサンプリングし、2つの連続 hourglass モジュールを続けます。各 hourglass 計モジュールは、スキップ接続を持つ対称5層のダウンおよびアップコンボリューションネットワークです。このネットワークは非常に大規模ですが、一般的に最高のキーポイント推定パフォーマンスが得られます。

[30] H. Law and J. Deng. Cornernet: Detecting objects as paired keypoints. In ECCV, 2018.
[40] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.

一つ目のネットワークが Hourglass (砂時計)というもの。まずは、大規模で性能が高いモデルということのようです。

ResNet

Xiao et al. [55]は、より高い解像度の出力(出力ストライド4)を可能にするために、3つのアップコンボリューションネットワークで標準残差ネットワーク[22]を拡張します。我々はまず、計算量を節約するために、3つのアップサンプリングレイヤのチャネルをそれぞれ256、128、64に変更します。そして、チャネル256、128、64とのそれぞれのアップコンボリューションの前に、1つの3×3変形可能コンボリューションレイヤを追加します。アップコンボリューションカーネルはバイリニア補間として初期化されます。詳細なアーキテクチャ図については補足を参照してください。
[55] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In ECCV, 2018.
[22] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

二つ目がRezNetを高解像度にするために拡張したもの。計算量も節約しています。

DLA
Deep Layer Aggregation(DLA)[58]は、階層的スキップ接続を持つ画像分類ネットワークです。 我々は密な予測のためにDLAの完全畳み込みアップサンプリングバージョンを利用します。これは特徴マップの解像度を対称的に増加させるために、反復的なディープアグリゲーション(iterative deep aggregation)を使用する。我々は、下位層から出力への変形可能な畳み込み[63]で、スキップ接続を強化します。具体的には、アップサンプリング層ごとに、元の畳み込みを3×3変形可能畳み込みに置き換えます。詳細なアーキテクチャ図については補足を参照してください。我々は、各出力ヘッドの前に、256チャネルを有する1つの3×3畳み込み層を追加します。そして最後の1×1の畳み込み演算によって、希望する出力が得られます。我々は補足資料で詳細を説明します。

[58] F. Yu, D. Wang, E. Shelhamer, and T. Darrell. Deep layer aggregation. In CVPR, 2018.
[63] X. Zhu, H. Hu, S. Lin, and J. Dai. Deformable convnets v2: More deformable, better results. arXiv preprint arXiv:1811.11168, 2018.

三つ目がDeep Layer Aggregation(DLA)というもの。簡単に「こういうもの」という説明がないため、どういうものかを知りたければ、関連文献を調べる必要があります。

文献[58]の概要を引用します。

Visual recognition には、低から高までのスパンレベル、小から大までのスケール、および細かいものから粗いものまでの解像度といった、「豊富な表現」が必要です。たたみ込みネットワークの特徴の深さがあってさえ、単独の層では十分ではありません。すなわち、これらの表現を合成して集約することで、何をどこで推論するかが向上します。


アーキテクチャに関する取り組みでは、ネットワークバックボーンのためのさまざまな側面を探求し、より深いまたはより広いアーキテクチャを設計しています。しかし、ネットワーク全体でレイヤとブロックを最適に集約する方法にはさらに注意が必要です。


スキップ結合は層を結合するために組み込まれていますが、これらの結合はそれ自体「浅い」ものであり、そして単純なワンステップ操作によってのみ融合する。レイヤ間の情報の融合を強化するために、より高度な集約によって標準アーキテクチャを強化します。


当社のディープレイヤアグリゲーション構造は、特徴階層を反復的かつ階層的にマージして、より良い精度と少ないパラメータでネットワークを構築します。


アーキテクチャとタスクにわたる実験では、ディープレイヤアグリゲーションは既存の分岐およびマージ方式と比較して認識と解決を向上させることがわかりました。

スパンレベルはよくわかりませんが、様々なスケール、解像度といった「豊富な表現」を可能とするために、ネットワークアーキテクチャには、「より深くより広く」とは異なる「集約(Aggregation)」が必要とのこと。文献[58]のDeep Layer Aggregation(DLA)では、「特徴階層を反復的かつ階層的にマージ」するもので、高精度と少パラメータを両立を実現するとのことです。

まとめ

論文"Objects as Points"の5章を読み始めました。まず実験に用いるネットワークアーキテクチャが紹介されています。