Simple Cues Lead to a Strong Multi-Object Tracker

どんなもの？

先行研究と比べてどこがすごい?

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Memo

概要長い間、MultiObject Trackingの最も一般的なパラダイムは、Tracking-by-Detection（TbD）であり、まずオブジェクトを検出し、次にビデオフレーム上で関連付ける。関連付けのために、ほとんどのモデルは動きや外観の手がかり、例えばネットワーク再同定を利用している。本論文では、単純な古き良きTbD手法もエンドツーエンドモデルの性能を達成することが可能かどうかを問う。この目的のために、我々は標準的な再同定ネットワークが外見に基づく追跡を得意とするための2つの重要な要素を提案する。その失敗事例を広範囲に分析し、我々の外見特徴と単純な動きモデルの組み合わせが、強力な追跡結果を導くことを示す。我々のトラッカーは4つの公開データセット、すなわちMOT17、MOT20、BDD100k、DanceTrackに一般化し、最先端の性能を達成した。https://github.com/dvl-tum/GHOST。

マルチオブジェクトトラッキング(MOT)は、ビデオ内の全ての動くオブジェクトの軌跡を見つけることを目的としている。この分野で支配的なパラダイムは、トラッキングを2つのステップに分けるTracking-by-Detectionである： (i)フレーム単位でのオブジェクト検出、(ii)検出されたオブジェクトを関連付け、軌跡を形成するためのデータ関連付け。オンライントラッカーのための最も単純なデータ関連付けの1つは、ハンガリーアルゴリズム[26]を使用したフレーム毎のマッチングです。マッチングは多くの場合、外観、例えば再同定（reID）特徴[11, 20, 35, 45, 57, 59, 75]、あるいは動きの手がかり[4, 42, 47, 65, 74]などの手がかりによって駆動される。最近のトラッカーでも、データ駆動型の動きプリオール[4, 54, 64, 79]や、外部reIDモデル[4, 64]を含む可能性のある外見キューを提案している。

Transformer[36,56,71]に基づく最近のトラッカーのほとんどは、フレームとTrackedオブジェクト間の自己および交差注意を通して、データから必要な全てのキューを学習する。これは暗黙のうちに、手作業で作成された外観と動きの手がかりに通常埋め込まれているヒューリスティックを取り除くものであり、より一般的なトラッカーへの道となり得るが、学習戦略は非常に複雑であり、そのようなモデルを学習するために必要なデータ量は非常に大きく、MOTデータセット[15]では十分ではなく、CrowdHuman[52]のような検出データセットでの事前学習に頼る手法もあるほどである。

研究の観点からは興味深く挑戦的ではあるが、古き良きアピアランスやモーションキューなど、定義し活用する方法を知っている強力な事前学習が存在する場合、マルチオブジェクトトラッキングにおいても全てを学習する道を歩むべきかどうかは疑問である。本論文で示すように、このようなキューを適切に活用するためには、重要な観察が必要です。これらの観察は単純で明白に見えるかもしれないが、コミュニティによってほとんど見落とされてきた。もし我々が、Transformerをトレーニングするのと同じように、このようなキューを適切に理解し実装することに時間を費やすならば、我々は、複数のベンチマークで依然として最先端を支配し、トラッキングデータでトレーニングする必要すらない、外観とモーションをキューとするシンプルなハンガリアントラッカーで報われるだろう。

我々の最初の観察は、単に外観マッチングのために最先端の再同定（reID）ネットワークを使用するだけでは、MOTの実際のシナリオには不十分であるということです。図1では、Market-1501データセット[77]におけるいくつかの最先端の再識別アプローチの性能（x軸）と、単純なマッチングベースのトラッカーで使用した場合のモデルの性能（y軸）を可視化しています。これは、reIDの性能が必ずしもMOTの性能に変換されないことを示している。我々は、MOT上でのreIDモデルの弱い性能の原因となる2つの問題を特定する：

(i)reIDモデルは、異なる時間軸で予想される異なる課題を考慮する必要がある。すなわち、近くのフレームでは物体の外観は最小に変化するが、より長い時間ギャップでは、（部分的な）オクルージョンなどによる、より深刻な変化が予想される。

(ii)MOTシーケンスの画像統計は様々であり、対応するreIDトレーニングデータセットの比較的安定した条件とは異なるため、reID性能はMOTシーケンス間で一貫しない傾向がある。我々は、前述の問題を克服するために、2つの単純だが重要な設計上の選択を提案する。すなわち、オンザフライでのドメイン適応と、アクティブなトラックと非アクティブなトラックに対する異なるポリシーである。さらに、どのような状況でreIDが十分でなく、モーションモデルが必要かを判断するために、可視性、オクルージョン時間、カメラの動きの異なる条件下で広範な分析を行う。我々は、加重和を使用した単純な線形運動モデルとreIDを組み合わせることで、異なるデータセットに対して必要なときに各キューに重みを与えることができるようにする。我々の発見は、Good Old Hungarian Simple TrackerまたはGHOST(頭文字の順序は製品を変更しない)を提案することに結実する。GHOSTは4つの異なるデータセットに汎化し、最先端技術を著しく凌駕する。