Spatio-Temporal Action Detection Under Large Motion

どんなもの？

モーションが大きいシーンにおけるアクション検出手法の提案．UCFとMultisportsデータセットでSOTA

先行研究と比べてどこがすごい?

TOI-Align（Track-of-Interest Align）を用いた特徴抽出を提案し、TAAD（Track Aware Action Detector）を提案

技術や手法のキモはどこ？

動画認識手法にトラッキングによる出力の活用

どうやって有効だと検証した？

UCFとMultisportsデータセットでSOTA

議論はある？

最適なトラッカーの選択．サッカーのような複数競技者がいる時と少人数で行った時の性能の比較

次に読むべき論文は？

slowFAST[CVPR2019]

Memo

時空間アクションチューブ検出のための現在の方法は、多くの場合、与えられたキーフレームで提案されたバウンディングボックスを3D時間立方体に拡張し、近くのフレームから特徴をプールします。しかし、このようなプーリングは、大きなカメラモーション、大きなアクターの形状の変形、高速なアクターの動作などにより、アクターの位置や形状がフレームを通して大きな2次元の動きや変動を示す場合、意味のある時空間特徴を蓄積することができない。

この研究では、大きなアクションの下でのアクション検出におけるキューボイドを考慮した特徴集約の性能を研究することを目的とする。さらに、アクターを追跡し、それぞれの軌跡に沿って時間的特徴集約を行うことで、大きな動きの下でのアクター特徴表現を強化することを提案する。アクターの動きは、様々な固定時間スケールにおけるアクションチューブ／トラックのボックス間のIntersection-Over-Union（IoU）で定義する。大きな動きを持つアクションは時間と共にIoUが低くなり、遅いアクションはより高いIoUを維持する。我々は、トラックを考慮した特徴集約が、キューボイドを考慮したベースラインと比較して、特に大きな動きのアクションに対して、アクション検出性能の大きな改善を一貫して達成することを発見した。その結果、大規模データセットであるMultiSportsデータセットにおいても最先端の結果を報告する。

はじめに AVA[15]やUCF24[40]データセットにより、時空間におけるアクションを分類・局所化する時空間アクション検出が注目されている。しかし、現在の最先端研究[12, 21, 28, 37, 53]のほとんどは、複雑なコンテキストモデリング[28, 41, 53]、大規模なバックボーンネットワーク[11, 22, 25]、またはオプティカルフロー[37, 52]ストリームを組み込むことによって、通常アクション検出性能を向上させることに焦点を当てている。上記の方法は、特徴集約のためにキューボイドを意識した時間プーリングを使用する。この研究では、図1に示すように、AVA[15]とは異なり、大きな動きのインスタンスを含むMultiSports[20]データセットを用いて、アクションインスタンスの動きの程度が異なる場合のキューボイドを考慮したアクション検出を研究することを目的とする。

図1: AVA、UCF24、MultiSportsの学習セットにおいて、1秒間隔で撮影されたグランドトゥルースのバウンディングボックスのペアのIoU測定値の累積密度関数。例えば、MultiSportsのインスタンスの20%はIoUが0.0以下であり、これはインスタンスの20%に非常に大きなモーションが存在することを意味する。対照的に、AVAインスタンスの10%だけがIoUが0.5以下であり、これは90%のインスタンスが1秒後に大きくオーバーラップしていることを意味する。

大きなオブジェクトの動きは、速いカメラの動き、速いアクション、ポーズ変化による体型の変形、カメラとアクションの混在など、様々な理由で発生する。これらの理由を図2に示す。さらに、アクションクラス内のモーションの速度は、上記の理由の混合や、アクションタイプの性質（例えば、ポーズベースのアクションやインタラクションベースのアクションなど）のために変化し得る。これらの理由のいずれかが、最適でない特徴集約を引き起こし、与えられた理由のアクション分類におけるエラーにつながる可能性がある。

我々はアクションを3つのカテゴリに分けることを提案する：図1と図3に示すように、大モーション、中モーション、小モーションである。この区別は、アクターのグランドトゥルースチューブを用いて計算することができる、同じアクターのボックスの経時的なIoUに基づいています。図1と図2に見られるように、大きな動きは小さな時間窓の中で素早く起こるため、我々は、コンテキスト特徴[27, 28, 41]や長期的特徴[41, 47]のような付加的なものなしに、ベースラインのキューボイド認識手法の異なる動きカテゴリーに対する性能を研究することを提案する。大モーションの場合、IoUは小さくなり（図3（a））、その結果、3Dキューボイドを意識した特徴抽出器では、アクション全体を通してアクターの位置を中心とした特徴を捉えることができなくなります。このような大きな動きのケースに対応するため、我々は、時間経過に伴うアクターの追跡と、TOI-Align（Track-of-Interest Align）を用いた特徴抽出を提案し、TAAD（Track Aware Action Detector）を実現します。

さらに、図4に示すように、我々の提案するTAADネットワークのために、TOI-Aligned特徴の上に様々なタイプの特徴集約モジュールを研究する。

(a)我々は、MS COCO[23]における物体サイズに基づく物体検出の研究と同様に、動きの種類ごとに評価メトリクスを用いて、大きな動きの行動検出を系統的に研究した最初の研究者である。(b)大きな動きを処理するために、チューブ／トラックを意識した特徴集約モジュールを使用することを提案し、このタイプのモジュールが、特にこのような大きな動きを持つインスタンスに対して、ベースラインよりも大きな改善を達成するのに役立つことを示す。(c)その過程で、我々は昨年のチャレンジ勝者に大差をつけ、MultiSportsデータセットの新たな最先端を打ち立てた。

関連研究

アクション認識[4, 11, 12, 22, 25, 34, 44, 46]モデルは、強力な映像表現モデルを提供する。しかし、問題としてのアクション認識は、映像内のローカライズされた動きをより正確に理解する必要があるアクション検出ほど豊かではない。したがって、大きな動きのもとでの行動を理解するためには、行動検出の方がより適切な問題である。

我々は特に時空間アクション検出問題[13, 14, 15, 47, 53]に興味があり、アクションインスタンスはアクションチューブと呼ばれる時間的にリンクされたバウンディングボックスの集合として定義される。オンラインアクション検出[1, 18, 21, 37, 39, 49]の最近の進歩により、UCF24[40]データセット上で、（一般的により正確な）オフラインアクション検出手法[15, 29, 31, 32, 35, 36, 43, 44, 52]と非常に遜色のない性能レベルに達している。

UCF24はAVA[15]よりも時空間アクション検出（すなわちアクションチューブ検出）の主要なベンチマークとなっている。UCF24は、トリミングされていない動画の全フレームがアノテーションされており、高密度のアクションチューブのアノテーションを提供しているため、アクションチューブ検出の研究に適している（AVA [15]とは異なり、動画は1秒間に1フレームしかアノテーションされていない）。さらに最近、Liら[20]は、UCF24データセットの2つの主な問題点を解決したMultiSportsデータセットを提案した。第一に、より細かいアクションクラスがある。第二に、同じビデオ内で複数のアクターが複数のタイプのアクションを実行している。その結果、MultiSportsデータセットは多様性と規模の点でAVAに匹敵する。さらに、MultiSportsデータセットは、毎秒25フレームのレートで毎フレーム、高密度にアノテーションされているため、図1に示すように、大きな動き下のアクションを理解するのに理想的である。

同時に、AVA[15]を用いたキーフレームに基づくアクション検出に焦点を当てた、興味深い論文[6, 11, 12, 28, 41]も数多く発表されています。AVAは3つの面で行動検出研究を推進するのに役立っている。まず、[6, 11, 12, 25, 44]のような研究のおかげで、バックボーンモデルの表現が格段に良くなりました。第二に、長期特徴バンク（LBF）[47]が登場し[28, 41, 51]、アクター間の時間的関連はないものの、ある程度の時間的コンテキストを捉えることができるようになりました。第三に、アクターとオブジェクト間の相互作用が研究されている [27, 28, 41, 51]。もう一度言うが、我々が研究したい問題は、小さな時間スケールで素早く起こる大きな動きの下での行動検出である。上記の手法はすべて、局所的な特徴集約のためにキューボイドを意識したプーリングを用いるが、これは-これから示すように-動きが素早く大きい場合には理想的ではない。その結果、我々はSlowFast[12]ネットワークを、そのシンプルさと時空間表現力のためにベースラインとして採用する。また、MultiSports[20]のベースラインとして、またUCF24に関する他の多くの研究で、基本的な構成ブロックとして使用されている。

Weinzaepfelら[45]の研究は、アクション検出にトラッキングを使用した最初のものである。とはいえ、彼らのゴールは我々のものとは異なる。彼らは、トラックからのバウンディングボックスのプロポーザルが与えられたフレーム単位でアクションの分類が行われるチューブ生成部分において、リンク問題を解決するためにトラッカーを使用した。一方我々は、トラック全体からの特徴をプールすることによるアクション検出を提案する。Gabriellav2[8]は、共起するアクティビティの時間的検出の問題を解決するためにトラッキングを利用する別の方法であるが、背景減算に依存しており、現実のビデオでは失敗する可能性がある。

Singhら[36]、Liら[21]、Zhaoら[53]は、トラッキングの助けを借りずに柔軟なマイクロチューブのプロポーザルを生成する唯一の研究である。しかし、これらのアプローチは数フレーム(2-10)に限定されている。マルチフレームチューブアンカーに必要な1-2秒の大きなタイムウィンドウにスケールする可能性がなく、多数のフレームでボックス座標を回帰するクエリがないため、数フレームでパフォーマンスが低下します。

方法論

このセクションでは、Track Aware Action Detector (TAAD)と呼ぶ、大きなモーションを持つアクションを扱うための提案手法を説明する。まず、セクション3.2で説明するトラッカーを使用して、ビデオ内のアクターを追跡することから始める。同時に、ビデオ認識用に設計されたニューラルネットワークであるSlowFast[12]を使い、各クリップから特徴を抽出する。トラックボックスとビデオ特徴を使用し、RoI-Align操作[16]でフレーム毎の特徴をプールする。その後、TFA（Temporal Feature Aggregation）モジュールがトラックごとの特徴を受け取り、単一の特徴ベクトルを計算し、そこから分類器が最終的なアクションラベルを予測する。図4は我々の提案するアプローチの各ステップを示しています。

3.1. ベースライン・アクション検出器ビデオバックボーンとしてSlowFast [12]ネットワークを選択する。この選択の第一の理由は、VideoSwin [25]やMViT [10,22]などの大規模なTransformerモデルに対して、時空間的なアクション検出のタスクにおいて、その性能が依然として競争力を持つことである。さらに、SlowFastは、VideoSwin[25]の88GFLOPS、MViT[10]の170GFLOPSに対し、65.7GFLOPSと、トランスフォーマーよりも計算効率が高く、2つの異なる時間スケールの特徴を提供します。異なる時間スケールを持つことは重要である。特に、我々は、より小さなスケールが必要な高速かつ/または大規模なモーションを処理することを目的としているためである。最後に、SlowFastは、この研究の主要なベンチマークであるMultiSportsとUCF24データセットで選択されるデフォルトのバックボーンネットワークであり、既存の研究との比較を容易にする。

ResNet-50[17]ベースのSlowFast[12]アーキテクチャでpySlowFast[9]を使用し、Feichtenhoferら[12]とLiら[20]の研究をベースにベースラインを実装します。まず、背景フレーム（+bg-frames）、すなわち、我々の検出器であるYOLOv5によって誤って検出されたフレームを、行動検出器の訓練用の余分な負サンプルとして追加する。次に、マルチラベルをマルチクラス分類器に置き換え、クラスごとの2値クロスエントロピーからクロスエントロピー損失（CE-loss）に切り替えます。最後に、下方FPNブロックも追加した（詳細はSup.Mat.を参照）。これらの変更を通じて、我々は可能な限り強力なベースラインを構築することを目指した。

3.2. トラッカー YOLOv5[30,42]とTorchReID[54]をベースにしたYOLOv5- DeepSort [2]のクラス不可知バージョンをトラッカーとして採用した。YOLOv5-DeepSort[2]は、YOLOv5[30]とTorchReID[54]をベースとする。再識別(ReID)モデルとしては、事前に訓練されたOsNet-x0-25[55]を使用する。実験セクションで示すように、高いリコール、すなわち欠落した関連付けの数が少ないトラッカーは、アクションチューブ検出のパフォーマンスを向上させる鍵となる。また、検出器の微調整は、特に映像の質と解像度が低いUCF24では必要なステップであることも示す。

トラッカーはバウンディングボックス提案フィルタリングモジュールとしても使用できる。時々、検出器は偽陽性につながるスプリアスである複数の高得点検出を生成しますが、これらの検出は時間的に一貫していないため、生成されるトラックのいずれとも一致しません。トラックによって生成されたプロポーザルは、テスト時にベースライン手法で使用することができる。これはベースライン法の性能向上に役立つ。

3.3. 時間的特徴の集約トラックオブインタレストアライン（TOI-Align）： SlowFastビデオバックボーンは入力クリップを処理し、T×H×Wの特徴テンソルを生成する。RoI-Align[16]はこの2つの配列を入力とし、サイズNt×T×H×Wの特徴配列を生成する。トラックの長さが入力クリップの長さより小さい場合は、時間方向で最後に利用可能なバウンディングボックスを複製する。特徴の集約：キーフレーム内のバウンディングボックスのラベルを予測するためには、空間と時間にまたがる特徴を集約する必要がある。まず、TOI-Alignによって抽出された特徴量に対して空間次元の平均プーリングを適用し、次に時間的特徴集約の役割を、以下の検討されたバリエーションのいずれかによって実行する：

時間軸上のマックス・プーリング（MaxPool）。2. 一連の時間的畳み込み（TCN）。3. Atrous Spatial Pyramid Pooling (ASPP)[5]の時間的変形。Detectron2[48]のASPPの実装を修正し、2Dを1Dの畳み込みに置き換える。

ConvNeXt[24]とVideoSwin[25]ブロックの時間バージョンも試したが、これらは学習率や他のハイパーパラメータを調整しても不安定な学習になった。我々の実験では、TCNモジュールに時間畳み込みの1つのレイヤーのみを使用した。詳細はSup.Mat.を参照。

3.4. チューブの構築ビデオレベルのチューブ検出では、フレームごとの検出からアクションチューブを構築する必要がある。このプロセスは2つのステップに分けられる[32]。1つ目はプロポーザルをリンクしてチューブの仮説（すなわちアクショントラック）を形成する。2つ目は、これらの仮説をアクションがある部分まで切り詰める。この2つのステップは、トラッキングステップと時間的（開始時刻と終了時刻）アクション検出ステップと考えることができる。既存のアクションチューブ検出手法[20, 21, 33, 36]の大部分は、最初のステップに[18, 37]で最初に提案された貪欲な提案連結アルゴリズムを使用している。ベースラインアプローチでは、[37]のチューブリンク処理と同じ方法を用いる。我々の方法(TAAD)ではすでにトラックを持っているので、リンクステップはすでに完了している。アクショントラックの時間的トリミングは、多くの先行研究[18, 21]で使用されているラベルスムージング最適化[32]を使用して実行される。特に、[37]によって提供された時間的トリミングの実装をクラス別に使用する。

3.6. 実装の詳細

入力として32フレームを使用し、サンプリングレートは2である。Slowfast-R50- 8 × 8 [12]を使用し、速度比α = 8、チャンネル比β = 1/8 とする。重みの最適化には確率的勾配降下法(SGD)を使用し、学習率は0.05、バッチサイズは32で、4GPUを使用する。学習率を線形にウォームアップするために1エポックを使用し、その後、コサイン学習率スケジュール[26]を使用し、最終学習率を0.0005とし、合計5エポックを使用する。なお、UCF24では3エポックしか学習していない。すべてのネットワークは、4つのTitan X GPU上で32に等しいバッチサイズで学習されます。比較の公平性を保つため、MultiSportsには[20]で発表されたフレームレベルの提案を使用しています。詳細はSup.

実験このセクションでは、MultiSportsとUCF24データセット上でTFAモジュールとともにTAAD手法を評価します。まず、4.1節で使用するメトリクスを定義し、4.2節でモーションカテゴリ分類を定義する。まず、Sec.4.3において、異なる動き条件下での異なるTFAモジュールの影響を調べる。次に、Sec. 4.4において、我々のTAAD手法を最先端の手法と比較する。その後、Sec.4.5でベースラインモデルとトラッカーが与える影響について議論する。最後にセクション4.6で考察を行う。

4.1. メトリクス

我々はフレームレベルとビデオレベルの両方で我々の検出器の性能を測定するメトリクスを報告し、フレームとビデオの平均平均精度（mAP）を計算する。このメトリクスはアクション検出の研究では一般的である[18, 21, 45]。フレームとビデオメトリクスのそれぞれについて、Ground-TruthのボックスまたはチューブとのIntersection-over-Union(IoU)が与えられたしきい値（例えば0.5）より大きく、予測されたラベルがGround-Truthのものと一致する場合にのみ、検出は正しい。ここから、各クラスの平均精度（AP）とクラス間の平均を計算し、目的のmAPメトリクスを得る。チューブオーバーラップは[45]によって提案された時空間IoUによって測定され、[20]と同様にACT2評価コードを使用する。

4.2. モーションカテゴリ

アクションを大、中、小の3つのモーションカテゴリーに分類する。モーションカテゴリごとのメトリクスを計算するには、グランドトゥルースのアクションチューブにラベル付けする必要がある。4、8、16、24、36]に等しいオフセットで区切られたボックスのペア間のIoUをスライディングウィンドウ方式で計算することからこのプロセスを開始する。これら5つのIoU値を平均し、最終的なIoU値を速度の指標とする。次に、データセットを同じ大きさの3つのビンに分割する。そして、各インスタンスに「大、中、小」の動きラベルを割り当てる：

これらのラベルがあれば、モーションカテゴリごとにAPメトリクスを計算することができる。これらのメトリクスには2つのオプションがある。1つ目は、アクションクラスごとに、大、中、小のモーションのAPを計算し、次にアクション全体の平均を計算する。このメトリクスをMotion-mAPと呼ぶ。もう1つの選択肢は、アクションクラスを無視し、アクションに関係なく、大、中、小のモーションのAPを計算することで、これをMotionAPと呼ぶ。これは基本的にクラスに関係なく、動作速度に対するアクション検出精度を測定する。このメトリクスはフレーム単位とビデオ単位の両方で計算される。ビデオメトリクスはビデオプレフィックスで示されます。MotionAPとMotion-mAPの評価スクリプトとともに、TAADネットワークのトレーニングとテストのコードを公開する予定である。

4.3. モーションごとの（主な）結果

この研究の主な目的として、まず、キューボイドを意識したベースラインが、大きな動きの下で我々のTrackベースのTAADとどのように比較するかを研究する。表1では、時間的特徴集約の異なる選択を比較する。表1では、MultiSportsとUCF24において、異なるTFAでトレーニングされたモデルのフレームとビデオモーションのMAPを測定する。比較的単純なプーリング戦略（時空間次元に対するMax-Pool）であっても、隣接するフレームではなく、トラックを横断して特徴をプーリングすることで、MultiSportsでは5.7 %と5.8 %のフレームとビデオのMAPブーストという、より強力なアクション検出器が得られる。時間畳み込みブロック(TCN)やASPPのような、より複雑な特徴集約ストラテジーは、さらなる向上につながります。MultiSportsでの最大の改善は大きな動きのカテゴリで発生し、+8.4 %のMotion-mAPで、中程度の動き（+3.9 %）と小さな動き（+5.5 %）での利益は小さい。

表 2には、異なるTFAモジュールを選択した場合のMultiSportsでのMotionAPの結果が含まれています。TAADがどのTFAモジュールと組み合わされても、大きな性能向上につながることは明らかです。大きなモーションが最も恩恵を受け、次に中程度のモーションと小さなモーションが続きます。例えば、ASPPモジュールは、小さなモーション（+4.5）よりも大きなモーション（+7.9）に役立ちます。表1でも同じ傾向が見られる。フレームとビデオMotion-MAPの両方で、表1でも同じ傾向が見られます。

これらの結果は、ベースライン手法では、大きな動きと小さな動きのアクションインスタンスの性能に大きなギャップがあることを示している。TAADとTFAモジュールの組み合わせは、この不一致を減らし、両方のデータセットで全体的な性能を向上させるのに役立つ。

4.4. 最新技術との比較

フレームレベルの評価のみに焦点を当てたアプローチ[28, 41]とは異なり、フレームレベルとチューブレベルのアクション検出の両方について、MultiSportsとUCF24の最先端技術と我々の提案する検出器を比較する。ベースラインと同様に、TAADは空間コンテキストを利用しないことに注意することが重要である。したがって、他の時空間コンテキストモデリングモジュール[53]を使用するのではなく、トラックを意識した特徴集約を使用することで利得が得られる。

表3では、異なる手法のフレームとビデオのmAPを報告する。すなわち、オリジナルのMultiSports論文からのSlowFastバリアント、Ningら[27]のPerson-Context CrossAttention Modellingネットワークと我々の改良されたベースライン、そして我々のモデルの3つのバージョン、時間次元に沿ってMaxPoolを持つもの、ASPPバリアントと時間畳み込みネットワーク（TCN）である。表 3はこれらの実験結果であり、アクション検出のためにトラックを使用する利点が明確に分かる。トラックに沿った特徴プーリングの追加は、より単純なMaxPoolバージョンであっても、我々の改善されたベースラインをフレームmAPで4.3%上回る。より良い時間融合戦略、すなわちASPPとTCNはさらなる利点につながります。その結果、我々はMultiSportsデータセットで新たな最先端を打ち立てた。なお、我々のTFAモジュールはすべて、ネットワーク全体の計算時間に対して1M FLOPS未満（2%未満）しか追加していない。

最後に、提案したTAADモデルをより古いUCF24データセットで比較する。4. 我々のモデルは、TubeR[53]とMOC[21]を除くほとんどの既存手法を凌駕している。その理由は、TubeRがCNNバックボーン(CSN-152)の上に transformerヘッド(エンコーダ・デコーダ・transformerごとに3層)を持つ集合予測フレームワーク[3]を使用しているからだと考えられる。I3DベースのTubeRが132M FLOPSを必要とすることも重要であり、これはSlowFastR5-TCNベースのTAADが必要とする97M FLOPSよりもはるかに高い。MOCは、追加入力としてフローストリームを使用し、バックボーンネットワークとしてDLA34[50]を使用する。我々の目的は、異なるアクターの動作速度におけるアクション検出性能を分析し、改善することであることに注意してください。したがって、アクター間の空間的注意やコンテキストモデル[53]は使用していません。これらは確かに非常に興味深いトピックであり、我々の提案するアプローチとは直交しています。とはいえ、我々のベースラインと比較した場合、我々のネットワークは両方のデータセットにおいて全てのメトリクスで一貫して改善を示しています。

加えて、YOLOv5が与えたUCF24の低品質もパフォーマンスを低下させている。対応するYOLOv5 +DeepSortメトリクスをTab. 6. 各データセットで検出器を微調整することは必要なステップであり、特にUCF24ではMultiSportsよりも映像品質が悪い。

4.5. MultiSportsにおける強力なベースラインの構築ここで、ベースライン行動検出器の性能に対する我々の提案する変更の効果を調査する。表 5には、ResNet-50 SlowFastネットワークの再実装、背景ネガティブフレームの追加、マルチラベルからマルチクラス分類への変換、そして最後にFPNの追加について、MultiSports上で計算したf-mAP@0.5。各要素は検出器の性能を向上させ、より強力なベースラインを実現しています。

フィルタリングモジュールとしてのトラッカートラッカーをアクション検出の後処理ステップとして使用することには多くの利点があり、それは「ベースライン＋トラック」とラベル付けされたf-mAPの大幅な改善を得たTab4を含む、上記のすべての表で実証されています。第一に、トラッカーは、数フレームだけスプリアスに現れる高スコアの偽陽性人物検出をフィルタリングするのに役立つ。これは人物バウンディングボックスの閾値処理の負荷を軽減する。例えば、pySlowFast [9]は0.8、mmaction2 [7]は0.9を使用しています。しかし、このような厳しい閾値は、いくつかの重要な真陽性を排除する可能性があります。標準的な方法とは対照的に、トラックベースの手法では比較的自由な（0.05）閾値を使用します。第二に、優れたトラッカーを使用することで、チューブの構築が大幅に簡素化される。トラッカーはリンク問題を解決するために特別に設計されており、先行研究[18, 21, 37]で使用されている貪欲なリンクアルゴリズムの必要性を取り除く。v-mAPとf-mAPの両方で、Tab. 3およびTab. 4の "ベースライン＋トラック "の行が、"ベースライン "の行よりも優れていることは明らかである。

4.6. 考察

この研究では、大きな動きの下でのアクション検出を研究することが主な目的である。MultiSportsとUCF24での実験（Tab. 1と2を参照。TAAD、つまり特徴集約のためにトラック情報を利用することで、全体的にパフォーマンスが向上することが実証された。これは、さらなる改善の余地がないことを意味するものではない。これは我々のパイプラインの最初のステップであるため、我々の方法はトラッカーの性能に敏感である。他の最新の手法[19, 27, 28, 41]）で採用されているような、より優れた最新のトラッカーと人物検出器を使用することで、特にYOLOv5が苦戦しているUCF24でのパフォーマンスをさらに向上させることができるはずです。さらに、空間／アクターコンテキストモデル[28, 53]、長期的な時間的コンテキスト[41]、またはTransformerヘッド[53]やバックボーン[22, 25]をTAADに組み込むことで、アクション検出性能を向上させることができる。

動きカテゴリの定義が正確でないという議論もある。MS COCO [23]のオブジェクトサイズカテゴリーとは異なり、モーションカテゴリーを定義するのは容易ではない。一般的な複雑なカメラの動き（ズーム、並進、回転を含む）とアクターの素早い動きは別として、図2に示すように、周期的な動きを誤ってラベル付けしないように、特別な注意を払う必要があります。

例えば、MultiSportsは、アクターが同じ位置で始まり、同じ位置で終わるエアロビクスなど、複数のアクションを含みます。この場合、最初のボックスと最後のボックスの間のIoUが高くなり、小さなモーションラベルが誤って表示されます。この問題を解決するために、異なるフレームオフセットで計算されたIoUの平均を使用する。我々のモーションラベリングスキームは完全ではないが、視覚的な例から、モーションスピードとよく相関していることがわかる。最後に、図5はベースラインではアクションチューブを検出できないが、TAADでは検出できる例を示す。この点を説明するために、Sup.Mat.でより定性的な例を提供する。

図5：Volleyspikeインスタンス(a)はベースラインを含む全ての手法で検出されたが、(b)のFootball-stealインスタンスはASPPとTCNでのみ検出された。(c)カメラによる大きな動き(0.07)はベースラインでは検出できず、ASPPモジュールではTCNよりもオーバーラップしている。