Spotting Temporally Precise, Fine-Grained Events in Video

どんなもの？

先行研究と比べてどこがすごい?

E2E-Spotは、従来の手法と比較して、スポーツアクションの細かい時間的な精度での検出において高い精度を発揮することが可能。また、E2E-Spotはエンドツーエンド学習アプローチを採用しており、他の手法よりもトレーニングが迅速であり、単一のGPUで実行可能。

技術や手法のキモはどこ？

入力フレームから特徴量を抽出するために、3D畳み込み層と2D畳み込み層が使用。その後、GRU（ゲート付きリカレントユニット）を使用して、長期的な時間情報を処理。最後に、出力層でスポーツアクションの細かい時間的な精度で検出。

どうやって有効だと検証した？

テニスのデータセットとフィギュアスケートのデータセットで先行研究の認識精度を超えた

議論はある？

複数競技への適用

次に読むべき論文は？

NetVLAD, NetVLAD++,

Japanese description

Memo

動画中のフレームインデックスとイベントクラスを正確に予測することを目的とした、時間的イベントスポッティングタスクについて記述している。
タスクに特化した局所的な空間-時間特徴、長期的な時間推論メカニズム、単一フレームの時間粒度における高密度なフレーム予測など、このタスクで優れた性能を発揮するモデルの主要な設計要件を特定している
正解からδフレーム以内かつ正しいクラスである場合に予測が正しいものとされます。
E2E-Spotは、ビデオ分類ネットワークをシーケンスモデルの一部として扱い、N枚のフレームから構成される動画を処理し、各フレームごとに出力特徴量および予測値を生成します。具体的には、「local spatial-temporal feature extractor」と「sequence model」から構成される．
"Local spatial-temporal feature extractor, F"では各フレーム用に空間・時間特徴量抽出器が実装されており、「Gate Shift Modules (GSM)」[57] を含む汎用2D畳み込みニューラルネットワーク（CNN）[46]を使用して、各フレームに対して密な特徴量を生成します。この特徴抽出器は、ビデオ分類のための既存のモデルと似ていますが、(1) フレームを密にサンプリングし (2) 最終的な時間的合意/プール層は使用しないことで、「precise spotting」タスク向けに最適化されています。また、「Efficiency Compared to Other Per-frame Feature Extractors」という節では他のフレームごとの特徴量抽出方法も紹介されており、E2E-Spotがより効率的かつ長いシーケンスでも学習可能であることが示唆されます。
イベントが検出されなかった場合を示す「背景」クラスを含む、各フレームのクラス予測を出力する（§3.2）。

1.隣接するフレーム間の微妙な視覚的差異や動きを捉える、タスクに特化した局所的な空間・時間的特徴。
2.長期的な時間的推論メカニズム：短い希少な事象を発見するための長い時間的窓を提供する。例えば、フィギュアスケートの選手がジャンプに入るタイミングを、数枚のフレームから正確に特定することは困難である。しかし、加速（ジャンプ前）と着地（ジャンプ後）という広い文脈を考慮すると、スポッティングははるかに曖昧でなくなる（図1参照）。これらのコンテキストは、何秒にもわたって、何フレームにもわたって発生する可能性があります。
1フレームの時間的粒度での高密度なフレーム予測。これらの要件は、スポットの直接監視によってエンドツーエンドで学習できる、表現力豊かで効率的なネットワークアーキテクチャを要求しています。E2E-Spotは、ビデオ分類ネットワーク（グローバルな時間プーリングが除去されている）をシーケンスモデルの一部として扱い、Nフレームのクリップを処理すると、N個の出力特徴とN個のフレームごとの予測が得られるようにします。図2にパイプラインを示します。各RGBビデオからのフレームは、まずローカルな空間-時間特徴抽出器Fに供給され、各フレームの高密度特徴ベクトルを生成する（§3.1）。この軽量な特徴抽出器は、ゲートシフトモジュール（GSM）[57]を一般的な2D畳み込みニューラルネットワーク（CNN）[46]に組み込んでいる。この特徴列はさらにシーケンスモデルGによって処理され、長期的な時間的コンテキストを構築し、イベントが検出されなかった場合を示す「背景」クラスを含む、各フレームのクラス予測を出力する（§3.2）。

概要

映像中の時間的に正確で細かいイベントをスポットする（イベントが発生する正確な瞬間を検出する）タスクを導入するためのものである。正確なイベント検出には、アクションのフルタイムスケールについてグローバルに推論し、アクション中のイベントを特定する微妙なフレーム間の外観や動きの違いを特定するためにローカライズするモデルが必要である。驚くべきことに、アクションの検出やセグメンテーションといった従来の映像理解タスクの上位のソリューションは、この2つの要件を同時に満たしていないことが判明した。これに対し、我々は、正確なスポッティングタスクで優れた性能を発揮し、単一のGPUで迅速に学習できるコンパクトなエンドツーエンドモデルであるE2Eスポットを提案します。E2E-Spotは、ビデオアクション検出、セグメンテーション、スポッティングの文献から正確なスポッティングタスクに適応させた最近のベースラインを大幅に上回ることを実証するものである。最後に、いくつかの細かいスポーツアクションのデータセットに新しい注釈と分割を行い、これらのデータセットを精密なスポッティングに関する将来の研究に適したものにする。

キーワード：時間的に正確なスポッティング、ビデオ理解

1 はじめにビデオでイベントが発生した正確な瞬間を検出すること（時間的に正確なイベントの「スポッティング」）は、将来の多くの高度なビデオ分析やビデオ編集 [71] アプリケーションに不可欠となる重要なビデオ分析タスクである。しかし、きめ細かい映像理解 [12,31,47,62] 、時間的行動検出 (TAD) [5,11,30,50,67] 、時間的行動分割 (TAS) [21,32,56] において大きな進展があったものの、映像理解コミュニティでは、正確なイベントの発見についてはほとんど研究されてこなかった。

我々は、このギャップを解消するために、スポーツビデオにおけるイベントの正確な検出という課題に焦点を当てる。スポーツ映像を研究する理由は、利用可能なデータ量が多く、人間のパフォーマンスを分析するのに必要な時間的精度が高いからである。例えば、テニスプレーヤーがボールを打ったフレーム、ボールがコート上でバウンドしたフレーム、フィギュアスケーターがジャンプを始めた瞬間や着地した瞬間を特定したいと考えます。図1は、これらのスポーツの例で、正確なスポッティングが困難であることを説明しています。ある事象が発生したフレームを正確に特定することが目的ですが、隣接するフレームは視覚的に非常に似ており、1～2フレームだけを見て、ラケットがボールに接触した瞬間やフィギュアスケーターがジャンプをした瞬間を判断することは人間でも困難です。しかし、より長いフレームを見ることで、ラケットのスイング、ジャンプの準備、ボールの軌跡など、より長い動作の中で、いつ注目すべき事象が発生するかを知ることができるため、このタスクは非常に扱いやすくなる。したがって、正確なスポッティングには、（1）微妙な外観や動きの手がかりを表現し、（2）長い時間的文脈に広がる情報を使って意思決定を行うことができるモデルが必要であるという仮説を立てました。

驚くべきことに、映像理解に関する多くの文献には、時間的に正確なスポッティングの領域において、この2つの要件を満たすソリューションが欠けていることがわかりました。例えば、行動認識（分類）モデルは、大きな時間窓で効率的に動作するように設計されておらず、稀な事象を正確に発見することによって生じる激しいクラスの不均衡な設定で学習することに苦労している。セグメンテーションと検出によるシーケンスモデルは、より長い時間スケールでパターンを抽出しますが、これらの複雑なモデルをエンドツーエンドでトレーニングすることは、最適化の課題につながっています。その結果、多くの解決策は2つのフェーズで動作し、事前に訓練された（または適度に微調整された）入力特徴に依存することになるが、時間的精度でイベントを発見するために必要な微妙な（そしてしばしば非常にドメイン固有の）視覚的詳細を捉えるために特化していない。

我々は、この仮説に基づく要件を満たす、よりシンプルな代替手段（E2E-Spot）を提案する。広い時間的背景を持つシーケンスモデルをエンドツーエンドで学習させる鍵は、プラットフォームのメモリを超えることなく数百の連続したフレームを処理できる、効率的なフレームごとの特徴抽出器である。この目標を達成するために、特注のアーキテクチャを新たに導入することなく、ビデオ処理に関する文献にある既存のモジュールを組み合わせる方法を示します。

E2E-Spotは、そのシンプルさにもかかわらず、2段階のアプローチを選ぶ先行ベースラインや、正確なスポッティングに関するナイーブなエンドツーエンド学習アプローチを大幅に凌駕している。さらに、E2E-Spotは推論時の計算効率が高く、多くの先行手法の特徴抽出段階よりも短い時間でエンドツーエンドの完全なスポッティングタスクを完了することができる[2,6]。

本論文では、3つの主要な貢献を行う：

1.微細な事象を時間的に正確にスポットするという新しいタスク。既存の2つのスポーツアクションデータセットに対して、フレーム精度の高いラベルを導入するためのものである：テニス[71]とフィギュアスケート[27]である。また、FineGym [47]とFineDiving [65]の時間的注釈を適応し、正確なスポッティングタスクの一般性を示す。
E2E-Spotはグラウンドアップからエンドツーエンドまで学習することができる。このアプローチは，確立されたアーキテクチャの構成要素[8,46,57]を組み合わせ，単一のGPUで迅速に学習させることができます．
スポッティング性能の解析 E2E-Spotは、正確な時間的スポッティングにおいて強力なベースライン( § 5)を上回った(4-11 mAP差、1フレーム内のスポッティング)。E2E-Spotは、より粗いスポッティングタスク（1-5秒以内）でも競争力があり、2022 SoccerNet Action Spotting challenge [13,14] で2位（平均1.1mAP以内）、先行研究よりも平均14.8-16.5mAP向上しています。

当社のコードとデータは一般に公開されています。

2 関連作品

アクションスポッティング。スポッティングに関するこれまでの研究[13]は、粗いアクションスポッティングに焦点を当て、検出が真のイベントの周りのいくつかの時間窓の中で発生した場合、正しいものとみなされ、緩いエラー許容範囲（1-5または5-60秒、フレームの10-100秒に相当する）である。テニス[71]とフィギュアスケート[27]のデータセットでは、1-2フレーム以上の誤差は、イベントを完全に見逃すことと本質的に同じです（例えば、ボールが地面に衝突した場合、図1）。正確な時間的注釈を必要とする要求の厳しいアプリケーションでは、関連するタスクは正確なイベントスポッティングであり、検出閾値はより厳しい許容範囲（1-5フレーム；[25][26][27][28][29][30]ではわずか33ミリ秒であると主張します。我々は、粗いアクションスポッティングに類似したメトリクス：平均平均精度（mAP @ δ）を使用するが、短い時間的許容範囲δを使用する。

時間的アクション検出（TAD）およびセグメンテーション（TAS）ローカライズは、「行動」を含む、数秒に及ぶインターバルを特定する。データセットによって、これらは「立ち上がる」 [50]のような原子的な行動であったり、「ビリヤード」 [30]のような広範な活動であったりすることがある。このようなアクションの定義では、何をもって時間的に正確なイベントと見なすのかが不明確なことが多い。また、TADとTASの成功基準は、正確なスポッティングのそれとは異なる。TAD[5,11,30,50,67]は、mAPや時間的Intersection-Over-Union（IoU）、あるいはサブサンプリングした時間点などの区間ベースのメトリクスで評価されるが、いずれもアクション境界のフレーム精度を強制しない。時間のダウンサンプリング（最大16倍）は、一般的な前処理ステップである[3,38,39,48,66,70]。また、TAS [21,32,56]は、F1@時間的重複のような間隔ベースのメトリクスを最適化する。TASのフレームレベルメトリクスは、高密度にラベル付けされたセグメント内フレームの精度を評価するが、スポッティングデータセットのイベントフレームはまばらである。時空間検出ベンチマーク[33,35]は、空間的IoUと時間的IoUの両方を組み合わせることにより、標準的なTAD、TAS、および精密スポッティングとは異なる[35]。

最近のTAD [10,38,39,59,66,69] やTAS [1,7,20,29,53,68] のアプローチは、(1) 特徴抽出、(2) 最終タスクのための頭部学習、という2段階で進められることが多い。第1段階では、Kinetics-400のビデオ分類から得られた固定された事前学習済みの特徴がしばしば用いられ[2,6,63]、これらの特徴を用いた最先端のTAD手法[41,70,73]は、最近のエンドツーエンド学習アプローチ[36,40]よりも、むしろ性能が同等になる場合が少なくありません。特徴エンコーディングを改善するために、ターゲットドメインの分類を用いた間接的な微調整が行われることもある[2,48]。初期のエンドツーエンドのアプローチは、ビデオを非重複セグメント[3]（例：16フレーム）としてエンコードしたり、時間的にダウンサンプリングしたりする[49,51]ので、時間的に粗すぎてフレーム精度の高いイベントを発見するのに有効な特徴が生まれます。

TADやTASと同様に、正確なスポッティングは、トリミングされていないビデオで実行される時間ローカライズタスクである。このように、TADやTASの多くのモデルは、正確なスポッティングに適応させることができます。我々は、MS-TCN [20]、GCN [66]、GRU [8]、AS-Former [68]をベースラインとして使用し、§5で異なる特徴 [2,6,19] でこれらのモデルをテストします。しかし、これらのモデルの入力として、固定または間接的に微調整された特徴量に依存することは、重大な制限であることがわかった。我々の実験は、(1)E2E-Spotは正確なスポッティングのための強力なベースラインであること、(2)特徴学習がエンドツーエンドである場合、より複雑なアーキテクチャは必ずしも追加の利益を提供しないことを示しています。最後に、TAD/TASにおけるCNN-RNNアーキテクチャの長い歴史に注目する [3,4,16,52,67]; E2E-Spotは、フレーム密な処理とエンドツーエンド学習に対する我々の要求によって動機づけられ、空間-時間特徴符号化のための最新のCNNを用いて実装されているこのファミリーの単純設計である。

ビデオ分類は、スポッティングのフレームごとのラベルとは対照的に、ビデオ全体に対して1つのラベルを予測する。これは、2つの重要な違いにつながります： (1)フレームを疎にサンプリングすること[22,63]は有効であるが、正確なスポッティングには密なサンプリングが必要である；

(2) ビデオレベルの予測を得るために、分類のための一般的なアーキテクチャは、通常、グローバルな時空間プーリング[61]または時間的コンセンサス[37,63,74]を実行します。E2E-Spotは、時間プーリング3を省略し、エンドツーエンドで学習することで、正確なフレーム単位のスポッティングのための効率的なパイプラインを実現することを示している。

E2E-Spotは、空間-時間特徴抽出のための一般的なビデオ分類モデルのアイデアを取り入れている。TSM [37]は時間シフト操作を導入し、時間ステップ間のチャンネルを混合することで、2D CNNを空間-時間特徴抽出器に変換するためのものである。GSM [57]はこのシフトを学習する。我々はRegNet-Y [46]とGSM [57]の組み合わせが効果的であると判断し、今後のスポッティング研究の出発点として、これらのビルディングブロックを提案している。

スポーツアクティビティデータセットは、ビデオアクションの認識と理解のための肥沃な実験場である[13,25,27,28,34,35,47,65,71]。我々は、いくつかの最近のデータセット[13, 27, 47, 65, 71]から時間的な注釈を使用して評価する。これらのデータセットは、すべてのイベントとクラスラベルが単一の活動（すなわち、単一のスポーツ）に関連していることを意味し、クラスが一般的な活動の幅広い組み合わせからなる粗視化データセット [5,30] と比較して、細視化されています。

きめ細かい概念とラベルをサポートすることは、多くの実用的な実世界のアプリケーションの重要な要件である。

3 E2E-Spot：正確なスポッティングのためのエンド・ツー・エンド・モデル N個のフレームx 1 , ... ...を持つ映像が与えられたとき、時間的事象を正確に検出するタスクを次のように定義する。x N と K 個のイベントクラス c 1 , ... , c K のセットからなる。を予測し、イベントのクラス (t, ŷt ) ∈ N × {c 1 , ... , c K } を予測する。c K }である。

予測は、そのタイムスタンプが、ラベル付けされたGround-Truthイベントからδフレーム以内にあり、正しいクラスラベルを持つ場合に正しいとみなされる。正確なスポッティングでは、時間的な許容範囲δは小さく、すなわち数フレームのみである。我々は、ビデオのフレームレートは、正確なイベントをキャプチャするために十分に高く、フレームレートは、ビデオ間で類似していると仮定します。我々は、時間的に正確なスポッティングタスクにおいて、モデルが優れた性能を発揮するためのいくつかの重要な設計要件を特定しました：

1.隣接するフレーム間の微妙な視覚的差異や動きを捉える、タスクに特化した局所的な空間・時間的特徴。
2.長期的な時間的推論メカニズム：短い希少な事象を発見するための長い時間的窓を提供する。例えば、フィギュアスケートの選手がジャンプに入るタイミングを、数枚のフレームから正確に特定することは困難である。しかし、加速（ジャンプ前）と着地（ジャンプ後）という広い文脈があれば、その見極めははるかに曖昧なものになります（図1参照）。これらのコンテキストは、何秒にもわたって、何フレームにもわたって発生する可能性があります。
1フレームの時間粒度での高密度なフレーム予測

これらの要件は、スポッティングの直接教師によってエンドツーエンドで学習できる、表現力豊かで効率的なネットワークアーキテクチャを要求しています。

E2E-Spotは、ビデオ分類ネットワーク（グローバルな時間プーリングを除去）をシーケンスモデルの一部として扱い、Nフレームのクリップを処理すると、N個の出力特徴とN個のフレームごとの予測が得られるようにします。

この軽量な特徴抽出器は、ゲート・アレイ・ネットワークと呼ばれ、図2に示すようなパイプラインで構成されています。各RGBビデオからのフレームは、まずローカライズされた空間-時間特徴抽出器Fに供給され、各フレームの密な特徴ベクトルが生成される（§3.1）。この軽量な特徴抽出器は、ゲートシフトモジュール（GSM）[57]を一般的な2D畳み込みニューラルネットワーク（CNN）[46]に組み込んでいる。この特徴量列は、さらにシーケンスモデルGによって処理され、長期的な時間的文脈を構築し、イベントが検出されなかった場合を示す「背景」クラスを含む、各フレームのクラス予測を出力する（§3.2）。

図1：動画中のイベントを時間的に正確に検出するタスクで、1フレームまたは小さな許容範囲内でイベントの発生を検出する必要があります。テニスでは、スイング中に選手がボールに接触した瞬間（赤）、またはボールがコート上でバウンドした瞬間（青）、フィギュアスケートでは、ジャンプ中の離陸の瞬間（赤）、着地の瞬間（青）などが、正確なイベントの例として挙げられる。

4 データセットフレームレベルのラベルを持つ4つの細かいスポーツビデオデータセットで、正確なスポッティングを評価した：テニス [71]、フィギュアスケート [27]、ファインダイブ [65]、ファインジム [47]である。これらのデータセットの完全な詳細については、§Dを参照されたい。

TennisはVid2Player [71]のデータセットの拡張版である．これは，28のテニス試合（各クリップは「ポイント」）の3,345のビデオクリップからなり，ビデオのフレームレートは25または30FPSのいずれかである．このデータセットには，6つのクラスに分けられた33,791個のフレームアキュレートイベントがある．データセットには33,791個のフレーム精度のイベントがあり，「プレーヤーサーブボール接触」，「レギュラースイングボール接触」，「ボールバウンド」（それぞれニアコートとファーコートに分かれる）の6つのクラスに分かれている．トレーニングおよび検証には19試合の映像が使用され，テストには9試合が使用されています．

フィギュアスケート[27]は、冬季オリンピック（2010-2018）および世界選手権（2017-2019）の371のショートプログラムの演技を含む11のビデオ（すべて25FPS）で構成されています。ジャンプやフライングスピンの離着陸フレームを手動で（再）アノテーションすることで元のラベルを洗練し、4クラスにわたる3,674のイベントアノテーションを得ました。評価のために2つの分割を考慮する：

競技分割（FS-Comp）：2018年シーズンのすべてのビデオをテスト用に持ち出す[27]。この分割では、新しい動画（例えば、次のオリンピック）に対する汎化をテストします、新しい会場での新しい背景など、ドメインシフトがあるにもかかわらず。 -パフォーマンススプリット（FS-Perf）：各競技をtrain / val / testで層別化します。この分割では、前の分割の背景バイアスを排除して、（異なるスケーターによる）正確な時間的事象を学習するモデルの能力がテストされる。

FineDiving [65]には、時間セグメントの注釈が付いた3,000個のダイビングクリップが含まれています。宙返り（パイクとタック）、ひねり、エントリーへの遷移を含む4つのクラスのステップ遷移フレームをスポットしています。

FineGym [47]には、5,374の体操競技が収録されており、それぞれトリミングされていないビデオとして扱われている。この動画には32のスポッティングクラスがあり、アクションカテゴリ（例えば、バランスビームのディスマウント、床運動のターン）の階層から派生しています。元のアノテーションはアクションの開始と終了を表している。 -例えば、"balance beam dismount start" と "balance beam dismount end" のような。アクション認識のために設計され、動画で重複するオリジナルの分割を無視し、train / val / testの3：1：1の分割を提案する。ソース動画のフレームレート（25〜60FPS）のばらつきを抑えるため、50FPSと60FPSの動画をすべて25FPSと30FPSに再サンプリングしています。

フレーム精度のFineGymラベルを検査したところ、アクション開始フレームのアノテーションは、終了フレームのアノテーションよりも視覚的に一貫性があることがわかりました。例えば、フィギュアスケートのデータセットとは異なり、ジャンプの着地フレームから数フレーム後に終了フレームがあることが多い。そこで、アクション開始イベントのみを含むサブセット、FineGym-Startの結果も報告する。

5 評価 5.1節では、ヘッドアーキテクチャの選択よりも、映像から抽出したフレーム単位の特徴表現の品質が結果に最も影響を与えること、また、E2E-Spotによるエンドツーエンド学習が、事前に訓練した特徴や間接的に微調整した特徴を用いた手法を凌駕することを示す。5.2節と5.3節では、時間的文脈の効果、時間的モデリングの重要性、E2E-Spotの追加バリエーションを分析する。5.4節では、時間的に粗いスポッティングタスクであるSoccerNet-v2での結果を報告する。

評価メトリクス。 δフレームの許容範囲内で平均精度を測定する（AP @ δ）。APは各イベントクラスについて計算され、mAPはクラス間の平均値である。我々はδ=1やδ=2のような厳しい許容範囲に注目する。正確な時間的イベントはフレームの割合として稀である（0.2-2.9%）ため、フレームレベルの精度などのメトリクスは正確なスポッティングには意味をなさない。

ベースライン。 E2E-SpotをTAS、TAD、粗いスポッティングの最近のベースラインに対して評価し、正確なスポッティングタスクに適合させた。これらの手法はエンドツーエンドで学習するのではなく、特徴抽出とエンドタスクのための頭部学習（すなわち下流モデル）の2段階分離を採用している。私たちは、特徴抽出法とスポッティングヘッドを組み合わせてベースラインを構成しています。後者は、抽出された特徴量に基づいて訓練され、式2のフレーム毎の損失を用いて、正確なスポッティングを実行する。実装の詳細については§Bを参照のこと。

ベースラインでは、以下のヘッドアーキテクチャを使用している： TAS では MS-TCN [20]、GRU [8]、ASFormer [68]、TAD では GCN [66]、アクションスポッティングでは NetVLAD++ [23] と transformer [75] です。MS-TCN、GRU、および ASFormer は、我々の実験で最も優れた性能を発揮したため、残りのアーキテクチャの結果は§C.1 に譲ることにした。さらに、CALF[9]やラベル拡張4など、スポッティングの文献にある追加の損失を使用し、非最大限の抑制（±1フレーム以内）を使用した後処理によって、これらのベースラインの性能を高めることを試みました。各ベースラインの最良の構成による結果を報告する。

各ヘッドアーキテクチャは、3つの大きなカテゴリーに分類される、あらかじめ抽出された入力特徴とペアになっています：

Kinetics-400 [31]でのビデオ分類から事前に訓練された特徴で、TADとTASのために微調整なしで使用されることが多い。Farhaら[20]と同様に、各フレームの周りに21フレームのウィンドウを密にストライドすることにより、フレームごとのI3D特徴を抽出する。より優れた事前学習済みモデルの影響を検証するために、2021年の最新モデルであるMViT-B [19]も用いて特徴を抽出する。

TSP [2]と(K + 1)-wayクリップ分類^5を使用して微調整された特徴量。これらの特徴は、小さなウィンドウ（例えば12フレーム）にイベントが含まれているかどうかを予測するために訓練された分類器に由来しており、ターゲットとなるビデオドメイン（例えば、テニス、スケート、体操）に適応しているという利点がある。
3.フィギュアスケートデータセットのみのポーズ特徴（VPD）は、被写体追跡と微調整のために手作業で設計されたパイプラインを利用します[27]。これらの特徴はドメイン知識を利用するため、新しいデータセットの開発にはコストがかかり、ポーズでは捉えられない現象（例：テニスのボールの跳ね返り）が含まれる可能性があります。フィギュアスケートのように、人間の動きによって大きく定義される活動では、VPD特徴は、ドメインに依存しないE2E-Spotの上限として機能します。

5.1 スポッティング性能主な結果では、E2E-Spotの2つのバリエーションを紹介する：（1）RegNet-Y [46] 200MF CNNバックボーンとRGB入力のみのデフォルト構成、（2）RGBとフロー入力のRegNet-Y 800MFを用いた構成である。

200MFのCNNとRGB入力を持つE2E-Spotは、すべての非ポーズベースラインを一貫して上回り、ポーズベースと同等であることがわかった。E2E-Spotの利点は、最も厳しい許容範囲であるδ=1フレームで最も顕著である（表2e ）。本評価の重要なポイントを以下にまとめる。

微調整を行わない場合、ヘッドアーキテクチャに関わらず、事前学習された特徴量の汎化が悪い：δ = 1におけるmAPは、E2E-Spotより9.1〜29.1悪い（表2a）。微調整を行うと、事前に訓練された特徴量よりも大幅に改善されます：δ = 1で3.9-25.1 mAPの間（表2b ）、Kineticsと細かいスポッティングデータセットの間に大きなドメインギャップがあることを示しています。しかし、E2E-Spotは、微調整された特徴を持つ2フェーズアプローチを3.3-6.8 mAP上回る性能を示し、時間ローカライズタスクの間接的な微調整戦略は、直接教師付きでエンドツーエンドで学習したベースラインと比較すべきことが示された。最後に、ベースラインの性能が（スポーツによって）大きく異なることから、視覚的・意味的に多様な活動やデータセットを用いて、正確なスポッティングなどの新しいタスクやその手法を評価することの重要性が強調されました。

VC-SpotはE2E-Spotと比較して性能が低く（表2d）、特にテニスやファインダイブと比較して長い時間スケール（例えば数秒）の時間的理解を必要とするフィギュアスケートやファインジムでは低い結果となりました。フィギュアスケートでは、E2E-Spotはポーズ特徴（2D-VPD [27]）と同様の結果を達成し、δ = 1で0.1～2.5mAP以内となりました。これは、E2E-Spotがドメイン知識を仮定しておらず、より一般的に適用可能なアプローチであるため、励みになります。

表2eは、より大きな800MF CNNとRGBとフロー[58]の両方を使用したE2E-Spotの最良の構成も示しています。これらの機能強化（より大きなCNNやフローなど）はいずれもドメイン知識を必要としませんが、200MFのデフォルトよりも最終的な性能を少し高めることができます（Tennisで0.8mAP、FineGymで3.9-4.3mAP）。その他のE2E-Spotの構成の詳細は、5.3節で紹介する。

5.2 E2E-Spotのアブレッション時間的文脈とネットワークアーキテクチャに関して、正確なスポッティングの要件を分析する。追加のアブレーションについては、§Cを参照されたい。

クリップの長さに対する感度。シーケンスモデルとして、E2E-Spotは長い時間的コンテキスト（例えば、100秒のフレーム）から恩恵を受け、状態的な予測を行うことができます。クリップの長さが長いと、各予測の時間的コンテキストが大きくなりますが、バッチごとのメモリ使用量が直線的に増加します。そこで、精度を高めるために必要なフレーム数を検討し、異なるクリップ長でE2E-Spotをトレーニングしました。表3aは、アクティビティによって必要な時間的コンテキストの量が異なることを示しています。テニスの速いペースのイベントは、コンテキストが表3 : アブレーションと分析実験（mAP @ δ = 1）でもうまく検出することができます。上段はE2E-Spotのデフォルトと比較（RegNet-Y 200MF w/ GSM and GRU）。(a) クリップの長さを変化させると、長いクリップからの時間的コンテキストが一般的に有用であることがわかる。(b) 特徴抽出器F(GSM)と状態予測器G(GRU)で時間情報を除去すると、一般にmAPが減少する。(c) 入力解像度を224ピクセルから112ピクセルに下げると、mAPが減少する。(d) Gのモデルを1層のGRUより複雑にしても、mAPは大きく改善されない。(e) Fを800MFに拡大したり、フローを追加したりすると、一部のデータセットでmAPがわずかに改善される。フレーム単位の特徴量に含まれる時間的な情報の価値 E2E-Spotは、2D CNNバックボーンF（GSM使用）とグローバル空間プーリング後のG（GRU使用）の両方で時間情報を組み込んでいる。表3bに、δ＝1におけるこれら両成分の重要性を示す。GSMもGRUも使用しない場合、スポッティングタスクは単一画像の分類問題となり、予想通り、結果は悪い（少なくとも-21mAP）。ただし、FS-PerfとFineDivingでは、GSMを使用した場合と使用しなかった場合の結果がほぼ同じでした。GSMをTSM [37]（固定シフト）に置き換えると、同等から悪化の範囲となり、GSMが妥当な初期設定であることを示しています。

空間分解能。空間分解能を下げると[36,40]、エンドツーエンドの学習と推論を高速化できるが、被写体がフレームのほんの一部しか占めていないような正確なスポット撮影ではmAPが低下する（表3c ）。

5.3 E2E-Spotの追加バリエーションより複雑なアーキテクチャ、G. 先行するTADとTASの作品は、事前に抽出された特徴で動作するヘッドアーキテクチャ（関連；§2参照）の豊かな歴史をカタログ化している。これらのアーキテクチャが、1層GRUの代わりにE2E-Spotを用いたエンドツーエンド学習から直接利益を得られるかどうかを検証する。表3dは、改善が保証されていないことを示している。MS-TCN、ASFormer、およびより深いGRUは、一貫して1層GRUを有意に上回らない。このことは、エンドツーエンドで学習された空間的・時間的特徴が、これまで下流のアーキテクチャで処理されていたロジックの多くをすでに捕捉できることを示唆しています。

特徴抽出器Fの機能強化。新しい仮定やドメイン知識を必要としないFの2つの基本的な機能強化として、より大きなCNNバックボーン（RegNet-Y 800MFなど）とオプティカルフロー［58］入力を検討した。表3eは、これらの機能強化が適度な改善（FineGymで最大4.4mAP）をもたらすことを示している。フローは、それ自体ではRGBより悪いが、RGBとアンサンブルすると結果を改善することができる。より大きなモデルはいくつかのデータセットで有望であるが、エンドツーエンドの学習による改善ほどは大きくない。

5.4 SoccerNet Action Spotting Challengeでの結果 E2E-Spotは、SoccerNet-v2 [13]のような時間的に粗いスポッティングタスクにも一般化します。このタスクでは、550試合の17アクションクラス（train / val / test / challengeセットに分割される）を研究しています。先行研究[9,23,60]と同様に、2FPSでフレームを抽出し、イベント周辺の±δ/2秒の範囲として定義される許容範囲で平均mAPを用いて評価した。表4では、E2E-SpotをCVPR 2021（許容範囲が5～60秒）とCVPR 2022（許容範囲が1～5秒と粗い）SoccerNet Action Spottingチャレンジ[14]の最高結果と比較しています。200MFのCNNを搭載したE2E-Spotは、5-60秒の設定では2021年大会の上位先行手法[75]と一致し、粗くない1-5秒の設定ではavg-mAPポイント13.7-14.1点で上回ります。CNNを800MFに増やすと、avg-mAPがわずかに改善される（0.4～2.7avg-mAP）。E2E-Spotは、Soaresら[54]に次いで、（同時開催の）2022年大会で2位（1.1 avg-mAP以内）になっていますが、これは後者が非表示アクション（フレームに表示されていない）に対して強いパフォーマンスを持っているためです。Soaresら[54,55]とZhouら[75]は、複数（5～6）の異種かつ微調整された特徴抽出器から事前に抽出された特徴を組み合わせ、それらの特徴に対して下流のアーキテクチャや損失を提案する2段階アプローチである。これに対し、E2E-Spotは、シンプルでコンパクトなモデルの直接的なエンドツーエンドのトレーニングが、驚くほど強力なベースラインになり得ることを示す。

6 考察と今後の課題本論文では、時間的に厳しい設定におけるスポッティングのためのエンドツーエンドの特徴学習について、実地からの研究を紹介した。

E2E-Spotは、時間的に正確な（そしてより粗い）スポッティングタスクにおいて、TADやTASの関連研究に由来する従来のアプローチを凌駕する、競争的または最先端の性能を得るシンプルなベースラインである（§2）。エンドツーエンド学習によって得られる二次的な利点は、簡素化された解析パイプラインであり、直接教師の下で一段階で学習され、フレーム精度の高いタスクの精度を犠牲にすることなく、より小さくシンプルなモデルを使用することができるようになることである。特徴抽出のための改良されたアーキテクチャ（例えばViT [17]に基づく）、トレーニング方法論、ヘッドアーキテクチャ、エンドツーエンド学習の恩恵を受ける損失などの方法論の強化は興味深い研究方向です。E2E-Spotが、このような将来の研究のための原則的なベースラインとして機能することを期待しています。

映像理解には幅広いタスクが含まれており、フレームに忠実なイベントの検出はその一例である。例えば、姿勢のような信頼できる事前情報がすぐに利用できる場合や、学習データが限られている場合、ピクセル領域でドメインシフトを示す場合など、エンドツーエンド学習だけでは不十分な状況が想定されます。少ないラベルや弱いラベルで正確にスポットを当てる学習は、より高度で下流の映像解析タスクのための新しいデータセットのキュレーションを加速させるだろう。

7 結論我々は、4つのきめ細かいスポーツデータセットに裏付けされた、ビデオにおける時間的に正確なスポッティングを導入するためのものである。TAD、TAS、およびスポッティングにおける最近の多くの進歩は、ますます複雑なモデルや処理パイプラインに向かう傾向にあり、それらはこの厳しい、しかし実用的な設定に対してうまく一般化できない。E2E-Spotは、いくつかの重要な設計原則（タスクに特化した空間的・時間的特徴、十分な時間的コンテキストに対する推論、効率的なエンドツーエンド学習）が、精度の向上とソリューションの簡略化に大きく貢献することを示す。