Towards Active Learning for Action Spotting in Association Football Videos

どんなもの？

ActionSpottingにおけるActive Learning手法の提案．NetVLAD++とPTSにおいて少ない学習サンプルでも効果的に学習を進められることを確認

先行研究と比べてどこがすごい?

Action Spottingタスクはいずれも教師あり学習で大量のサンプルが必要．この論文では同タスクでのActiveLearning手法を初めて提案

技術や手法のキモはどこ？

Uncertainty measureとEntropy measureというサンプラーを提案

どうやって有効だと検証した？

SoccerNet-v2, SoccerNet-ball ,FWWC-19データセットで検証，RSと比較して効率的に学習を進められていたことを確認

議論はある？

比較手法が少ない．ActiveLearningの手法自体にユニークな箇所はない

次に読むべき論文は？

Memo

Temporal Video Analysisに関するエリアはまだ少なそう

Active learning of an action detector from untrimmed videos[ICCV2013]
Heterogeneous uncertainty sampling for supervised learning
What do I annotate next? an empirical study of active learning for action localization.

アソシエーションフットボールは複雑でダイナミックなスポーツであり、各試合で多数のアクションが同時に発生する。サッカーの映像を分析することは困難であり、微妙で多様な時空間パターンを特定する必要がある。近年のコンピュータビジョンの進歩にもかかわらず、現在のアルゴリズムは、限られた注釈付きデータから学習する際に依然として大きな課題に直面し、これらのパターンを検出する性能を低下させている。本論文では、次にアノテーションする最も情報量の多いビデオサンプルを選択する能動学習フレームワークを提案する。これにより、アノテーションの労力を大幅に削減し、アクションスポッティングモデルの訓練を加速し、より速いペースで最高精度に到達する。我々のアプローチは不確実性サンプリングの概念を活用し、次に訓練する最も困難なビデオクリップを選択し、アルゴリズムの学習プロセスを早める。我々は、提案する能動学習フレームワークが、サッカービデオにおける正確なアクションスポッティングに必要な学習データを効果的に削減することを実証する。また、SoccerNet-v2上のNetVLAD++を用いたアクションスポッティングにおいても、データセットの3分の1しか使用せずに同様の性能を達成し、アノテーション時間の短縮とデータ効率の向上が可能であることを示す。さらに、ヘッダーとパスのアクションを時間的にローカライズすることに焦点を当てた2つの新しいデータセットで我々のアプローチを検証し、サッカーの異なるアクションセマンティクスにおける有効性を証明する。アクションスポッティングのための我々の能動学習フレームワークは、アクションスポッティングアルゴリズムのさらなる応用をサポートし、スポーツ領域におけるアノテーションキャンペーンを加速させると信じている。

ビデオ解析は、監視[50]、スポーツ[53]、自律走行[39]など、様々な領域で数多くのアプリケーションを持つ、急速に発展している分野である。ビデオ解析における重要なタスクの1つはアクションスポッティングであり、ビデオシーケンス内の1つのタイムスタンプで固定された特定のアクションを識別し、正確にローカライズすることを目的としている。このタスクは、ビデオ検索[15, 48]、ビデオ要約[7, 13]、アクティビティ認識[3, 25]などの様々なアプリケーションにおける重要性から、近年大きな注目を集めている。

伝統的に、行動スポッティングは教師あり学習技法を用いて取り組まれており、ラベル付けされたデータセットを用いて、行動を認識し、動画中の行動を時間的にローカライズできる分類器を訓練する。しかし、大規模なビデオデータセットのアノテーションには時間とコストがかかり、教師あり学習アプローチのスケーラビリティと適用性を制限している。能動学習は、ラベリングに必要な最も情報量の多いサンプルを選択することで、大規模データセットの完全なアノテーションの必要性を軽減できる有望なアプローチである。

本論文では、連想サッカービデオにおけるアクションスポッティングのための能動学習フレームワークを提案し、アノテーションの労力を削減し、アノテーションの数に関してシステムの全体的な性能を向上させることを目的とする。図1に示す我々のフレームワークは、能動学習と最新のアクションスポッティング手法を統合したものであり、ラベル付けされたセットは、ラベル付けされていないデータセットから選択された情報量の多いサンプルで反復的に拡張される。我々はいくつかのベンチマークデータセットで我々のアプローチを評価し、能動学習を利用しない素朴なランダム選択アプローチと比較する。また、異なるクエリ戦略がシステムの性能に与える影響についても分析する。

貢献我々の貢献は以下のように要約できる： (i)次にアノテーションする関連クリップを反復的に選択する、アクションスポッティングタスクのための初の能動学習フレームワークを提案する。(ii) 不確実性サンプリングに基づくいくつかの能動学習選択戦略を、いくつかのベンチマークデータセットと、最先端のアクションスポッティング手法とで比較する。(iii)我々のフレームワークが、望ましい性能を達成するために必要なアノテーションの量を大幅に削減できることを示す包括的な分析を行う。

関連研究

2.1. スポーツ映像の理解スポーツビデオ解析の困難で微妙な性質により、近年ますます人気のある研究テーマとなっている [36, 53]。大規模なデータセットの利用可能性は、これらのタスクの進展を可能にする上で重要な役割を果たしてきた。このような大規模データセットの例としては、Pappalardoら[38]、Yuら[64]、SoccerDB[29]、SoccerTrack[42]、DeepSportRadar[57]によって開発されたものがある。Giancolaら[17]を導入するためのSoccerNetデータセットは、サッカーのビデオ理解に関連するラベル付きデータのための最も包括的なリソースとなっている。このデータセットには、アクションスポッティング[11]、カメラキャリブレーション[6]、選手トラッキング[8]など、10種類のタスクのベンチマークが含まれている。

最近、ディープラーニングベースの手法は、その顕著な性能と生データから高レベルの特徴を抽出する能力のおかげで、多くのスポーツビデオ分析タスクのための主要なアプローチとなっている。例えば、ディープラーニングに基づく自動化手法は、選手追跡[35]やオクルージョンによる再同定[49]、バドミントンの3Dシャトル軌道再構築[34]、ラグビーの医療リスク評価[37]、戦術分析[52]、パスの実現可能性[1]、タレントスカウト[10]などのタスクで印象的な結果を示している。さらに、ディープラーニングベースの手法は、研究者が大規模なデータセットを効果的に活用することも可能にしている。その成功にもかかわらず、ディープラーニングベースの手法は、ノイズの多い不完全なデータへの対応、複雑なゲームシナリオの考慮、新しいドメインへの汎化など、いくつかの課題に直面している。そのため、スポーツ映像理解の分野では、まだ十分な改善と研究の余地がある。さらに、スポーツ映像解析タスクのための大規模データセットのアノテーションは、時間とコストがかかるプロセスであり、多大な人的資源と専門知識が必要となる。解決策として、Vandeghenら[58]は、大規模なラベルなしデータセットを活用した、選手検出のための半教師あり手法を提案した。Vatsら[61]は、transformerを用いた選手識別のための弱教師付きアプローチを提案している。このデータ問題に対処するために、我々は、高いタスク性能を維持しながら、必要な注釈データ量を削減することを目的とした、サッカーにおけるアクションスポッティングのための能動学習アプローチを提案する。

2.2. アクションスポッティングアクションスポッティングは、サッカー映像の理解において重要なタスクである。これは、例えばペナルティ、ゴール、コーナーなど、トリミングされていないサッカー放送映像中の特定のイベントをローカライズすることを含むからである。時間的アクティビティローカライズ[3]とは異なり、アクションスポッティングは、サッカーのルール[27]で定義されたアクションの定義に従って、単一のタイムスタンプを使用してイベントを記述する。最近の研究では、SoccerNet [17]のような大規模なデータセットの使用が検討されています。SoccerNet [17]は、試合中に発生する可能性のあるすべてのアクションを網羅するために、3クラスから17クラスに拡張されています[11]。このデータセットは、オープンチャレンジ[18]で明らかなように、研究コミュニティで大きな関心を呼んでおり、アクションスポッティングが現在、研究および産業コミュニティで高いレベルの活動と注目を浴びていることを示している。アクションスポッティングのための最初の方法は、Giancolaらによって提案された[17]。その後、彼らは時間的コンテクストを集約することで、その手法を改良した[19]。Rongvedら[41]は、3D ResNetを5秒間のスライディングウィンドウ方式でビデオフレームに直接適用するアプローチを提案した。Vanderplaetseら[59]とXarlesら[18]は、マルチモーダル・アプローチで視覚と音声の特徴を組み合わせている。Cioppaら[7]は、行動を取り巻く時間的コンテキストをモデル化するために、コンテキストを考慮した損失関数を導入している。Vatsら[60]は行動位置の不確実性を考慮したマルチタワーCNNを使用し、Tomeiら[55]は特徴抽出器を微調整し、行動後のフレームに注目するマスキング戦略を使用した。を用いた。

Soaresら[46, 47]は、SoccerNet-v2における現在の最先端技術を保持している、 Soaresら[46][47]はアンカーベースのアプローチを提案し、SoccerNet 2022チャレンジで優勝した。彼らはアンカーを、時間インスタンスとアクションクラスによって形成されるペアと定義し、時間インスタンスは高密度にサンプリングされている。各アンカーについて、検出信頼度と細かい時間的変位の両方が推論され、変位はアクションが予測される正確な時刻を示す。彼らのアプローチは時間的精度を大幅に向上させる。 2022年チャレンジの準優勝者であるHongら[24]は、特徴抽出器とスポッティングヘッドの両方がエンドツーエンドで学習される、最初の正確な時間的スポッティング（PTS）手法を提案した。GSM[51]モジュールと、各フレームをアクションクラスか背景に分類するGRU[5]モジュールを含む、軽量RegNetアーキテクチャに依存している。また、時空間エンコーダ[9]、グラフベースアーキテクチャ[4]、トランスフォーマアーキテクチャ[65]に注目した手法もある。これらの優れた性能にもかかわらず、すべての最先端の手法は教師あり学習に依存しており、大規模な注釈付きデータセットを必要とする。しかし、スポーツビデオ解析では、発見すべきアクションが時間とともに変化する可能性があり、データセットを再注釈する必要がある。この研究では、このようなデータセットの再アノテーションを効率的に行う方法を、能動学習技術を用いて研究する。能動学習は、最も情報量の多いサンプルを選択してアノテーションを行うことで、高いタスク性能を維持しながら、アノテーションの労力を最小化することを目的とする。

2.3. 能動学習能動学習は、画像理解[16,26]、ビデオ理解[22]、自然言語処理[54]、音声認識[21]、化学[12]など、幅広い応用分野で成功を収めている。能動学習の主な目的は、アノテーションのために最も情報量の多いラベルなしサンプルを選択し、特定の性能を達成するために最小限のラベルデータを使用することである。能動学習の主な戦略には、不確実性サンプリング[30,33,56]、多様性最大化[43,62]、クエリー・バイ・コミッティ[14,20,28,45]、期待誤差[23,31,32,63]などがある。能動学習に関する包括的でより一般的な文献レビューは、[40,44]を参照。不確実性サンプリング。これらの手法は、これまでに訓練された行動検出モデルのほとんどを混乱させる、ラベル付けされていないデータをサンプルする。Tongら[56]は、画像検索のための効果的な関連性フィードバックを行うためのサポートベクターマシンアルゴリズムの使用を提案している。Joshiら[30]を導入するための能動学習法は、モデルが最も分類しにくいと考えるラベル無しデータを選択する。この選択は、分類器の出力のエントロピー、あるいは "Best versus Second Best"（BvSB）パラダイムに基づいている。

多様性の最大化。これらの能動学習アプローチは、利用可能なラベルなし集合の全空間を最もよく表現するサンプルを選択する。Yangら[62]は、サンプルの多様性を最大化する手法を提案した。彼らはこの手法を、行動認識、物体分類、シーン認識、イベント検出など、多様な視覚認識タスクで研究した。同様に、Senerら[43]は選択プロセスをコアセット問題としてモデル化した。彼らはデータセット内の残りのサンプルとのL2距離を最小化することで、画像の代表的な部分集合をサンプリングする。

クエリ・バイ・コミッティ（Query-by-committee）。このパラダイムでは、同じラベル付きデータセットで訓練されたStudentアルゴリズムの委員会間の最大不一致の原則に従って、次にアノテーションするバッチが選択される。Seungら[45]はこのアプローチを導入し、さらにFreundら[14]によってベイズの枠組みで分析されている。Houlsbyら[26]は、さらにQuery-by-Committeeと情報利得理論との関係を調査している。

期待誤差。これらの手法は、特定のサンプルを分類する際の誤差に相関するメトリクスを学習しようとするものである。学習型能動学習（LAL）[32]は、候補サンプルに対する誤差の減少を回帰するように学習する。能動学習スコアは、訓練データセットにおける誤差損失に対して教師ありの方法で学習される。同様に、Yooら[63]も、タスクに依存しない「損失予測モジュール」を学習する。そうすることで、彼らは予測損失が高いサンプルを積極的に選択し、それらのサンプルが次の訓練ステップで最小化するための重要な新規情報を提供することを期待する。

時間ビデオ解析のための能動学習。能動学習は一般的なセットアップで広く解析されているが、これらのアプローチを時間ビデオ解析に適用した研究は少ない。Brandlaら[2]は、不確実性サンプリング[33]に基づいた、時間活動ローカライズ（TAL）アルゴリズムのための能動学習法を提案した。Heilbronら[22]はさらに、様々な能動学習パラダイムの経験的研究により、TALにおける能動学習を調査し、LAL[32]が最も良い性能を示した。先行文献に従い、我々はアクションスポッティングのための最初の能動学習ワークフローを定式化する。我々はいくつかの不確実性サンプリング法を分析し、行動スポッティングのための、より多くの能動学習アプローチのための基礎を設定する。

アクションスポッティングのための能動学習

我々は、アクションスポッティングのタスクのための最初の能動学習フレームワークを提案する。我々のフレームワークは、最小限のラベル付きデータを用いて、正確な行動検出モデルを学習することを目的としている。不確実性サンプリング能動学習に関する文献に従い、我々はこの目的を達成するための3つの重要なステップを特定する： (1)能動学習ステップ毎に増加するラベル付きデータセットを用いて、行動発見モデルを学習する。(2) 能動学習アルゴリズムを用いて、ラベル付けされていないデータから最も情報量の多いデータを選択する。(3)選択されたクリップにオラクルによるラベル付けを行い、新しいデータと注釈をラベル付きセットに含める。我々のフレームワークの概要を図2に示す。

形式的には、ビデオvが与えられたとき、アクションスポッティングのタスクは、そのビデオ内のすべてのアクションスポットS = {s1, ..., sM}を識別することである。スポットsmはアクションクラス（ペナルティ、ゴールなど）と時間的アンカーから構成される。各アクティブ学習ステップτで、推論関数をfτとするアクションスポッティングモデルが、ラベル付けされたサンプル集合Lτを用いて訓練される。モデルの詳細と学習手順はセクション3.1で述べる。次に、能動学習アルゴリズム g が、プール Uτ から最適なラベル無しサンプル C∗ を選択する。いくつかの能動学習アルゴリズムについてはセクション3.2で述べる。その後、セクション3.3で説明するオラクルが、選択されたサンプル C∗ に対して、行動スポットのグランドトゥルース注釈（すなわち、行動クラス k と時間アンカー t）を提供する。ラベル付けされた集合 Lτ は、Lτ+1 = Lτ ∪ C∗ に従って、新たにラベル付けされたクリップインスタンス C∗ で補強されます。このプロセスは、モデルが望ましい性能に達するか、集合 Uτ がなくなるまで繰り返される。最もコストのかかるステップはサンプルのラベル付けであるため、我々のフレームワークの目的は、効率的なアクティブ選択アルゴリズムを提案することにより、オラクルへの問い合わせ回数を最小化することである。

図2. アクションスポッティングのための能動学習パイプライン。我々は、推論関数をfとするアクションスポッティングモデルを訓練する小さなラベル付きデータセットLから始める。そのために、まず各クリップのモデルf(U)の予測値を収集し、その予測値を選択関数gに通して、C＊を選択するクリップをランク付けします。選択されたクリップはすべてオラクル（人間の注釈者）に渡され、そのクリップ内のすべてのアクションのクラスとローカライズの両方が提供されます。これらの新しい注釈データはラベル付きデータセットに追加され、次の学習反復に使用される。このプロセスは、望ましい性能に達するか、ラベルなしデータセットが空になるまで繰り返し行われる。

3.1. モデル学習ステップ

データセット。アクションスポッティングのデータセットは通常、L個のトリミングされていない動画V = {v1, ..., vL}のリストで構成され、各動画はK個のクラスのうちk個のクラスのアクションスポットs = {k, t}の集合Sでアノテーションされ、1つのタイムスタンプtで固定されている。長いトリミングされていない動画でアクションスポッティングモデルを学習することは、ハードウェアの制約（GPUメモリや計算時間など）によりまだ不可能であるため、通常、動画から抽出されたクリップで学習される。この研究では、各映像vlはN個の固定長非重複クリップCl = {c 1 l , ..., cN l }の集合とみなす。各クリップc n lは、時間的に固定されたアクションスポットS n l = {s n l,1 , ..., sn l,M}のリストでアノテーションすることができる。

ビデオエンコーダ。典型的なアクションスポッティングモデルは、ビデオエンコーダHとアクションスポッティングヘッドAから構成される。Jフレームからなるトリミングされたビデオクリップc n lが与えられると、ビデオエンコーダは各フレームについてコンパクトな特徴表現H(c n l ) = {h n l,1 , ..., hn l,J }を抽出する。このフレーム特徴エンコーダは通常、外部データセットで事前に訓練され、その後アクションスポッティングデータセットで凍結または微調整される。特徴量の次元は多様であるため、よりコンパクトで標準化されたフレーム表現を生成するために、PCAを用いて次元を均一化することが一般的である。また、これらの特徴エンコーダは、ビデオクリップ全体に対して適用して時間情報を活用することも、クリップの各フレームに対して独立して適用することも可能であり、一般的に計算パワーとメモリが少なくて済みます。アクションスポッティングのベースラインの典型的な選択は、フレームベースのResNetエンコーダやビデオベースのI3D/C3Dエンコーダ[17]などの学習可能なCNNベースのエンコーダでフレーム特徴を抽出することである。

アクションスポッティングヘッド。コンパクトなフレーム特徴表現H(c n l ) = {h n l,1 , ..., hn l,J }のセットが与えられたとき、アクションスポッティングヘッドAは記述子を時間的に結合し、現在のクリップc n l に対する予測アクションスポットのリストSˆn l = A(H(c n l )) = {sˆ n l,1 , ..., sˆ n l,M′} を出力する。この予測値のリストは2つの方法で得ることができる。アクションスポッティングモデル[7]の最初のカテゴリーは、予測された位置とクラスを直接回帰する。この研究では、まず1フレームまたは1クリップあたりK + 1クラススコア（背景を含む）を出力する2番目のカテゴリに注目する。

アクションの正確なローカライズtは次に、予測されたクラススコアに対して非最大抑制アルゴリズムを用いて経時的に抽出される。したがって、アクションスポッティング手法fτの完全な数学的関数は、A◦Hとして表すことができる。

学習。サイズ｜Lτ｜の能動学習ステップnにおけるラベル付きデータセットLτをLτ = {(c train 1 , S1),...,(c train |Lτ | , S|Lτ |)}と定義する。各アクティブ学習ステップにおいて、行動検出ベースラインはLτ上で学習される。我々のフレームワークでは、いくつかの学習パラダイムを考える。最初のものは、各アクティブ学習ステップにおいて、アクションスポッティングモジュールをゼロから訓練するものである。この訓練は収束するまで行われることもあれば、特定のエポック数で行われることもある。利点は、ディープ・ラーニング・モデルは通常、より良い学習ができることである。しかし欠点は、各エポックの学習に多くの時間を要することである。より高速な学習パラダイムは、前の能動学習ステップで得られたモデルを、収束するまで、あるいは一定のエポック数で微調整することである。これにより訓練時間は短縮されるが、収束は保証されない。例えば、学習データ量が少ないために最初のステップでネットワークが発散すると、後で回復できなくなる可能性がある。これらの学習パラダイムについては実験セクションで検討する。

推論。テスト時に、モデルはクリップに対してのみトレーニングされているのに対して、ビデオ全体に対する予測を生成する。このミスマッチを解決する1つの一般的な方法は、ビデオをオーバーラップするクリップとオーバーラップしないクリップに分割することである。各クリップは独立して処理され、結果はビデオに沿って集約される。主な関連メトリクスはAvg-mAPであり、グランドトゥルースと予測されるアクションスポットの間のδ-toleranceの様々な値に対してmAPを平均する。我々は典型的なメトリクス[18]tight Avg-mAP(δは1秒から5秒の範囲)とloose Avg-mAP(δは5秒から60秒の範囲)を使用する。

3.2. アクティブ選択ステップ

次のステップはラベル付けされていないデータセットからクリップを選択するステップであり、サイズ｜Uτ｜のラベル付けされていないビデオクリップの集合Uτ = {c u 1 , ..., cu |Uτ | }として定義される。アクティブ選択ステップの目的は、Uτから新しいクリップ集合C＊を選択する関数gを作成することである。主な課題は、この関数がアクションスポッティングモデルの改善に最も大きな影響を与える可能性の高いサンプルを選択するようにすることである。セクション2で述べたように、多くの能動学習ワークフローが存在する。この研究では、不確実性サンプリングの特殊なケースに焦点を当てる。特に、前の能動学習ステップで学習された行動発見モデルの予測を分析する。予測値は、各クラスに対する（K＋1）個の確率値の集合であり、フレームごと、あるいはクリップごとのいずれかである。ブラックボックスモデルの場合、クラス信頼度スコアは予測によって返される唯一の不確実性情報である。画像分類のための能動学習に関する文献に従って、不確実性尺度（UM）とエントロピー尺度（EM）を活用した2つのセレクタを構築する。以下では、アクションスポッティング予測のためにこれらの方法を実装する方法を示す。

不確実性の尺度。不確実性尺度（UM）は、各クリップまたはフレームに関連する信頼スコアのみを考慮する。信頼度スコアpkが与えられた場合、アクティブラーニングスコアは混同信頼度0.5との距離に反比例する。エントロピー測定は以下のように正式に定義される：

アクションスポッティングの場合、このスコアはフレームごとに計算され、すべてのフレームにわたって平均化または最大プールされる。

エントロピー測定。エントロピー尺度（EM）は、すべてのクラスの信頼度の分布を考慮する。このような推定には全クラスの信頼度スコアへのアクセスが必要であり、ブラックボックス・アルゴリズムではアクセスできない可能性がある。信頼度スコアp1, ..., pKのリストに基づいて、予測間の分布の均一性に反比例する能動学習スコアを抽出する。エントロピー・メジャーは，形式的には次のように定義される．

サンプルの選択。我々は関数gを活用して、最も高いアクティブスコアを持つ上位k個の最も情報量の多いクリップC＊を選択する。この研究では、各アクティブ学習ステップでクリップ数｜C｜を選択するいくつかのアプローチを研究する。第一のアプローチは、各アクティブ学習ステップで固定数のクリップを選択することである。第二のアプローチは、クリップの数を増やして選択する方法である。この方法には、モデルがまだ情報量の多いクリップを必要とする最初の段階で、関連するクリップのみを選択できるという利点がある。

3.3. アノテーションステップ

能動学習ステップでクリップが選択されると、グランドトゥルースアクションスポットを提供するオラクル（実際のシナリオにおける人間のアノテータ）に注釈を付ける必要があります。クリップの集合 C∗ は手動でアノテーションされ、クリップとそれに対応するアノテーションの両方が Lτ に追加されます。受動的な学習セットアップでは、オラクルは通常 Uτ 内のいくつかのクリップをランダムに選択し、冗長な情報をアノテーションする可能性がある。この研究では、能動的学習のフレームワークを用いることで、ランダムにクリップを選択するよりも、関連性の高いクリップを選択することができ、その結果、時間とコストを削減できることを示す。

実験

4.1. 実験セットアップ我々の能動学習フレームワークは、データセット、アクションスポッティング学習パラメータ、能動学習選択アルゴリズムに依存しない。このセクションでは、様々な設定での実験について技術的な詳細を説明する。

データセット本研究では、3つのデータセットを活用し、サッカー動画におけるアクションスポッティングのための能動学習フレームワークを評価する： SoccerNet-v2、SoccerNet-ball（公開）、FWWC19-header（非公開）である。表1に各データセットの主な特徴の概要を示す。

SoccerNet-v2は、ゴール、PK、カード、フリーキックなど、一般的なアクションの17クラスから110,458のアクションスポットがアノテーションされた550試合から構成される。これらのタイムスタンプ付きアノテーションは、サッカービデオで発生するアクションの包括的な理解を提供する。

SoccerNet-ballは、パスやドライブなど11,041のボール関連イベントにアノテーションされた9つの公開試合で構成される。このデータセットは、ゲームの重要な側面であるボールに関連するアクションに関する貴重な情報を提供する。さらに、ゲーム中のイベントの密度が高いため、正確な時間的スポッティング能力が要求される。

FWWC19-headerは、FIFA Women World Cup 2019（FWWC19）の52試合のプライベートデータセットで、意図的なヘッダー、意図的でないヘッダー、ヘッダーデュエル、ヘッダー未遂、その他の頭部衝撃を含む5クラスの頭部衝撃についてアノテーションされています。このデータセットは、サッカーやその他のコンタクトスポーツにおいて医学的に重大な関心事である頭部衝撃を取り巻く事象に関する洞察を提供します。アクションスポッティングの方法本研究では、フットボールビデオにおけるアクションスポッティングのための能動学習フレームワークをサポートするために、2つのアクションスポッティングベースラインを調査する： NetVLAD++ [19]とPTS [24]である。表2に各ベースラインの主な特徴の概要を示す。

表2. サッカー動画のアクションスポッティングベースライン。我々は、NetVLAD++とPTSの2つのベースラインで、我々の能動学習フレームワークを調査する。

メトリクス。アクションスポッティングについては、特に断りのない限り、緩いAvgmAP [17]に依存する。能動学習については、モデルの学習に使用されるデータの比率、すなわちラベル付きデータセットのサイズの関数として、アクションスポッティング性能の学習曲線を分析する。22]に従い、学習曲線下面積（AULC）を推定する。優れた能動学習器は、ランダムサンプラーよりも高いAULCを持つことが期待される。さらに、我々は2つのメトリクスを提案する：(i) M10% data : 10%のデータのみを用いた場合のAvg-mAP性能、(ii) M90% perf : 最終的なAvg-mAP性能の90%に達するために必要なデータの比率。

技術的な詳細特に指定がない限り、我々はResNET PCA512特徴量を用いた行動検出モデルNetVLAD++[19]に実験を集中し、オリジナルの実装で定義されたものと同じ学習パラメータを用いて収束するまでモデルを訓練する。各アクティブ学習反復ステップにおいて、データセットの1％に相当する量のサンプル｜C｜を選択する。各アクションスポッティング学習ステップでは、学習を最初からやり直す。

4.2. 初期結果まず、我々のフレームワークを2つの能動学習選択アルゴリズムと比較する：不確実性尺度（UM）とエントロピー尺度（EM）、そしてランダムサンプラー（RS）である。図3は、ラベル付きデータセットサイズの関数として、行動検出性能（緩いAvg-mAP）を示す。

表3は主なメトリクスAULC、M% data、M% perfを示す。最初の結果は、我々の学習フレームワークが学習を大幅に高速化することを示している。エントロピー測定（Entropy Measure: EM）を用いると、モデルの性能はより速いペースで収束するため、より少ないアノテーションデータで高い性能を達成することができる。特に、EMを用いた我々のセットアップでは、AULCメトリクスが47.96%であるのに対し、RSを用いた場合は45.11%である。さらに、EMのM90%は16%であるのに対し、RSのM90%は45%であり、行動検出性能の90%に到達するためには、3分の1のデータで済むことを示している。最後に、M5%のデータから、たった5%のデータで、アクションスポッティングのメトリクスAvgmAPが37.24%に達するのに対し、ランダムにサンプリングした場合は32.06%であることがわかります。興味深いことに、不確実性測定（UM）はランダム・サンプリング（RS）と比べて限定的な改善しかもたらさなかった。

図3. アクティブラーニングとランダムサンプリングの比較。エントロピー測定法（EM）を用いた我々の不確実性サンプリングは、より少ないデータで、より速いペースで最適解に収束する。実際には、能動学習はランダムサンプラーが同様の性能に到達するのに必要なデータの36%しか必要とせず（M90% perf ）、同程度のデータ量であれば最大18%の性能向上につながる（M4% data）。

4.3. 能動学習フレームワークの高速化

このセクションでは、我々の能動学習フレームワークを高速化するいくつかの発見を共有する。特に、(i)NetVLAD++に同様の性能をもたらす、より高速なスケジューラを導入するためのもの、(ii)適応型能動学習スケジューラ(AdapAL)を導入するためのもの、(iii)各能動学習ステップでゼロから学習するのではなく、モデルを微調整する継続的学習を調査するためのもの、である。

モデル学習の高速化まず、学習速度の高速化スケジューラを活用する。10-3からスタートし、各検証損失プラトーで学習率を10の比率で減少させ、10-8に達するまで学習するのではなく、10-2の学習率からスタートし、10-4まで減少させる。また、プラトーを特定するまでの忍耐を10エポックから5エポックに減らす。このようにすることで、図4に示すように、学習時間を実質的に2回短縮し、なおかつ元の学習スケジューラと同等の性能を得ることができる。

適応型能動学習スケジューラ第二に、我々は能動学習（AL）ステップを適応させ、ALステップごとに選択され注釈が付けられるサンプル数を徐々に増やす。レジームでは、データセットLtをデータセットのわずか1％以上増やすことができる。実際には、データセットの15%後に2%、データセットの25%後に5%、データセットの40%後に10%増加させることにした。こうすることで、ALステップを100から30に減らし、時間を70%節約した。図4は、適応的ALステップサイズがSoccerNet-v2におけるNetVLAD++の学習性能に影響を与えないことを示している。

継続的な学習第3に、前回の能動学習ステップから学習を再開することが、学習時間の短縮に有効かどうかを検討する。図5の三角形の停止系列は、元のパラメータを用いた素朴な継続学習の実装が、それ以上の微調整を妨げる発散損失につながることを示している。その代わりに、20エポックで学習をブートストラップし、LRを10-2に固定して、各アクティブ学習ステップで5エポックずつモデルを微調整することを提案する。各アクティブ学習ステップで5エポックの学習を続けても、EMがRSを上回るという傾向は変わらないことがわかる。表4は、(i)より速く訓練する、(ii)能動学習スケジューラを適応する、(iii)訓練を継続する、が実際にどのようなメトリクスを持つかをまとめたものである。性能の差はわずかであるにもかかわらず、RSとEMの差は維持されている。最も重要なことは、これらのトリックは実験の実行を一桁高速化することにつながるということである。

4.4. 汎化分析データセットの汎化。我々は他の2つのデータセット、すなわちSoccerNetballとFWWC19-headerで我々のフレームワークを連続して実験した。SoccerNet-ballはアクションの密度が高いので、NetVLAD++のハイパーパラメータを1秒の時間窓と1秒のNMSで改良した。我々は、20エポックのブートストラップの後、より高速な学習スケジューラ、適応的な能動学習ステップ、および能動学習ステップごとに5エポックの継続的な微調整を行う加速能動学習設定を選択した。表5は結果の詳細であり、特にUMとEMはランダムサンプリングと比較して、両方のデータセットにおいて訓練効率を大幅に加速することを示している。興味深いことに、この2つのデータセットでは、UMとEMの差はSoccerNet-v2の時よりも小さくなっている。この挙動は、SoccerNet-HeadersとFWWC19-Headerのクラス数がそれぞれ2個と1個と少ないことに起因していると推測される（表1参照）。実際、UMとEMのサンプルのランキングは、バイナリ分類器の場合、実際には似ています（式(1)と(2)を参照）。

アーキテクチャの汎化我々は、我々の能動学習フレームワークの汎化能力を、他のアクションスポッティング手法、特にPTS [24]に対して分析した。NetVLAD++とは異なり、PTSはクリップ単位ではなくフレーム単位でクラス予測スコアを生成する。クリップ毎の能動学習スコアを推定するために、我々はフレーム毎の能動学習スコアを平均または最大プーリングで集約する。前者はクリップの全フレームに沿った平均的な不確実性を考慮し、後者は不確実なフレームを1つだけ含むクリップを次に訓練するためにサンプルする。同様に、PTSはNetVLAD++よりも学習速度が遅いため、同じ加速能動学習設定を選択した。NetVLAD++から得られた知見と一致し、UMとEMが3つのデータセットすべてにおいてRSを上回ることを表4に示す。さらに、クラス数が少ないほど、UMがEMを上回る傾向があることを示す同様の傾向を確認した。最後に、最大プーリングがより良く機能するように見えるが、これは、不確実なフレームを1つ含むクリップの方が、一般的にモデルの訓練に有益であることを意味する。