A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications

どんなもの？

スポーツ分析のための映像認識手法のサーベイ．

またPaddleVideoと呼ばれるアノテーションツールも提供している．

先行研究と比べてどこがすごい?

スポーツのドメインを包括的に調べたペーパーはおそらく初

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

データマイニング系のサーベイ論文：

R. Beal, T. J. Norman, and S. D. Ramchurn, “Artificial intelligence for team sports: a survey,” The Knowledge Engineering Review, vol. 34, 2019.

データセット論文

Sset: a dataset for shot segmentation, event detection, player tracking in soccer videos
Soccerdb: A largescale database for comprehensive video understanding

手法

Temporal Fully Connected Operation
ViViT，MViT
BEVT
Revisiting skeleton-based action recognition(Pose3D)
DIN

https://github.com/kennymckormick/pyskl.git

その他

video captioning [297]- [299]
active learning approaches [314]- [316]

Memo

I. INTRODUCTION

この論文は、スポーツにおけるビデオアクション認識に焦点を当て、過去の研究をレビューした上で、フィギュアスケート、サッカー、バスケットボール、卓球のアクション認識をサポートする深層学習ツールボックスを提供している。過去の研究ではスポーツにあまり注目されていなかったため、この研究は新しい貢献をしている。
まとめるとこんな感じ
まず、アクション認識というスポーツ映像理解の中心部分に焦点を当て、サッカーやバスケットボール、バレーボール、ホッケーなどのチームスポーツ、ダイビングやテニス、体操、卓球などの個人競技を含む10種類以上のスポーツについて紹介しました。
第二に、スポーツのジャンル分類と、異なる種類のスポーツにおけるアクション認識方法のロードマップを提供し、スポーツに関連するデータセットの概要を紹介しました。
第三に、異なる種類のスポーツにおけるビデオアクション認識の現状と、今後に向けて注目すべき課題を提示しました。さらに、スポーツビデオアクション認識の研究を容易にするために、複数のスポーツに対応する深層学習ツールボックスを提供しました。これは、https://github.com/PaddlePaddle/PaddleVideoで公開されています。

II. SPORTS-RELATED DATASETS

A Football

スポーツビデオアクション認識のためには、スポーツの種類やカテゴリーの定義、複数のソースからのビデオ収集、ビデオのトリミング、注釈の付与などの手順が必要である。サッカーに焦点を当てたデータセットには、Soccer-ISSIA、Football Action、ComprehensiveSoccer、SoccerNet、SSET、SoccerDB、SoccerNet-v2がある。これらのデータセットは、選手追跡、検出、チームアクティビティ認識、アクション分類、ローカライズ、ハイライト検出など、様々なタスクに使用できる。近年では、大規模データセットと深層学習モデルが主流であり、SoccerNetやSoccerNet-v2などが特に人気が高い。

B Basketball

バスケットボールアクション認識に対する注目度の高さから、APIDIS、Basket-1,2、NCAA、SPIROUDOME、SpaceJam、FineBasketball、NPUBasketballなど、様々なデータセットが開発されている。これらのデータセットは、選手検出、アクション認識、ボール検出など、多様なタスクに使用できる。特に、FineBasketballとNPUBasketballは、細かいアクション分類に焦点を当てており、それぞれ3つのカテゴリーと26個の細分類を提供している。NPUBasketballは、RGBフレームだけでなく、深度マップと選手のスケルトンも提供しており、様々なタイプのアクション認識モデルの開発に使用できる。

ほかにもあるけど割愛

バレーからマルチスポーツまで

III. INDIVIDUAL ACTION RECOGNITION

A. Traditional Models

従来のアクション認識モデルは、少なくとも2つのモジュール、すなわち（1）ビデオ特徴抽出、および（2）分類器から構成されます。従来は、手作業で作成された特徴が主流でした。低/中レベルフレームの特徴をGIST [214]またはHOG [215]で抽出し、時間の経過に伴ってフレームの特徴を平均化して分類する単純な手法がありました。多くの特徴抽出手法を検証した研究によると、UCF Sports [183]のようなデータセットでは、GIST特徴を使用するとHOGよりも優れた性能（60.0％）が得られます。それ以外の特徴抽出手法も提案されています。HOG3D [217]を適用することで、E. Ijjina [216]はビデオ特徴を抽出し、多層パーセプトロン（MLP）を分類器として使用します。対照的に、T. Campos et al. [189]は、テニスアクション認識のためにHOG3D特徴+カーネルフィッシャー判別分析（KFDA）を使用して、ACASVA [189]でAUC 84.5％を達成しています。

Motion Boundary Histogram（MBH）[219]、Optical Flow Histograms（HOF）[220]、およびdense trajectories [221]は、光学フローに基づく運動情報を使用するための様々な手法です。MBHはカメラの動きに強く、性能が優れています。H. Wang et al. [222]は、改良されたtrajectoriesを提案しています。カメラの動きを考慮しており、モデルは移動するオブジェクトに集中できます。従来のtrajectoriesを使用すると、Olympicデータセットで62.4％の精度を達成できます。MBHでは82.4％であり、改良されたtrajectoriesを使用すると、91.1％を達成できます。

HOGだけでなく、Scale-Invariant Feature Transform（SIFT）[223]も広くアクション認識に適用されています。M. Chan et al. [224]は、MoSIFTを提案しており、空間的な外観と運動特徴の両方を考慮するため、最初にグラデーションのヒストグラムを使用して空間的な外観を抽出し、次に光学フローのヒストグラムを使用して動きを抽出する手法もあります。例えば、M. Chanらは、Motion SIFT（MoSIFT）と呼ばれる手法を提案しています。この手法では、まず空間的な外観を抽出するために、グラデーションのヒストグラムを使用し、次に光学フローのヒストグラムを使用して動きを抽出します。MoSIFTは、Hockey Fightデータセットで89.5％の精度を達成し、Space-Time Interest Points（STIP）（59.0％）よりも優れた結果を示しました。

一般に、手作業で抽出した空間的および時間的特徴量は、UCF SportsやOlympicなどのスポーツアクション認識データセットで比較的良好なパフォーマンスを発揮することができます。しかし、手作業で特徴量を計算することは通常時間がかかります。さらに、伝統的なモデルはエンドツーエンドでトレーニングできないため、特徴抽出モジュールと分類器は別々に学習する必要があります。最近では、研究者たちはディープラーニングモデルによるスポーツビデオアクション認識に注目し、多数の手法を提案し、認識精度を高いレベルに向上させています。

B. Deep Models

現在、ディープモデルがビデオアクション認識で支配的な地位を占めている。伝統的なモデルに比べ、ディープモデルはより実現可能であり、エンドツーエンドでトレーニングできる。2Dモデル、3Dモデル、2ストリーム/マルチストリームモデル、スケルトンベースモデルの4つのタイプのディープモデルがあり、各モデルの基本的なアーキテクチャは図4に示されている

1) 2D Models:

スポーツビデオのアクション認識のための2Dディープモデルは、通常、2D畳み込みニューラルネットワーク（CNN）またはトランスフォーマーを使用して各フレームを処理し、抽出した特徴を予測のために融合させる。A. Karpathyらによって提案された最も初期のアプローチの1つ[191]は、CNNと、スローフュージョンを含む4種類の時間情報融合法を使用し、Sports 1Mデータセットで他の方法よりも優れていました。Y. Ngら[234]やJ. Donahueら[235]が提案したアプローチに見られるように、Longshort Term Memory (LSTM) ネットワークも時間情報を捉えるために使用されてきた。時間情報の融合は2Dモデルにおいて重要であり、Temporal Segment Network (TSN)[238]はビデオセグメントから短い断片をサンプリングし、RGBフレーム、オプティカルフロー、RGB差を使用してアクションラベルを予測する。B. Zhouら[260]はフレーム間の時間的関係を捉えるためにTemporal Relational Network（TRN）を提案し、J. Linら[13]は時間情報をより効率的に捉えるためにTemporal Shift Module（TSM）を提案しています。最近では、TimeSformerを提案したG. Bertasiusら[107]や、時間変換器を用いてフレーム表現を融合するVTN[240]に見られるように、視覚変換器（ViT）が普及してきている。空間モジュールも時間モジュールも、シーケンスのモデリングやフレーム特徴の抽出においてより強力であるため、トランスフォーマーにシフトしている。しかし、より多くの学習可能なパラメータと計算資源を必要とするため、ImageNet [269]のような大規模画像データセットによる事前学習が一般的になっている。

2) 3D Models:

「連続するNつのフレームの特徴を連結」は動画認識のキーワード

3Dモデルは、空間情報と時間情報を同時に捉えることができるため、行動認識における普及が進んでいます。2015年、D. Tranらは、8つの3D畳み込み層を利用する大規模行動認識のためのC3Dアーキテクチャを提案しました。その後、J. CarreiraとA. Zissermanは、3Dカーネルに拡張した2Dカーネルを使用するInflated 3D CNN（I3D）を提案し、複数のデータセットでより優れた性能を達成した。しかし、2D畳み込みを3D畳み込みに拡張すると、パラメータ数、計算量が大幅に増加し、オーバーフィッティングの危険性が高まります。これらの問題を軽減するために、研究者は、Pseudo 3D（P3D）ネットワークやSlowFastネットワークなど、様々な方法を提案しており、複数の一般的なアクション認識データセットで最先端の性能を達成しています。

最近では、3Dモジュールを使用したトランスフォーマーベースのモデルの人気が高まっています。ViViTは、ViTアーキテクチャをチューブレット埋め込みによってビデオアクション認識に拡張し、さまざまなトランスフォーマーアーキテクチャを検討した結果、空間-時間トランスフォーマーは大規模データセットで最高の性能を発揮するが、他のアーキテクチャよりもはるかに多くのFLOPsを必要とすることがわかった。MViTとVideo Swin Transformer (ViSwin)は、異なるレベルで異なる解像度を使用し、計算の複雑さを軽減し、受容野を増加させます。ORViTは、オブジェクトにもっと注意を払うために、視覚トランスフォーマーにオブジェクトダイナミックモジュールとオブジェクト領域アテンションを導入しています。最後に、研究者はまた、空間情報をモデル化するためにマスクされたパッチの表現を予測する、BEVT、VIMPAC、MaskFeatなどの様々なマスクされたビデオモデルを開発しました。

全体として、3Dモデルは一般的に行動認識において2Dモデルよりも優れていますが、時間と計算コストがかかることがあります。Pre-train-fine-tune パラダイムは、特に3D transformerベースのモデルにおいて、マスクされた言語モデルのトリックをビデオモデルに導入するための素直な方法として、ますます人気が高まっています。

3) Two-Steam Model:

Two-Steam Modelは、通常、RGBフレームとOptical Flowを入力とし、それぞれのStreamにDeep Neural Networkを使用します（図4参照）。RGBフレームは空間情報と時間情報の両方を提供し、オプティカルフローは主に動きに関する情報を提供します。当然ながら、RGBフレームのみを入力とする上記の2D/3Dモデルを2ストリームモデルに拡張することは容易であり、TSN-Two-Stream [238], TSM-Two-Stream [13], TRN-Two-Stream [260] などの2ストリームモデルのバリエーションが生まれる。ビデオフレームのみを使用するワンストリームモデルと比較して、2ストリームモデルはより良い性能を達成するが、最初にオプティカルフローを計算し、動きの深い表現を得るために追加のニューラルネットワークが必要である。

2ストリームモデルのもう一つの問題は、フレームとオプティカルフローの表現をどのように組み合わせるかということである。K. Simonyanらによって提案された初期の作品Two-Stream ConvNet [10]は、各ストリームの予測を直接平均化し、C. Feichtenhoferら [259]は、2ストリームネットワークの異なる層でMax Pooling, concatenation, bilinear, sum and convolutionなどの異なる融合アプローチを探求しています。

最近、研究者は、いくつかの先進的なOnestreamモデルが、Two Streamの対応するものを凌駕することを観察している。というのも、Tow-Streamネットワークは容量が大きいので、データセットにオーバーフィットしやすいからです。

また、ビデオフレームとオプティカルフローの汎用性は異なるため、1つの戦略で2ストリームネットワークをトレーニングすることは最適とは言えない。W. Wangら[261]は、この問題に対処するために、異なる損失関数の重みを学習中に推定し、各ストリームに重みを割り当てるGradient Blending（G-Blend）を提案している。

4) Skeleton-based Models:

S. Yan ら [262] は，行動認識のための空間-時間型 GCN (ST-GCN) を提案し，これは 3D 畳み込みネットワークに似ているが，スケルトングラフ上で実行され，Kinetics-400 で 30.7% の精度を達成している．ST-GCNは、2Dや3Dのようなフレームベースのモデルと比較すると、外観情報を捉えることができないため、性能はかなり劣りますが、グラフ上での畳み込みは非常に高速です。

アクション認識のための様々なDeep Learningモデルについて、RGBフレームを入力とする2D、3D、Two Streamモデルや、プレイヤーのスケルトングラフを入力とするスケルトンベースモデルを紹介する。スケルトンベースモデルでは、通常、関節で構成されるスケルトングラフをモデル化するために、グラフ畳み込みネットワーク（GCN）を使用します。空間-時間GCN（ST-GCN）はYanらによって提案されたスケルトンベースモデルで、Kinetics-400で30.7%の精度を達成していますが、外観情報を捉えることができないため、2Dや3Dモデルに劣ります。

GCNの性能を向上させるために、Attention Enhanced Graph Convolutional LSTM Network (AGC-LSTM) や Attention GCN (AGCN) のようなアテンション機構が導入されています。EfficientGCN は Song らによって提案されたモデルで，GCN をバッチ正規化などの高度な技術で改善し，学習時間が短く説明可能でありながら FSD-10 で競争力のある性能を達成する．ChenらによるChannel-wise Topology Refinement GCN (CTR-GCN) は，グラフのトポロジーを効果的にモデル化し，FSD-10で66.2%の精度を達成しています．

しかし、スケルトンベースのモデルは、関節の検出が必要であり、余分な計算コストと予測ノイズがかかるという欠点があります。そこで、PoseC3Dでは、グラフの代わりに関節や手足のヒートマップを用いることで、ノイズに対してよりロバストなモデルを実現しています。Pose3Dはヒートマップをフレームとして扱い、従来の3D畳み込みネットワークを採用しています。Pose3Dは他のスケルトンベースのモデルより優れていますが、2Streamモデルにはまだ劣っています。

5) Other Models:

本稿では、動画像の行動認識に用いられるモデルの種類として、2D、3D、2Streamモデル、スケルトンベース、ハイブリッドモデルについて説明する。2Dと3DモデルはRGBフレームを入力とし、2StreamモデルはRGBフレームとOptical Flowの両方を取り込む。スケルトンベースモデルは、プレイヤーのスケルトングラフを入力とし、ハイブリッドモデルは、異なるモデルタイプを組み合わせる。スケルトングラフのモデル化にはグラフ畳み込みネットワーク（GCN）がよく用いられ、最近ではattention機構やトポロジー洗練を導入することで精度を高めている。しかし、スケルトンに基づくモデルでは、ジョイント検出が必要であり、余分な計算コストとノイズを招く。Temporal Query Networks (TQN)のようなハイブリッドモデルは、3D CNNとtransformerを組み合わせ、きめ細かい行動認識データセットにおいて最先端の性能を達成する。

また、SlowFastモデルに音声分岐を導入するためのAudioSlow-Fastや、ビデオフレーム、オプティカルフロー、音声を用いたアンサンブルモデルなど、音声情報を取り入れたマルチモーダルモデルについても解説している。複数のモダリティを使用することで、モデルの容量とロバスト性を向上させることができるが、異なるモダリティを組み合わせ、マルチモーダルモデルをトレーニングすることは困難である。

本稿では、スポーツの種類に応じた行動認識における現在の最新性能の表を提示して、結論を述べています。3Dモデルや2Streamモデルは比較的普及しているが、MoViNetのような高度なモデルはスポーツではほとんど使われていない。データセットには課題がなく、より単純なモデルで正確に分類できるものもあれば、より高度なモデルを必要とするものもある。

IV. GROUP/TEAM ACTIVITY RECOGNITION

グループ／チーム活動認識（GAR）は、別の一般的なタスクであるマルチプレイヤー活動認識（MAR）[286]とは全く異なることに注意されたい。前者は、複数のプレイヤーの活動を認識するプロセスであり、1つのグループ活動は、グループ内の各プレイヤーの行動の関数である[54]。集団の活動は、その中の個人の活動や相互作用によって行われる自然発生的な創発行動として観察することができる。一方、後者は、2人以上のプレイヤーが参加する場合、複数のプレイヤーの別々の行動が並行して認識されることである。

集団・チーム活動認識（GAR）は、スポーツ、ヘルスケア、監視など多くの分野で、人間の行動を自動的に分析するタスクである。GARは、各人の行動とその相互作用から生じる集団の活動を認識する。GARはマルチプレイヤー活動認識（MAR）とは異なり、前者は一つのグループ活動がグループ内の各プレイヤーの行動の関数である複数のプレイヤーの活動を認識し、後者は複数のプレイヤーの個別の行動を並行して認識する。GARは個別行動認識よりも難易度が高く、選手検出、姿勢推定、ボールトラッキングなど複数のコンピュータビジョン技術を必要とする。GARのために、様々なDeep Learningモデルが提案されている。

GARに関する初期の研究はChoiらによって提案され、人物検出、追跡、ポーズ推定、空間-時間ローカライズ記述子、および分類子を使用しています。また、GARのための階層的なディープモデルも提案されており、各プレイヤーを検出し、そのダイナミクスをLSTMでモデル化し、その後、予測のためにグループレベルのLSTMを使用する。また、GARのためのグラフィカルモデルも採用されており、ボールとプレーヤーの検出と、プレーヤーとボールのグラフ上のマッサージパッシングを使用して、相互作用をモデル化しています。GARのエンドツーエンドのアプローチも提案されており、選手検出と行動認識に共有CNNを採用し、分類にマッチングRNNを使用しています。

ポーズ推定もGARモデルを導入するためのもので、選手追跡とポーズ推定を用いたポーズのみのGARシステムが提案されており、高レベルの選手表現を得るために複数の時間・空間畳み込み層を重ね、様々な融合アプローチを調査しています。動的関係やダイナミックウォークもGARモデルに採用されており、プレイヤー間の関係を予測するための動的推論ネットワークと、空間-時間グラフ上のグローバルな相互作用のためのダイナミックウォークオフセットを使用している。また、トランスフォーマーに基づくモデルもGARに提案されており、分類のためのトランスフォーマーを用いて異なるプレーヤーの表現を融合する。

表VIは、HierVolleyball-v2データセットに対するGARにおける異なるモデルの性能を示す。ほとんどのモデルがこのデータセットで実験を行い、提案されたモデルは柔軟で、サッカーやバスケットボールのような他のチームスポーツに移行することができる。

V. APPLICATIONS

スポーツにおけるビデオアクション認識の用途は様々で、トレーニング補助、ゲーム補助、ビデオハイライト、スポーツニュース自動生成（ASNG）、一般的な研究目的などがある。トレーニング補助では、ビデオアクション認識は、コーチや選手が競技やトレーニングクリップの履歴記録を分析し、勝利の戦略を特定し、選手のトレーニングを指導するのに役立ちます。ゲーム支援では、ビデオベースのゲームジャッジがアクション認識を基本モジュールとして使用し、パフォーマンスの実行を評価したり、適切なシグナルについてレフェリーを訓練したりします。ハイライト映像では、アクション認識は、ハイライト映像の全体的な品質を向上させるために、ターゲットとなる人物の位置を特定し、つなぎ合わせ、多様性を最大化するために重要です。ASNGでは、ビデオアクション認識により、試合中の統計的な数値を自動的に生成し、ビデオのテキスト説明を提供することができ、時間の節約と作業負荷の軽減につながります。最後に、一般的な研究目的では、アクション認識は、モーションキャプチャシステムを用いたアクションやジェスチャー/ポーズの分析を通じてスポーツを理解するために不可欠であり、スポーツ統計分析のためにスポーツビデオのアクション/イベントを効率的に収集し分類することができます。全体として、ビデオアクション認識はスポーツにおける幅広い応用が可能であり、スポーツとコンピュータビジョンの領域から注目されています。

VI. Challenges

アクション認識のベースラインをスポーツ動画に適用する際の課題について説明する。データ収集とアノテーションは研究用のデータセットを確立するための重要なステップであり、これらのアノテーションの品質はアクション認識タスクの性能に直接影響する。しかし、スポーツデータセットが他の人間の行動認識データセットと比較して大きく異なる点は、アクセシビリティ、専門知識、および多目的である。スポーツデータセットは通常、通常の人間のアクションよりも専門知識が必要であり、高品質のアノテーションを提供するためには、アノテーターはターゲットとなるスポーツドメインに関するより多くの知識を持つ必要があります。

密集した速い動きのアクションは、アクション認識アルゴリズムにとってもう一つの課題である。従来のアクション認識ベースラインの多くは、4秒から20秒の間のアクションを認識するように設計されています。しかし、スポーツビデオの一部のアクションはこの範囲外であり、アクション認識アルゴリズムがビデオストリームから短時間のイベントを捕らえることを困難にしている。さらに、卓球のスポーツでは、ストロークアクションが超高密度で存在するため、最先端のモデルには困難なタスクとなり得ます。

カメラの動き、カット、オクルージョンも、アクション認識アルゴリズムにとって課題です。ターゲットセグメントの動きはアクション認識タスクのパフォーマンスに影響し、動きの軌跡を形成する従来の方法は、オプティカルフローの抽出に大きく依存しています。しかし、カメラの動きはもはや固定的ではなく、変幻自在である傾向があり、映像のハイライトが変化し続けるため、視界がカットされ、記録された映像には多かれ少なかれオクルージョンが発生する。カメラモーションを考慮した研究も行われていますが、カットされたオブジェクトやオクルージョンが問題となり、特徴空間が一貫性を欠くことになります。

また、ロングテール分布と不均衡なデータも、行動認識アルゴリズムの課題となっています。サッカー、バスケットボール、卓球は、ロングテールのクラス分布と不均衡に悩まされており、モデルの性能を大幅に低下させています。適切なデータ補強方法やロバストアクション認識アルゴリズムにより、ロングテール分布の悪影響を軽減することができます。

マルチカメラやマルチビューでの行動認識も行動認識アルゴリズムにおける課題です。ほとんどのアクション認識ベンチマークは、シングルカメラまたはシングルビューのアクションに焦点を当てており、スポーツビデオのフォーマットに適合していない。タスクをいくつかのサブタスクに分割し、その結果を組み合わせて性能向上を図るアルゴリズムも開発されていますが、完全なスポーツビデオを扱う際に、各ビュー間でサブモデルを検出し、切り替えることは、依然として困難です。

最後に、ラベル付きサンプルや明示的なドメイン知識を取り入れることで、アクション認識タスクを一般化するために、転送学習、少数ショット学習、ゼロショット学習も求められている。このアプローチでは、幅広いスポーツカテゴリから収集した動画を用いてバックボーンモデルを自己教師付きで事前訓練し、その後、ターゲットスポーツ分析タスクのために少数のラベル付きサンプルを用いて事前訓練したモデルを微調整することにより、スポーツ動画からのアクション認識のコストを低減できる。