VARS: Video Assistant Referee System for Automated Soccer Decision Making From Multiple Views

どんなもの？

先行研究と比べてどこがすごい?

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Memo

ビデオ・アシスタント・レフェリー（VAR）は、審判がピッチ上の出来事を確認し、情報に基づいた判断を下し、公平性を確保することを可能にし、協会サッカーに革命をもたらした。しかし、多くの国で審判が不足していることや、VARのインフラが高額であることから、プロリーグのみがその恩恵を受けることができます。本論文では、サッカーの意思決定を自動化できるビデオアシスタントレフェリーシステム（VARS）を提案します。VARSは、マルチビュービデオ解析の最新の知見を活用し、審判にリアルタイムでフィードバックを提供し、試合の結果に影響を与えることができる情報に基づいた意思決定を支援します。VARSを検証するために、プロのサッカー審判員によるファウルの解説を含む、複数のカメラで撮影されたサッカーファウルの新しいビデオデータセットであるSoccerNet-MVFoulを導入し、これらのファウルの特徴を自動的に認識するVARSをベンチマークしました。私たちは、VARSがサッカーのレフェリングに革命を起こし、プロとアマチュアのあらゆるレベルの連盟において、ゲームを公正さと正確さの新たな高みへと導く可能性を持っていると信じていますl。

スポーツの理解研究テーマとして、スポーツ映像の理解は、その困難できめ細かな性質のおかげで人気が高まっています[41, 54]。現在、最先端の自動化手法のほとんどは深層学習に基づいており、選手の検出と追跡[7, 39, 58]、戦術分析[53]、サッカーにおけるパスの実現性[2]と予測[25]、才能スカウティング[11]、またはオクルージョンシナリオにおける選手の再同定 [50] などのタスクで素晴らしい性能を示している。ビデオ分類は、この分野の重要な研究分野として始まり[65]、特定の行動を認識したり[32, 45]、異なるゲームフェーズを区別したりするアプローチが提案されています[8]。時間的な活動のローカライズ[3]への関心が高まる中、サッカーゲーム内の特定の行動を正確にローカライズするアクションスポッティング[4, 6, 10, 26, 48, 49, 67]というタスクが注目されるようになった。これらのタスクの進歩は、大規模なデータセット[28,43,46,57,66]を利用できるようになったおかげで可能になった。Giancolaら[20]はSoccerNetデータセットを導入するためのもので、サッカー映像理解のための最も広範なデータと注釈のコレクションに成長し、放送理解[12]、フィールド理解[5]、選手理解[9]など10種類のタスクに関するベンチマークを含む。また、SoccerNetチームは、この分野の研究を促進するために、これらの異なるタスクに関するコンテストを毎年開催しています[21]。本論文で紹介するデータセットは、映像認識タスクのためのファウルアノテーションを含む新しいマルチビュー映像コレクションを提案することで、SoccerNetを拡張するものである。

映像の理解。長い間、動画領域にはImageNetやCIFAR100 [13, 34]のような大規模な動画データセットが存在しないため、動画理解は画像理解に遅れをとっていました。しかし、UCF101 [51], ActivityNet [3], YouTube-8M [1], Kinetics [31] などの大規模な動画理解データセットが公開されたことで、この分野の人気と関心が急上昇しています。ビデオ理解タスクには、ビデオ分類 [16、30、42]、アクション認識 [47、61]、ビデオキャプション [19、33、63]、ビデオ生成 [36]が含まれます。時空間情報を捉えた動画分類モデルの開発への関心は著しく高まっている。Temporal Segment Network (TSN) [62]は、認識性能を向上させるために、複数の時間的ビデオセグメントにわたる特徴を集約している。Tranら[55]は、新しい時空間畳み込みブロックR(2+1)Dを提案し、行動認識モデルへの影響を解析している。最近、動画分類のために、畳み込みニューラルネットワーク（CNN）と変換器の両方の強みを組み合わせ、空間的・時間的な注目を集める方法として、マルチスケールビジョントランスフォーマー（MViT）［15、37］が登場した。この研究では、ファウルの異なる特性を識別するために、複数のビューから集約するクリップごとの特徴を学習するために、異なるビデオ表現を訓練する。

マルチビューの理解 Suら[52]は、成熟した2Dコンピュータビジョンの恩恵を受けて、複数のビューから3Dオブジェクトを認識するために画像エンコーダを訓練するというアイデアを導入している。ほとんどの努力はビュー間の情報集約に焦点を当て、クロスビュー信頼度[29]、回転等価表現を学習するためのグループ畳み込み[14]、ビュー集約を学習するためのグラフ畳み込み[64]を導入している。また、MVTN [23]は、微分可能な3Dレンダラーからビューポイントを予測する。ビデオ領域では、自己教師付きで学習されたより良い表現を得る方法として、シングルストリームのビデオに対して合成ビュー（例えば、3Dモーションやオプティカルフロー）が作成されている[35, 59]。この研究では、サッカー中継の映像から複数のリプレイストリームを取り込み、完全教師ありで学習させた映像理解のためのシンプルなマルチビューパイプラインを活用します。

SoccerNet-MVFouls データセット
実験

5.1. 実験セットアップトレーニングの詳細両方の分類タスクにおいて、時間的に1秒に及ぶ16フレームのクリップを活用し、空間寸法は224×398ピクセルとした。具体的には、クリップはファウル前の8フレームとファウル後の8フレームを含む。エンコーダEは方法論で詳述したように事前に訓練され、分類器Cはゼロから訓練され、両者はエンドツーエンド方式で訓練される。モデルは10エポック後にオーバーフィッティングを開始し、Nvidia V100GPU1台で約9時間かけて学習する。

評価メトリクス。分類精度を報告します。これは、アクションの総数に対して正しく分類されたアクションの比率として定義されます。また、モデルの性能をより深く理解するために、トップ2精度（信頼度の高い上位2つの予測値にクラスが表示された場合、サンプルはうまく分類されたとみなされる）も提供しています。データセットがアンバランスであるため、以下のように定義されるバランス精度も提供します：

Nはクラスの数、T P (True Positives)はモデルがクラスiを正しく予測した回数、Pi (Positives) はデータセット内のそのクラスに関するグランドトゥルースサンプルの数であるとする。

表4. マルチビュービデオの反則分類の主な結果。3つの特徴エンコーダと2つのプーリング方法を比較した。MViTとビュー間の最大プーリングで最高の性能が得られる。BAは、そのクラスの頻度によって正規化した後のバランスのとれた精度を示す。

図4. ファウルの例。(a) ディフェンダーが腕を道具として使って不当な優位に立ち、相手の潜在的な危険性を無視している。(b) 相手が怪我をする危険を冒してまでタックルをする．(c) ディフェンダーは危険のない方法でボールをプレーしようとする．(d) ディフェンダーはボールをプレーする意図を持たず，相手に危害を加えることだけを目的としている．

5.2. 主な結果タスク1：きめ細かなファウル分類我々の結果は表4に示すとおりである。MViTで時空間特徴を抽出することで、ResNetやR(2+1)Dと比較して、性能の大幅な向上を達成することができました。これは、より高度な特徴エンコーダを用いることで、反則の種類を識別・分類するモデルの能力を大幅に向上させることができることを示している。しかし、プーリング方法が性能に与える影響は大きくなく、最大プーリングがわずかに良い結果を示している。一般に、すべてのビューが同じように有益でない場合、最大プーリングがよりよいかもしれない。最大値をとることで、最も情報量の多いビューの最も重要な特徴を特定し、有用でない情報を無視することができます。これに対して、ミーンプーリングは、見通しの悪いものも含めて、すべてのビューからの情報を考慮する。全体として、MViTをビデオエンコーダとして使用し、マックスプーリングを使用することで、最高のパフォーマンスが得られます。

タスク2：犯罪の重大性分類犯罪の重大性を分類するために、同じ特徴エンコーダーとプーリング技術を研究しました。表5の上段は、シングルタスク分類器によって得られた結果を示しています。使用した特徴抽出器やプーリング技術にかかわらず、このモデルはアクションを分類するのがより困難である。これらの困難は、主に2つの要因によるものである。まず、データセットは、フィールド上のレフェリーによってフリーキックを与えられたアクションのみから構成されている。その結果、「反則なし」アクションは、視覚的にファウルに似ており、明確な「反則なし」アクションとは異なっています。このため、モデルはこれらのアクションを実際のファウルと区別するのに苦労することが多く、これは補足資料でさらに確認することができます。第二に、カードなし、イエローカード、レッドカードの違反の視覚的な外観は、大きく異なることがあります。図4aと図4bでは、視覚的に少し似ている2つの異なるファウルクラスの2つのフレームを比較しています。しかし、どちらの場合も、ディフェンダーが相手の安全を無視した行動をとったため、イエローカードが出された。一方、図4cと図4dは、前の2つのファウルよりも視覚的に似ていますが、1つは「ノーカード」、もう1つは「レッドカード」となっています。接触点、ファウルのスピード、ボールまでの距離、ボールをプレーするかどうかなどの細かな違いが、異なる分類につながることがあります。

マルチタスク分類器マルチタスク分類器を関連するタスクで学習させることで、モデルはあるタスクで学習した情報を利用して、他のタスクのパフォーマンスを向上させることができます。表5の下段を見ると、犯罪の重大性を分類するための特徴エンコーダやプーリング技術に関係なく、マルチタスク分類器がシングルタスク分類器よりも優れていることがわかります。ResNetを使用して、反則の種類と犯罪の重大度分類のための空間的特徴を抽出しても、どちらのタスクでも良い結果を得ることはできません。時間経過に伴う体の動きや、行為に関わる選手のスピードは、分類の結果に大きく影響する重要な要素です。MViTをエンコーダとし、マックスプーリングを組み合わせたマルチタスク分類器は、アクションを対応するオフェンスシビアリティクラスに分類する際に有望な結果を示しています。さらに、マルチタスク分類器は、シングルタスクタイプの反則分類で得られたのと同様の結果を示している。

5.3. 詳細な分析

シングルビューとマルチビューの分析次に、シングルビューよりもマルチビューを使用した場合の改善について検討します。そのために、まず、2つのリプレイと1つのライブ映像を持つクリップを持つテストセットのサブセットを作成しました。表6の上部にあるように、ビューの種類は、VARSが正しいファウルの種類を検出する能力に大きな影響を与えることがわかります。ライブ映像だけではリプレイよりも性能が劣るが、ライブ映像とリプレイを組み合わせることで、両方のタスクでリプレイ映像だけを使用する場合と比較して、精度がわずかに改善される。このことは、質の悪いビューでもパフォーマンスをわずかに向上させることができることを示唆している。反則の種類を分類する際に、2つのリプレイと1つのリプレイを比較することでわかるように、情報量の多いビューはパフォーマンスを向上させることができます。反則と重症度分類のタスクでは、VARSはリプレイと比較してライブ映像からより多くの利益を得ることができるようです。その理由として、ライブ映像の場合、VARSはフィールド上のアクションの位置を考慮し、フィールドの特定の場所で「ノーカード」や「イエローカード」の可能性が高くなることを学習することができるためであると考えられます。どちらのタスクでも、複数の映像を使用することでより良い結果が得られ、ほとんどのメトリクスで、2つのリプレイを含むライブ映像を使用することで最高のパフォーマンスを得ることができました。これは、ファウルの種類と違反の重大性の分類において、モデルのパフォーマンスを向上させるために複数のビューを使用することの有効性を示しています。

図5では、ビューの数と種類を変更した場合のファウル分類モデルの予測値を示しています。表6で確認できるように、ライブ映像のみを使用した場合、VARSは正しいファウルの種類を検出することができません。信頼度スコアの分析により、視界が予測に大きな影響を与えることがわかり、表6の結果と一致する。

時間的な分析ファウルと違反の重大性を識別するために必要な時間的コンテキストを調査しました。特に、処理するフレーム数を同じにするために、フレームレートを下げてビデオの長さを長くしました。表7は、時間的分析の結果を示しています。フレームレートを下げながら時間的コンテキストを増やすと、モデルの性能が低下することが確認されました。これは、分類タスクに最も有用な情報が、ファウルの直前と直後の狭い時間ウィンドウに集中しているためと思われます。時間的なコンテキストを増やすと、あまり追加情報を提供しないフレームがモデルに含まれることになる。デフォルトでは、1秒間に16フレームのフレームレートを使用し、時間的コンテキストを1秒に設定しました。これは、十分な時間的情報を取得し、不要なフレームを除外するという点で最適なバランスであると思われます。

クラスごとの分析さらに、クラスごとのパフォーマンスを分析する。両タスクの混同行列は補足資料のとおりである。性能はクラスによってかなり異なることがわかりました。細かい反則の分類では、VARSは、その共通する特徴から、違法な腕の動きを区別するのに苦労しています。また、「タックル」の検出は良好ですが、「ダイブ」と混同することが多く、これはサッカーゲームにおける不正な動作と本物の動作を区別することが困難であるためです。VARSにとって最も難しいクラスは「チャレンジ」で、他の多くのクラスと視覚的な類似性があるため、トレーニング中の適切な一般化が難しくなっています。また、違反分類に関しては、VARSはグランドトゥルースの近傍のクラスで誤った予測をする傾向があります。例えば、ファウルを「Offence + No card」ではなく「Offence + Yellow card」と分類してしまうことがあります。しかし、データセットのサンプル数が限られているため、「反則＋レッドカード」については苦戦を強いられる。

表7. 時間的な分析 16フレームという固定数を維持しながら、様々な時間的コンテキストを実験しています。すべてのシナリオで、ファウルの前後に8フレームを含めています。