SPARTAN: Self-Supervised Spatiotemporal Transformers Approach to Group Activity Recognition

どんなもの？

先行研究と比べてどこがすごい?

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Memo

自己教師あり学習によるGAR手法の提案

Experiments

あなたはCV分野の研究者です．

このタスクで用いられる自己教師あり学習について初学者にわかるようにstep-by-stepで解説して

GPT Q&A

<Prompt1>

あなたはCV分野の研究者ですね。

このタスクで使われている自己教師あり学習について、初心者にもわかるように順を追って説明してください。特に以下の点に興味があります。このタスクで自己教師あり学習を用いる目的は何か。教師あり学習を用いることで期待される効果は何か？

<Assistant1> もちろん、説明させていただきます。

教師あり学習を使う目的主な目的は、ラベル付けされたデータがなくても、動画中のグループ活動を認識できるモデルを学習することです。これは、入力データの他の部分やビューから、入力データの特定の側面を予測するようにモデルを教えることによって達成されます。このプロセスは、本質的に入力自体から独自のトレーニング信号を作成しているため、ラベルを必要としません。
ステップ

まず、様々なフレームレートと空間解像度でクリップをサンプリングすることで、ビデオから異なる「ビュー」を作成する。
これらのビューは、各アクションシーケンス内の異なる動きの特徴や空間的な詳細をキャプチャします。
次に、Vision Transformer（ViT）モデルが、潜在空間（情報をエンコードする高次元空間）において、あるビューを別のビューに基づいて予測することを目的として、これらのビューを処理する。

クロスビュー対応：学習をさらに強化する、

ビデオクリップ全体の特定の間隔でサンプリングされたすべてのフレームをカバーするグローバル時空間ビューが生成される。
ローカル時空間ビューは、同じクリップ内の時間的にも空間的にも小さな部分に焦点を当てる。ここでのアイデアは、ローカルなビューに基づいてグローバルなビューを予測することで、ViTモデルに各動作シーケンスを取り巻くコンテキストをより多く学習させることである。

期待される効果：こうすることで、我々のモデルは個々の行動を理解するだけでなく、それらが時間的・空間的にどのように関連しているのか、つまり、学習段階で明示的なラベルが提供されなくても、ビデオ内で起こっているグループ活動に関する高レベルのコンテキスト情報を捉えることができる。

要約すると、教師あり学習は、教師あり機械学習アプローチにしばしば必要とされる高価な手動ラベル付け作業への依存を減らしながら、大量のラベル付けされていないビデオデータを効果的に活用することを可能にします！

<Prompt2>

このタスクは何を予測しているのでしょうか？また、なぜ様々なサンプリングレートを使うのですか？まだ分からないことがたくさんあります。

<Assistant2>

このタスクでは、モデルはあるビデオの「ビュー」を別のものから予測します。ここでいう「ビュー」とは、特定のフレームレートと空間解像度でサンプリングされたクリップの集まりのことです。予測は、映像の中で何が起こっているか（誰が何をしているかなど）ではなく、あるフレームの集合（ビュー）が他のフレームとどのように関連しているかを予測する。

様々なサンプリングレートの使用は、主に2つの目的を果たす：

1.異なる動きの特徴を捉える：フレームレートを変えることで、ビデオクリップの各アクションシーケンス内の異なる動きの特徴をキャプチャすることができます。例えば、微妙な動きはフレームレートが高いほど目立ち、幅広いアクションはフレームレートが低いほどよく捉えることができる。
ロバスト性と汎化：異なるサンプリング戦略を使用して作成されたビューを使用した訓練は、任意のフレームレートや解像度を持つ可能性のある実世界のビデオに展開したときに遭遇する可能性のあるバリエーションに対して、モデルをロバストにするのに役立ちます。

そのため、基本的に、作成段階で使用された様々なサンプリング戦略による違いがあるビューから別のビューを予測しようとすることで、私たちのモデルは、個々の行動だけでなく、それらが時間的・空間的にどのように関連しているか、つまり、ビデオ内で起こっているグループ活動を認識するために必要な高レベルのコンテキスト情報をキャプチャすることも学習します！

本論文では、ラベル付けされていないビデオデータを用いたグループ活動認識（GAR）に対して、新しくシンプルで効果的なSelf-supervised Spatio-temporal Transformers（SPARTAN）アプローチを提案する。映像が与えられた場合、空間パッチサイズとフレームレートを変化させながら、局所的・大域的な時空間ビューを作成する。提案する自己教師ありの目的は、同じビデオを表現するこれらの対照的なビューの特徴を、時空間領域の変化に一致させることである。我々の知る限り、提案されたメカニズムは、ビデオtransformerのエンコーダを用いたGARの弱教師付き設定を緩和する最初の研究の一つである。さらに、Transformerモデルの利点を利用して、我々の提案するアプローチは、時空間次元に沿った長期的な関係モデリングをサポートする。提案するSPARTANアプローチは、NBAデータセットとバレーボールデータセットを含む2つのグループ活動認識ベンチマークにおいて、MCAとMPCAメトリクスの点で、最新鋭の結果を大きく上回る性能を発揮する1。

はじめに

集団行動認識（GAR）は、ビデオクリップ内の個人の集団行動を分類することを目的とする。この分野は、スポーツビデオ分析、ビデオモニタリング、社会的状況の解釈など、多様な応用により大きな注目を集めている。個々の行動を理解することに重点を置いた従来の行動認識手法[11, 51, 59, 62]とは大きく異なり、GARは複数のアクター間の相互作用に関する徹底的かつ正確な知識を必要とするため、アクターの位置特定や時空間関係のモデル化といった基本的な課題が生じる。GARのためのほとんどの既存手法[16, 20, 26, 28, 37, 43, 45, 49, 64, 67, 69]は、学習とテストのための個々のアクターのグランドトゥルース境界ボックスと、学習のためのアクションクラスラベルを必要とする。特にバウンディングボックスのラベルは、RoIPool[52]やRoIAlign[25]のような個々のアクターの特徴を抽出し、それらの時空間関係を正確に発見するために使用される。このようなアクターの特徴は、アクター間の関係を考慮しながら集約され、グループレベルのビデオ表現を形成し、グループアクティビティ分類器に供給される。これらのアプローチは、困難な課題に対して素晴らしい性能を示したにもかかわらず、推論時のバウンディングボックスへの依存と、実質的なデータのラベリング注釈により、実行不可能であり、その応用を著しく制限している。この問題を克服するために、1つのアプローチは、バウンディングボックス・ラベルを用いて、人物検出とグループ活動認識を同時に訓練することである[7, 72]。この方法は推論においてアクターのバウンディングボックスを推定する。しかし、この方法は、トレーニングビデオ用の個々のアクターのグランドトゥルースのバウンディングボックスを必要とする。Yanら[68]は、学習と推論の両方においてアクターレベルのラベルを必要としないWeakly Supervised GAR (WSGAR)学習アプローチを提示し、アノテーションコストをさらに低減する。WSGARは、バウンディングボックスのラベルがないことを解決するために、外部データセットで事前に訓練された検出器を使用してアクターボックスの提案を生成します。そして、無関係な可能性を排除するように学習する。最近、Kimら[30]はWSGARタスクのために、トークン埋込みの部分コンテキストを用いてアクター情報を捕捉する、検出器を用いない方法を導入した。しかし、これまでの手法[30, 68]には以下のような欠点がある。第一に、検出器[68]は、オクルージョンがある場合、しばしば人物の検出を欠落させ、全体的な精度を最小化する。第二に、部分的コンテキスト[30]は、連続するフレームに動きがある場合にのみ学習できる。これは図1の図から推測できる。第3に、トークン間の時間情報は一貫していなければならないが、[30]は異なるトークンを考慮していない。

本論文では、グランドトゥルースのバウンディングボックス、事前学習中のラベル、および物体検出器に依存しない、グループアクション認識のタスクに対する、新しいシンプルで効果的なSelf-supervised Spatio-temporal Transformers (SPARTAN)アプローチを導入するためのものである。我々のメカニズムでは、RGBデータモダリティからの教師信号として動きのみを利用する。私たちのアプローチは、同じディープネットワーク内で空間的・時間的な詳細が変化することから利益を得るように設計されています。我々は同じアーキテクチャ内で様々な時間解像度を扱うために、ビデオトランスフォーマー[8]に基づいたアプローチを用いる。さらに、ビデオトランスフォーマーの自己注意メカニズムは、標準的な畳み込みカーネル[42]と比較して、はるかに大きな受容野を提供し、空間と時間の両方でローカルおよびグローバルな長距離依存性をキャプチャすることができます。この研究の貢献は以下のように要約できる。

連続するフレーム[30]間の動き特徴のみを考慮する代わりに、空間-時間対応を利用することで、GARに最初の学習アプローチを導入するためのものである。提案手法は、入力の時空間特徴を変化させ、空間領域と時間領域における長距離依存関係を学習する。
フレーム間、すなわちフレームレベルの時間的対応と、フレーム内、すなわちパッチレベルの空間的対応を共同で学習することで、教師間損失と教師内損失が形成される。特に、全シーケンスからのグローバルな時空間的特徴と、サンプリングされたシーケンスからのローカライズされた時空間的特徴は、潜在空間におけるフレームレベルとパッチレベルの学習目的によってマッチングされる。
NBA[68]とバレーボール[28]データセットでの広範な実験により、提案手法はRGB入力のみを用いたState-of-the-Art(SOTA)の性能結果を示す。

SPARTAN 提案手法は、人物バウンディングボックスや検出器を用いることなく、与えられたビデオ内のグループ活動を認識することを目的とする。グループ活動認識のための教師-生徒の枠組みにおける自己教師学習の一般的なアーキテクチャを図2に示す。他の対照学習手法とは異なり、我々は同じ映像から2つのクリップを、メモリバンクに依存しない空間的・時間的特徴を変化させることで処理する。提案する損失定式化は、2つの非類似クリップの特徴をマッチングさせ、同一映像における動きと空間変化の一貫性を課す。提案するSPARTANフレームワークについては、以下の節でさらに説明する。
実験

4.1. データセット

バレーボールデータセット[28］バレーボール・データセット[28]は、55本の動画から3,493個のトレーニング・クリップと1,337個のテスト・クリップ、合計4,830個のラベル付きクリップを抽出したものです。このデータセットには、8つのグループアクティビティカテゴリと、対応するバウンディングボックスを持つ9つの個別アクションラベルのアノテーションが含まれています。しかし、WSGARの実験では、グループアクティビティのラベルのみを使用し、個々のアクションのアノテーションは無視する。評価には、SAM[68]やDFWSGAR[30]などの先行研究と同様に、後者が右セットと右パスクラスを右パスセットに、左セットと左パスクラスを左パスセットにマージする、マルチクラス分類精度（MCA）とマージMCAメトリクスを使用します。これは、既存の手法との公平な比較を確実にするために行われる。

NBAデータセット[68］は、181のNBAビデオからの合計9,172のラベル付きクリップから構成され、7,624のクリップがトレーニングに、1,548のクリップがテストに使用されます。各クリップには9つのグループアクティビティから1つがアノテーションされていますが、個々のアクションやバウンディングボックスに関する情報はありません。モデルの評価では、多クラス分類精度（Multi-class Classification Accuracy：MCA）と平均クラス当たり精度（Mean Per Class Accuracy：MPCA）のメトリクスを使用し、MPCAはデータセットのクラス不均衡の問題に対処するために使用する。

4.2. ディープネットワークアーキテクチャ我々のビデオ処理アプローチは、入力ビデオクリップの時間的次元と空間的次元の両方に個別の注意を適用するために、ビジョン変換器（ViT）[8]を使用する。ViTは12個のエンコーダー・ブロックで構成され、サイズ（B×T×C×W×H）のビデオクリップを処理することができる。最大空間サイズと最大時間サイズはそれぞれW = H = 224とT = 18であり、これは各ビデオから18フレームをサンプリングし、224 × 224に再スケーリングすることを意味する。我々のネットワーク・アーキテクチャ（図2参照）は、フレームレート、ビデオクリップのフレーム数、空間サイズの違いなど、学習中に変化する入力解像度を扱うように設計されている。しかし、各ViTエンコーダブロックは最大196個の空間トークンと16個の時間トークンを処理し、各トークンはR mの埋め込み次元を持つ[15]。これらの空間入力トークンと時間入力トークンと共に、アーキテクチャ内の特徴ベクトルとして1つの分類トークンも使用する[14]。この分類トークンは、与えられたビデオの空間的・時間的次元に沿ってViTが学習した標準的な特徴を表す。トレーニング中、我々はW≦224、H≦224、T≦18の可変空間解像度と時間解像度を使用し、様々な空間トークンと時間トークンを生成する。最後に、最終的なViTエンコーダーのクラストークンにプロジェクションヘッドを適用する[10, 21]。

自己蒸留。我々のアプローチ（図2に示す）では、[10, 21]に触発された自己蒸留のための教師と生徒のセットアップを採用する。教師モデルは、ViTバックボーンと予測MLPを含む生徒モデルと同じアーキテクチャを持ちますが、直接学習は行いません。その代わりに、生徒モデルの各トレーニングステップにおいて、生徒重みの指数移動平均（EMA）[10]を用いて教師重みを更新します。このアプローチにより、1つの共有ネットワークを使用して複数の入力クリップを処理することができます。

4.3. 実装の詳細

NBA とバレーボールの両データセットでは、セグメントベースのサンプリング[59]を使用して、フレームを T（Kg）の割合でサンプリングする。その後、フレームはそれぞれ、教師入力では Wg = 224 & Hg = 224 に、生徒入力では Wl = 96 & Hl = 96 にリサイズされる。バレーボール・データセットではKg = 5 (Kl ∈ 3, 5)を、NBAデータセットではKg = 18 (Kl ∈ 2, 4, 8, 16, 18)を使用する。空間-temporal attentionの重みは、ImageNet-1K [53]上で self-supervised訓練されたViTモデルを用いて初期化される。この初期化設定により、教師あり設定[8]と同様に、時空間ViTの収束を速くすることができる。学習率5×10-4のAdamオプティマイザ[31]を使用し、5エポックの線形ウォームアップ[12, 56]のコサインスケジュールでスケーリングする。また、学習中は0.04から0.1まで減衰させる。下流のタスクでは、事前に学習したSPARTANバックボーンを用いて線形分類器を学習します。訓練中、バックボーンは凍結され、分類器は1つのNVIDIAV100 GPU上で、バッチサイズ32で100エポック、初期学習率1e-3、コサイン減衰スケジュールでSGDを使用して訓練されます。また、モーメンタムは0.9に設定します。

4.4. 最先端の手法との比較

NBAデータセット NBAデータセットを用いて、SAM[68]によって生成されたバウンディングボックス推奨を活用するGARとWSGARの最新技術、および弱教師付き学習環境における現在のビデオバックボーンと、我々のアプローチを比較する。公平な比較を確実にするため、ビデオバックボーンを含む各アプローチの入力として、RGBフレームのみを利用する。表1にその結果を示す。SAM [68]の再現は、元の論文に記載されているスコアよりも大きいことに注意してください。MCAの6.3%pとMPCAの1.6%pで、提案手法は既存のGARとWSGAR手法を大差で上回る。さらに、我々のアプローチは、従来のアクション検出で利用されている2つの現在のビデオバックボーン、ResNet-18 TSM [39]とVideoSwin-T [41]と対比される。これらの強力なバックボーンはWSGARで素晴らしい性能を発揮しますが、我々のものが最も優れています。

バレーボールデータセットバレーボールデータセットについて、2つの異なる教師レベル（完全教師あり、弱教師あり）において、我々のアプローチを最新のGARとWSGARアプローチと比較する。個々のアクションクラスラベルやグランドトゥルースのバウンディングボックスのようなアクターレベルのラベルの使用は、学習と推論において2つの設定で異なります。公正な比較のために、RGB入力のみを使用した先行手法[6, 7, 37, 46, 67, 69]の結果と、ResNet-18バックボーンを使用した再現結果[20, 45, 64, 66, 70]を報告する。

なお、1つ目は元の論文、2つ目は[70]のMCA値である。個々のアクションの分類ヘッドを排除し、弱教師ありの状況でグランドトゥルースのバウンディングボックスの代わりに外部データセットで学習したオブジェクト検出器を代用する。表2に結果を示す。完全教師あり環境と弱教師あり環境における先行技術の結果は、それぞれ第1節と第2節に表示されている。弱い教師あり環境において、我々の手法は全てのGARとWSGARモデルを大幅に上回り、ViT-Baseバックボーンを利用したモデルと比較した場合、MCAの2.4%、Merged MCAの1.2%を上回った。我々の手法は、より徹底したアクターレベルの監督を採用することで、[7,20,45,46,66]のような現在のGAR手法を凌駕する。

4.5. アブレーション研究我々の手法の有効性に寄与する様々な構成要素の包括的な分析を行う。具体的には、5つの個別要素の影響を評価する： a) ローカルビューとグローバルビューの対応の様々な組み合わせ； c) 時間的サンプリング戦略の選択； d) 空間的補強の使用。 e) 推論手法。

視野対応：我々はローカルビューとグローバルビューの対応を学習するために、クロスビュー対応（VC）を提案する。それぞれのタイプのビューを他のビューから予測する効果を調べるために、表3に示す実験を行う。その結果、lt → gtとls → gtのビュー対応を共同で予測することで、最適なパフォーマンスが得られることがわかった。しかし、gt → ltまたはls → ltのビューを予測すると、性能が低下します。これは、おそらく共同予測が、個々のケースにはない豊富なコンテキストを学習することに重点を置いているためです。また、ls → ltの対応（重なりビューなし）でも一貫した性能低下が観察され、対照的な自己教師付き損失に対する時間的に近い正ビューの有効性に関する過去の知見[19, 47]と一致する。

空間的視野と時間的視野：我々は（Sec.3.1.2で説明したように）空間的、時間的な次元で視野（クロップ）を変化させることで、表3の時空間ビューの最適な組み合わせを決定する。これらの次元に沿った変化の効果を評価するために、表4に示すような実験を行う。

具体的には、空間的な次元に沿った変動がない場合（すべてのフレームが224×224の固定空間解像度を持ち、空間的なクロッピングがない場合）と、時間的な次元に沿った変動がない場合（ビュー内のすべてのフレームがビデオの固定時間軸領域からサンプリングされる場合）の、我々のアプローチのパフォーマンスを比較する。その結果、時間的なバリエーションはNBAに大きな影響を与えるが、空間的・時間的次元の両方に沿った視野のバリエーションは最高のパフォーマンスをもたらすことがわかった（表4に示すとおり）。

時間的サンプリング戦略：我々の調査では、我々の研究で提案された動き対応（MC）のための時間的サンプリング戦略を、別のサンプリング手法に置き換える可能性を検証している。MCの有効性を評価するために、SPARTAN内でMCを代替アプローチに置き換える。具体的には、[47]で導入するための時間間隔サンプリング（TIS）戦略をテストする。SPARTANにTISを組み込んだ実験（表5）は、我々の提案するMCサンプリング戦略がTISと比較して優れた性能を提供することを実証する。

空間補強：次に、異なるパッチサイズで実験することで、ビデオデータに対する標準的な空間補強（SA）の影響を調査する。これまでの研究で、パッチサイズを変えることで、CNNベースのビデオ自己教師アプローチの性能が向上することが示されている。我々の研究では、パッチサイズが我々のアプローチに与える影響を評価し、その結果を表6に示す。これらの結果に基づき、我々はSPARTANの学習プロセスにパッチサイズ16を組み込んだ。

4.6. 定性的結果

NBAデータセット上の最終的なTransformerエンコーダ層から得られた注意の可視化を図4に示す。この結果は、モデルが選手の位置のような本質的な概念に注意を払い、特定のビデオクリップの活動を追うことを学習したことを示している。我々のモデルとその修正モデルのt-SNE[57]による可視化結果を図5に示す。NBA上の各モデルの最終的なグループ表現が2次元空間で示されている。推奨モジュールは、各クラスを明確に分離するのに役立つ。

結論我々の研究では、自己教師付きビデオTransformerベースのモデルであるSPARTANを導入するためのものである。このアプローチでは、異なるスケールとフレームレートで、1つの動画から時空間的に変化する複数のビューを生成する。次に、サンプリングされたクリップ間の動き特性とクロスビュー関係を捉えるために、2組の対応学習タスクが定義される。自己教師ありの目的は、教師と生徒のネットワークの潜在空間において、一方のビューを他方のビューから再構成することである。さらに、我々のSPARTANは、長距離の時空間依存性をモデル化し、単一のアーキテクチャ内で動的推論を行うことができる。我々はSPARTANを2つのグループ活動認識ベンチマークで評価し、SPARTANが現在の最先端モデルを凌駕することを見出した。

限界我々の論文は、RGB入力モダリティの文脈におけるSPARTANの適用を調査している。現在のところ、大規模なマルチモーダルビデオデータセットにおいて、別のモダリティによって提供される追加の教師は利用していない。しかし、今後の研究では、マルチモーダルデータソースを利用するためにSPARTANを修正する方法を探求する予定である。

SPARTAN

提案手法は、人物バウンディングボックスや検出器を使わずに、与えられたビデオ内のグループ活動を認識することを目的としている。グループ活動認識のための教師-生徒の枠組みにおける自己教師あり学習の一般的なアーキテクチャを図2に示す。他の対照学習手法とは異なり、我々は同じ映像から2つのクリップを、メモリバンクに依存しない空間的・時間的特徴を変化させることで処理する。提案する損失定式化は、2つの非類似クリップの特徴をマッチングさせ、同一映像における動きと空間変化の一貫性を課す。提案するSPARTANフレームワークについては、以下のセクションでさらに説明する。

図2. 提案するSPARTANフレームワークは、入力映像をグローバルビューとローカルビューにサンプリングする。ビデオクリップのサンプリング戦略により、グローバルビューとローカルビューではフレームレートと空間特性が異なり、空間拡張の対象となり、視野が限定される。教師モデルはグローバルビュー(gt)を処理してターゲットを生成し、生徒モデルはローカルビュー(lt & ls)を処理する。ネットワークの重みは、オンライン上の生徒のローカルビューとターゲットとなる教師のグローバルビューを照合することにより更新されます。我々のアプローチでは、時空間アテンション[8]を持つ標準的なViTバックボーンと、オンライン特徴からターゲット特徴を予測するMLPを利用します。

3.1. 自己教師あり学習

動画の時間的次元が高いことから、動画中の3p-succ.(NBAデータセット[68]より)やlspike(バレーボールデータセット[28]より)など、集団活動の動きや空間的特徴を学習する。従って、1つの動画から異なる動きの特徴を持つ複数の動画クリップをサンプリングすることができる。提案手法の重要な新規性は、特徴空間において、時間的特性が異なるこれらの異なるビデオクリップを互いに予測することである。これにより、動画の基本的な分布を定義する文脈情報を学習し、ネットワークを動き、スケール、視点の変化に対して不変にする。

このように、ビデオ表現学習のための自己教師は、3つの重要な要素を持つ動き予測問題として定式化される： a) Sec.3.1.1と同様に、同一映像から、動きの特徴が異なるクリップ数からなる複数の時間ビューを生成する、 b) 動きに加えて、Sec.3.1.2のように、サンプリングされたクリップのローカライズ、すなわち、より小さな空間場と、グローバル、すなわち、より大きな空間場を生成することによって、これらのビューの空間特性も変化させる。 c) Sec.3.2において、潜在空間における空間的・時間的次元に渡る変化するビューをマッチングさせるための損失関数を導入する。

3.1.1 自己教師学習としての動き予測

フレームレートはコンテンツのモーションコンテキストを大きく変化させるため、ビデオの重要な側面である。例えば、フレームレートはゆっくり歩くか早く歩くかといった動作の知覚に影響を与え、歩くときのわずかな体の動きのような微妙なニュアンスを捉えることができる。伝統的に、ビデオクリップは固定フレームレートでサンプリングされる[47, 65]。しかし、フレームレートが異なる、すなわちクリップ数が異なるビューを比較する場合、特徴空間においてあるビューと別のビューを予測するには、クリップ間のオブジェクトの動きを明示的にモデル化する必要がある。さらに、高フレームレートでキャプチャされた微妙な動きを予測するためには、モデルは低フレームレートの入力から動きに関するコンテキスト情報を学習する必要があります。

時間ビュー：特定のビデオフレームレートでサンプリングされたクリップの集合をテンポラルビューと呼ぶ。異なるフレームレートでサンプリングすることで、様々な解像度の時間的ビューを生成する。ViTに入力されるテンポラルトークン（T）の数はビューによって異なる。我々の提案する手法は、このようなビュー間の対応を強制することで、同じアクションの異なる動きの特徴を捉えることを可能にする。我々はこれらのビューをランダムにサンプリングし、ビュー間の動きの違いを作り出す。我々のViTモデルはこれらのビューを処理し、潜在空間において他のビューから1つのビューを予測する。時間解像度を変化させることに加えて、これらのビュー内の空間次元にわたってクリップの解像度を変化させる。つまり、クリップの空間サイズは最大空間サイズ(224)よりも小さくすることができ、空間トークンの数を減らすこともできる。同様のサンプリング戦略は[18, 29]でも使用されているが、マルチネットワーク設定下でのものであり、一方、我々のアプローチはバニラ位置エンコーディング[58]を使用することで、単一のViTモデルでこのような時間解像度のばらつきを処理する。

3.1.2 クロスビュー対応関係

我々の学習戦略は、与えられたビデオの時間的・空間的次元間の関係を学習することを目的とする。この目的のために、サンプリング時に視野を変化させることで、新しいクロスビュー対応を提案する。これを実現するために、与えられた映像からグローバルな時間ビューとローカライズされた時間ビューを生成する。

グローバル時間ビュー（gt）：空間サイズをWglobalとHglobalに固定したビデオクリップからKg（Tに等しい）フレームをランダムにサンプリングする。これらのビューは教師ネットワークに入力され、f〜gtで示される出力を得る。

ローカル時空間ビュー（ltとls）：ローカル・ビューはビデオの限られた部分を空間的・時間的にカバーする。WlocalとHlocalに固定された空間サイズを持ついくつかのフレームKl (≤ Kg)をランダムにサンプリングすることにより、ローカル時空間ビューを生成する。これらのビューはそれぞれf〜ltとf〜lsで示される2つの出力を生成するスチューデント・ネットワークに入力される。

拡張：我々は空間次元、つまり各ビューでサンプリングされたクリップに異なるデータ拡張技術を適用する。具体的には、すべての時間的ビューに対して、それぞれ0.8と0.2の確率でカラージッタリングとグレースケーリングを適用する。ガウスぼかしとソラリゼーションは、それぞれ0.1と0.2の確率で全時間ビューに適用する。我々のアプローチは、潜在空間における局所的な時間的ビューからビデオのグローバルな時間的ビューを予測する学習は、モデルが高レベルの文脈情報を捕捉するのに役立つという直観に基づいている。具体的には、我々の手法はモデルに空間的コンテキストと時間的コンテキストの両方をモデル化するよう促す。ここで空間的コンテキストとは、与えられた空間的クロップを取り囲む可能性を指し、時間的コンテキストとは、与えられた時間的クロップから考えられる前または未来のクリップを指す。空間的な対応関係には時間的な要素も含まれることに注意することが重要である。なぜなら、我々のアプローチはタイムスタンプt = iのローカライズビューからタイムスタンプt = jのグローバルビューを予測しようとするからである。

3.2. 提案する目的関数

我々のモデルは互いに異なるビューを予測する目的関数で学習される。これらのビューは、同じビデオに属する異なる空間的・時間的バリエーションを表す。

ビデオX = {xt} が与えられたとき T t=1、ここでTはフレーム数を表し、gt、lt、lsは、gt = {xt}のようなグローバルな時間ビュー、ローカルな時間ビュー、空間ビューを表すとする。Kg t=1、lt = ls = {xt} とする。ここで、gt、lt、lsはビデオXの部分集合であり、Kl≦Kgであり、KgとKlは教師と生徒（グローバルとローカル）入力のフレーム数である。Sec.3.1.2と同様に、Kg個のグローバルおよびKl個のローカライズされた時間ビューをランダムにサンプリングする。これらの時間的ビューは、対応するクラス・トークンまたは特徴量fg と fl を得るために、生徒モデルと教師モデルに渡されます。これらのクラス・トークンは、以下のように正規化されます。

ここで、τは指数関数[10]の鋭さを制御するための温度パラメータであり、f (i)はf〜(i) ∈ R nの各要素である。

教師間-生徒間の損失：

我々のgtは空間的なサイズは同じであるが，時間的な内容は異なっている．gtの1つは常にターゲットラベルとなる教師モデルを通過する。式(2)のように、生徒のltと教師のgtを対応させ、グローバルからローカルの時間的損失を作成する。

ここで、f〜gtとf〜ltはそれぞれ教師と生徒によって生成されたgtとltのクラスのトークンである。

教師-生徒間の損失： ltはgtに比べて空間的・時間的な視野が狭い。しかし、ローカライズの数はグローバルビューの4倍である。全てのltは生徒モデルを通過し、教師モデルからgtにマッピングされ、式(3)のような損失関数を作成する。

ここで、f〜lsは生徒によって生成されたlsのクラスのトークンであり、qは全ての実験で16に設定されたローカライズビューの数を表す。我々のモデルを訓練するための全体的な損失は、式(2)と式(3)のように、単純に両方の損失の線形結合であり、式(4)のように与えられる。