Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action Recognition

どんなもの？

Actionletベースの自己教師あり学習の行動認識手法の提案

先行研究と比べてどこがすごい?

この手法ではActionletを用いることで，アクション領域の非アクション領域のを切り離すための特徴量を構築できるところがユニーク

技術や手法のキモはどこ？

この手法ではActionletを用いたパイプラインである．アクション領域と非アクション領域の差分を示すために，平均姿勢を事前に求めている．

また，動き適応データ変換戦略モジュール（MATS）により、領域ごとに異なるデータ変換を課す。

さらに、より良いアクションモデリングのために、アクションレット領域の特徴を集約する意味認識特徴プーリングモジュール(SAFP)を提案している．

どうやって有効だと検証した？

NTU RGB+D Dataset 60 (NTU 60)，NTU RGB+D Dataset 120 (NTU 120)，PKU Multi-Modality Dataset (PKUMMD)データセットを用いてSOTA．またアブレーション実験も実施．

議論はある？

より良い姿勢推定モデルを使うとどうなる？

複数人数の動画認識への適用可能性は？

次に読むべき論文は？

自己教師付き事前学習パラダイムは、スケルトンに基づく行動認識において大きな成功を収めている。しかし、これらの手法は、動作部分と静止部分を同等に扱い、異なる部分に対する適応的な設計を欠いているため、行動認識の精度に悪影響を与える。そこで本研究では、アクションレットに依存したコントラスト学習法(ActCLR: Actionlet-Dependent Contrastive Learning)を提案する。アクションレットは、人体骨格の識別可能な部分集合として定義され、より良いアクションモデリングのために、動き領域を効果的に分解する。具体的には、動きのない静的なアンカーと対比することで、アクションレットとなる骨格データの動き領域を教師無しで抽出する。そして、アクションレットを中心に、動きに適応したデータ変換手法を構築する。アクションレット領域と非アクションレット領域に異なるデータ変換を適用することで、それぞれの特徴を維持しつつ、より多様性を導入するためのデータ変換を行う。一方、動き領域と静止領域を区別して特徴表現を構築するために、セマンティックを考慮した特徴プーリング法を提案する。NTU RGB+DとPKUMMDを用いた広範な実験により、提案手法が顕著なアクション認識性能を達成することが示される。さらに可視化と定量的な実験により、本手法の有効性を実証する。我々のプロジェクトのウェブサイトはhttps ： / / langlandslin .github.io/projects/ActCLR/ にあります。

関連研究このセクションでは、まず骨格に基づく行動認識の関連研究を導入し、次に対比学習について簡単に説明する。

2.1. スケルトンに基づく行動認識スケルトンに基づく動作認識は、コンピュータビジョン研究において基本的でありながら困難な分野である。これまでのスケルトンに基づく動作認識手法は、通常、スケルトンの関節の幾何学的関係で実現されている[7, 36, 37]。最新の手法では、ディープネットワークに注目が集まっている。Duら[6]は身体のキーポイントを処理するために階層的RNNを適用した。注目ベースの手法は、重要なスケルトンジョイント[28-30, 47]やビデオフレーム[29, 30]を自動的に選択し、スケルトンジョイントの同時出現についてより適応的に学習するために提案されている。

しかし、リカレントニューラルネットワークはしばしば勾配の消失 [11]に悩まされ、最適化の問題を引き起こす可能性がある。最近、グラフ畳み込みネットワークが、骨格に基づく行動認識のために注目されている。Yanら[40]は、骨格データから空間的特徴と時間的特徴の両方を抽出するために、空間-時間グラフ畳み込みネットワークを提案した。グラフィック表現をより柔軟にするために、空間的な構成と時間的なダイナミクスに基づく識別特徴を適応的に捉えるために、[3, 27, 28]では空間的なAttentionのメカニズムが適用されている。

2.2. 対照学習

対比的表現学習は、[9]まで遡ることができる。以下のアプローチ[1, 13, 35, 39, 42]は、肯定的なペアと否定的なペアを対比させ、肯定的なペア間の表現を否定的なペア間の表現よりも類似させることによって、表現を学習する。研究者は主に、ロバストな表現を学習するためにどのようにペアを構成するかに焦点を当てている。Chenら[2]が提案したSimCLRは、ランダムトリミング、ガウスぼかし、色歪みなどの一連のデータ増強法を用いて、正のサンプルを生成する。Heら[10]は、負のサンプルを格納するためのキューを採用したメモリモジュールを適用し、キューは訓練によって常に更新される。自己教師ありスケルトンに基づく行動認識では、対照学習も多くの研究者の注目を集めている。Raoら[24]は、単一のストリームを用いた対照学習にMoCoを適用した。クロスストリーム知識を利用するために、Liら[15]はマルチビュー対照学習法を提案し、Thokerら[34]は異なるスケルトン表現から学習するために複数のモデルを採用した。Guoら[8]は、コントラスト学習の効果を大幅に向上させる、より極端なオーグメンテーションの利用を提案した。Suら[33]は、動きの一貫性と連続性を知覚することによる新しい表現学習を提案した。MoCo v2 [10]に従い、彼らはInfoNCE損失を利用し、対比学習を最適化する：

ここで、z i q = gq(fq(Xi q ))、z i k = gk(fk(Xi k ))である。K = PM j=1 exp(sim(z i q , mj )/τ )であり、τは温度ハイパーパラメータである。fq(-)はオンラインエンコーダ、fk(-)はオフラインエンコーダであり、gq(-)はオンラインプロジェクタ、gk(-)はオフラインプロジェクタである。オフラインエンコーダfk(-)は、オンラインエンコーダfq(-)の運動量によって、fk←αfk＋(1-α)fqで更新される。

アクションレットベースの教師なし学習

本節では、2.2節で説明したMoCo v2に基づく、対照表現学習のための教師なしアクションレットを導入する。まず、教師なしアクションレット抽出法について述べる。次に、動きに適応したデータ変換と、意味を考慮した特徴プーリングを導入するための方法について述べる。

3.1. 教師なしアクションレット選択

従来のアクションレットマイニング手法は、アクションラベルに依存して動き領域を特定するが、教師なし学習のコンテキストでは採用できない。対照学習に触発され、我々は図2に示すような時空間教師なしアクションレット選択法を提案する。アクションレットは、アクションシーケンスと、動きがないと仮定した静的シーケンスとの差分を比較することで得られる。

具体的には、静的アンカーとして平均的な動きを導入するためのもので、動きのないシーケンスとみなす。これにより、行動列を静的アンカーと対比することで、行動列のローカライズを実現する。提案手法の詳細を以下に述べる。

静的アンカーとしての平均運動 I アクションの発生しないシーケンスを得る過程で、ほとんどのアクションシーケンスはほとんどの領域でアクションがないことが観察される。動作は通常、手や頭のような小さなローカライズされた領域で発生する。したがって、図4に示すように、データセット中のすべてのアクションを平均することで、静的アンカーを簡単に得ることができる。これは次のように定式化される： \ラベル {equ:info} \begin {aligned｝ \Bar {mathbf {X}} = \frac {1}{N}sum _{i=1}^N (\mathbf {X}^i), ⅳend {aligned} (2) ここで、Xiはi番目のスケルトンシーケンス、Nはデータセットのサイズである。

アクションレットローカライズのための差分活性化マッピング。運動が起こる領域を得るために、平均運動X¯を持つスケルトンシーケンスXiをオフラインエンコーダfk(-)に入力し、対応する密な特徴h i ctv = fk(Xi )とh¯ ctv = fk(X¯ )を得る、ここで、cはチャンネル次元、tは時間次元、vは関節次元を意味する。グローバル平均プーリング(GAP)の後、オフライン投影器gk(-)を適用し、グローバル特徴量z i = gk(GAP(h i ctv))とz¯ = gk(GAP(h¯ ctv))を得る。次に、これら2つの特徴の余弦類似度を計算する。これは次のように定式化できる：

ここで⟨-, -⟩は内積である。この類似度を小さくできる領域を見つけるために、この類似度の勾配をバックプロパゲートし、密な特徴h i ctvに逆伝播する。次に、これらの勾配を時間次元と関節次元にわたってグローバル平均プールし、ニューロンの重要度重み α i c を求める：

これらの重要度重みは、各チャンネル次元が最終的な差に与える影響の大きさを表す。したがって、これらの重み α i c は、差分活性化マッピングとみなされる。以下のように、差分活性化マッピングと密な特徴の加重結合を行う：

ここで、σ(-)は活性化関数であり、Gvvは重要度平滑化のためのスケルトンデータの隣接行列である。マップの線形結合は、類似度に負の影響を与える特徴を選択する。アクションレット領域は、生成されたアクションレットAi tvの値がある閾値を超える領域であり、非アクションレット領域は残りの部分である。

3.2. アクションレットガイド付き対照学習

アクションレットを最大限に活用するために、我々はアクションレットに依存した対比学習法を提案する（図2）。我々は、動き適応データ変換戦略モジュール（MATS）により、領域ごとに異なるデータ変換を課す。さらに、より良いアクションモデリングのために、アクションレット領域の特徴を集約する意味認識特徴プーリングモジュール(SAFP)を提案する。

動作適応変換戦略(MATS)。対照学習において、データ変換Tは意味情報抽出と汎化能力にとって極めて重要である。下流のタスクに関連する情報を維持しながら、より多様なデータ変換をどのように設計するかはまだ課題である。単純すぎるデータ変換は、数やモードが限定され、豊かな拡張パターンを得ることができない。しかし、難易度の高すぎるデータ変換は、動き情報の損失を招く可能性がある。このため、我々は、アクションレットに基づくスケルトンデータの動き適応データ変換を提案する。異なる領域に対して、アクションレット変換と非アクションレット変換の2つの変換を提案する。

アクションレット変換タクト：アクションレットデータ変換は、アクションレット領域内で実行される。先行研究[8]に触発され、4つの空間データ変換｛シア、空間フリップ、回転、軸マスク｝、2つの時間データ変換｛クロップ、時間フリップ｝、2つの時空間データ変換｛ガウスノイズ、ガウスぼかし｝を採用する。さらに、大域統計量の混合法としてスケルトンAdaINを提案する。ランダムに2つのスケルトンシーケンスを選択し、2つのシーケンスの空間平均とテンポラルな分散を入れ替える。この変換はスタイル転送で広く用いられている[12]。ここでは、スタイル転送におけるスタイルとコンテンツの分解のアイデアに触発され、動きに依存しない情報をスタイルと見なし、動きに関連する情報をコンテンツと見なす。そこで、スケルトンADAINを用いて、この動きに依存しないノイズを異なるデータ間で転送する。こうしてデータのノイズパターンは、この転送方法によって増強される。この変換は次のように定式化できる： \ラベル {equ:info} \begin{整列｝ \この変換は次のように定式化できる：￭mathbf {X}^i_{text {adain}} = ￭sigma (￭mathbf {X}^j) ￭left (￭frac {mathbf {X}^i - ￭mu (￭mathbf {X}^i)}{sigma (￭mathbf {X}^i)}} ￭right + ここで、σ(-)はテンポラルな分散、μ(-)は空間平均、Xjはランダムに選択されたシーケンスである。これらのデータ変換はすべてアクション情報を維持する。- 非アクションレット変換Tnon: より強い汎化を得るために、上記のデータ変換に加えて、いくつかの追加データ変換を非アクションレット領域に適用する。インスタンス内データ変換{ランダムノイズ}とインスタンス間データ変換{スケルトンミックス}を適用する。ランダムノイズは分散が大きい。スケルトンミックスは、Mixup[44]、CutMix[43]、ResizeMix[25]などの要素ごとのデータ混合手法です。これらの変換は非アクションレット領域に対して行われるため、アクションのセマンティクスを変更することはない。したがって、変換されたデータは元のデータとともに正サンプルとして使用される。

トレーニングの概要このパートでは、対照学習の枠組みを詳しく説明する：

MoCo v2[10]を用いて、オンラインエンコーダfq(-)とオフラインエンコーダfk(-)の2つのエンコーダを事前学習する。オンラインエンコーダはバックプロパゲーション勾配によって更新され、オフラインエンコーダは2.2節で述べたようにオンラインエンコーダの運動量更新バージョンである。
オフラインネットワークfk(-)は元データXiを入力し、教師なしアクションレット選択モジュールを用いて、Sec.3.1のオフラインストリームにアクションレット領域Ai tvを生成する。
2つの異なるビューXi qとXi kを得るためにデータ変換Tを行う。そして、Sec.3.2でXi qの多様性を高めるために動き適応変換戦略（MATS）を適用する。
特徴抽出のために、オンラインストリームでは、z i q = (gq ◦ GAP ◦ fq ◦ MATS)(Xi q ) とする。ここで、gq(-) はオンラインプロジェクターであり、GAP はグローバル平均プーリングである。安定かつ正確なアンカー特徴量を提供するために、Sec.3.2 の意味認識特徴プーリング（SAFP）法を利用し、オフライン特徴量 z i k = (gk◦SAFP◦ fk)(Xi k ) を生成する。
メモリバンク M = {mi}M i=1 を利用してオフライン特徴量を格納する。各バッチのオフラインデータから抽出されたオフライン特徴はメモリバンクに格納され、バンクは先入れ先出し戦略を用いて継続的に更新される。
最近の研究[20, 45]に従い、類似性マイニングを利用して最適化する： \ラベル {equ:info} \を最適化する、 \\ &mathbf {p}_q^i = \text {SoftMax}(∕text {sim}(∕mathbf {z}^i_q, ∕mathbf {M})/∕tau _q)、 \\ (9) ここで、sim(z i q ,M) = [sim(z i q , mj )]M j=1であり、特徴量z i qとM内の他のサンプルとの類似度分布を示す。p i kの要素p ij kがp i qの要素p ij qより大きい場合、メモリバンク内の対応する特徴量mjは正のサンプルとなる。これは、ネットワークがこれらの特徴との出力の類似性を高めるためである。
実験結果評価のため、以下の2つのデータセットで実験を行う：NTU RGB+Dデータセット [17, 26]とPKUMMDデータセット [18]。

4.1. データセットと設定

NTU RGB+D Dataset 60 (NTU 60) [26]は大規模なデータセットであり、60のアクション・ラベルと25の関節を持つ56,578の動画を含む。
NTU RGB+Dデータセット120(NTU 120) [17]は、NTU 60の拡張データセットであり、アクション認識のための最大のデータセットである。アクションは、32の異なるセットアップを使用して、複数の設定で106人の被験者でキャプチャされています。
PKU Multi-Modality Dataset (PKUMMD) [18]は、人間の行動のマルチモーダリティ3D理解をカバーしている。動作は52のカテゴリに分類され、約20,000のインスタンスが含まれる。各サンプルには25の関節がある。PKUMMDはパートIとパートIIに分かれている。パートIIはより困難なデータを提供する。

. ネットワークを訓練するために、すべての骨格シーケンスを50フレームに時間的にダウンサンプリングする。エンコーダf(-)はST-GCN[40]に基づいており、サイズ16の隠れチャンネルを持つ。コントラスト学習と補助タスクのための射影ヘッドはすべて多層パーセプトロンで、256次元から128次元に特徴を射影する。評価には完全接続層ϕ(-)を採用する。

ネットワークを最適化するために、Adam optimizer [21]を適用し、NVIDIA TitanX GPUでバッチサイズ128で300エポック学習する。

4.2. 評価と比較

包括的な評価を行うために、様々な設定のもとで、我々の手法を他の手法と比較する。

線形評価。線形評価メカニズムでは、線形分類器ϕ(-)が固定エンコーダf(-)に適用され、抽出された特徴を分類する。測定値として行動認識精度を採用する。このエンコーダf(-)は線形評価プロトコルで固定されることに注意。

表1、表2、表3の他の手法と比較すると、我々のモデルはこれらのデータセットにおいて優位性を示す。3s-CrosSCLR[15]と3s-AimCLR[8]がコントラスト学習課題において設計する変換は、異なる領域に対して統一されているため、データ変換が動き情報に干渉することがわかる。これに対して、本手法は、意味考慮型動き適応データ変換のためにMATSを採用する。従って、本手法により抽出された特徴量は、下流タスクにより適した、より良い動作情報を保持する。

教師による微調整。

まず教師あり学習でエンコーダf(-)を事前学習し、次にネットワーク全体を微調整する。エンコーダf(-)と分類器ϕ(-)を完全な訓練データを用いて訓練する。

表4はNTUデータセットにおける行動認識精度を示している。この結果は、我々の手法が、下流のタスクで要求される情報を抽出し、行動認識をより良くすることができることを裏付けている。最新の教師あり学習法と比較して、我々のモデルはより良い性能を達成している。

3）転移学習汎化能力を調べるために、転移学習の性能を評価する。転移学習では、教師ありタスクの事前学習をソースデータ上で行う。その後、線形評価メカニズムを利用して、ターゲットデータセット上で評価を行う。線形評価では、エンコーダf(-)は微調整なしで固定パラメータを持つ。表5に示すように、我々の手法は大きな性能を達成している。我々の手法は、無関係な情報を除去するためにMATSを採用し、下流のタスクに関連する情報を保持するためにSAFPを採用している。これにより、我々のエンコーダf(-)はより強力な汎化性能を得ることができる。

教師なしアクションセグメンテーション。本手法によるローカライズの抽出を探るため、教師なしアクションセグメンテーションを評価メトリクスとして用いた。NTU60データセットを用いてエンコーダf(-)を事前学習する。次に、PKUMMDデータセットで結果を評価するために線形評価メカニズムを利用する。線形評価では、エンコーダf(-)は微調整なしで固定パラメータを持つ。表6に示すように、我々の手法は大きな性能を達成している。本手法はアクションの主な発生領域に着目しているため、長いシーケンスからアクションを探し出すことが可能である。

4.3. アブレーション実験

次に、アブレーション実験を行い、提案手法のより詳細な分析を行う。1) 運動適応的データ変換の解析データ変換は一貫性学習にとって非常に重要である。動き適応データ変換の影響を調べるために、異なるデータ変換の下で行動認識精度をテストする。表7に示すように、様々なノイズ設定において、動き適応変換は完全領域（全骨格データ）よりも良い性能を得ることができる。また、ノイズの強さが増加した場合、我々の性能劣化はフルリージョンの性能劣化よりもはるかに小さいことが観察される。これは、この設計がデータ変換に対してより頑健であることを示している。異なるデータ変換が対照学習効果に与える影響を調べるため、異なるデータ変換の組み合わせの下で行動認識精度をテストする。表8に示すように、特徴空間の一貫性はデータ変換が多いほどさらに向上する。したがって、下流タスクの性能が向上する。

表8. ジョイントストリームを用いたNTU 60 xviewデータセットにおけるデータ変換の組み合わせの分析。Tは全ての変換。Tactはアクションレット変換。Tnonは非アクションレット変換。AdaINはスケルトンAdaINを指す。

意味を考慮した特徴プーリングの分析。セマンティックを考慮した特徴プーリングを調べるために、異なるストリームに対してこのプーリングを実行する。表9は、異なる設定下での行動認識精度の結果を示す。オフラインの方が、コントラスト学習のためのより良い正サンプル特徴を生成できるため、より良い性能が得られることがわかる。このモジュールをオンラインに使用することで、非アクションレット変換の利点が減少する。

3）アクションレットと非アクションレットの意味的分離の分析。図3では、アクションレット領域情報のみを抽出した場合と、非アクションレット領域情報のみを抽出した場合の、行動認識の性能を示している。アクションレット領域の行動認識精度は、骨格データ全体の行動認識精度に匹敵する。一方、非アクションレット領域の特徴量を用いた場合の行動認識性能は非常に低い。これは、アクションレット領域が主要な動き情報を含んでいることを示している。

平均運動とアクションレットの可視化図4は、平均モーションとアクションレットをそれぞれ可視化したものである。平均モーションは重要な動き情報を持たず、背景として機能する。図5に示すアクションレットは、主に動きが発生する関節を選択する。私たちのアクションレットは時空間的である。なぜなら、動作が実行されるときに、動きのある関節が変化する可能性があるからである。

結論この研究では、アクションレットに依存したコントラスト学習法を提案する。アクションレットを用いることで、アクション領域と非アクション領域を切り離すための、動き適応的なデータ変換と、意味を考慮した特徴プーリングを設計する。これらのモジュールにより、特徴抽出における静的領域の干渉を減らしつつ、シーケンスの動き情報に注目させる。さらに、類似性マイニング損失は特徴空間をさらに正則化する。実験結果は、我々の手法が顕著な性能を達成できることを示し、我々の設計の有効性を検証する。

Time : 52min