MotionBERT: A Unified Perspective on Learning Human Motion Representations

どんなもの？

大規模かつ異種間のデータリソースから人間の動きの表現を学習することによって様々な人間中心の下流タスクに適用可能なバックボーンモデルの提案

人間の姿勢情報や，動きの表現など，これまで別々に学習されておりこれらの対応関係がうまく利用できなかった．

この手法ではDSTFormerを用いて姿勢情報間の長距離な時空間関係を把握することで，動きが関連する別のタスクを統一的に処理しようとしている

また，異なる種類のデータリソースを取り込めるような手法の提案

SpatioなMHSAとTemporalなMHSAを統合し，時空間情報をモデリング

Pretrain にHuman3.6M,

3Dpose Estimationの評価には同じくHuman3.6Mを使用して，Action RecognitionにはNTU-RGB+Dを使用

Mesh RecoveryにはHuman3.6Mと3DPWデータセットを使用

finetuningした場合はほとんどのデータセットでSOTA

シングルパーソンのみでの使用という制約あり