どんなもの?
大規模かつ異種間のデータリソースから人間の動きの表現を学習することによって様々な人間中心の下流タスクに適用可能なバックボーンモデルの提案
先行研究と比べてどこがすごい?
人間の姿勢情報や,動きの表現など,これまで別々に学習されておりこれらの対応関係がうまく利用できなかった.
この手法ではDSTFormerを用いて姿勢情報間の長距離な時空間関係を把握することで,動きが関連する別のタスクを統一的に処理しようとしている
また,異なる種類のデータリソースを取り込めるような手法の提案
技術や手法のキモはどこ?
SpatioなMHSAとTemporalなMHSAを統合し,時空間情報をモデリング
どうやって有効だと検証した?
Pretrain にHuman3.6M,
3Dpose Estimationの評価には同じくHuman3.6Mを使用して,Action RecognitionにはNTU-RGB+Dを使用
Mesh RecoveryにはHuman3.6Mと3DPWデータセットを使用
finetuningした場合はほとんどのデータセットでSOTA
議論はある?
シングルパーソンのみでの使用という制約あり
次に読むべき論文は?
- Self-supervised pose estimation / Action Recognition