SportsPose – A Dynamic 3D sports pose dataset

どんなもの？

ポーツのダイナミックな動きからなる大規模な3D人物ポーズデータセットであるSportsPoseを提案。SportsPoseは、24人の被験者が5種類のスポーツを行う際の176,000以上の3Dポーズを収録しており、スポーツ動作の複雑で動的な性質を反映した多様で包括的な3Dポーズセットを提供．

先行研究と比べてどこがすごい?

Human3.6Mや3DPWよりも多様で複雑な動作を含んだデータセットであり，またマーカーベースと比較して誤差が少ない，3DPWに匹敵する．

技術や手法のキモはどこ？

７台のカメラシステムから3D姿勢を作る手法に動的計画法などを使用

どうやって有効だと検証した？

関節の動きなどをデータセット間で比較．また関節の動きや足首の動きがどれくらいの体積を占めるかどうかも測定

議論はある？

複数の人物を含んだインタラクションのあるデータセットって需要あるのだろうか？

次に読むべき論文は？

Human3.6Mと3DPW論文

Memo

概要

スポーツ分析、コーチング、傷害予防には、正確な3D人体姿勢推定が不可欠である。しかし、既存の単眼姿勢推定用データセットは、スポーツ動作の困難で動的な性質を十分に捉えていない。そこで我々は、非常にダイナミックなスポーツの動きからなる大規模な3D人物ポーズデータセット、SportsPoseを導入するためのものである。SportsPoseは、24人の被験者が5種類のスポーツを行う際の176,000以上の3Dポーズを収録しており、スポーツ動作の複雑で動的な性質を反映した多様で包括的な3Dポーズセットを提供します。他のマーカーレスデータセットとは異なり、我々のポーズを市販のマーカーベースシステムと比較することで、SportsPoseの精度を定量的に評価したところ、すべての評価シーケンスで平均34.5mmの誤差を達成しました。

これは、一般的に使用されている3DPWデータセットで報告されている誤差と同等である。さらに、手首と足首の関節の動きを表す新しいメトリクス「ローカライズ」を導入するための、身体との関連性を評価しました。これにより、我々のSportsPoseは、Human3.6Mや3DPWデータセットよりも、これらの極端な関節の動きが多く含まれており、我々の動きがよりダイナミックであることを示しています。このデータセットと付属のコードは、我々のウェブサイトからダウンロードすることができます1。現実的で多様なデータセットを持つSportsPoseは、スポーツにおけるポーズ推定の最先端技術を発展させるための貴重なリソースとなります。

はじめに単眼3次元人体姿勢推定は、26, 30, 45]などのアプリケーションで人間とコンピュータのインタラクションを可能にする花形のトピックです。最近の手法では、8cm以下の平均関節精度誤差（MPJPE）を達成する手法が登場しており、目覚ましい性能を示しています[7, 13, 16, 36]。しかし、人間の3Dポーズデータセットを取得するには、通常、慣性計測装置（IMU）や光学マーカーを用いた市販のモーションキャプチャシステムが必要であり、煩雑で高価なプロセスです[10、19、32、38]。このような複雑さから、人間のポーズデータセットの取得は、最小限の数の異なる被験者がいる制御されたラボ環境に限定される傾向があります。また、マーカーを身体に装着することは、被験者の自由な動きに影響し、データから学習したモデルの一般性を低下させる可能性があります。このような問題から、視覚関連の学習問題のデータセットではマーカーは好ましくなく、代わりにマーカーレスキャプチャシステムが好ましいとされています。屋外環境[21]や制御された屋内ラボセットアップ[11]で記録された、様々な3D人間ポーズデータセットが利用可能である。しかし、既存のマーカーレスデータセットは、その精度を検証するための定量的な分析を欠いており、グランドトゥルースとみなされるデータの品質に関する懸念が生じている。3DPWデータセット[39]は、ほとんどのセンサーを衣服の下に隠すことができるIMUベースのシステムを利用することにより、可視マーカーの問題に対処しています。IMUデータは、モバイルカメラからのビデオデータと位置合わせされる。この方法の有効性を評価するために、光学マーカーとIMUの両方のデータを含むTotalCaptureデータセット[38]を用いて定量的な分析が行われた。しかし、TotalCaptureデータセットは、3DPWデータセットの残りの部分とは異なる環境で記録されているため、測定された誤差が期待される誤差を正確に反映しているかどうかは不明である。この制限にもかかわらず、TotalCaptureデータセットで報告された関節ごとの平均精度誤差は26mmです。一方，我々のSportsPoseは，推定されたマーカーレスポーズの定量的な分析を含む，マーカーレスヒューマン3Dポーズデータセットを導入するためのものである．本データセットの精度を検証するため、同領域の市販のマーカーベースモーションキャプチャシステムと比較しました。その結果、3DPWデータセットと同等の精度が得られましたが、データがキャプチャされたのと同じドメインで測定されたものであることがわかりました。我々のSportsPoseは、屋内外の環境で24人の被験者から取得したデータからなるマーカーレス3D人物ポーズデータセットを提供します。このデータセットには、サッカー、バレーボール、ジャンプ、野球、テニスの5つのスポーツ種目が含まれています。これらの動作は、非常にダイナミックな動作であり、大きな可動域を含みながら、限られたキャプチャ容量で実行できることから選択されました。図1に、異なるアクティビティと異なる被験者のデータセットからのサンプルを示す。図1の被験者は匿名化されていますが、利用可能なライセンスデータセットでは、匿名化されていません。較正され、ハードウェア的に同期された7台のカラーカメラのセットアップは、90Hzのレートでポーズのシーケンスを記録しました。事前に訓練された2Dポーズ検出器[35]を用いて、各画像の2Dポーズが予測され、異なるビューからの複数の2Dポーズが得られた。複数のカメラのサブセットから三角測量することで、様々な3D点候補を得た。グラフベースのアプローチにより時間的連続性を改善し，バターワース平滑化により，すべてのフレームについて，候補を3Dポーズの滑らかなシーケンスに縮小した．推定された3D人物の動きの精度は、別のビデオセットで、同じボリュームを記録した市販のマーカーベースのモーションキャプチャシステムと比較することで評価された。この比較により、別セットの映像の平均誤差は34.5mmであることが判明しました。現在のモデルは、動的なスポーツ動作の関節位置を正確に予測することができません[9]。我々のSportsPoseのように、動的な動き、ポーズの多様性、厳密な精度評価を備えた既存のスポーツデータセットは存在しません。我々のSportsPoseの目標は、単眼3Dモデルを進歩させる研究を奨励することです。要約すると、我々の貢献は以下の通りです： -

我々のSportsPoseデータセット-大規模なマーカーレス人体3Dポーズデータセット。- 参照ポーズの精度の定量的な分析。

24人の被験者の動的なスポーツ動作。
将来のデータセット拡張のために、簡単に拡張可能なモーションキャプチャシステム。

関連研究

2.1. 3次元人体ポーズデータセット単眼3D人体姿勢推定モデルの学習・評価のために、大規模な3D人体姿勢データセットを構築する試みが数多く行われています。このようなデータセットの代表的な例として、HumanEva [32], TotalCapture [38], Human3.6M [10], CMU Panoptic Studio [11]があります。これらのデータセットは、単眼3D人物ポーズ推定の最先端技術を進歩させるのに役立っている。これまで、正確な3D人間のポーズデータの取得は、小さく固定されたキャプチャボリュームを持つ制御されたラボセットアップに制約されていました[10, 11, 32, 38]。Human3.6M [10]、HumanEva [32]、TotalCapture [38]はすべて、赤外線カメラと反射マーカーをすべての被験者に取り付けた光学追跡システムを使用しています。これらのマーカーベースの光学システムでモーションキャプチャデータを取得することは、正確なモーションキャプチャのゴールデンスタンダードと考えられており、バイオメカニクスの研究に使用されているシステムである [20, 29].

特にスポーツのような非常にダイナミックな動きでは、マーカーが不快感を与え、被験者のパフォーマンスを妨げる可能性があるため、マーカーベースのシステムを使用するには一定の制限があります。また、光学マーカーがあると人工的な環境になり、実世界のシナリオを反映していない可能性があります。また、モデルがポーズを推定するためにマーカーの外観を学習する可能性があり、マーカーがない状況での一般化がうまくいかないことが懸念されます。光学マーカーベースのシステムに代わるものとして、3DPWデータセット[39]で使用されているようなIMUベースのシステムがあります。このようなシステムでは、制約の少ない環境で、センサーの一部を被験者の衣服の下に隠すことができますが、測定値がドリフトする問題があります。3DPWデータセットは、IMUセンサーを被験者に装着し、IMUセンサーデータとモバイルカメラの映像を関連付けることで、この問題を解決し、様々な環境における被験者の正確な3Dポーズを取得し、まさに「in the wild」データセットとなっています。しかし、彼らのアプローチの欠点は、被写体が目に見えるIMUセンサーを装着する必要があること、利用可能なグランドトゥルースデータがないため、IMUとビデオデータの位置合わせにおけるアルゴリズムの性能を評価することが困難であることである。

CMU Panopticデータセット[11]は、マーカーやIMUセンサーに頼ることなく、3Dポーズデータを取得することができました。その代わりに、彼らは2Dポーズを検出し、対応する3Dポーズを三角測量するために、マルチカメラのセットアップを利用した。しかし、産業用カメラ480台とKinect 2センサー10台という大規模なセットアップが必要であり、再現が困難でした。一方、我々のSportsPoseシステムは、同様のアプローチを採用していますが、カメラはわずか7台であるため、より身近で新しい撮影場所への移植が可能です。

柔軟なマーカーレスキャプチャシステムを開発する方法は他にも提案されており、ASPset-510 [21]は、3台の民生用カメラと手動による時間同期を採用して、屋外での人間のスポーツポーズデータセットを構築しています。しかし，ASPset-510では，データセットの精度に関する定量的な解析は行われていない．我々の研究により、スポーツ動作では自己オクルージョンが頻発するため、3台以上のカメラが必要であることが判明しました。また、フレーム露出の間に関節が過剰に動くことがあるため、時間同期だけでなくハードウェアベースのフレームが必要であることがわかった。我々のSportsPoseの開発では、ハードウェア同期を備えた7台のカメラが、システムの精度、コスト、柔軟性の間で良い妥協点であることが証明されました。

マーカーレスモーションキャプチャシステムは市販されており[3, 33, 37]，ディープラーニングのデータセット構築にも利用されている．MPI-INF-3DHP [19]データセットでは，市販のマーカーレスソリューション[3]を利用して，マーカーなしで多様なポーズをキャプチャした．自然な服装をした8人の被験者のモーションキャプチャデータが含まれていますが、グリーンスクリーンを使用したラボ環境で撮影されています。一方，我々のSportsPoseは，自然な服装をした多数の被験者のデータセットを提供し，その精度は正確な光学参照系を用いて評価されている．本節で取り上げたモーションキャプチャのデータセットの概要を表1に示す。

2.2. 単眼3D人体ポーズモデル

単眼3D人体ポーズ推定のテーマは広く研究されており、3Dポーズを推論するための2つの主要なアプローチがある。一つは、[2,7,12,14,15,44]に見られるような、入力画像や動画から直接被写体の形状とポーズの両方を予測するパラメトリック身体モデルを用いる1段式の方法である。もう一つは、[4, 24, 31, 46]に見られるように、グランドトゥルースまたは予測された2Dポーズを使用して、被写体の対応する3Dポーズを推定する2段階法である。各アプローチには利点と欠点がありますが、ポーズだけが関連する場合は、2段階法が最も正確であると考えられています[24]。さらに、2段階法は、リフティングモジュールがフル画像フレームではなく、2Dポーズのみを入力とするため、より多くの時間的情報を含めることが可能です。我々のSportsPoseでは、形状推定よりも正確なスポーツのポーズ推定を進めることに重点を置いています。グランドトゥルースの2Dポーズを2段階のアプローチで使用できるように、カメラキャリブレーションをリリースしました。形状情報が必要な場合は、MoSh [18]のようなモーションキャプチャボディソルバを使用して取得することができます。

モーションキャプチャシステム我々のSportsPoseデータセットをキャプチャするために構築したシステムは、7台のハードウェア同期された産業用カメラで構成され、解像度1920×1200で90Hzでキャプチャします。カメラは2m×2mの撮影スペースに設置され、一部のカメラは天井に、他のカメラは胸の高さに設置されています。システムは、6つのArUcoパターン[27]を持つボードを使用して較正され、最初にZhangの方法[47]を使用して線形推定値を得て、次に非線形バンドル調整を行い、平均再投影誤差は0.8ピクセルとなる。

3.1. 三角測量の手順人間の3Dポーズを推定するために、2Dポーズ検出器HRNet [35]を利用して、すべてのカメラビューから2D関節の初期セットを予測します。使用するHRNetモデルは、COCO 2Dポーズデータセット[17]でトレーニングされており、我々のSportsPoseのマーカーセットはCOCOのマーカーセットと同じである。予測された2D関節位置を用いて、3D関節位置の線形推定値を三角測量し、非線形最適化を用いて改良します。この3D関節位置の推定は、ジッターや関節の入れ替わりなどの誤差を持つ可能性のある2D推定器からのノイズの多い予測により、誤る可能性があります[28]。時間的に一貫性のある3D関節位置を確保し、潜在的な誤った予測を修正するために、我々は、現在の関節位置の推定を洗練するために、前および将来のフレームからの情報を使用します。これは、ASPset-510 [21]にヒントを得て、2台以上のカメラを使って三角測量できる全ての3D点、つまりPK i=2K i点候補の推定値のセットを構築することで行われる[21]。これにより、図2に示すように、各タイムスタンプの各ポイント候補を有向非周期グラフの頂点とすることができる。各頂点は次のタイムスタンプのすべての頂点に接続されるようにする。フレーム間の移動が少ないと仮定すると、各関節のフレーム間移動距離を最小化しようとするため、2つの頂点 vi と vj の間の辺の重み wij は、なる、

動的計画法を用いると、各関節のすべての時間ステップの3次元位置を与えるグラフの最短経路を効率的に求めることができる。図2に示すように、姿勢推定器から得られる情報を利用するために、2D関節信頼度を用いて、最大2台のカメラとこのカメラを使用する対応するノードをフレーム毎にグラフから削除する。これは、最も信頼性の低いカメラを削除し、グラフアプローチでスムーズなポーズシーケンスを見つけることができるという良いバランスを保つため、最大2台のカメラに決定しました。グラフアプローチによって抽出された点は，バイオメカニクスで広く使われているバターワースフィルタ [23, 40] を用いて，さらに平滑化される [41] ．このフィルタは，カットオフ周波数が6Hzの4次フィルタとして設計されており，人間の動きの大部分はこの周波数で捉えられるからである[42]．

図2. 最小2台のカメラを持つすべての可能なサブセットは、各層が1フレームに対応するように密に接続されている。ポーズ推定器の信頼性が低い場合、最大2台のカメラ、ひいてはそのサブセットを削除することができます（ここではグレーアウトしたカメラで示されています）。

SportsPoseデータセットマルチカメラの設定により、我々はSportsPoseデータセットを収集しました。このデータセットは、24人の被験者の非常にダイナミックなスポーツ動作から、合計191,948の3Dポーズで構成されており、現在最も多くの被験者を持つ3Dポーズデータセットとなっています。このデータセットの3Dポーズは，屋内環境で149,580ポーズ，屋外で27,000ポーズ，屋内環境で15,368ポーズに分布し，セクション5の定量的品質評価に使用する光学マーカが被験者に付いている．

4.1. データセット

本システムの使い勝手の良さを活かして、女性3名、男性21名の計24名の被験者が、自然な服装でマーカーを付けずに撮影されています。さらに、屋外と屋内の両方でデータを取得し、2人の被験者が屋内と屋外の両方に登場することで、異なる環境でのモデルのパフォーマンスを評価することができます。各被験者は、スポーツに関連する5つの短い動作を5回繰り返し、合計191,948ポーズと7台のカメラからの対応する画像、合計150万フレームが記録されます。191,948ポーズのうち、15,368ポーズが品質評価に使用され、ここでは被験者の身体に可視マーカーが付けられています。データセットに含まれるアクティビティは、野球のピッチ、ジャンプ、テニス、バレーボール、サッカーである。これらは、被験者がボリューム内で様々なポーズをとることができるように、上半身と下半身の両方の関節を高速で動かすことができるように選ばれている。被験者には、動作とその方法を説明し、自由な発想で動作できるようにした。

我々のSportsPoseデータセットの内容を要約し、現在の他の3Dポーズデータセットと比較するために、表1にその概要を示す。我々のSportsPoseは，被験者の数では最大のモーションキャプチャデータセットであり，3Dポーズの数ではHuman3.6M，CMU Panoptic，TotalCaptureデータセット [10, 11, 38] に続く4番目に大きなデータセットであることがわかる．Human3.6M [10]はマーカーベースのデータセットであり，CMU Panopticデータセット[11]は，我々のものと同様のマーカーレスシステムであるが，カメラの台数が多い．CMU Panopticデータセットでは、400台以上の低解像度カメラと31台の高解像度カメラで屋内ドームを構築し、データセットを撮影しています[11]。これはマーカーレスデータセットのゴールデンスタンダードといえるが、システムをより自然な環境に移動させる柔軟性を完全に排除している。このため、我々のSportsPoseは、公開されているマーカーレスデータセットとしては2番目に大きく、フレームレートデータが最も多いデータセットであり、被験者が最も多いデータセットとなっています。

4.2. 我々のSportsPoseの統計データ

SportsPoseデータセットのポーズと動きを徹底的に分析し，既存のデータセットと比較できるようにするため，SportsPose，3DPW [39] および Human3.6M [10] の一連の統計値を計算した．3DPWとHuman3.6Mは、新しい3D人物ポーズ推定法の開発に最もよく使われるデータセットであり、ラボシナリオと実環境シナリオのそれぞれで現在よく使われているデータセットであるため、比較することにしました。

データセットの動きがどの程度動的であるかを調べるために、データセットに含まれるすべての手首、足首、腰の速度と加速度を計算した。これらの累積分布関数を図3、図4に示す。この分布関数から、我々のSportsPoseデータセットの動きは、3DPWやHuman3.6Mの動きと速度や加速度が異なることが明らかであり、これは特に動的なスポーツ動作をターゲットにしていることから予想されることである。さらにプロットを見ると、SportsPoseの手首は、3つのデータセットの中で最も速いスピードと加速度を持っていることがわかります。これは、スポーツに関連する動きの多くが、ボールを投げるような速い動きをするために、高い加速度の短いバーストであることから、理にかなっていると言えます。さらに、Human3.6Mとは対照的に、足首と腰のスピードも高いことがわかります。これは、Human3.6Mや我々のSportsPoseのように記録容量が一定であるのに対し、3DPWのデータセットでは記録容量が大きく、被験者が自由に動き回れるためであると考えられる。

図4. Human3.6M、3DPW、SportsPoseの手首、足首、股関節の加速度を累積分布関数で比較したものです。低い線は加速度が高いことを示す。各データセットの平均加速度は、ベで示されている。

図3、図4から、SportsPoseには速い動きが含まれていることがわかるが、これだけではポーズの多様性については結論が出ない。我々のSportsPoseは、速い動きだけでなく、様々な動きやポーズを持つデータセットである。そこで、関節の動きや足首の動きがどれくらいの体積を占めるかを測定するために、新しい座標系にボクセルのグリッドを置き、その辺を基底ベクトルに合わせます。手首や足首が占めるユニークなボクセルの数を全フレーム数で割って、ミラーリングを考慮して2で割ったカバー比を求めることで、被験者の局所的にどれだけの動きがあったかを示す量を得ることができる。カバー率が1に近づくほど、ボクセルの辺の長さが大きくなり、動き全体がカバーされる量が多くなります。これを2D投影したものが図5である。腕や脚の長さの1から1000分の1までの対数間隔をとったn個のボクセルの辺の長さについてカバーレシオを計算し、その曲線の下の面積をnで割ったものを求めると、2組のポーズを比較するのに使用できるメトリクスを得ることができる。これをSportsPoseの3つのシーケンスについて図6に示す．テニスはサッカーよりも手首の動きが大きく、足首の動きが小さいことがわかりますが、これはアクティビティに必要な動きを反映していることがわかります。また、ボックスジャンプの曲線下面積は他の2つよりも大きくなっていますが、これは足首と手首の関節が大きく動くため、予想されることです。

図5. 2Dで可視化されたローカライズの例。関節は濃い緑色、訪問したボクセルは薄い緑色で表示され、上部には対応するカバー比が表示されている。同じ数の関節が、ボクセルグリッドiの解像度が高くなるにつれて、より多くのボクセルを占有することがわかる。

図6. 図6：局所座標系における関節数に対するユニークボクセル数の割合（ボクセルサイズの関数として）。ローカライズプロットは手首と足首の動きの指標で、ここでは

この局所運動指標は、使用するポーズの数に敏感であるため、データセットを比較するために、3つのデータセットそれぞれについて、50,000ポーズ（対称性を含む100,000関節）のランダムサブセットを使用しました。その結果、図7に示すようなローカライズメトリクスが得られました。このメトリクスでは，動きを直接考慮せず，その結果得られるポーズのみを考慮するため，ポーズのランダムなサブセットを選択することができ，個々のポーズの順序や起源に関する制約を緩和できる．我々のSportsPoseは、手首と足首の両方で最も高いAUCを示し、Human3.6Mと3DPWの両方よりも広い範囲の動きを含むデータセットであることを示しています。

5.1. 評価セットアップ提案するマーカーレスモーションキャプチャシステムの精度を検証するために、Qualisys [25]の商用モーションキャプチャシステムと比較しました。使用したQualisysのシステムは、同社のモーションキャプチャシステムの1つである。

評価を行うために、両システムをマスター同期ユニットに接続し、Qualisysと我々のマーカーレスカメラセットアップの両方を90Hzで同時にトリガーしました。つまり、2つのシステムはフレーム同期しており、予測したポーズとQualisysのグランドトゥルースのポーズとの間に、キャプチャのタイムシフトに起因する測定値の不一致がないことを確認することができました。マーカーレスシステムでは、追跡する関節や注目点を自由に選択することができません。ここでは、3D関節位置の三角測量に使用する2Dポーズ検出器で検出された関節に制約されます。2Dポーズ検出器は、生体力学の知識を持たない人間が関節のラベルを注釈した2Dデータセットで学習します[1, 17]。このため、予測に多少のバイアスが導入されるが、すべての注釈が正しいと仮定すると、注釈者は、体の内側の位置である関節中心に対応する点を注釈するように求められる。これは明らかに不可能なので、代わりに体の表面上の対応する点がアノテーションされる。

一方、マーカーベースでは、身体のどの関節や位置にも自由にマーカーを置くことができます。理想的には、我々のSportsPoseで三角測量した点と一致させるために、マーカーを実際の関節中心に配置する必要がありますが、これも体の中にあるため不可能で、体の表面にしかマーカーを置くことができません。マーカーレスシステムが検出した位置と同じ位置にマーカーを配置することもできますが、これは視点に依存し、マーカーベースシステムが3D空間で実際のマーカーの位置を測定するのに対し、実際の関節中心に三角測量してしまいます。そこで、マーカーを身体の解剖学的な目印に配置し、その位置を用いて実際の関節中心位置を導出します [5, 34, 43]。使用した解剖学的ランドマークは図8に示すとおりで、可能な限り硬い骨の上に直接配置した。品質評価に使用したキャプチャシークエンスは，表1に示した177Kポーズには含まれず，15,386ポーズが追加されており，これも品質評価用のサブセットデータとして別途公開される予定です．このようにデータセットを分離した理由は、被験者にマーカーが貼られているデータで新しいモデルを学習させたくないからです。しかし、2Dポーズ検出器は、被験者に可視マーカーがないCOCOデータセット[17]でトレーニングされているため、マーカーが添付されていても品質評価に役立たないことを想定しています。2つのシステムの比較では、マーカーと関節の間の動きを最小限にするために、服を着た被験者を使用しました（図8参照）。このように服を着た被験者を使用したのは、できるだけ実際のシナリオに近い設定を維持するためです。図8に示したマーカーセットでは、ほとんどのマーカーを被験者の皮膚に直接配置することになりました。ただし、腰のベルト、靴のマーカー、帽子のマーカーは頭部に3つ配置しました。

図8 HRNet [35]で検出された関節中心を青色で、マーカーベースシステム[25]のマーカーをオレンジ色で表示し、隠蔽されたマーカーは薄いオレンジ色で表示した2次元可視化図。Qualisysのマーカーは皮膚の表面にあるのに対し、予測されたHRNetは関節中心に配置されていることがわかります。この図から、2つのマーカーセットの間にオフセットがあることが明らかです。

5.2. 関節プロトコルの位置合わせ

図8は、マーカーレスシステムで推定された関節位置と、それに対応するQualisysのマーカー位置を示しています。図から、2つのマーカープロトコルの間に不一致があることは明らかで、モーションキャプチャシステムの品質評価を行う前に、これを補正する必要があります。

このオフセットを補正するために、評価用キャプチャの各被験者について、図8のように腕を横に広げた静止ポーズで立っているか、いくつかのゆっくりとした制御された動きをしている一連のキャリブレーションレコーディングを記録しています。これらのシーケンスは、マーカーベースシステムのマーカーセットから、私たちのマーカーレスシステムのマーカーセットへの線形変換を計算するために使用されます。

マーカーレスシステムの時間tにおける各関節J (t) に対して、マーカーベースシステムの3つのマーカー位置M (t) 1 , M (t) 2 , M (t) 3から、ローカルの関節座標系を定義します。そのうちの2つは関節に最も近い2つのマーカーで、最後のマーカーは、3つの位置が広げる平面に対して関節の動きが小さくなるように選ばれる。マーカー位置から、新しいローカライズされた関節座標系の基底を次のように定義する、

ここで、wは線形変換に対応する重みであり、A（t）はローカル座標系の基底ベクトルを含む、

これをタイムステップtごとに行い、すべての行列をA、J、M1に積み上げると、1つの大きな方程式系ができ、そこで線形変換を次のように計算することができる。

この変換のための推定重みw（R3）は、各被験者の各関節に固有であり、マーカーベースのシステムからマーカーレスシステムに関節を変換するために使用される。

5.3. 品質評価

定量的な品質評価は、我々のSportsPoseデータセットの一部でもある2人の被験者に対して行われる。評価用キャプチャは、マーカーレス屋内データと同じ物理的な場所で行われるため、照明と背景の条件が同じである。各被験者について、セクション5.2で説明したように、マーカーセット間の変換を学習するために、一連のキャリブレーションシーケンスが撮影された。キャリブレーションシーケンスは変換の推定にのみ使用され，評価はサッカー，バレーボール，ジャンプ，野球ピッチ，テニスの5つのSportsPoseアクティビティの5回の繰り返しに対して行われる．これらのシーケンスはすべて式（6）に従って SportsPose のマーカセットに変換される。

ここで、J〜(t)は時間tにおけるグランドトゥルースジョイントである。評価には、Ingwersenら[9]の評価プロトコル、すなわち、誤差を次のように計算することを採用した、

ここで、τは報告されたメトリクスに依存する。これを計算し、異なる関節で平均化した。表2の平均誤差について、τは、同一性変換であり、MPJPEについては、股関節アライメントであり、PA-MPJPEについては、Procrustes解析［6］によって見出される完全な類似性変換である。

評価は我々のSportsPoseデータセットの全17関節に対して行われ、その結果は表2に示すとおりである。すべての評価シーケンスにおいて、平均誤差は34.5mmであった。これは、我々のグランドトゥルースがデータセットの全ての動きに対して高精度であることを示しています。ジャンプは、アクティビティの中で最も誤差が大きいですが、それでも平均誤差は4cm以下です。また、表から、平均誤差はヒップアライメントされたバージョンよりも低く、予想通りProcrustesアライメントの誤差が最も低いことがわかります。股関節アライメント後の誤差が大きいということは、5.2節で説明した関節プロトコルのアライメントを行った後でも、2つのプロトコルの間にオフセットがあることを示唆しています。しかし、Procrustesアライメントの誤差が低いことから、残りのオフセットの大部分は、2つのプロトコルの腰の位置にあることが示唆されます。

結論我々のSportsPoseは、ポーズ数では2番目に多く、被験者数では最も多いマーカーレス3D人間ポーズデータセットを提供するものである。我々のSportsPoseデータセットは，その名の通り，スポーツのポーズを収録したデータセットであり，他の多くのデータセットに見られるようなポーズとは異なり，当然，高速でダイナミックな動きも収録しています．データセットに含まれる被験者の数だけでなく、市販のマーカーベースシステムでデータの精度を徹底的に評価することで、他のマーカーレスデータセットとの差別化を図っています。我々のSportsPoseは、データセットのデータと同じドメインのデータでグランドトゥルース評価が行われた唯一の一般公開データセットである。マーカーを使用しない場合の利点は、セットアップ時間が短いことで、複数の環境における多数のポーズと被験者を含む多様なデータセットを作成することができたことです。我々の評価では、平均誤差は34.5mmで、一般的に使用されている3DPWデータセット[39]で報告された誤差に匹敵するものであった。しかし，Procrustesアライメントによる誤差は，股関節アライメントによる誤差よりも小さく，これは，セクション5.2で説明したアライメントの後でも，股関節の位置にオフセットがあることを示唆しています．我々のSportsPoseデータセットが、より速く、より過激な人間の動きに対してより良く一般化する3D人間の姿勢推定手法の研究を進め、手法の開発に役立つことを願っています。