Thinking the GOAT: Imitating Tennis Styles

どんなもの？

テニスプレイヤーの戦略とスタイルに焦点を当て、彼らのテクニックを模倣することで自分自身のテニスゲームを改善する方法について探求しています。

先行研究と比べてどこがすごい?

Harkeyeのトラッキングデータを使用し、言語モデリングに影響を受けた現代の深層学習技術を応用して、プレイヤーの模倣に取り組んでいます。このアプローチは、多くの他のスポーツにも適用可能である可能性があります。

技術や手法のキモはどこ？

トラッキングデータから有用な情報を抽出するための効果的なデータエンジニアリングと、生成モデリングと言語モデリングから設計要素を組み合わせることで、テニスで模倣学習を行う強力なフレームワークが提案されています。

どうやって有効だと検証した？

テニスの試合から得られたトラッキングデータを使用して実験が行われました。具体的には、プレイヤーの動きやボールの軌跡などが記録されました。このデータを使用して、生成モデリングと言語モデリングから設計要素を組み合わせることで、テニスで模倣学習を行う強力なフレームワークが提案されました。

評価指標？

この研究では、提案されたフレームワークの有効性を評価するために、30％のデータを評価用に保持しました。この評価用データは、各プレイヤーが競技した最終ラリーから形成され、少なくとも300のデータポイントで評価されました。

議論はある？

このアプローチが他のスポーツにも適用可能であることや、より高度なモデリング技術を使用することで、より高度な洞察力が得られる可能性がある

次に読むべき論文は？

https://arxiv.org/abs/1901.05123

Memory augmented deep generative models for forecasting the next shot location in tennis
The thin edge of the wedge: Accurately predicting shot outcomes in tennis using style and context priors

Memo

Intro

アンフォーストエラーは、通常、コートラインの外側でバウンドしたり、ネットに落ちたりするため、代替ショットの可能性を特定することが困難です。私たちのアプローチは、ショットのパラメータに関する分布を作成し、プレーヤーの意図を明らかにする。さらに、選手の個々のスタイルを尊重し、それをアルゴリズムに組み込んでいます。
しかし、スタイルのニュアンスは、選手を記述するためのはるかに表現力のある方法が必要であることを意味します。
本論文では、選手のスタイルを潜在的な埋め込みとして表現し、予測モデルと共同で学習する。我々のスタイル学習方法は、効率的で拡張性があり、独自の評価を行う価値がある。図1では、我々のモデルによって生成された予測値の概要を視覚的に示している。

2.1. データ

データ収集技術、すなわちHawk-Eye（Owens, Harris et al. 2003）の改善により、データの質と粒度が向上し、ますますニュアンスのある知識発見が可能になりました（Wei, Lucey et al. 2013, Wei, Lucey et al. 2015, Wei, Lucey et al. 2016, Kovalchik, Ingram et al. 2020）。各名指しされた選手が少なくとも500ショットを打った2020年のHawkEyeデータを使用する。2020年の全仏オープン大会のデータを使用する。

プロテニストーナメントの進行は（一部の例外を除き）試合の結果によって決定され、試合に勝った選手のみが次のラウンドに進むため、さらにラウンドに進む選手はより多くのデータサンプルを持つことになる。そこで、最も多くのデータを持つ5人の選手を選び、表1にその詳細を示す。この5人の選手のデータの30%を評価用として保有し、1人あたり少なくとも300データポイントの評価を確保する。300の評価ショットは、時間的順序が維持されるように、選手が出場した各試合の最終ラリーから形成されている。

Hawk-Eyeシステムは、3D空間におけるテニスボールの位置を座標として、選手の位置を時間tの関数として取得します。速度や加速度などの変位から得られる指標を計算することができ、ショットタイプ、スコア、ショットカウント、選手の識別コードなどの追加情報も含まれます。

すべてのラリーを構成するショットは、入射・出射ショットのペア、𝑿 = {𝒙 , ᵈ }𝑛𝑛∈ [1 ... ,𝒙] にソートされ、N組のデータセットとなる。これは、POI によってヒットしたサーブのような「プロンプトのない」ショットを除外する。生データは，インパクト時，ボールがネットを越えた時，ショットの終了時（バウンド時，または相手がボレーを打った場合は相手のヒット時）の情報を抽出するためにサブサンプリングする．ボールと選手の位置から、速度と角度を導きます。選手については、現在のラリーにおける各選手の横方向と縦方向の移動距離、得点、ショットの種類（8つの値のいずれかを取り得る離散変数）などの追加指標を計算することができる：

トップスピン/フラットフォアハンド
フォアハンドボレー
フォアハンドスライス
トップスピン／フラットバックハンド
バックハンドボレー
バックハンドスライス
オーバーヘッド(スマッシュ)
サーブする。

このデータを組み合わせて、入ってくるショットの状態ベクトル𝒙とそのペアᵈは、出ていくショットの主要な特徴を記述する同様の情報からなり、プレーヤー情報や他の非ボール関連パラメータは除外されます。入射特徴ベクトルの図解を図2に表示する。

2.2. 模倣学習の導入

模倣学習（IL）は、ロボット工学において、実演から制御方針を学習するために広く用いられている（Argall, 2009, Arulkumaran 2021）。ILの主要な基礎的前提は、深層学習モデルを訓練してエキスパートのように振る舞うために使用できる（主に）エキスパートの軌跡の存在である。

最も単純な手法は、低次元でより単純なタスクに適した行動クローニング（BC）（Pomerleau 1988）を用いた完全教師ありの学習アプローチである。しかし、BCは、より長い時間スパンでの高次元のタスクにうまく一般化できないことが多く、時間とともにエラーが蓄積し、致命的な失敗につながる可能性がある。

より堅牢なIL法には、距離ベースのアプローチ（Li et al. 2015）や敵対的手法（Ho et al. 2016, Fu et al. 2017, Ghasemipour et al. 状態空間が高次元かつ連続的であり、行動がルールや制限に左右される（シングルス）テニスのようなゲームでは、詳細な戦略を手動で記述することは困難である場合があります。

位置、速度、加速度を記述し、これらを用いて実行可能な戦略を構築することは、暗黙のうちに学習した知識を凝縮された知識と組み合わせて適用する必要があるため、法外に時間がかかるのです。

図3は、Rafael Nadalがアドコート側からフォアハンドを打ったとき、ボールがサービスラインの後ろでバウンドしたときの速度と角度の限界分布を示したもので、この課題の範囲を示しています。人間が膨大で多様なデータをフィルタリングして使いこなすには、膨大な時間が必要であり、それでも重要な文脈情報を見逃してしまう可能性があります。大量の複雑なデータを吸収し、階層的な表現を学習することは、機械学習アルゴリズムに適したタスクです。観測データセットから模倣するようコンピュータに教えることは、自動的なパターン発見のための強力なツールとなり得る。また、適切に記述されたデータで深層学習モデルを訓練することで、工学的な労力を大幅に節約しながら、うまく一般化できる。

図3：Rafael Nadalの速度と角度のマージナル分布。これらの密度は、サービスラインの後ろのアドコート側でバウンドするショットに対する反応から形成されており、Nadalはトップスピンのバックハンドで反応する。

2.3. プレイヤースタイルの学習

プレイヤーの行動を真似るには、プレイヤーのスタイルを深く理解し、スタイルの状況的な変化や、異なる相手に対してどのようにスタイルが変化するかを考慮する必要があります。(Wei, Lucey et al. 2016)は同様の議論を提示し、辞書学習を使用してプレーヤーのスタイルプリアを計算し、ラリーが進むにつれてPOIがポイントを獲得する確率の計算を進めています。(Fernando, Denman et al. 2019）は、アウトゴーイングショットに対してバウンス位置を決定論的に予測し、各プレイヤーに対して個々のネットワークを適応させ、N個のユニークなプレイヤーに対してN個のネットワークを必要とする。私たちのアプローチは、深層学習ベースの言語モデリング（LM）のアイデアを採用した、斬新で効率的、かつ表現力のあるものです。

現代の言語モデリングは、様々な言語タスクで広範囲に使用されているトランスフォーマー（Vaswani et al.2017）に支配されています。学習可能な潜在的な単語の埋め込みは、トランスフォーマーが示す性能と密接に関連しています。このような埋め込みでは、各単語は埋め込みリストのインデックスに対応します。各埋め込みは、適切な学習アルゴリズムによって更新され、単語の高次元の定量的表現を表現することができる。データセットの各選手には、1つの埋め込みに対応するインデックスが割り当てられています。この埋め込みは、その選手を含むデータに対してモデルを学習させたときに更新される。その結果、このアプローチは拡張性があり、より多くの選手を簡単に含めることができ、すべての選手をモデル化する1つのニューラルネットワークを訓練する必要があるため、効率的です。データセットを複数の異なる選手の「ポリシー」から構成されると解釈し、どの選手とポリシーが現在使用されているかをモデルに知らせることで、すべての選手に対して共同で選手適応を実行する。

2.4. 模倣モデル

マルコフ連鎖はテニスをモデル化する古典的な方法である（Kemeny, Snell et al. 1960, Klaassen and Magnus 2001）。マルコフ特性は、テニスのポイントやラリーが独立かつ同一分布であると仮定しており、テニスはマルコフ決定過程（MDP）としてモデル化することができる。データセットは可変長の軌道ξ = {τ1, τ2, ... , τN}, 𝑖 = {𝑠0, ... , 𝑎𝑡 , 𝑎 } からなる。∀ここで、各軌跡Ű𝑖は状態-動作（incomingoutgoing shotと使い分けられる）ペアのシーケンスで構成される。テニスのMDPモデルでは、マルコフ特性のもと、個々の状態-行動ペアについてモデルを訓練することができ、時間的な考慮がもたらす追加の複雑さを取り入れる必要はない。

Behavioural Cloning (BC) (Pomerleau 1988)は、完全に教師された目的を使用するILの一般的に使用される方法です - これはBCを簡単なアプローチにしますが、長い時間スパンでの高次元で複雑な分布（図3参照）をモデル化すると脆いことがあります。GAIL (Ho et al. 2016)は、占有率測定にマッチしながらエントロピーを最大化する敵対的アプローチを提案し、Generative Adversarial Model (GAN) (Goodfellow et al. 2020, Mirza and Osindero 2014) フレームワークを採用する。

我々の生成器Űは、ランダムノイズ𝒛をアクション𝒂̂にマッピングすることでポリシーを学習する。識別器Dはデータセットの状態-行動対で学習され、データセットからの政策𝜋∗とᵰが生成した政策を区別することを任務とする。これはミニマックス6ゲームであり、生成された分布と実際の分布の間のJensen-Shannon divergenceが最小化されたときに平衡に達する。

我々は、GAILのより安定したLSGAN（Mao et al. 2017）目的とともに、生成器と識別器にReLU活性化を持つ2つの隠れ層と256の隠れ単位を持つニューラルネットワークを使用します：

私たちのモデルは、以下の特性を提供します：

専門家の占有率測定と一致する
専門家の方針からの逸脱をペナルティーとして課す
エントロピーの最大化
行動に関するマルチモーダルな分布を学習する。

GAILの最大エントロピー特性は、オーバーフィッティングを防ぐため、特に望ましいものであり、探索を促す強化学習（Williams and Peng 1991）で用いられる古典的手法である。

4つ目の特性は、テニスプレーヤーのモデル化において特に魅力的である。例えば、デュースコートでフォアハンド側のショットを受けるとき、プレーヤーはしばしば、ラインを下るかクロスコートに行くかの選択をすることができる。良い模倣モデルは、すべての可能な結果を考慮する必要があります。

2.5. Incorporating Historical Context

言語モデリングへの最近のアプローチでは、（静的な）データベースから追加の外部情報を取り込むことで生成品質に利点があることが実証されている（Borgeaud et al. 2021）。このアイデアを模倣モデルに拡張することができる。POIに対する現在の着信ショットを考慮し、POIの過去の集会で類似のものを検索し、追加の歴史的文脈のために過去の応答を含めることは簡単である。

応答はL2-距離のような適切な尺度でマッチングされ、ᜋ̂の入力に含まれることができます。歴史的文脈に含まれるサンプルの最小類似度は閾値で指定され、そのようなサンプルを最大K個選択します。このサンプルのシーケンスは可変長である可能性があり、エンコーダとして双方向変換モデルを使用して、これを固定サイズの歴史的コンテキストベクトルにエンコードします（Devlin et al. 2018）。

2.6. Model Overview 図4は、前節で説明した技術を組み合わせた我々のモデリング手法の視覚的な概要を示している。歴史的背景のためにK個の過去ショットを特定することは、データの読み込みステップで実行され、モデルへの追加入力として渡される。

3. Modelling Player Behaviour

データとモデルの説明が完了したら、トレーニングを開始することができます。モデルの学習手順は、GAILの学習手順を拡張したもので、歴史的な文脈と選手の埋め込みに対応するように変更されています。以下のサブセクションでは、我々のモデルが生み出す様々な洞察を評価し、展示する。

3.1. グランドトゥルースとの差異

評価セットのサンプルについて，次のショットの予測値が各プレイヤーの予測値とどの程度異なるかを定量化することができます．バウンス位置のカルテシアン誤差（図5左）とスピードのRMSEを計算します。どちらの性能指標も、真の予測値の組み合わせから得られるので、より解釈しやすくなっています。全選手を平均すると、バウンド位置の誤差は0.85メートルとなります。文脈上、ほぼ同じ状態から打つショットのばらつきや、最大エントロピーの目的を考慮する必要があるため、これは高い精度のレベルです。比較のために（Wei, Lucey et al. 2013）は平均バウンス位置の誤差を1.89メートル、（Fernando, Denman et al. 2019）は平均誤差を0.93メートルと報告しています。

発信ショットの速度はかなりのばらつきがあり、我々のモデルは毎秒2.1メートル、または毎時約4.8マイルの誤差を達成しました。なお、今回報告した偏差は、エラーとなったショットを含む、すべてのショットの誤差を含んでいます。図5のエラーショットと非エラーショットの偏差の分布で、このことをより詳しく知ることができます。

3.2.Interpreting Player Style Embeddings

我々のモデルは，トレーニング中に予測モデルとともに各プレーヤーの潜在的な表現をエンドツーエンドで学習する．10人の選手（うち5人は評価選手セットの一部）の埋め込みについてコサイン類似度を計算し、図6にヒートマップをプロットしています。例えば，ThiemとWawrinkaは似たようなスタイルで，ThiemとNadalは全く異なるスタイルでプレーしているなど，興味深いパターンが見られる．

WawrinkaとThiemのスタイルが似ていることは、注目されています2。両選手とも、強い片手バックハンドと攻撃的なベースライン・プレーが評価されています。一方、ワウリンカとナダルは全く異なるスタイルで、ワウリンカは短いベースラインのラリーを好むのに対し、ナダルはコート上で相手を長引かせることに余念がありません。

現在、類似性の比較には注意点があります。データセットサイズと選手数が比較的小さいため、選手埋め込みにおける特徴はほぼ直交すると予想されます。サンプル数と選手数を増やしてトレーニングすることで、信頼性の高い類似性分析のための、より有益なデータドリブンな洞察を得られる可能性があります。

図6の全選手の選手埋込みのt-SNE削減は、選手の明確なグループ分けを形成しているように見えます。このt-SNEプロットは、トレーニングデータセットに含まれるすべての選手を含み、対戦相手としてしか存在しない選手も含んでいます。このプロットは、より多くの選手（おそらくWTA選手も含む）をモデル化することで、よりニュアンスのあるデータ駆動型のスタイル表現を導き出すことができることを示唆している。

継続的な学習は、より多くのデータが利用可能になったときにモデルを更新するために使用することができます。更新前と更新後の選手の埋め込みを検査することで、スタイルドリフト（選手のスタイルの経時変化）を明らかにすることができます。このドリフトを分析することで、選手のスタイルがキャリアを通じて同世代の選手と比較してどのように進化してきたかを示すことができます。

3.3. Comparing Responses for POIs

生成モデルŰ̂は、ランダムな潜在ベクトルを等方性ガウスから、履歴、状態、プレイヤーの埋め込みに条件付けられた分布にマップします。このような定式化は、あるPOIの埋め込みを他のプレーヤーの埋め込みと「交換」するように操作することができ、その後MCMCを用いて他の要素を一定に保ちながら事後パラメータの分布を推定することができる。図7では、POIの交換の効果を説明するために、バウンス位置のみの分布をプロットしています。左端のプロットでは、DimitrovとDjokovicのショットメイキングにおける重要な違いが見られます。Djokovicは攻撃的なバックハンドをクロスコートで打つ傾向が強いのに対し、Dimitrovのプレースタイルははるかに保守的で、これは両者の埋め込みの類似性の違いに反映されています。中央のプロットでは、ジョコビッチがディミトロフよりもはるかに攻撃的なダウンザラインのショットをバックハンドで打つ可能性が高く、一番右では、チチパスとシュワルツマンがそれぞれの攻撃スタイルにふさわしい似た場所に打っていることから、これが繰り返されています。

3.4. 対戦相手が異なる場合の対応比較

POIの交換と同様の手順で、対戦相手を交換することで、異なる相手と対戦したときにPOIがどのように異なる反応を示すかを理解することができます。図 8 に対戦相手の入れ替えの例を示します。一番左のプロットでは、ナダルをPOIとした場合、ディミトロフと比較してジョコビッチに対してはるかに攻撃的なプレーが見られ、ナダルは相手のバックハンド、特に片手バックハンドの右利きプレイヤーのバックハンドを攻撃するというよく知られた戦術に戻る可能性がはるかに高くなっている。中央のプロットでも同様のパターンが見られ、POIのディミトロフは、長身のメドベージェフよりもシュワルツマンのバックハンドに打つ可能性が高いことがわかります。一番右のプロットでは、ツィツィパスはジョコビッチのバックハンド側を攻撃する可能性が高く、ナダルのフォアハンドは積極的に避けようとしていることがわかります。

3.5.Understanding Unforced Errors

アンフォーストエラーになったショットについては，MCMCサンプリングを用いてショットパラメータの分布を作成し，観測されたグランドトゥルースと比較することができる．図9では，Djokovicのエラーについて，地上真実のバウンスエラー位置と予測バウンス位置密度，地上真実の速度と速度に対する分布を上面図として示しています．

この図では、予測されるバウンド位置の分布は、グランドトゥルースに近く、POIがどこに打とうとしていたのか、また、その実行ミスがどの程度結果を変えたのかについて、さらなる洞察を得ることができます。ボールスピードの分布を見ると、ショットの目的に関する情報が補足されます。

左端のプロットは、ジョコビッチがこのタイプのインカミングショットで通常行うよりも速いスピードでボールを打ったことを示唆しており、おそらくボールが長く着弾した一因であったと考えられます。選手の位置関係から、ジョコビッチがトレードマークのダウン・ザ・ラインのバックハンドで打つラリーボールが、この例ではロングボールになったことが推測されます。中央のプロットは、ジョコビッチがダウン・ザ・ラインのフォアハンドで同じミスを犯している。一番右のプロットでは、ジョコビッチはボールをネットに打ち込んでいますが、これは典型的な低すぎるプレースメントを示唆しています。また、ジョコビッチは同じような場面で通常より速いショットを打っており、このミスの一因となっている可能性があることがわかります。

発信ショットのパラメータは、インフォシスのテニスプラットフォーム3など、より視覚的に分かりやすい設定で表示することができます。これにより、POIが自分のスタイルで現在の状態の文脈でショットを打つときの意図をより深く理解することができる。

3.6. Bucking the Trend: Deviation from Routine Behaviour

私たちの模倣モデルは、POIが示す典型的な行動を辞書化したものです。その結果、私たちはこのモデルを使って、プレイヤーがいつ、どのくらい典型的な反応から逸脱しているかを見つけることができます。図10では、プレイヤーの真の反応が期待される反応から大きく外れている場合の例を示しています。バウンス位置分布の高密度領域は、POIが通常そこにショットを置くことを示唆しているが、彼らの真の反応は、あり得ない落とし穴にある。さらに、これらのショットは、いずれもバウンドが相手の位置に近かったり、ボールが短く着地したりと、配置が悪い。このように、POIが積極的にプレーしないことで、相手にポイントを支配され、ラリーで勝利するターニングポイントを示すことがあります。逆に、典型的なディフェンシブな状況でPOIが打ったアグレッシブなショットが、ラリーの流れを変えることもあるのです。ここで重要なのは、最適でない配置を特定することが、試合後の分析に重要であるということです。私たちのモデルは、「ありそうでなかった」ショットを見つけるために使用することができ、ポイント結果と組み合わせることで、戦略分析を改善することができます。

3.7. Varying Response with Score

ポリシーの状態ベクトルには現在のスコアが含まれており、スコアを変更することで、他の要素を一定にしたままスコアだけを変更した場合にプレイヤーのプレイがどのように変化するかを調べることができます。図11〜13に、このようなスコア変化による反応マップをいくつかプロットする。図11では、ジョコビッチがスピードをほとんど変えないまま、ボールの置き方を変えているのがわかる。図12では、ジョコビッチの配置はどのスコアでもほぼ同じだが、40-0でアウトサイドのボールのスピードが上がっている。最後に、図13では、40-40と0-40ではジョコビッチの配置とスピードはあまり変わりませんが、0-0では全体的にスピードが速く感じられ、配置が変化しているのがわかります、