OBSO：Beyond Expected Goals

どういう論文？

ゴールにつながる可能性のあるシュートに先立つ，オフザボールのポジションの質を評価する指標の提案
提案手法では、時空間的な選手追跡データを用いて、オフザボールにおける得点機会（OBSO）を定量化しする、確率的な物理ベースのモデルを構築している。
モデルは3つのキーとなる方法にて活用することが出来る

1) 試合中の重要なチャンスを特定し分析
2) 特定の選手やチームがオフボールの得点チャンスを作りやすいピッチの領域を強調することで対戦相手の分析を支援
3) リーグ全体からオフボールの得点チャンスを作ることに最も長けている選手を見つけることでタレントを自動識別

モデルの入力に使用するデータは？

イベントデータとトラッキングデータ
イベントデータは試合中に発生したインプレー中のボールアクションにて構成される。
以下の情報が含まれる。

イベントが発生した試合時間
オンボールのプレイヤー
イベントの種類（パス、シュート）

データの前処理

1) トラッキングデータのスムージング

最小二乗平滑化
ホームチームが左から右に攻撃するように回転

2) ナイーブデータのシンクロナイゼーション

実験結果は？

次に読みたい論文は？

ゴール期待値

[1] S. Green, "Assessing The Performance of Premier League Goalscorers," 12Apr 2012. [Online].Available: http://www.optasportspro.com/about/optaproblog/posts/2012/blog-assessing-the-performance-of-premier-league-goalscorers/. [Accessed4Dec2017].

シュート以外のイベントを活用した、ゴール期待値

[2] W. Gurpinar-Morgan, "Valuing Possession," 25 Aug 2015. [Online]. Available: https://2plus2equals11.com/2015/08/25/valuing-possession/. [Accessed4 Dec 2017].

[3]D. Altman, "OptaPro Forum: Beyond Shots," 9 Mar 2015. [Online]. Available: http://www.optasportspro.com/about/optapro-blog/posts/2015/film-optaproforum-beyond-shots/. [Accessed 4 Dec 2017].

[4]J. Boice, "How Our Soccer Club Projections Work," 19Jan 2017. [Online]. Available: https://fivethirtyeight.com/features/how-our-club-soccer-projections-work/. [Accessed 4 Dec 2017].

~~[5]W. Spearman, P. Pop, A. Basye, R. Hotovy and G. Dick, "Physics-Based Modeling of Pass Probabilities in Soccer," in MIT Sloan Sports Analytics Conference, Boston, 2017.~~

[]

論文メモ

イントロ

サッカーは他の多くのスポーツと比較して、得点することが稀な現象である。　このため、試合中のチームのパフォーマンスを示す代用として、様々な統計が用いられている。
シュート数、クロス数、パス数など、単純な数の統計がチームのパフォーマンスを判断するのに使われています。 2012年、Sam Greenによって、シュートが得点に結びつく確率を定量化するための新しい指標、期待ゴール（expectated goals）[1]が開発されました。
また，あるプレーの連続が得点につながる可能性を定量化するために，シュート以外の事象を利用した様々な非シュート期待ゴール拡張（[2] [3] [4]）が提案されています．
時空間トラッキングデータの普及に伴い、得点の確率を測定するエキサイティングな新しい方法がPatrick Luceyら[5]、Daniel Linkら[6]などによって開発されました。

5]の研究では，シュート前の10秒間のプレーの戦略的特徴を用いて，シュートが得点につながる確率を定量化している．
[6]で導入された危険度メトリックは，ディフェンスの圧力やゴール前の主要領域におけるアタッカーとディフェンダーの数などの重要な要素を明示的にモデル化し，シナリオによってもたらされる得点の危険性を定量化する革新的なヒューリスティックを示している．

この論文では、現在ボールを持っていない選手が得点する確率を、瞬時のゲーム状態のみに基づいて表現するモデルの構築を試みる。 私たちはこれをオフボール・スコアリング・オポチュニティ（OBSO）と呼んでいます1。私たちのアプローチについて、強調したい3つの側面があります。- オフB

2.3データの再現性について

時空間トラッキングとイベントデータのプロバイダーによって異なる可能性のあるデータの不正確さの影響を最小化するようにモデリングが決定されています。
オンボールイベントはどのプレーヤーが現在ボールに触れているかを識別するために使用されるため、ボールデータは必要ありません。必要な最低限のイベントデータは

1) イベントが発生した時間
2) イベント中に誰がボールに触れたか
3) イベントがゴールなのか、シュートなのか、その他のオンボールイベントなのか

各オンボールイベントにおけるプレーヤーの位置と速度のスナップショットがあればよい
必要なデータとしては1000フレームくらいで良い

手法

攻撃側のチームが次のオンボールイベントで得点する確率を計算するためには、以下を計算

他の10人のプレーヤーそれぞれにパスが出される確率
受けたプレーヤーがシュートして得点する確率

単純化するために、この問題を次のように言い換える

攻撃チームがピッチ上の各点へのパスを成功させ、その場所から得点する確率はどの程度であるか

これは3段階のプロセスとして概念化することができる。

Transition : 次のオンボール(ボールを保持する)イベントが投球上の任意の点rで発生する確率。
Control : 点rにあるボールがパス側のチームによってコントロールされる確率．
Score : ピッチ上の点rで次のオンボールが起こると仮定して，その点から得点する確率[2]

攻撃側のチームが次のオンボールイベントで得点する総確率は、式1の総和で記述することができる。

Dはゲームの瞬間的な状態（プレイヤーの位置と速度)を表現

結合確率は以下のように一連の条件付き確率に分解できる。

3.1. Control Model: The Potential Pitch Control Field

次のオンボールイベントが点rで発生すると仮定して攻撃チームがボールをコントロールする確率の算出が難しい
そこで、新しいモデル、Potential Pitch Control Field（PPCF）を導入

[7]の概念を使用
どちらのモデルも，ボールに近接している間，プレーヤーがボールに触れる能力はポアソン点過程として扱われると仮定
他のプレイヤーに邪魔されずにボールの近くにいる時間が長ければ長いほど，プレイヤーがボールに触れることができる確率は高くなる
[7]と同様に、ピッチ上の各位置における各プレーヤーのコントロールの確率を定量化しようとする
空気抵抗を用いてボールが到着するまでの時間を計算する．
攻撃側にとって物理的に現実的な最も有利なタイミングでパスが届くと仮定し、モデルに意思決定の側面を導入しています。

モデルの詳細を検討する前に、PPCFの例示を以下の図1に示す。

Potential Pitch Control Field

時間tにおける指定位置rの各選手の制御確率を計算するために使用される微分方程式は、以下の通り:

時間tにおけるプレイヤーjが、ある時間T以内に位置rに到達出来る確率

式 2 を 0 から ∞ までの T にわたって積分することで，プレイヤーごとの制御確率を構築することができる．

結果として得られる PPCF は，ピッチ上の 2 つの空間次元と，プレイヤーの 3 つ目の次元を持つ 3 次元となる．
一般に、PPCFを可視化する場合、攻撃チームの選手について積分する。

パラメータラムダは、制御速度で単位は1/s。この値が高いほどプレイヤーがボールをコントロールできるようになるまでに必要な時間が短い

3.1.1. Time to Intercept

3.2.Transition Model

式2の最後の項は、次のオンボールの瞬間が任意の点rで発生する可能性を定量化する。
図3は、データ中の後続のオンボールイベント間の平均変位Δr = ri+1 - riのヒストグラムである。

ボールが選手との衝突（パス、ヘディング、ブロック、インターセプトなど）を通じてピッチ上を移動することを考えると、ボールの運動が2次元ブラウン運動の一形態に見え、後続イベント間の変位分布が総体として正規分布になることは理にかなっています[4]．

平均的には，後続のボールイベントに対する変位の分布は正規分布になるかもしれないが，パスの受け手の側には知的な意思決定があることが予想される．
パサーはインターセプトされる可能性が低いパスを選択する可能性が高いのです。
ある空間位置へのパスが成功する確率を記述するモデルを既に構築しているので、これらのモデルを重ね合わせ、以下の式で決定確率密度場を構築することができる。

この式において、Aは保有チームの全選手の集合を表し、αはPPCFによる決定条件付き確率の依存性をスケールするために用いられるモデルパラメータ、Nは二次元正規分布である5。式6の式はユニティに正規化されている。

3.3. Score Model

式2の最初の条件付き確率は、攻撃側チームがその場所でボールコントロールに成功したと仮定して、ある場所rから得点する可能性を表している。
モデルを単純化するために、この項ではゲーム状態Dを無視し、ゴールまでの距離のみに基づいてモデルを作成します
我々の仮定は、守備位置は他の条件付き確率モデルにおけるPPCFの使用によって代用されるということです。

イベントデータは、ゴールまでの距離を条件として、ゴールを決める確率を計算するために使われる。
図4に見られる関数従属は、ゴールからの特定の距離でオンボールイベントが与えられた場合の平均得点チャンスを表しています。

これは、固有のショット選択バイアスのため、真の分布を表さない可能性があります。

このことをデータに反映させるために、モデルパラメータβを追加し、期待される単調減少の挙動を維持しながら、上記分布の形状を変化させることができるようにします。

式7において、rgはターゲットゴールの位置、Sd(x)は図4に示されるデータ由来の関数を表す。

3.4. Combination

式2を用いて条件付き確率を組み合わせ、特定の場所での次のオンボールイベントで得点する事後確率を表す、単一の統一されたモデルを与える。
図5に、構成された条件付き確率と確率密度マップを空間的に表現した。

図5a、図5bは確率マップ、図5c、図5dは空間確率密度である
確率として解釈できるように空間的に統合する必要があることに注意されたい。

図 5d に示された機会モデルによれば，最も危険な領域はゴールの左側で，青#27 が現在占有しているがエンドラインに向かうスピードのためにコントロールできないスペースでパスを受けることができる赤#12 がいるところである．赤#9や赤#7にボールが渡れば遠目からのシュートが可能であり、右サイドの赤#27へのクロスも適切に実行されれば得点につながる可能性がある。全体として、これは高い確率で得点できるシナリオではない。次のボールタッチで得点する機会の総和は 1.1%である．

3.5.Parameter Estimation

式2で与えられた確率により、トレーニングセットの各オンボールイベントの合計尤度を次のように書くことができます。

ここで、Tはイベントのトレーニングセットを表し、kはその後のオンボールイベントがゴールk＝1か、そうでないかk＝0かを示し、θはモデルパラメータのベクトルを表します。フィッティングのため、全58ゲームから5ゲームのトレーニングゲームが予約され、残りの分析から除外されている。
訓練データのサイズが小さいことと、2.1節で述べたイベントデータの同期の問題から、各パラメータの最大事後確率（MAP）を推定するために、正規分布プリアを用いたベイズアプローチを用いている。
θを構成するモデルパラメータとそのMAPの詳細な情報は表1にある。