「読み合い」の構造理解へ導く強化学習とゲーム理論とは?サッカーデータ分析が踏み込むAI活用の未来(後編)
フットボリスタ編集部も協力した、2025シーズンのJリーグをスタッツとともに振り返るレポート『J STATS REPORT 2025』が注目を集めたように、ますますファン・サポーターやサッカー関係者にとって、身近な存在となりつつあるサッカーデータ分析。あらためてその現在と未来を、サッカーのプレー評価やスポーツに関わるAI技術を研究する名古屋大学の藤井慶輔氏に、前中後編の全3回に分けて読み解いてもらった。後編では強化学習を手がかりに「もし別の選択をしていたら?」という反実仮想の提案へ、最新の知見をまじえながら踏み込んでいく。
ボールが足下に届くコンマ数秒前、勝負はすでに決まっている。バルセロナのペドリやチェルシーのコール・パーマーが中盤でパスを呼び込む時、対峙するDFは彼らの動きから「次の展開」を予測し、最適解と思われるコースを消そうと動く。だが、彼らのファーストタッチはその予測をあざ笑うかのように裏切る。DFが「奪える」と確信して重心を傾けた瞬間、ボールはDFの予期せぬ方向に動き、逆を突く。すると、それまで閉塞していた局面が一変する。切られていたパスコースが見え、本来ならば存在しなかったはずの「時間」と「スペース」が創出される。彼らにとってこのワンプレーが、ピッチ上の均衡を崩すトリガーとなり、相手の脳内にあるビジョンを書き換え、自分たちに有利な新たな選択肢を増やす。
この瞬間を、私たちはしばしば結果から語ってしまう。「今のは逆を取られた」「重心が動いたから前を向かれた」「あそこで時間とスペースを与えた」と。だが本当は、DFが「奪える」と確信して重心を預けるその一歩も、受け手がファーストタッチで相手の予測を外すその選択も、互いの次の一手を見越した意思決定であり、そこから先の22人の配置とリスク配分を連鎖的に書き換えるスイッチになっている。この後編で扱いたいのは、まさにこの「読み合い」の構造だ。サッカーを単なる反応の積み重ねではなく、意図がぶつかり合う相互作用のシステムとして捉え直せないか――強化学習とゲーム理論を手がかりにすると、あのコンマ数秒の勝負を、データで扱うための入口が見えてくる。
前編では、サッカーにおけるデータ活用の裾野を広げる話をした。中編では、予測モデルやスペース評価を通じて「起こらなかった展開」も比較できることを確認した。ここまでで、分析はかなり未来へ踏み込めるようになった。しかし、反実仮想を本当に使える形にするには、もう一段必要になる。「別の選択をしていたら」を考える時、相手がそのまま黙っていてくれる世界は存在しない。こちらが裏を狙えば、相手はラインを下げるかもしれない。相手もこちらも、互いの反応を織り込んで選ぶ。つまり、反実仮想の中心には「選手が何を見て、何を狙って、どう選ぶか」がある。ここが曖昧なままだと、反実仮想は「映像の言い換え」にとどまる。そこで、後編は評価指標そのものより、選手を意思決定主体として扱う枠組みに焦点を当てる。特に、著者の井出らが2025年度スポーツデータサイエンスコンペティションのサッカー部門で最優秀賞を獲得した、動学ゲーム理論を導入した研究[1]を中心に紹介する。
「その瞬間の選択肢」を同時に並べられる強化学習とその限界
サッカー分析で最も普及した考え方は、ゴールに近い事象ほど説明しやすい、というものだ。シュートの価値、パスの価値、あるいは得点期待に基づく一連の貢献の配分。これらは「結果」と結びつくため、議論が早く、現場にも届きやすい。一方で、試合の大半は、ボールに触らない時間でできている。相手の視野を遮る位置取り、縦パスを消す角度、味方を生かすための囮、次の一手を誘うための「わざと空ける」スペースなど。ここに駆け引きがあるのに、結果から逆算する評価は、どうしてもこの領域をブラックボックスにしがちである。冒頭の「最終ラインの一歩」も同じである。上げたか下げたかは位置として観測できるが、意図は観測できない。だが、サッカーの面白さはまさにその意図にある。だからこそ、位置データを「単なる位置」として扱うだけでは足りない。位置の背後にある相互の予測、つまり関係性をモデルに入れたくなる。
強化学習を一言で言えば、「報酬を得るために行動するエージェント」を学習させる枠組みだ。サッカーに持ち込むと、選手がエージェントになり、状態が配置になり、行動がパスや移動になり、報酬が得点や失点(あるいはその過程における中間目標)になる。この枠組みの利点は明快である。冒頭の場面で、裏へ出す、足下につける、運ぶ、やり直す。こうした選択肢を「同じ単位」で比較できる。ある状態である行動を選ぶ価値、つまりその選択がどれくらい利益があるかを数値として示せるからだ。実装上は、サッカーそのものの連続的な自由度をそのまま扱うのは難しい。そこで、まずは行動空間を離散化して「テレビゲームのように」扱うことが有効である[2-5]。例えば移動を8方向に区切り、そこにパスやシュートといったボールアクションを加える(下図)。すると、ある瞬間に「この8方向のどれへ動くのが得か」「誰へパスすると得か」を並べて見られるようになる。ここまで聞くと、強化学習はサッカーの意思決定をそのまま扱えそうに思える。だが、話はそう簡単ではない。

サッカーは22人が同時に動く。そこで最も自然に見える発想が、各選手がそれぞれ学ぶ「独立強化学習」である。自分の視野に入る配置を状態として、自分の行動を選び、得点や失点に基づいて価値を更新する。直感的には分かりやすい。しかし、冒頭の一歩を思い出すと、問題が見えてくる。相手が「意図を持って」動くことが重要なのに、独立強化学習では、相手は基本的に「環境の一部」になる。もちろん、位置関係への反応は学習できる。だが、意思決定の相互依存性、つまり「相手もこちらを読んで動く」という構造は、原理的に表現することが難しい。結果として起きるのは、モデルの出力と戦術的な意味の不整合だ。FWが右へ動けば、DFはついていく。空いた左へ切り返せば、DFも方向転換する。これを繰り返す。予測も駆け引きもなく、単なる「位置合わせ」に終始しやすくなる可能性が高い。こうした実際とのズレは、モデルが悪いというより、「相互に読み合うゲーム」を、読み合わない世界として学んだことから生じる。そのため、相手も意思決定主体として扱う、という方向に進みたくなる。
サッカーを「意図の相互作用」として再定義するゲーム理論
そこで今回紹介するのは、著者の井出らによる、動学ゲーム理論を導入した研究[1]である。ゲーム理論という言葉は身構えさせるが、ここで押さえるべき要点はシンプルだ。相手もまた、自分にとって都合の良い展開を引き寄せるために動いている。この前提を置くだけで、冒頭の「コンマ数秒の勝負」の見え方が変わる。ペドリやパーマーがパスを呼び込む瞬間、DFは彼らの体の向きや重心移動から「次に起きる展開」を予測し、最適だと思うコースを消しにいく。つまりDFの動きは、単なる反応ではなく、こちらの選択肢を減らすための先回りである。だが受け手は、その予測が成立する前提をファーストタッチで崩しにいく。DFが「奪える」と確信して重心を預けた瞬間に逆を突き、相手の想定していた未来を無効化することで、閉じていたパスコースを開き、時間とスペースを新たに作り出す。ここで起きているのは、配置の優劣だけではない。互いが互いの予測を読み、その読みを外しにいく相互予測の力学である。動学ゲーム理論は、この力学を「相手の反応込み」で扱うための言語として役に立つ。
……
Profile
藤井 慶輔
名古屋大学大学院情報学研究科 准教授。主にスポーツ科学と機械学習の研究に従事し、両領域での論文や受賞多数。2025年、令和7年度文部科学大臣表彰 若手科学者賞を受賞し、著書 Machine Learning in Sportsが発刊。京都大学にて博士号取得後(人間・環境学)、理化学研究所革新知能統合研究センター研究員などを経て、現在に至る。【X: https://x.com/keisuke_fj】【note: https://note.com/keisuke_fj】【HP:https://sites.google.com/view/keisuke198619jp】
