ゲーム理論とナッシュ均衡

ゲーム理論とナッシュ均衡

ゲーム理論とは複数人の間で行われる意思決定を数学的モデルを用いて問題として分析するもので、数学者であるフォン・ノイマンと経済学者のオスカー・モルゲンシュテルンによって生み出されました。ポーカーは意思決定が重要な非協力ゲーム なので、さまざまなシチュエーションをゲーム理論を用いて説明・分析できます。

中でも、ジョン・ナッシュの論文から生まれた「ナッシュ均衡 (opens in a new tab)」という概念はポーカーのさまざまな方面で登場します。ここではポーカーの勉強に必要な知識としてのナッシュ均衡について学んでいきます。

ゲームツリー

プレイヤーの取りうるアクションを場合分けし枝分かれしていくことを木構造で表現できます。これを ゲームツリー(ゲーム木)と呼びます。

これらすべての分岐で適切な行動とその行動の適切な頻度があります。しかしこれを人間の脳でプレイ中に計算するのは事実上不可能で、ソルバーと呼ばれるコンピューターソフトを使ってもベットサイズの選択肢を絞るなどした上で数時間の計算時間が必要になります。

戦略

ナッシュ均衡ではたびたび「戦略」という言葉を使います。これはこの言葉の一般的な定義とほぼ同じで、とくに常に同じ指針に基づいて行動をとるときの「指針」のことを指します。例として以下のような戦略があります。

  • 常にポットの 50%をベットする
  • 常にコールする
  • 50%の割合でコールし、50%の割合でフォールドする
  • 6-max 100BB Effective のプリフロップでは UTG から 77o+, 22o+, A3s+, AKo, K7s+, KJo+, Q9s+, QJo+, J9s+, T9s, 87s, 76s, 65s, 54s でオープンし、HJ から 66o+, 22o+, A2s+, ATo+, K6s+, KTo+, Q8s+, QTo+, J9s+, T9s+, T8s, 98s, 87s, 76s, 65s, 54s でオープンし...

これらはすべて戦略であり、戦略に基づいたプレイとは同じシチュエーションでは同じ指針に基づいた行動をするということです。ゲームツリーを使って説明するなら、 ゲームツリーのどの経路を通るか予め決めておく ということです。

このうち、常に(=100%の割合で)ある行動をとる戦略を 純粋戦略 と言います。対して、複数の行動を一定の割合ずつとる戦略を 混合戦略 と言います。

最適反応

ある戦略からそれ以上変更する誘因を持たない時の戦略を 最適反応 と言います。たとえば、じゃんけんで相手がグーとパーしか出してこないことがわかっている時、パーを出し続ければ負けることはありません。この「パーを 100%の割合で出す」という戦略が最適反応と呼べます。

ナッシュ均衡

誰も戦略を変更する誘因を持たない状況、つまりプレイヤー誰もが自分の戦略を変えることで自身の利益の期待値を下げてしまうとき、それは互いの戦略が均衡している状態であり、これを ナッシュ均衡 と呼びます。すべてのプレイヤーの戦略が最適反応であるとき、それは均衡していることになります。

均衡戦略

じゃんけんでのナッシュ均衡解はすべてのプレイヤーがグー・チョキ・パーを同じ 13\frac13 の割合で出すことです。 この割合を崩してしまい「12\frac12 の割合でグー、14\frac14 でチョキ、14\frac14 でパーを出す」という戦略にしてしまうと、他のプレイヤーが「100%の割合でパーを出す」という戦略を取ることで負け越してしまいます。

ナッシュ均衡状態における戦略を 均衡戦略 と呼びます。均衡戦略はカウンターとなる最適反応のない 戦略で、相手がどんな戦略をとっても無差別となります。じゃんけんの例の場合、グー・チョキ・パーをそれぞれ13\frac13の割合ずつで出していれば、相手が「常にグー」「12\frac12の割合でパー、12\frac12の割合でチョキ」といったどんな戦略を取ったとしても期待勝率が変わりません。

純粋戦略での均衡戦略が見つからない時、複数の純粋戦略を一定の頻度ずつ行うことが自身の最適反応になることがあります。ポーカーにはベットサイズやアクションの頻度などほぼ無数の選択肢があり、ほとんどのケースにおいて均衡戦略は混合戦略になります。

均衡戦略をどう活用するか

均衡戦略は相手の戦略を無差別にするので、次のような状況を作り出すことができます。

  • ナッツハンドを含むこちらのハンドレンジからの均衡戦略をとっているベットに対して、相手は何もできずにチップを失い続ける。
  • 相手のブラフ頻度を無差別にする均衡戦略をとることで、相手がどんなブラフ頻度でベットしていたとしても関係なくブラフに対抗できる。
  • 均衡戦略から相手の戦略がどれだけずれているのか測ることで、こちらも逆方向に戦略をずらすことでエクスプロイトできる。

語弊を恐れず言ってしまえば、 均衡戦略は各シチュエーションにおける正解 です。均衡戦略でない戦略にはカウンターとなる最適反応があり、言い換えるとエクスプロイト戦略が存在するということです。均衡戦略は最強の戦略でもなんでもありません。テーブルのすべてのプレイヤーが均衡戦略に沿ってプレイすると期待値はブレークイーブンとなります。ですが、均衡戦略をとっていない (=プレイングミスのある) 相手プレイヤーからどのようにエクスプロイトするか考えるときのベースの戦略となります。