Categoría:
Teoría de juegos
Por Sergeon el
19Mayo 2009
En algunos post, en foros sobre poker, se comenta de refilón la teoría de juegos, pero no es algo sobre lo que los jugadores tengan un conocimiento muy claro. El libro "The mathematics of poker" habla constantemente de teoría de juegos, pero a parte de ése hay pocos libros y/o artículos de poker que hablen sobre el tema.
La teoría de juegos es básicamente el estudio matemático de los juegos de estrategia, o, dicho más técnicamente, de los entornos estratégicos. Un entorno es estratégico si las decisiones que debe tomar un agente están basadas en estimaciones y suposiciones sobre la acción que tomará nuestro oponente -o varios de ellos- en base a nuestra propia acción. Si no, el entorno es paramétrico. Así p.e. el juego de la ruleta se da en un entorno paramétrico -es decir, que en términos de teoría de juegos no es un "juego"-, mientras que el poker o el ajedrez se dan en entornos estratégicos.
La teoría de juegos se encarga de la resolución de los juegos, y no exactamente de cómo ganar a esos juegos; es decir, con herramientas de teoría de juegos puedes determinar cómo ganar -y, de paso, como ganar el máximo- contra un jugador que juega un 33% de piedra y un 66% de tijera en un juego de piedra-papel-o-tijera; pero el objetivo en sí de la teoría de juegos no es ese, sino la resolución del juego. ¿Qué es "resolver un juego"? Resolver un juego es encontrar el "par optimal". El par optimal es el conjunto de estrategias que pueden adoptar los dos jugadores, de tal manera que ninguno de los dos puede mejorar su ventaja de forma unilateral cambiando su estrategia; esa situación también es conocida como "Nash equilibrium" (en latín) o Equilibrio de Nash. P.E. en el juego de piedra-papel-o-tijera, la situación resultante de que los dos jugadores jueguen al azar una distribución equitativa de piedra, papel y tijera es un equilibrio de Nash. semejante par de estrategias se dice par optimal, y ninguno de los dos jugadores puede aumentar su ventaja cambiando su estrategia: el juego ha llegado a un punto muerto en esa situación .
Es decir, cuando se habla de estrategia óptima en teoría de juegos, esto no quiere decir necesariamente que sea la mejor estrategia. La estrategia óptima del piedra, papel o tijera, p.e, consiste en jugar al azar... y precisamente esa estrategia no puede ganar a ninguna otra estrategia posible del Roshambo (que es el nombre japonés original de ese juego) -a cambio, tampoco puede perder contra ninguna posible estrategia-.
Esto no tiene que ser así para todos los juegos, es una particularidad del piedra-papel-o-tijera: hay juegos en los que sencillamente el par optimal lleva a una situación en la que un jugador tiene ventaja absoluta; podría decirse que un juego así es esencialmente injusto: p.e. en un juego de piedra-papel-o-tijera donde el jugador A gana 1 punto cuando gana una “mano”, pero el jugador B gana 3 puntos cada vez que gana un evento... el par optimal es el mismo que en un juego tradicional, pero el jugador B tiene ventaja intrínseca.
En todo caso, voy a dar en este artículo la resolución de un pequeño juego creado ad hoc, y en una siguiente serie de artículos hablaré de la posibilidad de aplicar esa herramientas a un juego como el poker, que es mucho más complicado.
Primero de todo, volvamos al piedra, papel o tijera. Pero vamos a cambiar ligeramente las reglas del juego, de tal modo que se vuelva un piedra, papel o TIJERA, o Roshambo-T. En este juego, dos jugadores se enfrentan continuamente. Cuando uno tiene piedra y el otro papel, pues el jugador de piedra pierde un punto y el jugador de papel gana uno. Igualmente, cuando las tijeras se enfrentan contra la piedra, el jugador con tijeras pierde un punto y el jugador de piedra gana uno. PERO cuando el jugador con tijeras gana a un jugador con papel, el jugador de tijeras gana 2 puntos y el jugador de papel pierde 2 puntos. Todos los empates dan cero puntos a cada jugador.
Con esa estructura de pagos, dos cosas saltan a la vista: la primera es que estamos ante un juego de suma cero, es decir, que todos los puntos que pierde un jugador los gana otro jugador, lo cual indica que ese juego tenderá a alguna situación de equilibrio de Nash -lo que supone que un par optimal existe para ese juego, y que por tanto se puede resolver-. La otra que salta a la vista es la estrategia óptima ya no puede ser la misma que en un juego de piedra, papel y tijera convencional, puesto que si el jugador A juega 1/3 de piedra, 1/3 de papel y 1/3 de tijera, el jugador B puede adaptarse jugando solamente tijera, lo cual le reporta beneficio inmediato, dado que 0,33 veces empata contra tijera, 0,33 veces pierde contra la piedra (-0,33 puntos), y 0,33 veces gana contra el papel (+0,33*2= 0,66 puntos), por lo que el EV resultante de la estrategia del jugador B es +0,33 puntos de media por mano. Ahora bien, jugar sólo tijera no es ni de lejos la estrategia óptima, dado que si el jugador A se re-adaptase jugando solamente piedra, ganaría un punto por mano contra esa estrategia. Cuando en un juego salta a la vista que todas las estrategias puras -como jugar sólo piedra o sólo tijera- son claramente explotables, eso quiere decir que la estrategia óptima será una estrategia mixta que reparte varias acciones distintas.
Para encontrar la estrategia óptima del jugador A, hay que encontrar por tanto aquella estrategia a la que le resulta indiferente que el jugador B juegue piedra, papel, o tijera. Si la EV de nuestra estrategia es la misma contra piedra, contra papel y contra tijera, entonces es claro que ese jugador no puede explotarnos polarizando su estrategia y añadiendo más piedras o más tijeras, p.e. Entonces la cosa es tan simple con igualar a cero. Bien, llamaremos a la distribución {piedra, papel, tijera} del jugador A como {a, b, c}, donde estas letras son el números de veces que jugamos piedra, papel o tijera, tal que a + b + c es siempre igual a 1.
Bien, ahora tenemos que encontrar aquella distribución a, b, c tal que le sea indiferente que el oponente juegue cualquier estrategia -y cuyo valor resultante, por tanto, sea cero-, por lo que basta con encontrar aquella distribución que tiene un valor de cero contra el jugador B tanto si este juega solamente piedra, solamente papel o solamente tijera. Se impone que nuestra estrategia valga 0 contra las tres posibles estrategias extremas (lo que supone que valdrá siempre cero contra cualquier posible estrategia mixta), y luego se juntan todos los resultados en un sistema de ecuaciones:
Caso 1: El jugador B sólo juega roca.
a*(0) + b*(-1)+c*(+1)=0
-b+c=0 ---> b=c
Caso 2: El jugador B sólo juega papel
a*(-1) + b*(0) + c*(+2) = 0 ---> -a+2c=0 --->2c=a
Caso 3: El jugador C sólo juega tijera
a*(+1) + b*(-2) + c*0= 0 -----> a-2b= 0 a =2b
Por lo tanto, si juntamos los tres resultados más la condición de que a+b+c=1,
y realizando las sustituciones oportunas encontramos los tres valores: a=1/2 b=1/4 y c=1/4
(es una cuestión de álgebra elemental, poniendo las cuatro ecuaciones en un sistema -y en realidad basta con tres- cualquier lector puede obtener esos resultados).
El caso es que el resultado nos dice que el jugador A debe jugar la mitad de piedras, y 1/4 de papeles y tijeras para evitar volverse explotable. Si hace eso, el jugador B no puede adoptar ninguna estrategia que le explote. Como se puede ver haciendo cálculos, cuánto más fuerte es la opción “tijera”, más piedras debe distribuir un jugador en sus acciones para evitar volverse explotable. En el caso de este juego, como la estructura de pagos es la misma para los dos jugadores, la estrategia óptima de B será exactamente la misma que la de A: ése es el par optimal, y ninguno de los dos jugadores puede obtener ventaja cambiando unilateralmente su estrategia. [1]
Lo importante ahora es darse cuenta de la importancia de que para una estrategia óptima E del jugador A, cualquiera de las estrategias de B le resulta indiferente, es decir, es una estrategia que genera un punto de indiferencia. En la mayoría de juegos, el punto de indiferencia, el equilibrio de Nash y la estrategia óptima para ese juego están fuertemente ligados. En el poker es especialmente importante entender bien lo que es el punto de indiferencia: si por ejemplo yo consigo distribuir mis acciones en el river entre faroles y apuestas por valor de tal modo que a mi oponente le sea imposible mejorar viendo más showdowns o tirando más sus cartas, quiere decir que he llegado a un punto en el que estoy jugando esa situación óptimamente, y mi oponente no me puede explotar -aunque él siempre haga call o siempre fold, yo no pierdo dinero-. Es muy importante para jugar contra jugadores más fuertes que nosotros. Además podemos jugar óptimo contra desconocidos y luego adaptarnos faroleando más o haciendo más apuestas por valor si ese jugador se desliza a un lado o al otro del punto de equilibrio. (Pues, aunque la situación sea de equilibrio mientras juguemos óptimo, puede volverse extremadamente ventajosa si decidimos cambiar nuestra estrategia y ese jugador mantiene una estrategia polarizada claramente explotable, como pagar con manos extremadamente marginales o tirar demasiado sus manos hechas, en cuyo caso basta con farolear más de la cuenta o menos para adaptarnos a su juego).
También es importante entender el procedimiento para encontrar estrategias óptimas: basta con imponer que, contra todas las posibles estrategias del oponente -sólo call o sólo fold, p.e. en el caso del poker, por poner un ejemplo extremo [2]- sean igual a cero contra nuestra estrategia, lo que nos permitirá obtener los valores óptimos de faroles y value bets -óptimos no son, claro, los que ganan más dinero, sino los que nos vuelven inexplotables-.
[1] Podeís pensar que ya que a la estrategia A le es indiferente cualquier posible estrategia de B, cualquier par de estrategias [E, R] (E por estrategia óptima, y R por random, o sea, una cualquiera) es un par optimal, pero eso no es así dado que: 1-hay juegos en que la estrategia óptima puede explotar algunas estrategias débiles del oponente; no es el caso del piedra, papel o tijera ni ninguno de sus derivados, pero sí que se puede dar en el poker, por ejemplo. 2- Para que se de el par optimal, la condición es que ninguno de los dos jugadores pueda mejorar su situación cambiando su estrategia. Si yo juego la óptima del Roshambo-T [1/2; 1/4; 1/4] y mi oponente juega sólo papel... esa situación es de equilibrio. Pero como quiera que yo puedo mejorar mi situación cambiando mi estrategia y jugando sólo tijera, no es un equilibrio de Nash, ni por tanto un par optimal de estrategias.
[2] En realidad habría que definir varias posibles estrategias al menos potencialmente reales del oponente , como "igualar por valor con la pareja más alta o más e igualar cazando faroles sólo en casos de missed draw en el river y por apuestas de 1/2 del bote..." etc. etc. y luego encontar nuestra distribución de apuestas que ni pierda ni gane dinero contra todas ellas. De hecho, una estrategia como "tirar todas las manos en el river" es esencialmente perdedora contra nuestra estrategia óptima, es decir, si jugamos de tal modo que no nos puedan explotar, es imposible que un jugador que siempre tira sus manos no pierda dinero contra nosotros.
¿Te ha gustado? Compártelo con el mundo:
Puntuación:


