2020: el auge de las máquinas

Playground Poker


por James Grosjean Cuénteme entre los drones de Netflix que amaron The Queen’s Gambit (2020), pero siempre he sido un entusiasta del ajedrez. Durante mis años universitarios, probablemente comí mil croissants de chocolate mientras veía al peculiar y magnífico Murray Turnbull (también conocido como “El maestro del ajedrez”) enfrentarse a todos los asistentes en la plaza del pueblo: “$ 2, reembolso si ganas o empatas”. Fue un honor para mí capturar una foto del gran Karpov enmarcada por las vidrieras del Memorial Hall cuando hizo una simultánea de 40 tablas en el campus. Yo formaba parte de la prensa estudiantil cuando Kasparov hizo su entonces controvertida declaración de que una computadora sería gran campeona antes que una mujer. Dejando el debate sobre la posible misoginia de Kasparov para otro foro y otro día, tomé su declaración como una mera proyección basada en la observación empírica de la comunidad del ajedrez. La participación femenina siempre ha sido baja y no ha aumentado de manera significativa, mientras que las computadoras ya eran sólidas y se están fortaleciendo rápidamente. Las máquinas marcarán el comienzo de una nueva igualdad, donde todos los géneros serán aplastados como hormigas. El teorema de Zermelo nos dice que un juego con información completa (ambos jugadores pueden ver todas las piezas en el tablero de ajedrez), que es finito (el juego TERMINARÁ después de cierto número de movimientos), tiene una solución, y que si ambos lados juegan este solución óptima, entonces todos los juegos tienen el mismo resultado. El ajedrez es tan complicado que no estamos seguros de cuál sería el resultado, pero creemos que las blancas ganarían siempre, en cuyo caso no hay una respuesta de las negras que pueda cambiar el resultado. El juego de Conectar Cuatro también cae bajo el Teorema de Zermelo, y el análisis ha determinado que en ese juego, la hermana astuta siempre gana si va primero y juega de manera óptima. Si eres un AP al que le gustó QGambit y estás hambriento de más contenido durante esta pandemia interminable, entonces tu próxima tarea es ver AlphaGo, un documental sobre el auge de las computadoras en el antiguo juego de Go, que es más complicado que ajedrez. No es broma, esta película es un lacrimógeno para las personas que están interesadas en este campo y aprecian el intenso drama emocional del campeón de la humanidad, Lee Sedol, el mejor que jamás haya hecho. La película captura la angustia, el coraje, la brillantez y luego la humildad de Sedol, cuando se da cuenta de que este partido contra la máquina no es solo un juego, sino el surgimiento de un nuevo orden mundial. No era un programador, Sedol no apreciaba a qué se enfrentaría, pero como experto en su oficio, en el tablero podía sentir el peso implacable e impenetrable de su oponente. Después de que disfrutes de AlphaGo, te recomiendo (de hecho, Google recomienda) que veas algunos de los partidos de póquer entre el Dan Negreanu de la vieja escuela y el clon de computadora moderno Doug Polk. El mejor jugador del mundo es la máquina, por lo que un humano inteligente como Polk emula la estrategia de la máquina. Adaptarse o morir. Una vez tuve un breve intercambio con Howard Lederer. Le pregunté sobre los bots en los sitios de póquer. Descartó el tema diciendo: “El póquer no es como el ajedrez. El póquer es un juego de información incompleta. Las computadoras no son buenas para eso “. No sabría decir si era un tonto ingenuo o un cómplice de estafador de Full Tilt Poker. De cualquier manera, no quería continuar esa conversación hace 15 años. Pero ahora aquí estamos, en 2021, y es hora de continuar esa conversación, refutando la primera falacia con respecto a las computadoras GTO (teoría del juego óptima) y todas las demás falacias superpuestas que los dinosaurios del póquer y los autoproclamados sabios del póquer son aferrándose desesperadamente a: Falacia # 1: Las computadoras no son buenas en juegos de información incompleta. Esto es simplemente ignorante. Es cierto que el teorema de Zermelo no se aplica a juegos como el póquer. Para el póquer, hay OTROS teoremas que básicamente dicen que hay una solución para el juego, y una solución informática generalmente implicará “estrategias mixtas”, lo que significa que hay algún componente aleatorio en la estrategia (como llamar a Scissors con probabilidad 1/3 ). Las computadoras son bastante buenas, mejores que los humanos, para calcular la expectativa sobre los resultados probabilísticos, especialmente cuando las distribuciones de probabilidad se conocen con precisión, como ocurre en los juegos de cartas. Por ejemplo, la computadora sabe exactamente cuál es la probabilidad de sacar un Flush de puerta trasera y qué probabilidades del pozo necesita para justificar la persecución. Aunque el póquer implica información incompleta, el póquer mano a mano sin límite es un juego más simple que el Go, aunque el Go incluye información completa (información de conocimiento común). Falacia # 2: La superioridad de la computadora proviene de poder recordar cada mano que he jugado y ajustar en consecuencia. Mientras que un “bot de explotación” analizaría su juego anterior y se ajustaría a las debilidades percibidas, un bot de GTO estándar (que solíamos llamar un “bot de Nash”) es el equivalente de póquer de BS en el blackjack. La estrategia de GTO no cambia, independientemente de cómo haya jugado las manos anteriores. No necesita esa información y no le importa. Falacia # 3: La solución GTO solo es “correcta” si se juega contra otro bot GTO, porque eso es lo que se asumió cuando se desarrolló el bot: el bot “aprendió” jugando contra sí mismo. Eso es falso. “El bot jugó contra sí mismo para aprender a jugar al póquer” es una caracterización errónea del proceso de desarrollo. A los medios de comunicación les gusta exagerar su clickbait para hacer que cada resultado en la informática suene como un avance generacional, invocando a HAL y Skynet. Un bot de GTO no sabe nada de póquer. Derivar la estrategia GTO es un ejercicio de cálculo, hecho posible por la enorme memoria y la velocidad de la CPU disponible en las computadoras actuales y el desarrollo de un algoritmo eficiente para hacer el cálculo (“minimización de arrepentimiento”). Nunca solíamos describir el algoritmo como “aprendizaje automático” o “IA”; solíamos llamarlo simplemente “escalada de colinas” o “maximización” u “optimización”. En cada paso del algoritmo iterativo, la computadora tiene la estrategia actual en desarrollo para cada asiento en la mesa, y esta estrategia actual podría describirse popularmente como “sí mismo”, como en: “PokerSnowie juega contra sí mismo”. Pero en realidad es solo una iteración en su camino de escalar la colina para converger en la cima, una estrategia óptima para el póquer. Ese óptimo no asume ningún oponente en particular. Hay otras formas en que podríamos haber calculado la solución (aunque tal vez no tan rápido), y sería igualmente válida. Esta estrategia de GTO es “El Libro” para el póquer, y nunca estaría en desventaja, independientemente de su oponente. No existe una estrategia que pueda tener una ventaja en su contra. Falacia # 4: El bot de GTO asume que jugaré de cierta manera, pero lo engañaré jugando mi 72 fuera del palo fuera de posición. Incorrecto. El bot de GTO no asume nada sobre cómo juegas. No le importa. Es imbatible contra CUALQUIER estrategia contraria. Imagina que tienes una pelea próxima contra Floyd Mayweather y dices: “Floyd espera que me presente con un acondicionamiento físico impecable. Asume que voy a entrenar duro durante los próximos seis meses. Lo engañaré, solo veré Netflix y comeré donas durante los próximos seis meses “. Floyd no tiene idea de cuánto entrenarás. Sabe que si él mismo se presenta en perfecta forma, ningún oponente podrá tener ventaja contra él. ¿Tiene sentido decir: “El bot asume que jugaré bien. ¡Engañaré al bot jugando al póquer malo! ” ¡Sí, seguro que los mostraste! Falacia # 5: Encontré una debilidad: cuando tengo tal y cual, desde tal o cual posición, entonces el bot debería hacer X, pero lo hace Y. Mal. El bot no tiene ninguna debilidad. Estás mirando una mano en particular y un resultado en particular, pero según la probabilidad de estar en ese escenario y todas las manos posibles que podrías sostener vistas desde el punto de vista del bot, su juego es correcto y puedes No encuentro un agujero allí. Es muy peligroso mirar una obra de forma aislada. El bot hace movimientos para equilibrar sus rangos, de modo que no puedas cincelar en otras situaciones, o si vinieron diferentes cartas en el river. Si no lo ve, entonces la falla está en su propio pensamiento de póquer, no en el del bot. Falacia # 6: Si lo juego por un tiempo, descubriré cómo funciona y encontraré una debilidad. Incorrecto. No hay debilidad. De hecho, podríamos publicar la estrategia del bot y no haría ninguna diferencia. Si te digo que voy a jugar Tijeras, Piedra y Papel con una probabilidad de 1/3 en cada uno, el hecho de que sepas que mi estrategia no te da la posibilidad de obtener una ventaja. No hay talón de Aquiles. Falacia # 7: Los bots Heads-Up Limit introducidos en los casinos fueron muy fáciles de vencer, por lo que probablemente los bots GTO también lo sean. Esta no es una comparación significativa. Algunos de los robots de casino recibieron instrucciones de no jugar su juego A, porque era demasiado fuerte contra los humanos promedio. Si el casino configura el bot para que juegue su juego B, para lograr, digamos, una ventaja del 5% contra la mayoría de los jugadores, entonces un ser humano realmente bueno podría haber ganado dinero contra ese bot GTSO (bot subóptimo de teoría de juegos). Pero ese es un tema diferente. No me importa quién eres: si juegas mano a mano contra PokerSnowie, perderás. Falacia # 8: Los bots de GTO pueden vencer a los jugadores débiles, pero los bots tendrán problemas contra oponentes importantes como Phil Ivey o Dan Negreanu. Incorrecto. Una cosa hermosa de un bot de GTO es que no importa quién sea el oponente. En el mejor de los casos, alguien podría jugar incluso con el bot. Un anillo de bots GTO sería como un fregadero, con el dinero fluyendo en el sentido de las agujas del reloj persiguiendo el botón y drenando el centro de la mesa debido al rastrillo. Un problema práctico que solían tener los profesionales del mundo real era decidir cuándo su habilidad era suficiente para pasar a las siguientes apuestas más altas disponibles, donde los jugadores eran presumiblemente más fuertes. Pero ahora, un jugador que imita la estrategia de GTO puede sentarse en cualquier mesa del mundo, en cualquier apuesta, y no tener que preocuparse por ser el pez. En el mejor de los casos, el juego sería parejo (fuera del rake) y, en la práctica, una estrategia de GTO confiere una ventaja considerable contra cualquier persona que te encuentres en la naturaleza. Falacia # 9: Dan Negreanu es un profesional del póquer desde hace mucho tiempo con brazaletes N, por lo que aplastará a las liendres informáticas como Doug Polk, que no comprende los matices del póquer real. Si un tipo como Polk simplemente memoriza “los gráficos” e imita la estrategia de GTO, no necesita entender nada. No necesita saber qué significa la palabra “matiz”. La experiencia en el póquer de profesionales como Negreanu es lo que les permitió descubrir la mejor jugada en escenarios que eran complicados. Esa experiencia es obsoleta ahora que las computadoras acaban de calcular cuáles son las jugadas correctas. Quizás en 1950, la experiencia de un jugador le permitió determinar que golpear 14 contra T era mejor que estar parado. Una vez que los Cuatro Jinetes calcularon la tabla BS, esa experiencia de blackjack se volvió irrelevante. El Libro hace que la experiencia sea innecesaria. Ahora Doug Polk no es un bot de GTO. Es un profesional superior que emplea estrategias GTO. Entonces, la única oportunidad de Negreanu para vencer a Polk es si la emulación de GTO de Polk no es precisa, y si los agujeros son lo suficientemente grandes como para que Negreanu los encuentre y explote. Lo dudo. Otra posibilidad remota sería si juegan en vivo, y si Polk tiene señales físicas que brinden información sobre sus cartas de mano, y si Negreanu puede leerlo de esa manera. O si Polk tiene problemas de inclinación y comienza a alejarse de GTO si tiene una mala racha de cartas. No es probable. O tal vez el juego sea lo suficientemente corto como para que Negreanu tenga suerte en una pequeña muestra. Después de jugar contra AlphaGo, Lee Sedol elevó su juego y comenzó a aplastar a todos (no es que ya no lo hiciera), ¡pero luego se retiró del juego! Admitió que había sido superado (¡qué concepto!), Y que ningún humano volvería a desafiar al mejor jugador del mundo, AlphaGo. Veremos si Negreanu tendrá la misma epifanía. Un tweet reciente me hace preguntarme, porque Negreanu parecía estar cuestionando un juego de robots y sugiriendo que existe una delgada línea entre el genio y la burla. Creo que todavía espera que haya una falla en la estrategia de GTO. No lo hay. Lo último que supe es que Negreanu se estaba poniendo al día en el concurso, y hay indicios de que una de las razones es que, para su crédito, Negreanu está practicando con PokerSnowie ¡y adaptándose! Si Negreanu puede aprender rápidamente la estrategia de GTO, entonces podría nivelar el campo de juego, lo que sería un gran logro. La única forma en que un dinosaurio puede sobrevivir es evolucionando. Lo veremos en 2021.

[Next time, I’ll discuss some of the limitations and weaknesses of the poker bots, unless we thrash them out in the Comments below.]


คาสิโน มือถือ
คาสิโน ฝากถอนไม่มีขั้นต่ำ
ไลน์ คาสิโน
คาสิโน sagame350
คาสิโน ออนไลน์ ได้เงินจริงฟรีเครดิต

Leave a Reply

Your email address will not be published. Required fields are marked *