Inicio TECNOLOGIA APP

¿Cómo las máquinas aprendieron a engañar a los humanos?

Pluribus es el primer robot en vencer simultáneamente a varios competidores humanos en el póker, un juego que se basa en la astucia y el engaño. Sus desarrolladores creen que este "poder" se puede usar en tareas mucho más complejas que incluyen negociación financiera y vehículos autónomos

Por

BBC News Mundo

agosto 9, 2019

¿Cómo las máquinas aprendieron a engañar a los humanos? — Durante décadas se pensó que el póker era un juego demasiado complejo para las computadoras

Damas, ajedrez, Scrabble y Go. Uno por uno, las computadoras han ido conquistando algunos de los juegos más populares del mundo.

A esa lista ahora se le suma el póker, aunque los jugadores a menudo recurren al farol o engaño para vencer a sus oponentes.

El 12 de julio, por primera vez en la historia, un robot jugador de póquer llamado Pluribus, venció simultáneamente a varios competidores humanos, en la modalidad más popular de este juego de cartas: Texas Hold’em sin límite.

Estas pueden ser malas noticias para los jugadores de póker en línea, pero ¿podría ayudar a la humanidad en otros aspectos más útiles?

¿Por qué para las computadoras es difícil jugar póker?

Durante décadas, el póker había sido «demasiado complejo» para las computadoras.

A diferencia del ajedrez, donde se ven todas las piezas y movimientos, el póker es un juego de «información imperfecta», debido a que se juega con cartas ocultas y los jugadores tienen solo una noción parcial del estado de la partida.

Noam Brown (derecha) es uno de los creadores de Pluribus | CMU

El póker también es famoso por el farol : un intento de engañar a los otros jugadores para que creen que las cartas que uno tiene son mejores o peores de lo que realmente son.

Estos factores complican la forma en que la inteligencia artificial (IA) busca una estrategia para ganar el juego.

Rompiendo barreras

Pero el dominio que los humanos tenían sobre el póker ha terminado.

Pluribus, creado por Noam Brown, un científico del departamento de inteligencia artificial de Facebook; y Tuomas Sandholm, profesor de Ciencias de la computación en la Universidad Carnegie Mellon de Pensilvania, aparentemente ha superado esas dos ventajas que los humanos tenían sobre la máquina.

En una serie de miles de manos contra 13 jugadores profesionales, que han ganado más de 1 millón de dólares jugando al póker, el robot salió airoso de las partidas.

Uno de los oponentes de Pluribus fue Darren Elias, ganador de un récord de cuatro títulos del Tour Mundial de Póker.

Gregg Merson, campeón de la Serie Mundial de Póker en 2012, fue uno de los derrotados por Pluribus | GETTY IMAGES

Pero ¿por qué los científicos trabajan en máquinas que vencen a los humanos?

En pocas palabras: porque creen que una partida de ajedrez o una mano de póker pueden ayudar a la inteligencia artificial a realizar tareas mucho más complejas.

“Estamos usando el póker como punto de referencia para un problema más fundamental: ¿cómo desarrollamos una inteligencia artificial que pueda hacer frente a la información oculta?”, le dice Brown a la BBC.

“Para que la IA se implemente en el mundo real e interactúe con humanos y otras IA, debe ser capaz de comprender que otros participantes pueden ver el mundo de manera diferente a ella y que pueden tener acceso a otra información”.

“El póker es un gran simulador para ese tipo de desafío”, agregó.

tablero de Go — Las habilidades de la computadora AlphaGo para jugar Go podrían ser útiles en la química y la ingeniería | GETTY IMAGES

Cuando AlphaGo, desarrollado por la empresa DeepMind, propiedad de Google, se convirtió en la primera computadora en vencer a un jugador profesional de Go en 2015, sus creadores vieron su posible utilidad en tareas vinculadas con la Química y la Ingeniería, por ejemplo, a la hora de buscar nuevos materiales.

Brown y Sandholm, por su parte, creen que la resolución de problemas de Pluribus podría tener aplicaciones futuras en tareas tan diversas como negociaciones financieras y navegación para vehículos autónomos.

Todas estas situaciones involucran a múltiples partes e información faltante.

«La mayoría de los entornos del mundo real son juegos de información imperfecta», dijo Sandholm.

Cómo aprenden los ‘bots’

En 2017, Libratus, otro programa desarrollado por Brown y Sandholm, derrotó uno a uno a sus oponentes humanos en juegos de póker en un casino de Pittsburgh, Estados Unidos.

Una compañía de IA dirigida por Sandholm (en el centro) obtuvo un contrato con el Ejército de Estados Unidos | CMU

Los expertos afirman que la estrategia de juego se puede aplicar en simulaciones militares. La revista Wired informó que Strategy Robot, una compañía especializada en IA fundada por Sandholm, recibió un contrato de 10 millones de dólares con el Ejército de Estados Unidos en agosto de 2018.

«Los bots potencialmente tienen mucho que enseñarnos sobre nuestra propia toma de decisiones», explica el matemático Adam Kucharski, autor del libro La apuesta perfecta: cómo la ciencia y las matemáticas le están quitando la suerte al juego.

«Los mejores bots de póker aprenden a través de un proceso de minimización de arrepentimiento contrafactual, es decir, mirar hacia atrás después de una decisión y preguntarse ‘¿y si hubiera hecho algo distinto?'».

«Al perder ante los bots, creo que los jugadores humanos pueden aprender mucho más sobre su propio enfoque de los juegos», agrega Kucharski.

‘Bluff’ electrónico

Entonces ¿cómo «blofea» o engaña Pluribus a sus oponentes?

Brown y Sandholm hicieron que el bot «aprendiera» el póker jugando billones de manos contra sí mismo y revisando su estrategia.

Las decisiones que llevaron a alcanzar victorias tenían más probabilidades de ser utilizadas más adelante.

Una de estas decisiones fue hacer una apuesta con una mano débil, para inducir al oponente a retirarse, que es exactamente de lo que se trata el bluff.

«La gente tiene esta concepción de que «blofear» es un rasgo muy ‘humano’ que las máquinas no pueden hacer», dice Brown.

«Pero, de hecho, veo que una máquina puede hacer bluff, y puede hacerlo mejor que cualquier humano».

«Pluribus no ve el bluffing como algo engañoso o deshonesto, simplemente lo ve como la acción que, en algunos casos, le dan más dinero, cuando tiene una mala mano», agrega el científico.

Pluribus también causó sorpresa por lo «barato» que resultó. Necesitaba solo 150 dólares en recursos de computación en la nube para funcionar, según los investigadores de Carnegie Mellon.

En comparación, Deepmind depende de supercomputadoras que constaban de más de 5.000 procesadores especializados, un costo estimado de millones de dólares.

El periodismo independiente necesita del apoyo de sus lectores para continuar y garantizar que las noticias incómodas que no quieren que leas, sigan estando a tu alcance. ¡Hoy, con tu apoyo, seguiremos trabajando arduamente por un periodismo libre de censuras!

Apoya a El Nacional ->