La derrota de OpenAI en Dota 2 sigue siendo una victoria para la inteligencia artificial

La semana pasada, la humanidad contraatacó contra las máquinas — algo así.

En realidad, les ganamos en un videojuego. En un partido al mejor de tres, dos equipos de jugadores profesionales superaron a un escuadrón de robots de IA que fueron creados por el laboratorio de investigación OpenAI, fundado por Elon Musk. Los competidores jugaban Dota 2, un juego de arena de batalla increíblemente popular y complejo. Pero el fósforo también fue una especie de prueba de fuego para la inteligencia artificial: la última medida de alto perfil de nuestra ambición de crear máquinas que puedan pensar más que nosotros.

En el cuadro de mando de la IA humana, la inteligencia artificial ha cosechado algunas grandes victorias recientemente. Lo más notable fue la derrota de los mejores jugadores de Go del mundo por AlphaGo de DeepMind, un logro que los expertos pensaron que estaba fuera de alcance durante al menos una década. Recientemente, los investigadores han centrado su atención en los videojuegos como el próximo desafío. Aunque los videojuegos carecen de la reputación intelectual del Go y el ajedrez, en realidad son mucho más difíciles de jugar para las computadoras. Ocultan información a los jugadores; tienen lugar en entornos complejos y en constante cambio; y requieren el tipo de pensamiento estratégico que no se puede simular fácilmente. En otras palabras, están más cerca del tipo de problemas que queremos que la IA aborde en la vida real.

Dota 2 es un campo de pruebas particularmente popular, y se cree que OpenAI tiene los mejores bots de Dota 2. Pero la semana pasada, perdieron. ¿Y qué pasó? ¿Hemos alcanzado algún tipo de límite en la capacidad de IA? ¿Es prueba de que algunas habilidades son demasiado complejas para las computadoras?

Las respuestas cortas son no y no. Esto fue solo un «bache en el camino», dice Stephen Merity, investigador de aprendizaje automático y fanático de Dota 2. Las máquinas conquistarán el juego con el tiempo, y es probable que sea OpenAI el que rompa el caso. Pero desempacar por qué los humanos ganaron la semana pasada y lo que OpenAI logró lograr, incluso en la derrota, sigue siendo útil. Nos dice lo que la IA puede y no puede hacer y lo que está por venir.

Una captura de pantalla de Dota 2, un juego de batalla de arena de fantasía donde dos equipos de cinco héroes luchan para destruir la base del otro. El juego es complejo y los partidos suelen durar más de 30 minutos.

Imagen: Valve

Primero, pongamos los partidos de la semana pasada en contexto. Los bots fueron creados por OpenAI como parte de su amplia misión de investigación para desarrollar IA que «beneficie a toda la humanidad.»Es una directiva que justifica muchas investigaciones diferentes y ha atraído a algunos de los mejores científicos del campo. Al capacitar a su equipo de bots Dota 2 (apodados los OpenAI Five), el laboratorio dice que quiere desarrollar sistemas que puedan «manejar la complejidad y la incertidumbre del mundo real».»

A los cinco bots (que operan de forma independiente pero fueron entrenados usando los mismos algoritmos) se les enseñó a jugar Dota 2 usando una técnica llamada aprendizaje por refuerzo. Este es un método de entrenamiento común que es esencialmente ensayo y error a gran escala. (Tiene sus debilidades, pero también produce resultados increíbles, incluido AlphaGo.) En lugar de codificar los bots con las reglas de Dota 2, son lanzados al juego y se les deja resolver las cosas por sí mismos. Los ingenieros de OpenAI ayudan en este proceso recompensándolos por completar ciertas tareas (como matar a un oponente o ganar una partida), pero nada más que eso.

Esto significa que los bots comienzan a jugar de forma completamente aleatoria y, con el tiempo, aprenden a conectar ciertos comportamientos con recompensas. Como puede adivinar, esta es una forma extremadamente ineficiente de aprender. Como resultado, los bots tienen que jugar Dota 2 a un ritmo acelerado, acumulando 180 años de tiempo de entrenamiento cada día. Como dijo a The Verge Greg Brockman, director de tecnología y cofundador de OpenAI, a principios de este año, si un humano necesita entre 12,000 y 20,000 horas de práctica para dominar una determinada habilidad, entonces los bots queman «100 vidas humanas de experiencia todos los días.»

Parte de la razón por la que lleva tanto tiempo es que Dota 2 es enormemente complejo, mucho más que un juego de mesa. Dos equipos de cinco se enfrentan en un mapa lleno de personajes no jugables, obstáculos y edificios destructibles, todo lo cual tiene un efecto en la marea de batalla. Los héroes tienen que luchar para llegar a la base de su oponente y destruirla mientras hacen malabares con varias mecánicas. Hay cientos de objetos que pueden recoger o comprar para aumentar su habilidad, y cada héroe (de los cuales hay más de 100) tiene sus propios movimientos y atributos únicos. Cada juego de Dota 2 es como una batalla de la antigüedad en miniatura, con equipos que luchan por el territorio y luchan por superar a sus oponentes.

Procesar todos estos datos para que los juegos se puedan jugar a un ritmo más rápido que la vida es un gran desafío. Para entrenar sus algoritmos, OpenAI tuvo que acorralar una enorme cantidad de potencia de procesamiento: unas 256 GPU y 128.000 núcleos de CPU. Esta es la razón por la que los expertos a menudo hablan de los Cinco de OpenAI como un proyecto de ingeniería tanto como de investigación: es un logro solo poner en marcha el sistema, y mucho menos vencer a los humanos.

» En cuanto a mostrar el nivel de complejidad que pueden manejar los enfoques de IA basados en datos modernos, OpenAI Five es mucho más impresionante que DQN o AlphaGo», dice Andrey Kurenkov, estudiante de doctorado en ciencias de la computación de Stanford y editor del sitio de IA Skynet Today. (DQN era el sistema de IA de DeepMind que se enseñó a sí mismo a jugar Atari.) Pero, señala Kurenkov, mientras que estos proyectos antiguos introdujeron «ideas significativas y novedosas» a nivel de investigación pura, OpenAI Five está desplegando principalmente estructuras existentes a una escala que antes no se soñaba. Ganar o perder, eso sigue siendo grande.

A principios de este año, OpenAI Five derrotó a un equipo de jugadores aficionados como punto de referencia de sus habilidades.

Foto: OpenAI

Las máquinas todavía carecen de un plan de juego
La imposibilidad de un campo de juego nivelado
Viaja a 1997 con un kit de desarrollo de unidad de disco Nintendo 64 increíblemente raro y nunca abierto
Ghost of Tsushima está recibiendo una adaptación cinematográfica del director de John Wick
Final Fantasy VIII ahora está en iOS y Android

Las máquinas todavía carecen de un plan de juego

Pero dejando de lado la ingeniería, ¿qué tan buenos pueden ser los bots si acaban de perder dos partidos contra humanos? Es una pregunta justa, y la respuesta es: todavía bastante buena.

Durante el último año, los bots se han graduado a través de versiones progresivamente más duras del juego, comenzando con combates 1v1, luego partidos 5v5 con restricciones. Sin embargo, todavía tienen que abordar toda la complejidad del juego, y han estado jugando con ciertas mecánicas del juego desactivadas. Para los partidos en el Internacional, se eliminaron algunas de estas restricciones, pero no todas. En particular, los bots ya no tenían mensajeros invulnerables (PNJ que entregaban objetos a los héroes). Estos habían sido un accesorio importante para su estilo de juego, transportando un flujo confiable de pociones curativas para ayudarlos a mantener un ataque implacable. En El Internacional, tenían que preocuparse de que sus líneas de abastecimiento de ser eliminado.

Aunque los juegos de la semana pasada todavía se están analizando, el consenso inicial es que los bots jugaron bien, pero no excepcionalmente. No eran expertos en IA; tenían fortalezas y debilidades, que los humanos podían aprovechar como lo harían contra cualquier equipo.

Ambos juegos comenzaron muy nivelados, con humanos primero tomando la delantera, luego bots, luego humanos. Pero en ambas ocasiones, una vez que los humanos obtuvieron una ventaja considerable, a los bots les resultó difícil recuperarse. Los comentaristas del juego especularon que esto podría deberse a que la IA prefería » ganar por 1 punto con un 90% de certeza, que ganar por 50 puntos con un 51% de certeza.»(Este rasgo también se notaba en el estilo de juego de AlphaGo.) Implica que OpenAI Five estaba acostumbrado a obtener victorias estables pero predecibles. Cuando los bots perdieron su ventaja, no pudieron hacer las jugadas más aventureras necesarias para recuperarla.

Video del segundo partido de OpenAI Five en el Internacional.

Esto es solo una suposición. Como suele ser el caso con la IA, adivinar el proceso de pensamiento exacto detrás de las acciones de los bots es imposible. Lo que podemos decir es que sobresalían en espacios cerrados, pero les resultaba más complicado igualar las estrategias a largo plazo de los humanos.

Los Cinco de OpenAI eran infaliblemente precisos, atacaban agresivamente objetivos con hechizos y ataques, y generalmente eran una amenaza para cualquier héroe enemigo al que se encontraran. Mike Cook, investigador de juegos de IA en la Universidad de Falmouth y ávido jugador de Dota que twitteó en vivo las peleas, describió el estilo de los bots como » hipnótico.»»actúa con precisión y claridad», le dijo Cook a The Verge. «A menudo, los humanos ganaban una pelea y luego bajaban ligeramente la guardia, esperando que el equipo enemigo se retirara y se reagrupara. Pero los robots no hacen eso. Si ven una muerte, la toman.»

Donde los bots parecían tropezar era en el juego largo, pensando en cómo podrían desarrollarse los partidos en intervalos de 10 o 20 minutos. En el segundo de sus dos combates contra un equipo de jugadores profesionales chinos con una reputación temible (los comentaristas los llamaban «el club de las viejas leyendas» o, más simplemente, «los dioses»), los humanos optaron por una estrategia asimétrica. Un jugador reunió recursos para aumentar lentamente el poder de su héroe, mientras que los otros cuatro ejecutaron interferencias para él. Sin embargo, los robots no parecían darse cuenta de lo que estaba sucediendo, y al final del juego, team human tenía un héroe mejorado que ayudó a devastar a los jugadores de IA. «Este es un estilo natural para los humanos que juegan al Dota», dice Cook. «para los bots, es una planificación extrema a largo plazo.»

Esta cuestión de estrategia es importante no solo para OpenAI, sino para la investigación de IA en general. La ausencia de planificación a largo plazo a menudo se ve como un defecto importante del aprendizaje por refuerzo porque la IA creada utilizando este método a menudo enfatiza los beneficios inmediatos en lugar de las recompensas a largo plazo. Esto se debe a que es difícil estructurar un sistema de recompensas que funcione durante períodos de tiempo más largos. ¿Cómo enseñas a un bot a retrasar el uso de un hechizo poderoso hasta que los enemigos se agrupen si no puedes predecir cuándo sucederá? ¿Le das pequeñas recompensas por no usar ese hechizo? ¿Qué pasa si decide nunca usarlo como resultado? Y este es solo un ejemplo básico. Los juegos de Dota 2 generalmente duran de 30 a 45 minutos, y los jugadores tienen que pensar constantemente qué acción conducirá al éxito a largo plazo.

Es importante destacar, sin embargo, que los bots no eran solo gremlins desconsiderados que buscaban recompensas. La red neuronal que controla a cada héroe tiene un componente de memoria que aprende ciertas estrategias. Y la forma en que responden a las recompensas está diseñada para que los bots consideren los pagos futuros, así como los que son más inmediatos. De hecho, OpenAI dice que sus agentes de IA hacen esto en un grado mucho mayor que cualquier otro sistema comparable, con una «vida media de recompensa» de 14 minutos (en términos generales, el tiempo que los bots pueden esperar para futuros pagos).

Kurenkov, que ha escrito extensamente sobre las limitaciones del aprendizaje por refuerzo, dijo que los partidos muestran que el aprendizaje por refuerzo puede manejar «mucha más complejidad de la que la mayoría de los investigadores de IA podrían haber imaginado.»Pero, agrega, la derrota de la semana pasada sugiere que se necesitan nuevos sistemas específicamente para manejar el pensamiento a largo plazo. (Como era de esperar, el director de tecnología de OpenAI no está de acuerdo.)

A diferencia del resultado de los partidos, no hay una conclusión obvia aquí. El desacuerdo sobre el éxito de los bots refleja discusiones más grandes y sin resolver en IA. Como señaló el investigador Julian Togelius en Twitter, ¿cómo comenzamos a diferenciar entre la estrategia a largo plazo y el comportamiento que simplemente se parece a él? ¿Importa? Todo lo que sabemos por ahora es que en este dominio en particular, la IA aún no puede superar a los humanos.

Dota 2 ofrece más de 100 héroes diferentes con una variedad de habilidades, y la IA aún no los ha dominado a todos.

Imagen: Valve

La imposibilidad de un campo de juego nivelado

Forcejear sobre la inteligencia de los bots es una cosa, pero los partidos de Dota 2 de OpenAI Five también plantearon otra pregunta más fundamental: ¿por qué organizamos estos eventos en absoluto?

Tome los comentarios de Gary Marcus, un respetado crítico de las limitaciones de la IA contemporánea. En el período previo a los juegos de OpenAI la semana pasada, Marcus señaló en Twitter que los bots no juegan de manera justa. A diferencia de los jugadores humanos (o algunos otros sistemas de IA), en realidad no miran la pantalla para jugar. En su lugar, usan la «API de bot» de Dota 2 para entender el juego. Este es un feed de 20.000 números que describe lo que está pasando en forma numérica, incorporando información sobre todo, desde la ubicación de cada héroe hasta su salud y el tiempo de reutilización de hechizos y ataques individuales.

Como Marcus le dice a The Verge, esto «acorta el problema enormemente desafiante de la percepción de la escena» y le da a los bots una gran ventaja. No tienen que buscar en el mapa para comprobar dónde está su equipo, por ejemplo, ni echar un vistazo a la interfaz de usuario para ver si su hechizo más poderoso está listo. No tienen que adivinar la salud de un enemigo o estimar su distancia para ver si un ataque vale la pena. Simplemente lo saben.

¿Pero esto cuenta como engaño?

Hay algunas maneras de responder a esto. En primer lugar, OpenAI podría haber creado un sistema de visión para leer los píxeles y recuperar la misma información que proporciona la API de bot. (La razón principal por la que no lo hizo es que habría sido increíblemente intensivo en recursos. Esto es difícil de juzgar, ya que nadie sabe si funcionaría hasta que alguien realmente lo hizo. Pero quizás sea irrelevante. La pregunta más importante podría ser: ¿podremos tener una pelea justa entre humanos y máquinas? Después de todo, si queremos aproximarnos a cómo juegan los humanos Dota 2, ¿necesitamos construir manos robóticas para que el OpenAI Cinco opere un ratón y un teclado? Para hacerlo aún más justo, ¿deberían sudar las manos?

Estas preguntas son un poco ridículas, pero subrayan la imposibilidad de crear un campo de juego verdaderamente nivelado entre humanos y computadoras. Tal cosa no existe porque las máquinas piensan como los humanos de la misma manera que los aviones vuelan como los pájaros. Como dice Cook, investigador de juegos de IA: «Por supuesto, las computadoras son mejores que nosotros en las cosas. Por eso inventamos las computadoras.»

Quizás tengamos que pensar un poco más en por qué celebramos estos eventos en primer lugar. Brockman le dice a The Verge que hay más que jugar. «La razón por la que hacemos Dota no es para que podamos resolver Dota», dice. «Estamos en esto porque creemos que podemos desarrollar la tecnología de IA que puede alimentar al mundo en las próximas décadas.»

Hay verdad en esta ambiciosa afirmación. La infraestructura de capacitación utilizada para enseñar el OpenAI Five, un sistema llamado Rapid, ya se está convirtiendo en otros proyectos. OpenAI lo ha utilizado para enseñar a las manos de los robots a manipular objetos con nuevos niveles de destreza similar a la humana, por ejemplo. Como siempre con la IA, hay limitaciones, y Rapid no es un algoritmo que lo haga todo. Pero el principio general es válido: el trabajo necesario para lograr incluso objetivos arbitrarios (como vencer a los humanos en un videojuego) ayuda a estimular todo el campo de la IA.

El jugador de Go surcoreano Lee Sedol fue derrotado por AlphaGo en 2016, pero aprendió nuevas habilidades como resultado.

Foto: Google / Getty Images

Y también ayuda a los desafiados por las máquinas. Una de las partes más fascinantes de la historia de AlphaGo fue que, aunque el campeón humano Lee Sedol fue derrotado por un sistema de IA, él y el resto de la comunidad Go también aprendieron de él. El estilo de juego de AlphaGo trastorna siglos de sabiduría aceptada. Sus movimientos todavía están siendo estudiados, y Lee tuvo una racha ganadora después de su lucha contra la máquina.

Lo mismo ya está empezando a suceder en el mundo de Dota 2: los jugadores están estudiando el juego de OpenAI Five para descubrir nuevas tácticas y movimientos. Al menos una mecánica de juego no descubierta previamente, que permite a los jugadores recargar un arma determinada rápidamente al mantenerse fuera del alcance del enemigo, ha sido descubierta por los robots y transmitida a los humanos. Como dice Merity, investigadora de IA: «Literalmente quiero sentarme a ver estos partidos para poder aprender nuevas estrategias. La gente está mirando estas cosas y diciendo: ‘Esto es algo que tenemos que incorporar al juego.»

Este fenómeno de la IA enseñando a los humanos es probable que solo se vuelva más común en el futuro. De una manera extraña, parece casi un acto de benevolencia. Como si, en una muestra de gracia humana, los robots nos estuvieran dando un regalo de despedida a medida que superaran nuestras habilidades. No es cierto, por supuesto; la IA es solo otro método que los humanos han inventado para enseñarnos a nosotros mismos. Pero por eso jugamos. Es una experiencia de aprendizaje — para nosotros y para las máquinas.

Gaming