A derrota do Dota 2 de OpenAI ainda é uma vitória para a inteligência artificial

na semana passada, a humanidade contra as máquinas — tipo de.Na verdade, vencemo-los num jogo de vídeo. Em uma luta best-of-three, duas equipes de jogadores profissionais superaram um esquadrão de AI bots que foram criados pelo Laboratório de pesquisa OpenAI, fundado pelo Elon Musk. Os competidores estavam jogando Dota 2, um jogo de arena de batalha fenomenalmente popular e complexo. Mas o jogo também foi um teste para inteligência artificial.: a mais recente medida de alto perfil da nossa ambição de criar máquinas que possam pensar melhor do que nós.

no painel de avaliação da IA humana, a inteligência artificial ganhou algumas grandes vitórias recentemente. Mais notável foi a derrota dos melhores Go players do mundo por AlphaGo DeepMind, uma conquista que os especialistas pensaram fora do alcance por pelo menos uma década. Recentemente, os pesquisadores têm voltado sua atenção para os jogos de vídeo como o próximo desafio. Embora os jogos de vídeo não tenham a reputação intelectual de Go e xadrez, eles são realmente muito mais difíceis para os computadores para jogar. Eles retêm informações dos jogadores; ocorrem em ambientes complexos e em constante mudança; e requerem o tipo de pensamento estratégico que não pode ser facilmente simulado. Em outras palavras, eles estão mais perto do tipo de problemas que queremos que a IA resolva na vida real.

Dota 2 é um campo de testes particularmente popular, e acredita-se que OpenAI tenha os melhores Dota 2 bots ao redor. Mas na semana passada, perderam. O que aconteceu? Atingimos algum tipo de tecto na capacidade da IA? Esta é a prova de que algumas habilidades são complexas demais para computadores?

as respostas curtas são no e no. Este foi apenas um “bump in the road”, diz Stephen Merity, um pesquisador de aprendizagem de máquinas e fã do Dota 2. As máquinas acabarão por conquistar o jogo, e é provável que o OpenAI resolva o caso. Mas desempacotar por que os humanos ganharam na semana passada e o que o OpenAI conseguiu alcançar — mesmo na derrota — ainda é útil. Diz – nos o que a IA pode e não pode fazer e o que está para vir.

uma imagem de Dota 2, um jogo de batalha fantasy arena onde duas equipes de cinco heróis lutam para destruir a base um do outro. A jogabilidade é complexa, e os jogos normalmente duram mais de 30 minutos.

imagem: Válvula

Primeiro, vamos colocar os jogos da semana passada no contexto. Os bots foram criados pela OpenAI como parte de sua ampla missão de pesquisa para desenvolver IA que “beneficia toda a humanidade.”É uma diretiva que justifica muita pesquisa diferente e atraiu alguns dos melhores cientistas do campo. Ao treinar sua equipe de Dota 2 bots (apelidado de OpenAI Five), O laboratório diz que quer desenvolver sistemas que possam “lidar com a complexidade e incerteza do mundo real.”

os cinco bots (que operam independentemente, mas foram treinados usando os mesmos algoritmos) foram ensinados a tocar Dota 2 usando uma técnica chamada aprendizagem de reforço. Este é um método de treinamento comum que é essencialmente tentativa e erro em grande escala. (Tem suas fraquezas, mas também produz resultados incríveis, incluindo AlphaGo. Em vez de codificar os bots com as regras do Dota 2, eles são jogados no jogo e deixados para descobrir as coisas por si mesmos. Os engenheiros da OpenAI ajudam este processo ao recompensá-los por completar certas tarefas (como matar um adversário ou ganhar um jogo), mas nada mais do que isso.

isto significa que os bots começam a jogar completamente aleatoriamente, e ao longo do tempo, eles aprendem a conectar certos comportamentos a recompensas. Como você pode adivinhar, esta é uma maneira extremamente ineficiente de aprender. Como resultado, os bots têm que jogar Dota 2 a um ritmo acelerado, cronometrando 180 anos de tempo de treinamento em cada dia. Como o CTO do OpenAI e co-fundador Greg Brockman disse ao Verge no início deste ano, se é preciso um humano entre 12.000 e 20.000 horas de prática para dominar uma determinada habilidade,então os bots queimam através de ” 100 vidas humanas de experiência a cada dia.”

parte da razão pela qual leva tanto tempo é que Dota 2 é extremamente complexo, muito mais do que um jogo de tabuleiro. Duas equipas de cinco enfrentam-se umas contra as outras num mapa que está cheio de personagens não jogáveis, obstáculos e edifícios destruíveis, todos os quais têm um efeito na maré da batalha. Os heróis têm de lutar para chegar à base do adversário e destruí-la enquanto fazem malabarismo com vários mecânicos. Há centenas de itens que eles podem pegar ou comprar para aumentar a sua capacidade, e cada herói (dos quais há mais de 100) tem seus próprios movimentos e atributos únicos. Cada jogo de Dota 2 é como uma batalha de antiguidade disputada em miniatura, com equipes disputando território e lutando para adversários fora de manobra.

processar todos estes dados para que os jogos possam ser jogados a um ritmo mais rápido do que a vida é um grande desafio. Para treinar seus algoritmos, OpenAI teve que acumular uma enorme quantidade de energia de processamento — cerca de 256 GPUs e 128 mil núcleos de CPU. É por isso que os especialistas muitas vezes falam sobre o OpenAI Cinco como um projeto de engenharia tanto quanto um de pesquisa: é uma conquista apenas para colocar o sistema em funcionamento, muito menos vencer os humanos.

” As far as showcasing the level of complexity modern data-driven AI approaches can handle, OpenAI Five is far more impressive than either DQN or AlphaGo,” says Andrey Kurenkov, a PhD student at Stanford studying computer science and the editor of AI site Skynet Today. (DQN foi o sistema de inteligência artificial de de DeepMind que se ensinou a jogar Atari.) Mas, observa Kurenkov, enquanto esses projetos mais antigos introduziram “idéias significativas e novas” ao nível da pesquisa pura, OpenAI Cinco está principalmente implantando estruturas existentes em uma escala anteriormente inimaginável. Ganhar ou perder, ainda é grande.

no início deste ano, o OpenAI Five derrotou uma equipe de jogadores amadores como referência de suas habilidades.

foto: OpenAI

as máquinas ainda não têm um plano de jogo
A impossibilidade de um level playing field
faça uma viagem de volta a 1997, com um incrível e rara, nunca abriu o Nintendo 64 Disk Drive dev kit
Fantasma de Tsushima é a obtenção de um filme adaptação do diretor do John Wick
Final Fantasy VIII é agora, no iOS e no Android

as máquinas ainda não têm um plano de jogo

MAS pondo de lado a engenharia, quão bons podem ser os bots se eles apenas perderam duas partidas contra os humanos? É uma pergunta justa, e a resposta é: ainda muito boa.

ao longo do ano passado, os bots graduaram-se através de versões progressivamente mais difíceis do jogo, começando com lutas 1v1, e depois 5v5 lutas com restrições. No entanto, eles ainda têm que lidar com a complexidade total do jogo, e têm estado jogando com certas mecânicas no jogo desligadas. Para os jogos na Internacional, algumas dessas restrições foram removidas, mas não todas. Mais notavelmente, os bots não tinham mais correios invulneráveis (NPCs que entregam itens para heróis). Estes tinham sido anteriormente um importante suporte para o seu estilo de jogo, transportando um fluxo confiável de poções de cura para ajudá-los a manter um ataque implacável. Na Internacional, eles tinham de se preocupar com as suas linhas de abastecimento serem cortadas.

embora os jogos da semana passada ainda estejam sendo analisados, o consenso inicial é que os bots jogaram bem, mas não excepcionalmente assim. Não eram savants al.; eles tinham pontos fortes e fracos, dos quais os humanos podiam aproveitar-se como fariam contra qualquer equipa.

ambos os jogos começaram muito nível, com os seres humanos primeiro tomando a liderança, em seguida, bots, em seguida, humanos. Mas em ambas as vezes, quando os humanos ganharam uma grande vantagem, os robots acharam difícil recuperar. Houve especulações pelos comentaristas do jogo que isso poderia ser porque a IA preferiu “ganhar por 1 ponto com 90% de certeza, do que ganhar por 50 pontos com uma certeza de 51%.”(Esta característica também foi perceptível no estilo de jogo de AlphaGo. Isso implica que o OpenAI Five foi usado para ganhar vitórias constantes, mas previsíveis. Quando os bots perderam sua liderança, eles foram incapazes de fazer as peças mais aventureiras necessárias para recuperá-lo.

vídeo da segunda partida do OpenAI Five no International.

isto é apenas um palpite, no entanto. Como é geralmente o caso da ia, adivinhar o processo de pensamento exato por trás das ações dos bots é impossível. O que podemos dizer é que eles se destacaram de perto, mas achou mais difícil combinar as estratégias de longo prazo dos seres humanos.

os cinco OpenAI foram infalivelmente precisos, agressivamente escolhendo alvos com feitiços e ataques, e geralmente sendo uma ameaça para qualquer herói inimigo que eles encontraram. Mike Cook, um pesquisador da AI games na Universidade de Falmouth e um ávido jogador de Dota que twittou ao vivo as lutas, descreveu o estilo dos bots como “hipnótico”.””agir com precisão e clareza”, disse Cook Ao Verge. “Muitas vezes, os humanos ganhavam uma luta e, em seguida, baixavam a guarda um pouco, esperando que a equipe inimiga recuasse e se reagrupasse. Mas os robots não fazem isso. Se conseguem ver uma morte, levam-na.”

onde os bots pareciam tropeçar estava no longo jogo, pensando como as partidas podem se desenvolver em intervalos de 10 ou 20 minutos. Na segunda de suas duas lutas contra uma equipe de jogadores profissionais chineses com uma reputação temível (eles foram referidos pelos comentaristas como “The old legends club” ou, mais simplesmente, “the gods”), os humanos optaram por uma estratégia assimétrica. Um jogador reuniu recursos para lentamente alimentar seu herói, enquanto os outros quatro executaram interferência para ele. Os bots não pareciam notar o que estava acontecendo, porém, e no final do jogo, team human tinha um herói que ajudou a devastar os jogadores de IA. “Este é um estilo natural para humanos jogando Dota”, diz Cook. “para os bots, é um planeamento extremo a longo prazo.”

esta questão da estratégia é importante não apenas para o OpenAI, mas para a pesquisa de IA de forma mais geral. A ausência de planejamento de longo prazo é muitas vezes visto como uma grande falha de aprendizagem de reforço, porque a IA criada usando este método muitas vezes enfatiza pagamentos imediatos ao invés de recompensas de longo prazo. Isto porque estruturar um sistema de recompensa que funciona durante períodos de tempo mais longos é difícil. Como você ensina um bot a adiar o uso de um feitiço poderoso até que os inimigos sejam agrupados juntos, se você não pode prever quando isso vai acontecer? Dá-lhe pequenas recompensas por não usar esse feitiço? E se ele decidir nunca usá-lo como resultado? E este é apenas um exemplo básico. Dota 2 jogos geralmente duram de 30 a 45 minutos, e os jogadores têm que pensar constantemente sobre o que a ação vai levar ao sucesso a longo prazo.

é importante salientar, no entanto, que os bots não eram apenas turvos, procurando recompensas gremlins. A rede neural que controla cada herói tem um componente de memória que aprende certas estratégias. E a forma como eles respondem às Recompensas é moldada de modo que os bots consideram futuros pagamentos, bem como aqueles que são mais imediatos. De fato, a OpenAI diz que seus agentes de IA fazem isso em um grau muito maior do que qualquer outro sistema comparável, com uma “meia-vida recompensa” de 14 minutos (aproximadamente, a duração do tempo que os bots podem esperar por pagamentos futuros).Kurenkov, que escreveu extensivamente sobre as limitações da aprendizagem de reforço, disse que os jogos mostram que a aprendizagem de reforço pode lidar com “muito mais complexidade do que a maioria dos pesquisadores de IA poderia ter imaginado.”Mas, acrescenta, a derrota da semana passada sugere que novos sistemas são necessários especificamente para gerenciar o pensamento de longo prazo. (Sem surpresa, o chefe de tecnologia da OpenAI discorda.)

ao contrário do resultado dos jogos, não há nenhuma conclusão óbvia aqui. O desacordo sobre o sucesso dos bots espelha discussões maiores e não resolvidas na IA. Como o pesquisador Julian Togelius observou no Twitter, como começamos a diferenciar entre estratégia de longo prazo e comportamento que simplesmente se parece com ele? Isso importa? Tudo o que sabemos por agora é que neste domínio em particular, a IA ainda não consegue pensar melhor que os humanos.Dota 2 oferece mais de 100 heróis diferentes com uma gama de habilidades, e AI ainda tem que dominá-los todos.

imagem: Válvula

A impossibilidade de um level playing field

Discussão sobre os bots a inteligência é uma coisa, mas OpenAI Cinco do Dota 2 corresponde também levantou outra, mais fundamental: por que nós etapa estes eventos em tudo?

tome os comentários de Gary Marcus, um respeitado crítico das limitações da IA contemporânea. Na preparação para os jogos do OpenAI na semana passada, Marcus disse no Twitter que os bots não jogam com justiça. Ao contrário dos jogadores humanos (ou outros sistemas de IA), eles realmente não olham para a tela para jogar. Em vez disso, eles usam “bot API” do Dota 2 para entender o jogo. Este é um feed de 20.000 números que descreve o que está acontecendo em forma numérica, incorporando informações sobre tudo, desde a localização de cada herói até sua saúde até o resfriamento de feitiços e ataques individuais.Como Marcus diz ao Verge, este “atalhos o problema extremamente desafiador da percepção da cena” e dá aos bots uma enorme vantagem. Eles não têm que procurar no mapa para verificar onde sua equipe está, por exemplo, ou olhar para baixo na IU para ver se seu feitiço mais poderoso está pronto. Eles não têm que adivinhar a saúde de um inimigo ou estimar sua distância para ver se um ataque vale a pena. Eles simplesmente sabem.Mas isto conta como batota?

existem algumas maneiras de responder a isso. Primeiro, o OpenAI poderia ter criado um sistema de visão para ler os pixels e recuperar a mesma informação que a API bot fornece. (A principal razão pela qual não o fez é que teria sido incrivelmente intensivo em recursos.) Isso é complicado de julgar, como ninguém sabe se funcionaria até que alguém realmente fez isso. Mas talvez seja irrelevante. A questão mais importante pode ser:: podemos ter uma luta justa entre humanos e máquinas? Afinal de contas, se quisermos aproximar como os humanos jogam Dota 2, precisamos construir mãos de robô para o OpenAI cinco para operar um mouse e teclado? Para torná-lo ainda mais justo, as mãos devem suar?

estas questões são um pouco faciosas, mas realçam a impossibilidade de criar um verdadeiro campo de jogo entre humanos e computadores. Tal coisa não existe porque as máquinas pensam como os humanos da mesma forma que os aviões voam como pássaros. Como diz O pesquisador da AI games, Cook.: “Claro que os computadores são melhores do que nós em coisas. Foi por isso que inventámos computadores.”

talvez nós precisemos pensar um pouco mais sobre por que nós realizamos esses eventos em primeiro lugar. Brockman diz ao Verge que há mais do que jogar. “A razão pela qual fazemos Dota não é para que possamos resolver Dota”, diz ele. “Estamos nisto porque achamos que podemos desenvolver a tecnologia da IA que pode alimentar o mundo nas próximas décadas.”

há verdade nesta reivindicação ambiciosa. Já a infra — estrutura de formação utilizada para ensinar os cinco OpenAI — um sistema chamado Rapid-está a ser voltada para outros projectos. OpenAI usou-o para ensinar mãos de robô a manipular objetos com novos níveis de destreza humana, por exemplo. Como sempre com AI, há limitações, e Rapid não é um algoritmo do-everything. Mas o princípio geral sustenta: o trabalho necessário para alcançar objetivos ainda arbitrários (como bater os humanos em um jogo de vídeo) ajuda a estimular todo o campo da IA.

o jogador sul-coreano Lee Sedol foi derrotado por AlphaGo em 2016, mas ele aprendeu novas habilidades como resultado.

Photo: Google / Getty Images

And it also helps those challenged by the machines. Uma das partes mais fascinantes da história de AlphaGo foi que, embora o campeão humano Lee Sedol tenha sido derrotado por um sistema de IA, ele, e o resto da Comunidade Go, também aprenderam com ele. O estilo de jogo de AlphaGo perturbou séculos de sabedoria aceite. Seus movimentos ainda estão sendo estudados, e Lee entrou em uma série de Vitórias depois de sua luta contra a máquina.

a mesma coisa já está começando a acontecer no mundo do Dota 2: os jogadores estão estudando o jogo do OpenAI Five para descobrir novas táticas e movimentos. Pelo menos um mecânico de jogos não descoberto, que permite aos jogadores recarregar uma certa arma rapidamente, ficando fora do alcance do inimigo, foi descoberto pelos bots e passado para os humanos. Como diz O pesquisador AI, Merity: “eu literalmente quero sentar e assistir a esses jogos para que eu possa aprender novas estratégias. As pessoas estão olhando para essas coisas e dizendo, ‘ isso é algo que precisamos puxar para o jogo.Este fenômeno do ensino da IA em seres humanos provavelmente só se tornará mais comum no futuro. De uma forma estranha, parece quase um acto de benevolência. Como se, numa demonstração de graça humana, os robots nos estivessem a dar um presente de despedida à medida que ultrapassavam as nossas capacidades. Não é verdade, é claro; AI é apenas outro método que os humanos inventaram para nos ensinar. Mas é por isso que jogamos. É uma experiência de aprendizagem para nós e para as máquinas.

Jogos