OpenAI Dota 2 sconfitta è ancora una vittoria per l'intelligenza artificiale

La scorsa settimana, l’umanità ha colpito di nuovo contro le macchine — sorta di.

In realtà, li abbiamo battuti in un videogioco. In una partita al meglio delle tre, due squadre di giocatori professionisti hanno superato una squadra di robot AI creati dal laboratorio di ricerca OpenAI fondato da Elon Musk. I concorrenti stavano giocando Dota 2, un fenomenale popolare e complesso gioco arena di battaglia. Ma la partita è stata anche una sorta di cartina di tornasole per l’intelligenza artificiale: l’ultima misura di alto profilo della nostra ambizione di creare macchine in grado di superarci.

Nella scorecard human-AI, l’intelligenza artificiale ha collezionato alcune grandi vittorie di recente. La cosa più notevole è stata la sconfitta dei migliori giocatori di Go del mondo da parte di AlphaGo di DeepMind, un risultato che gli esperti hanno ritenuto fuori portata per almeno un decennio. Recentemente, i ricercatori hanno rivolto la loro attenzione ai videogiochi come la prossima sfida. Anche se i videogiochi non hanno la reputazione intellettuale di Go and chess, in realtà sono molto più difficili da giocare per i computer. Trattengono le informazioni dai giocatori; si svolgono in ambienti complessi e in continua evoluzione; e richiedono il tipo di pensiero strategico che non può essere facilmente simulato. In altre parole, sono più vicini ai tipi di problemi che vogliamo che l’IA affronti nella vita reale.

Dota 2 è un terreno di prova particolarmente popolare, e OpenAI è pensato per avere i migliori Dota 2 bot in giro. Ma la settimana scorsa hanno perso. Allora, cos’e ‘ successo? Abbiamo raggiunto una sorta di massimale nell’abilità dell’IA? È questa la prova che alcune abilità sono troppo complesse per i computer?

Le risposte brevi sono no e no. Questo è stato solo un “urto nella strada”, afferma Stephen Merity, un ricercatore di apprendimento automatico e fan di Dota 2. Le macchine conquisteranno il gioco alla fine, e probabilmente sarà OpenAI a risolvere il caso. Ma disimballaggio perché gli esseri umani hanno vinto la scorsa settimana e ciò che OpenAI è riuscito a raggiungere-anche nella sconfitta-è ancora utile. Ci dice cosa l’IA può e non può fare e cosa verrà.

Uno screenshot di Dota 2, un gioco di battaglia fantasy arena in cui due squadre di cinque eroi combattono per distruggere l’un l’altro base. Il gameplay è complesso e le partite in genere durano più di 30 minuti.

Immagine: Valve

Per prima cosa, mettiamo le partite della scorsa settimana nel contesto. I bot sono stati creati da OpenAI come parte del suo ampio mandato di ricerca per sviluppare AI che ” avvantaggia tutta l’umanità.”È una direttiva che giustifica molte ricerche diverse e ha attirato alcuni dei migliori scienziati del settore. Allenando il suo team di bot Dota 2 (soprannominato OpenAI Five), il laboratorio afferma di voler sviluppare sistemi in grado di “gestire la complessità e l’incertezza del mondo reale.”

Ai cinque bot (che operano in modo indipendente ma sono stati addestrati usando gli stessi algoritmi) è stato insegnato a giocare a Dota 2 usando una tecnica chiamata reinforcement learning. Questo è un metodo di allenamento comune che è essenzialmente prova ed errore su vasta scala. (Ha i suoi punti deboli, ma produce anche risultati incredibili, tra cui AlphaGo. Invece di codificare i bot con le regole di Dota 2, vengono gettati nel gioco e lasciati a capire le cose da soli. Gli ingegneri di OpenAI aiutano questo processo premiandoli per aver completato determinati compiti (come uccidere un avversario o vincere una partita) ma niente di più.

Ciò significa che i bot iniziano a giocare in modo completamente casuale e, nel tempo, imparano a collegare determinati comportamenti ai premi. Come puoi immaginare, questo è un modo estremamente inefficiente per imparare. Di conseguenza, i bot devono giocare a Dota 2 ad un ritmo accelerato, stipando 180 anni di tempo di allenamento in ogni giorno. Come il CTO e co-fondatore di OpenAI Greg Brockman ha detto a The Verge all’inizio di quest’anno, se ci vuole un essere umano tra 12.000 e 20.000 ore di pratica per padroneggiare una certa abilità, i bot bruciano “100 vite umane di esperienza ogni singolo giorno.”

Parte del motivo per cui ci vuole così tanto tempo è che Dota 2 è estremamente complesso, molto più di un gioco da tavolo. Due squadre di cinque si affrontano l’una contro l’altra su una mappa piena di personaggi non giocabili, ostacoli ed edifici distruttibili, che hanno tutti un effetto sull’ondata di battaglia. Eroi devono combattere la loro strada verso la base del loro avversario e distruggerlo mentre giocoleria vari meccanici. Ci sono centinaia di oggetti che possono raccogliere o acquistare per aumentare la loro abilità, e ogni eroe (di cui ce ne sono più di 100) ha le sue mosse e attributi unici. Ogni gioco di Dota 2 è come una battaglia dell’antichità giocata in miniatura, con squadre che si contendono il territorio e lottano per superare gli avversari.

Elaborare tutti questi dati in modo che i giochi possano essere giocati a un ritmo più veloce della vita è una sfida enorme. Per addestrare i loro algoritmi, OpenAI ha dovuto corral una massiccia quantità di potenza di elaborazione — circa 256 GPU e 128.000 core della CPU. Questo è il motivo per cui gli esperti parlano spesso di OpenAI Five come un progetto di ingegneria tanto quanto una ricerca: è un risultato solo per ottenere il sistema installato e funzionante, per non parlare di battere gli umani.

“Per quanto riguarda il livello di complessità che i moderni approcci AI basati sui dati possono gestire, OpenAI Five è molto più impressionante di DQN o AlphaGo”, afferma Andrey Kurenkov, uno studente di dottorato presso Stanford che studia informatica e l’editore del sito AI Skynet Today. (DQN era il sistema IA di DeepMind che si insegnava a suonare Atari.) Ma, osserva Kurenkov, mentre questi vecchi progetti hanno introdotto “idee significative e nuove” a livello di pura ricerca, OpenAI Five sta principalmente implementando strutture esistenti su una scala precedentemente impensabile. Vincere o perdere, questo è ancora grande.

All’inizio di quest’anno, OpenAI Five ha sconfitto una squadra di giocatori dilettanti come punto di riferimento delle sue abilità.

Foto: OpenAI

Le macchine mancano ancora di un piano di gioco
L’impossibilità di una parità di condizioni
fare un viaggio indietro al 1997, con un incredibilmente raro, mai aperto Nintendo 64 Unità Disco dev kit
Fantasma di Tsushima, è sempre un adattamento cinematografico del regista di John Wick
Final Fantasy VIII è ora su iOS e Android

Le macchine mancano ancora di un piano di gioco

Ma mettendo da parte l’ingegneria, quanto possono essere bravi i bot se hanno appena perso due partite contro gli umani? È una domanda giusta, e la risposta è: ancora dannatamente buona.

Nell’ultimo anno, i bot si sono graduati attraverso versioni progressivamente più difficili del gioco, iniziando con attacchi 1v1, poi partite 5v5 con restrizioni. Tuttavia, devono ancora affrontare la piena complessità del gioco e hanno giocato con alcune meccaniche di gioco disattivate. Per le partite all’International, alcuni di questi vincoli sono stati rimossi, ma non tutti. In particolare, i bot non avevano più corrieri invulnerabili (NPC che consegnano oggetti agli eroi). Questi erano stati in precedenza un puntello importante per il loro stile di gioco, traghettando un flusso affidabile di pozioni di guarigione per aiutarli a mantenere un attacco implacabile. All’International, dovevano preoccuparsi che le loro linee di rifornimento venissero ritirate.

Sebbene i giochi della scorsa settimana siano ancora in fase di analisi, il consenso iniziale è che i bot hanno giocato bene ma non eccezionalmente. Non erano esperti di intelligenza artificiale; avevano punti di forza e di debolezza, di cui gli umani potevano approfittare come farebbero contro qualsiasi squadra.

Entrambi i giochi sono iniziati molto di livello, con gli umani che prima hanno preso il comando, poi i bot, poi gli umani. Ma entrambe le volte, una volta che gli umani hanno guadagnato un considerevole vantaggio, i bot hanno trovato difficile recuperare. Ci sono state speculazioni da parte dei commentatori del gioco che questo potrebbe essere dovuto al fatto che l’IA preferiva ” vincere di 1 punto con certezza del 90%, piuttosto che vincere di 50 punti con una certezza del 51%.”(Questo tratto era evidente anche nello stile di gioco di AlphaGo.) Implica che OpenAI Five era abituato a macinare vittorie costanti ma prevedibili. Quando i bot hanno perso il loro vantaggio, non sono stati in grado di rendere i giochi più avventurosi necessari per riconquistarlo.

Video della seconda partita di OpenAI Five all’International.

Questa è solo una supposizione, però. Come di solito accade con l’IA, è impossibile indovinare l’esatto processo di pensiero dietro le azioni dei bot. Quello che possiamo dire è che eccellevano da vicino, ma hanno trovato più complicato abbinare le strategie a lungo termine degli umani.

Gli OpenAI Five erano infallibilmente precisi, in modo aggressivo raccogliendo bersagli con incantesimi e attacchi, e in generale essendo una minaccia per tutti gli eroi nemici su cui si imbattevano. Mike Cook, un ricercatore di giochi AI presso l’Università di Falmouth e un avido giocatore di Dota che ha twittato in diretta i combattimenti, ha descritto lo stile dei bot come “ipnotico.””agisci con precisione e chiarezza”, ha detto Cook a The Verge. “Spesso, gli umani vincevano un combattimento e poi abbassavano leggermente la guardia, aspettandosi che la squadra nemica si ritirasse e si raggruppasse. Ma i bot non lo fanno. Se riescono a vedere un’uccisione, la prendono.”

Dove i bot sembravano inciampare era nel gioco lungo, pensando a come le partite potrebbero svilupparsi in intervalli di 10 o 20 minuti. Nel secondo dei loro due attacchi contro una squadra di giocatori professionisti cinesi con una reputazione temibile (sono stati variamente indicati dai commentatori come “the old legends club” o, più semplicemente, “the gods”), gli umani hanno optato per una strategia asimmetrica. Un giocatore ha raccolto risorse per accendere lentamente il suo eroe, mentre gli altri quattro hanno eseguito interferenze per lui. I bot non sembravano notare cosa stava succedendo, però, e alla fine del gioco, team human aveva un eroe truccato che aiutava a devastare i giocatori di IA. “Questo è uno stile naturale per gli umani che giocano a Dota”, dice Cook. “per i bot, è estrema pianificazione a lungo termine.”

Questa questione di strategia è importante non solo per OpenAI, ma per la ricerca AI più in generale. L’assenza di pianificazione a lungo termine è spesso vista come un grave difetto dell’apprendimento per rinforzo perché l’IA creata utilizzando questo metodo spesso enfatizza i profitti immediati piuttosto che i premi a lungo termine. Questo perché strutturare un sistema di ricompensa che funziona per periodi di tempo più lunghi è difficile. Come si fa a insegnare un bot a ritardare l’uso di un potente incantesimo fino a quando i nemici sono raggruppati se non è possibile prevedere quando ciò accadrà? Gli dai solo piccole ricompense per non aver usato quell’incantesimo? Cosa succede se decide di non usarlo mai come risultato? E questo è solo un esempio di base. Dota 2 giochi generalmente durano 30 a 45 minuti, ed i giocatori devono pensare costantemente attraverso quale azione porterà al successo a lungo termine.

È importante sottolineare, tuttavia, che i bot non erano solo gremlins spensierati e in cerca di ricompensa. La rete neurale che controlla ogni eroe ha un componente di memoria che impara determinate strategie. E il modo in cui rispondono alle ricompense è modellato in modo che i bot considerino i profitti futuri e quelli più immediati. In effetti, OpenAI afferma che i suoi agenti IA lo fanno in misura molto maggiore rispetto a qualsiasi altro sistema comparabile, con una “emivita di ricompensa” di 14 minuti (grosso modo, il periodo di tempo in cui i bot possono attendere i futuri profitti).

Kurenkov, che ha scritto ampiamente sui limiti dell’apprendimento di rinforzo, ha affermato che le partite mostrano che l’apprendimento di rinforzo può gestire “molta più complessità di quanto la maggior parte dei ricercatori di IA avrebbe potuto immaginare.”Ma, aggiunge, la sconfitta della scorsa settimana suggerisce che sono necessari nuovi sistemi specificamente per gestire il pensiero a lungo termine. (Non sorprende che il Chief Technology officer di OpenAI non sia d’accordo.)

A differenza del risultato delle partite, non c’è una conclusione ovvia qui. Il disaccordo sul successo dei bot rispecchia discussioni più grandi e irrisolte nell’IA. Come ha notato il ricercatore Julian Togelius su Twitter, come iniziamo a distinguere tra strategia a lungo termine e comportamento che sembra proprio così? Ha importanza? Tutto quello che sappiamo per ora è che in questo particolare dominio, l’IA non può ancora pensare agli umani.

Dota 2 offre più di 100 diversi eroi con una gamma di abilità, e l’IA deve ancora padroneggiarli tutti.

Immagine: Valve

L’impossibilità di una parità di condizioni

Litigare per l’intelligenza dei bot è una cosa, ma le partite Dota 2 di OpenAI Five hanno anche sollevato un’altra domanda più fondamentale: perché mettiamo in scena questi eventi?

Prendi i commenti di Gary Marcus, un rispettato critico dei limiti dell’IA contemporanea. Nel periodo precedente ai giochi di OpenAI la scorsa settimana, Marcus ha sottolineato su Twitter che i bot non giocano in modo equo. A differenza dei giocatori umani (o di altri sistemi IA), in realtà non guardano lo schermo per giocare. Invece, usano “bot API” di Dota 2 per capire il gioco. Questo è un feed di 20.000 numeri che descrive cosa sta succedendo in forma numerica, incorporando informazioni su tutto, dalla posizione di ogni eroe alla loro salute al cooldown su singoli incantesimi e attacchi.

Come dice Marcus a The Verge, questo “scorciatoia il problema enormemente impegnativo della percezione della scena” e dà ai bot un enorme vantaggio. Non devono cercare la mappa per verificare dove si trova la loro squadra, ad esempio, o dare un’occhiata all’interfaccia utente per vedere se il loro incantesimo più potente è pronto. Non devono indovinare la salute di un nemico o stimare la loro distanza per vedere se un attacco vale la pena. Lo sanno e basta.

Ma questo conta come imbroglio?

Ci sono alcuni modi per rispondere a questo. Innanzitutto, OpenAI potrebbe aver creato un sistema di visione per leggere i pixel e recuperare le stesse informazioni fornite dall’API bot. (Il motivo principale per cui non lo ha fatto è che sarebbe stato incredibilmente dispendioso in termini di risorse.) Questo è difficile da giudicare, poiché nessuno sa se funzionerebbe fino a quando qualcuno non lo ha fatto. Ma forse è irrilevante. La domanda più importante potrebbe essere: possiamo mai avere una lotta leale tra gli esseri umani e le macchine? Dopo tutto, se vogliamo approssimare come gli esseri umani giocano Dota 2, abbiamo bisogno di costruire mani robot per il OpenAI cinque per operare un mouse e una tastiera? Per renderlo ancora più giusto, le mani dovrebbero sudare?

Queste domande sono un po ‘ sfaccettate, ma sottolineano l’impossibilità di creare un campo di gioco veramente equo tra umani e computer. Una cosa del genere non esiste perché le macchine pensano come gli umani nello stesso modo in cui gli aerei volano come gli uccelli. Come dice il ricercatore di giochi AI Cook: “Naturalmente i computer sono meglio di noi a cose. Ecco perché abbiamo inventato i computer.”

Forse dobbiamo pensare un po ‘ più a fondo sul perché teniamo questi eventi in primo luogo. Brockman dice a The Verge che c’è di più che giocare. “La ragione per cui facciamo Dota non è così possiamo risolvere Dota”, dice. “Siamo in questo perché pensiamo di poter sviluppare la tecnologia AI che può alimentare il mondo nei prossimi decenni.”

C’è verità in questa ambiziosa affermazione. Già, l’infrastruttura di formazione utilizzata per insegnare l’OpenAI Five — un sistema chiamato Rapid-viene rivolta ad altri progetti. OpenAI lo ha usato per insegnare alle mani dei robot a manipolare oggetti con nuovi livelli di destrezza umana, ad esempio. Come sempre con AI, ci sono limitazioni, e Rapid non è un algoritmo di fare tutto. Ma il principio generale vale: il lavoro necessario per raggiungere obiettivi anche arbitrari (come battere gli umani in un videogioco) aiuta a stimolare l’intero campo dell’IA.

Il giocatore sudcoreano Lee Sedol è stato battuto da AlphaGo nel 2016, ma ha imparato nuove abilità come risultato.

Foto: Google / Getty Images

E aiuta anche quelli sfidati dalle macchine. Una delle parti più affascinanti della storia di AlphaGo era che, sebbene il campione umano Lee Sedol fosse stato battuto da un sistema di intelligenza artificiale, anche lui e il resto della comunità Go ne hanno imparato. Lo stile di gioco di AlphaGo ha sconvolto secoli di saggezza accettata. Le sue mosse sono ancora in fase di studio, e Lee è andato su una striscia vincente dopo la sua partita contro la macchina.

La stessa cosa sta già iniziando ad accadere nel mondo di Dota 2: i giocatori stanno studiando il gioco di OpenAI Five per scoprire nuove tattiche e mosse. Almeno una meccanica di gioco precedentemente sconosciuta, che consente ai giocatori di ricaricare rapidamente una certa arma rimanendo fuori dalla portata del nemico, è stata scoperta dai robot e trasmessa agli umani. Come dice il ricercatore di intelligenza artificiale Merity: “Voglio letteralmente sedermi e guardare queste partite in modo da poter imparare nuove strategie. La gente sta guardando questa roba e dicendo, ‘ Questo è qualcosa che dobbiamo tirare in gioco.'”

Questo fenomeno di AI insegnare agli esseri umani è probabile che solo andando a diventare più comune in futuro. In un modo strano, sembra quasi un atto di benevolenza. Come se, in una dimostrazione di grazia umana, i bot ci stanno dando un regalo d’addio mentre superano le nostre abilità. Non è vero, ovviamente; AI è solo un altro metodo che gli esseri umani hanno inventato per insegnare a noi stessi. Ma è per questo che giochiamo. È un’esperienza di apprendimento-per noi e le macchine.

Gioco