OpenAI Dota 2 nederlag är fortfarande en vinst för artificiell intelligens

förra veckan slog mänskligheten tillbaka mot maskinerna — typ av.

faktiskt slog vi dem i ett videospel. I en bäst-av-tre match, två lag av pro spelare övervann en trupp av AI bots som skapades av Elon Musk-grundade Research lab OpenAI. Konkurrenterna spelade Dota 2, ett fenomenalt populärt och komplext battle arena-spel. Men matchen var också något av ett lakmustest för artificiell intelligens: det senaste högprofilerade måttet på vår ambition att skapa maskiner som kan tänka oss.

i human-AI-styrkortet har artificiell intelligens rackat upp några stora vinster nyligen. Mest anmärkningsvärt var nederlaget för världens bästa Go-spelare av Deepminds AlphaGo, en prestation som experter trodde utom räckhåll i minst ett decennium. Nyligen har forskare uppmärksammat videospel som nästa utmaning. Även om videospel saknar det intellektuella rykte som Go and chess, är de faktiskt mycket svårare för datorer att spela. De undanhåller information från spelare; äger rum i komplexa, ständigt föränderliga miljöer; och kräver den typ av strategiskt tänkande som inte lätt kan simuleras. Med andra ord är de närmare de typer av problem vi vill att AI ska ta itu med i verkligheten.

Dota 2 är en särskilt populär testplats, och OpenAI tros ha de bästa Dota 2-botsna runt. Men förra veckan förlorade de. Så vad hände? Har vi nått något slags tak i AI: s förmåga? Är detta bevis på att vissa färdigheter bara är för komplexa för datorer?

de korta svaren är nej och nej. Detta var bara en” bump i vägen”, säger Stephen Merity, en maskininlärningsforskare och Dota 2-fan. Maskiner kommer att erövra spelet så småningom, och det kommer sannolikt att vara OpenAI som spricker fallet. Men uppackning varför människor vann förra veckan och vad OpenAI lyckades uppnå — även i nederlag — är fortfarande användbart. Det berättar vad AI kan och inte kan göra och vad som kommer.

en skärmdump av Dota 2, ett fantasy arena battle-spel där två lag med fem hjältar kämpar för att förstöra varandras bas. Gameplay är komplex, och matcher varar vanligtvis mer än 30 minuter.

bild: Valve

Låt oss först sätta förra veckans matcher i sitt sammanhang. Botsna skapades av OpenAI som en del av dess breda forskningsuppdrag för att utveckla AI som ”gynnar hela mänskligheten.”Det är ett direktiv som motiverar mycket olika forskning och har lockat några av fältets bästa forskare. Genom att träna sitt team av Dota 2-bots (kallad OpenAI Five) säger labbet att det vill utveckla system som kan ”hantera komplexiteten och osäkerheten i den verkliga världen.”

de fem botsna (som fungerar oberoende men utbildades med samma algoritmer) lärdes att spela Dota 2 med hjälp av en teknik som kallas förstärkningsinlärning. Detta är en vanlig träningsmetod som i huvudsak är trial-and-error i stor skala. (Det har sina svagheter, men det ger också otroliga resultat, inklusive AlphaGo.) Istället för att koda bots med reglerna för Dota 2 kastas de in i spelet och lämnas för att räkna ut saker för sig själva. Openais ingenjörer hjälper denna process genom att belöna dem för att slutföra vissa uppgifter (som att döda en motståndare eller vinna en match) men inget mer än det.

detta innebär att botsna börjar spela helt slumpmässigt, och med tiden lär de sig att ansluta vissa beteenden till belöningar. Som du kanske gissar är detta ett extremt ineffektivt sätt att lära sig. Som ett resultat måste botsna spela Dota 2 i en snabbare takt och klämma in 180 års träningstid varje dag. Som openais CTO och medgrundare Greg Brockman berättade för The Verge tidigare i år, om det tar en människa mellan 12 000 och 20 000 timmars övning för att behärska en viss färdighet, brinner botsna genom ”100 mänskliga livstider av erfarenhet varje dag.”

en del av anledningen till att det tar så lång tid är att Dota 2 är enormt komplex, mycket mer än ett brädspel. Två lag på fem möter varandra på en karta som är fylld med icke-spelbara tecken, hinder och förstörbara byggnader, som alla har en effekt på stridens tidvatten. Hjältar måste kämpa sig till motståndarens bas och förstöra den medan de jonglerar olika mekaniker. Det finns hundratals objekt som de kan plocka upp eller köpa för att öka sin förmåga, och varje hjälte (av vilka det finns mer än 100) har sina egna unika drag och attribut. Varje omgång Dota 2 är som en kamp om antiken som spelas ut i miniatyr, med lag som kämpar över territoriet och kämpar för att manövrera motståndare.

att bearbeta all denna data så att spel kan spelas i snabbare takt än livet är en stor utmaning. För att träna sina algoritmer måste OpenAI corral en enorm mängd processorkraft-cirka 256 GPU: er och 128 000 CPU-kärnor. Det är därför experter ofta pratar om OpenAI Five som ett ingenjörsprojekt lika mycket som ett forskningsprojekt: det är en prestation bara för att få systemet igång, än mindre slå människorna.

”när det gäller att visa upp den nivå av komplexitet som moderna datadrivna AI-metoder kan hantera är OpenAI Five mycket mer imponerande än antingen DQN eller AlphaGo”, säger Andrey Kurenkov, doktorand vid Stanford som studerar datavetenskap och redaktör för AI-webbplatsen Skynet idag. (DQN var Deepminds AI-system som lärde sig att spela Atari.) Men, konstaterar Kurenkov, medan dessa äldre projekt introducerade ”betydande, nya ideer” på ren forskningsnivå, använder OpenAI Five huvudsakligen befintliga strukturer i en tidigare okänd skala. Vinna eller förlora, det är fortfarande stort.

tidigare i år besegrade OpenAI Five ett team av amatörspelare som ett riktmärke för sina förmågor.

foto: OpenAI

maskiner saknar fortfarande en spelplan
omöjligheten med lika villkor
ta en tur tillbaka till 1997 med en otroligt sällsynt, aldrig öppnad Nintendo 64 Disk Drive dev kit
Ghost of Tsushima får en filmanpassning från regissören av John Wick
Final Fantasy VIII är nu på iOS och Android

maskiner saknar fortfarande en spelplan

men att lägga undan teknik, hur bra kan botsna vara om de bara förlorade två matcher mot människor? Det är en rättvis fråga, och svaret är: fortfarande ganska jävligt bra.

under det senaste året har bots examen genom progressivt hårdare versioner av spelet, börjar med 1v1 bouts, sedan 5v5 matchar med begränsningar. Men de har ännu inte tagit itu med spelets fulla komplexitet och har spelat med vissa spelmekaniker avstängda. För matcherna på The International togs några av dessa begränsningar bort, men inte alla. Framför allt hade bots inte längre osårbara kurirer (NPC: er som levererar föremål till hjältar). Dessa hade tidigare varit en viktig rekvisita för deras spelstil, ferrying en pålitlig ström av helande drycker för att hjälpa dem att hålla upp en obeveklig attack. På The International var de tvungna att oroa sig för att deras försörjningslinjer plockades av.

även om förra veckans spel fortfarande analyseras, är det tidiga samförståndet att botsna spelade bra men inte exceptionellt så. De var inte AI savants; de hade styrkor och svagheter, som människor kunde dra nytta av som de skulle mot något lag.

båda spelen började mycket nivå, med människor först tar ledningen, sedan bots, sedan människor. Men båda gångerna, när människorna fick en betydande fördel, fann botsna svårt att återhämta sig. Det spekulerades av spelets kommentatorer att detta kan bero på att AI föredrog ”att vinna med 1 poäng med 90% säkerhet än att vinna med 50 poäng med 51% säkerhet.”(Detta drag märktes också i Alphagos spelstil.) Det innebär att OpenAI Five användes för att slipa ut stabila men förutsägbara segrar. När botsna tappade ledningen kunde de inte göra de mer äventyrliga spelen nödvändiga för att återfå den.

Video av OpenAI Fives andra match på International.

Detta är bara en gissning, fastän. Som vanligtvis är fallet med AI, är det omöjligt att divinera den exakta tankeprocessen bakom botsens handlingar. Vad vi kan säga är att de utmärkte sig i nära håll men fann det svårare att matcha människors långsiktiga strategier.

OpenAI Five var oerhört exakt, aggressivt plocka bort mål med trollformler och attacker, och i allmänhet vara ett hot mot någon fiende hjältar de kom på. Mike Cook, en AI spel forskare vid University of Falmouth och en ivrig Dota spelare som lever-twittrade slagsmål, beskrev bots stil som ”hypnotisk.””handla med precision och tydlighet”, sa Cook till The Verge. ”Ofta skulle människorna vinna en kamp och sedan släppa sin vakt något och förvänta sig att fiendens lag skulle dra sig tillbaka och omgruppera. Men botsna gör inte det. Om de kan se en död, tar de den.”

där botsna tycktes snubbla var i det långa spelet och tänkte hur matcher kan utvecklas i 10-eller 20-minuters spann. I den andra av deras två matcher mot ett team av Kinesiska pro-Spelare med ett fruktansvärt rykte (de kallades olika av kommentatorerna som ”the old legends club” eller, helt enkelt, ”the gods”) valde människorna en asymmetrisk strategi. En spelare samlade resurser för att långsamt driva upp sin hjälte, medan de andra fyra sprang störningar för honom. Botsna verkade inte märka vad som hände, och i slutet av spelet hade team human en soppad hjälte som hjälpte till att förstöra AI-spelarna. ”Det här är en naturlig stil för människor som spelar Dota”, säger Cook. ”för bots är det Extrem långsiktig planering.”

denna fråga om strategi är viktig inte bara för OpenAI, utan för AI-forskning mer allmänt. Frånvaron av långsiktig planering ses ofta som en stor brist på förstärkningsinlärning eftersom AI skapad med denna metod ofta betonar omedelbara utbetalningar snarare än långsiktiga belöningar. Detta beror på att det är svårt att strukturera ett belöningssystem som fungerar under längre tidsperioder. Hur lär du en bot att fördröja användningen av en kraftfull stavning tills fiender är grupperade om du inte kan förutsäga när det kommer att hända? Ger du bara små belöningar för att du inte använder den stavningen? Vad händer om det bestämmer sig för att aldrig använda det som ett resultat? Och detta är bara ett grundläggande exempel. Dota 2-spel varar i allmänhet 30 till 45 minuter, och spelare måste ständigt tänka igenom vilka åtgärder som leder till långsiktig framgång.

det är dock viktigt att betona att bots inte bara var tanklösa, belöningssökande gremlins. Det neurala nätverket som styr varje hjälte har en minneskomponent som lär sig vissa strategier. Och hur de svarar på belöningar är formade så att bots överväger framtida utbetalningar såväl som de som är mer omedelbara. Faktum är att OpenAI säger att dess AI-agenter gör detta i mycket högre grad än några andra jämförbara system, med en ”belöningshalveringstid” på 14 minuter (grovt sett hur lång tid botsna kan vänta på framtida utbetalningar).

Kurenkov, som har skrivit mycket om begränsningarna av förstärkningsinlärning, sa att matcherna visar att förstärkningsinlärning kan hantera ”mycket mer komplexitet än de flesta AI-forskare kan ha föreställt sig.”Men, tillägger han, förra veckans nederlag tyder på att nya system behövs specifikt för att hantera långsiktigt tänkande. (Det är inte överraskande att openais Chief technology officer inte håller med.)

till skillnad från resultatet av matcherna finns det ingen uppenbar slutsats här. Oenighet om bots framgång speglar större, olösta diskussioner i AI. Som forskaren Julian Togelius noterade på Twitter, Hur börjar vi till och med skilja mellan långsiktig strategi och beteende som bara ser ut som det? Spelar det nån roll? Allt vi vet för tillfället är att i den här domänen kan AI inte tänka ut människor än.

Dota 2 erbjuder mer än 100 olika hjältar med en rad förmågor, och AI har ännu inte behärskat dem alla.

bild: Valve

omöjligheten med lika villkor

Wrangling över botsens skicklighet är en sak, men OpenAI Fives Dota 2-matcher tog också upp en annan, mer grundläggande fråga: varför arrangerar vi dessa händelser alls?

ta kommentarerna från Gary Marcus, en respekterad kritiker av begränsningarna i samtida AI. I upptakten till openais spel förra veckan påpekade Marcus på Twitter att botsna inte spelar rättvist. Till skillnad från mänskliga spelare (eller några andra AI-system) tittar de inte på skärmen för att spela. Istället använder de Dota 2: s ”bot API” för att förstå spelet. Detta är ett flöde av 20 000 nummer som beskriver vad som händer i numerisk form och innehåller information om allt från platsen för varje hjälte till deras hälsa till nedkylningen av enskilda stavar och attacker.

som Marcus berättar The Verge, detta ”genvägar det enormt utmanande problemet med scenuppfattning” och ger bots en enorm fördel. De behöver inte söka på kartan för att kontrollera var deras lag är, till exempel, eller titta ner på användargränssnittet för att se om deras mest kraftfulla stavning är klar. De behöver inte gissa en fiendes hälsa eller uppskatta deras avstånd för att se om en attack är värt det. De vet bara.

men räknas detta som fusk?

det finns några sätt att svara på detta. Först kunde OpenAI ha skapat ett visionssystem för att läsa pixlarna och hämta samma information som bot API ger. (Den främsta anledningen till att det inte var att det skulle ha varit otroligt resurskrävande.) Det här är svårt att bedöma, eftersom ingen vet om det skulle fungera förrän någon faktiskt gjorde det. Men det är kanske irrelevant. Den viktigaste frågan kan vara: kan vi någonsin ha en rättvis kamp mellan människor och maskiner? När allt kommer omkring, om vi vill approximera hur människor spelar Dota 2, behöver vi bygga robothänder för OpenAI Five för att använda en mus och tangentbord? För att göra det ännu rättvisare, ska händerna svettas?

dessa frågor är lite facetiska, men de understryker omöjligheten att skapa ett verkligt lika villkor mellan människor och datorer. En sådan sak existerar inte eftersom maskiner tänker som människor på samma sätt som flygplan flyger som fåglar. Som AI-spelforskare Cook uttrycker det: ”Naturligtvis är datorer bättre än oss på saker. Därför uppfann vi datorer.”

kanske måste vi tänka lite djupare på varför vi håller dessa händelser i första hand. Brockman berättar The Verge att det finns mer än spel. ”Anledningen till att vi gör Dota är inte så att vi kan lösa Dota”, säger han. ”Vi är i detta eftersom vi tror att vi kan utveckla AI-tekniken som kan driva världen under kommande decennier.”

det finns sanning i detta ambitiösa påstående. Redan, utbildningsinfrastrukturen som används för att undervisa OpenAI Five — ett system som kallas Rapid — vänds till andra projekt. OpenAI har använt den för att lära robothänder att manipulera objekt med nya nivåer av mänsklig skicklighet, till exempel. Som alltid med AI finns det begränsningar, och Rapid är inte någon gör-allt-algoritm. Men den allmänna principen gäller: det arbete som behövs för att uppnå även godtyckliga mål (som att slå människor i ett videospel) hjälper till att stimulera hela ai-fältet.

Sydkoreanska Go-spelaren Lee Sedol slogs av AlphaGo 2016, men han lärde sig nya färdigheter som ett resultat.

Foto: Google / Getty Images

och det hjälper också de som utmanas av maskinerna. En av de mest fascinerande delarna av AlphaGo-berättelsen var att även om mänsklig mästare Lee Sedol blev slagen av ett AI-system, lärde han och resten av GO-samhället också av det. Alphagos spelstil upprörde århundraden av accepterad visdom. Dess drag studeras fortfarande, och Lee gick på en vinnande rad efter sin match mot maskinen.

samma sak börjar redan hända i Dota 2-Världen: spelare studerar OpenAI Fives spel för att avslöja nya taktiker och drag. Åtminstone en tidigare oupptäckt spelmekaniker, som gör det möjligt för spelare att ladda ett visst vapen snabbt genom att hålla sig utanför fiendens räckvidd, har upptäckts av botsna och vidarebefordrats till människor. Som AI-forskaren Merity säger: ”jag vill bokstavligen sitta och titta på dessa matcher så att jag kan lära mig nya strategier. Folk tittar på det här och säger, ’Detta är något vi måste dra in i spelet.”

detta fenomen av AI-undervisning människor kommer sannolikt bara att bli vanligare i framtiden. På ett udda sätt verkar det nästan som en välvilja. Som om, i en uppvisning av mänsklig nåd, bots ger oss en avskedsgåva när de överträffar våra förmågor. Det är naturligtvis inte sant; AI är bara en annan metod som människor har uppfunnit för att lära oss själva. Men det är därför vi spelar. Det är en lärande upplevelse – för oss och maskinerna.

Gaming