Openais Dota 2-nederlag er stadig en sejr for kunstig intelligens

i sidste uge slog menneskeheden tilbage mod maskinerne — slags.

faktisk slog vi dem på et videospil. I en bedst-af-tre kamp, to hold af pro-spillere overvandt en gruppe AI-bots, der blev oprettet af det Elon Musk-grundlagde forskningslaboratorium OpenAI. Konkurrenterne spillede Dota 2, et fænomenalt populært og komplekst kamparenaspil. Men kampen var også noget af en lakmusprøve for kunstig intelligens: det seneste højt profilerede mål for vores ambition om at skabe maskiner, der kan tænke os ud.

i human-AI scorecard har kunstig intelligens samlet nogle store gevinster for nylig. Mest bemærkelsesværdigt var nederlaget for verdens bedste GO-spillere af DeepMinds AlphaGo, en præstation, som eksperter tænkte uden for rækkevidde i mindst et årti. For nylig har forskere vendt deres opmærksomhed mod videospil som den næste udfordring. Selvom videospil mangler det intellektuelle ry for Go og chess, er de faktisk meget sværere for computere at spille. De tilbageholder information fra spillere; finder sted i komplekse, stadigt skiftende miljøer; og kræver den slags strategisk tænkning, der ikke let kan simuleres. Med andre ord er de tættere på de slags problemer, vi ønsker, at AI skal tackle i det virkelige liv.

Dota 2 er en særlig populær testplads, og OpenAI menes at have de bedste Dota 2-bots rundt. Men i sidste uge tabte de. Så hvad skete der? Har vi nået en slags loft i AI evne? Er dette bevis på, at nogle færdigheder bare er for komplekse til computere?

de korte svar er nej og nej. Dette var bare en “bump i vejen”, siger Stephen Merity, en maskinlæringsforsker og Dota 2 fan. Maskiner vil erobre spillet til sidst, og det vil sandsynligvis være OpenAI, der knækker sagen. Men udpakning af, hvorfor mennesker vandt i sidste uge, og hvad OpenAI formåede at opnå — selv i nederlag — er stadig nyttigt. Det fortæller os, hvad AI kan og ikke kan gøre, og hvad der skal komme.

et skærmbillede af Dota 2, et fantasy arena kampspil, hvor to hold på fem helte kæmper for at ødelægge hinandens base. Gameplayet er komplekst, og kampe varer typisk mere end 30 minutter.
billede: Ventil

lad os først sætte sidste uges kampe i sammenhæng. Bots blev oprettet af OpenAI som en del af dets brede forskningsopgave for at udvikle AI, der “gavner hele menneskeheden.”Det er et direktiv, der retfærdiggør en masse forskellig forskning og har tiltrukket nogle af feltets bedste forskere. Ved at træne sit team af Dota 2-bots (kaldet OpenAI Five) siger laboratoriet, at det ønsker at udvikle systemer, der kan “håndtere kompleksiteten og usikkerheden i den virkelige verden.”

de fem bots (som fungerer uafhængigt, men blev trænet ved hjælp af de samme algoritmer) blev lært at spille Dota 2 ved hjælp af en teknik kaldet forstærkning læring. Dette er en almindelig træningsmetode, der i det væsentlige er Prøve-og-fejl i stor skala. (Det har sine svagheder, men det giver også utrolige resultater, herunder AlphaGo.) I stedet for at kode bots med reglerne i Dota 2, bliver de kastet ind i spillet og efterladt for at finde ud af ting for sig selv. Openais ingeniører hjælper denne proces ved at belønne dem for at udføre bestemte opgaver (som at dræbe en modstander eller vinde en kamp), men intet mere end det.

dette betyder, at bots begynder at spille helt tilfældigt, og over tid lærer de at forbinde visse adfærd til belønninger. Som du måske gætter, er dette en ekstremt ineffektiv måde at lære. Som et resultat skal bots spille Dota 2 i en accelereret hastighed og proppe 180 års træningstid ind i hver dag. Som Openais CTO og medstifter Greg Brockman fortalte The Verge tidligere i år, hvis det tager et menneske mellem 12.000 og 20.000 timers praksis at mestre en vis færdighed, brænder bots igennem “100 menneskelige levetider af erfaring hver eneste dag.”

en del af grunden til, at det tager så lang tid, er, at Dota 2 er enormt kompleks, meget mere end et brætspil. To hold på fem står over for hinanden på et kort, der er fyldt med ikke-spilbare figurer, forhindringer og ødelæggelige bygninger, som alle har indflydelse på kampens tidevand. Helte er nødt til at kæmpe sig vej til deres modstanders base og ødelægge den, mens de jonglerer med forskellige mekanikere. Der er hundredvis af ting, de kan hente eller købe for at øge deres evne, og hver helt (hvoraf der er mere end 100) har sine egne unikke træk og attributter. Hvert spil Dota 2 er som en antik kamp, der spilles ud i miniature, med hold, der kæmper over territorium og kæmper for at manøvrere modstandere.

behandling af alle disse data, så spil kan spilles hurtigere end livet, er en enorm udfordring. For at træne deres algoritmer måtte OpenAI korralere en massiv mængde processorkraft — omkring 256 GPU ‘ er og 128.000 CPU-kerner. Dette er grunden til, at eksperter ofte taler om OpenAI Five som et ingeniørprojekt lige så meget som et forskningsprojekt: det er en præstation bare for at få systemet i gang, endsige slå mennesker.

“for så vidt angår det niveau af kompleksitet, som moderne datadrevne AI-tilgange kan håndtere, er OpenAI Five langt mere imponerende end enten DKN eller AlphaGo,” siger Andrey Kurenkov, en ph.d. – studerende ved Stanford, der studerer datalogi og redaktør for AI-stedet Skynet Today. (DKN var DeepMinds AI-system, der lærte sig at spille Atari.) Men bemærker Kurenkov, mens disse ældre projekter introducerede “betydelige, nye ideer” på niveau med ren forskning, implementerer OpenAI Five hovedsageligt eksisterende strukturer i en tidligere uuddrømt skala. Vind eller tab, det er stadig stort.

tidligere i år besejrede OpenAI Five et team af amatørspillere som benchmark for dets evner.
foto: OpenAI

maskiner mangler stadig en spilplan

men at lægge teknik til side, hvor gode kan bots være, hvis de lige tabte to kampe mod mennesker? Det er et retfærdigt spørgsmål, og svaret er: stadig ret forbandet godt.

i løbet af det sidste år har bots gradueret gennem gradvist hårdere versioner af spillet, startende med 1v1 anfald, derefter 5v5 kampe med begrænsninger. Imidlertid, de har endnu ikke tackle spillets fulde kompleksitet, og har spillet med visse in-game mekanik slukket. Til kampene på The International blev et par af disse begrænsninger fjernet, men ikke alle. Mest bemærkelsesværdigt havde bots ikke længere uskadelige kurerer (NPC ‘ er, der leverer varer til helte). Disse havde tidligere været en vigtig prop for deres spillestil, færger en pålidelig strøm af helbredende potions for at hjælpe dem med at opretholde et ubarmhjertigt angreb. På The International måtte de bekymre sig om, at deres forsyningslinjer blev plukket af.

selvom sidste uges spil stadig analyseres, er den tidlige konsensus, at bots spillede godt, men ikke usædvanligt. De var ikke AI savants; de havde styrker og svagheder, som mennesker kunne drage fordel af, som de Ville mod ethvert hold.

begge spil startede meget niveau, hvor mennesker først tog føringen, derefter bots, derefter mennesker. Men begge gange, når menneskene fik en betydelig fordel, bots fandt det svært at komme sig. Der var spekulationer fra spillets kommentatorer om, at dette kunne skyldes, at AI foretrak “at vinde med 1 point med 90% sikkerhed, end at vinde med 50 point med en 51% sikkerhed.”(Dette træk var også mærkbart i Alphagos spilstil.) Det indebærer, at OpenAI Five var vant til at slibe ud stabile, men forudsigelige sejre. Da bots mistede deres føring, de var ude af stand til at gøre de mere eventyrlystne spil nødvendige for at genvinde det.

Video af OpenAI Five ‘ s anden kamp på The International.

dette er dog bare et gæt. Som det normalt er tilfældet med AI, er det umuligt at spå den nøjagtige tankeproces bag botternes handlinger. Hvad vi kan sige er, at de udmærkede sig tæt på, men fandt det vanskeligere at matche menneskers langsigtede strategier.

OpenAI Five var unerringly præcise, aggressivt pluk off mål med magi og angreb, og generelt være en trussel mod eventuelle fjendtlige helte, de kom over. Mike Cook, en AI-spilforsker ved University of Falmouth og en ivrig Dota-spiller, der lever-skrev kampene, beskrev bots “stil som” hypnotisk.””handle med præcision og klarhed,” sagde Cook til The Verge. “Ofte ville menneskerne vinde en kamp og derefter lade deres vagt lidt ned og forvente, at fjendens hold skulle trække sig tilbage og omgruppere. Men bots gør det ikke. Hvis de kan se et drab, tager de det.”

hvor bots syntes at snuble var i det lange spil og tænkte på, hvordan kampe kunne udvikle sig i 10 – eller 20-minutters spændvidde. I den anden af deres to kampe mod et hold af kinesiske pro-spillere med et frygtindgydende ry (de blev forskelligt omtalt af kommentatorerne som “The old legends club” eller mere enkelt “the gods”) valgte menneskerne en asymmetrisk strategi. En spiller samlede ressourcer til langsomt at tænde sin helt, mens de andre fire løb indblanding for ham. Bots syntes ikke at bemærke, hvad der skete, og i slutningen af spillet havde team human en souped-up helt, der hjalp med at ødelægge AI-spillerne. “Dette er en naturlig stil for mennesker, der spiller Dota,” siger Cook. “for bots er det ekstrem langsigtet planlægning.”

dette spørgsmål om strategi er vigtigt ikke kun for OpenAI, men for AI-forskning mere generelt. Fraværet af langsigtet planlægning ses ofte som en stor fejl i forstærkningsindlæring, fordi AI oprettet ved hjælp af denne metode ofte understreger øjeblikkelige udbetalinger snarere end langsigtede belønninger. Dette skyldes, at det er vanskeligt at strukturere et belønningssystem, der fungerer over længere perioder. Hvordan lærer du en bot at forsinke brugen af en kraftig trylleformular, indtil fjender er grupperet sammen, hvis du ikke kan forudsige, hvornår det vil ske? Giver du det bare små belønninger for ikke at bruge den stave? Hvad hvis det beslutter aldrig at bruge det som et resultat? Og dette er blot et grundlæggende eksempel. Dota 2 spil varer generelt 30 Til 45 minutter, og spillerne skal konstant tænke igennem, hvilken handling der vil føre til langsigtet succes.

det er dog vigtigt at understrege, at bots ikke kun var tankeløse, belønningssøgende gremlins. Det neurale netværk, der styrer hver helt, har en hukommelseskomponent, der lærer visse strategier. Og den måde, de reagerer på belønninger på, er formet, så bots overvejer fremtidige udbetalinger såvel som dem, der er mere øjeblikkelige. Faktisk siger OpenAI, at dets AI-agenter gør dette i langt større grad end nogen andre sammenlignelige systemer med en “belønningshalveringstid” på 14 minutter (groft sagt, hvor lang tid bots kan vente på fremtidige udbetalinger).

Kurenkov, der er skrevet udførligt om begrænsningerne ved forstærkningslæring, sagde, at kampene viser, at forstærkningslæring kan håndtere “langt mere kompleksitet, end de fleste AI-forskere måske havde forestillet sig.”Men han tilføjer, at sidste uges nederlag tyder på, at der er behov for nye systemer specifikt til at styre langsigtet tænkning. (Ikke overraskende er openais Chief technology officer uenig.)

i modsætning til resultatet af kampene er der ingen åbenbar konklusion her. Uenighed om bots succes afspejler større, uløste diskussioner i AI. Som forsker Julian Togelius bemærkede på kvidre, hvordan kan vi endda begynde at skelne mellem langsigtet strategi og adfærd, der bare ligner det? Betyder det noget? Alt, hvad vi ved for nu, er, at AI i dette særlige domæne ikke kan tænke mennesker endnu.

Dota 2 tilbyder mere end 100 forskellige helte med en række evner, og AI har endnu ikke mestret dem alle.
billede: Ventil

umuligheden af lige vilkår

krangel over bots ‘kløgt er en ting, men OpenAI Five’ s Dota 2-kampe rejste også et andet, mere grundlæggende spørgsmål: Hvorfor iscenesætter vi overhovedet disse begivenheder?

Tag kommentarerne fra Gary Marcus, en respekteret kritiker af begrænsningerne ved moderne AI. I løbet af Openais spil i sidste uge påpegede Marcus på kvidre, at bots ikke spiller retfærdigt. I modsætning til menneskelige spillere (eller nogle andre AI-systemer) ser de faktisk ikke på skærmen for at spille. I stedet bruger de Dota 2s” bot API ” til at forstå spillet. Dette er et feed på 20.000 numre, der beskriver, hvad der foregår i numerisk form, der indeholder information om alt fra placeringen af hver helt til deres helbred til nedkøling af individuelle magi og angreb.

som Marcus fortæller The Verge, dette “genveje det enormt udfordrende problem med sceneopfattelse” og giver bots en enorm fordel. De behøver ikke at søge på kortet for at kontrollere, hvor deres team er, for eksempel, eller kig ned på brugergrænsefladen for at se, om deres mest magtfulde stave er klar. De behøver ikke at gætte en fjendes helbred eller estimere deres afstand for at se, om et angreb er det værd. De ved det bare.

men tæller dette som snyd?

der er et par måder at besvare dette på. For det første kunne OpenAI have oprettet et vision-system til at læse billedpunkterne og hente de samme oplysninger, som bot API giver. (Hovedårsagen til, at det ikke var, at det ville have været utroligt ressourcekrævende.) Dette er vanskeligt at bedømme, da ingen ved, om det ville fungere, før nogen faktisk gjorde det. Men det er måske irrelevant. Det vigtigste spørgsmål kan være: kan vi nogensinde have en retfærdig kamp mellem mennesker og maskiner? Når alt kommer til alt, hvis vi vil tilnærme os, hvordan mennesker spiller Dota 2, skal vi bygge robothænder til OpenAI Five for at betjene en mus og et tastatur? For at gøre det endnu mere retfærdigt, skal hænderne svede?

disse spørgsmål er lidt facetious, men de understreger umuligheden af at skabe et virkelig lige vilkår mellem mennesker og computere. En sådan ting eksisterer ikke, fordi maskiner tænker som mennesker på samme måde som fly flyver som fugle. Som AI – spilforsker Cook udtrykker det: “Selvfølgelig er computere bedre end os til ting. Derfor opfandt vi computere.”

måske er vi nødt til at tænke lidt dybere over, hvorfor vi holder disse begivenheder i første omgang. Brockman fortæller The Verge, at der er mere i det end spil. “Grunden til, at vi gør Dota, er ikke, så vi kan løse Dota,” siger han. “Vi er i dette, fordi vi tror, vi kan udvikle AI-teknologien, der kan drive verden i de kommende årtier.”

der er sandhed i denne ambitiøse påstand. Allerede den træningsinfrastruktur, der bruges til at undervise i OpenAI Five — et system kaldet Rapid — bliver vendt til andre projekter. OpenAI har brugt det til at lære robothænder at manipulere objekter med nye niveauer af menneskelignende fingerfærdighed, for eksempel. Som altid med AI er der begrænsninger, og Rapid er ikke nogle gør-alt algoritme. Men det generelle princip gælder: det arbejde, der er nødvendigt for at nå selv vilkårlige mål (som at slå mennesker i et videospil) hjælper med at anspore hele AI-feltet.

den sydkoreanske Go-spiller Lee Sedol blev slået af AlphaGo i 2016, men han lærte nye færdigheder som et resultat.
foto: Google / Getty Images

og det hjælper også dem, der udfordres af maskinerne. En af de mest fascinerende dele af AlphaGo-historien var, at selvom menneskemester Lee Sedol blev slået af et AI-system, lærte han og resten af Go-samfundet også af det. Alphagos spillestil forstyrrede århundreder af accepteret visdom. Dens bevægelser undersøges stadig, og Lee gik på en vindende række efter sin kamp mod maskinen.

det samme er allerede begyndt at ske i Dota 2 ‘s verden: spillere studerer OpenAI Five’ s spil for at afdække nye taktikker og bevægelser. Mindst en tidligere uopdaget spilmekaniker, som giver spillerne mulighed for hurtigt at genoplade et bestemt våben ved at holde sig uden for fjendens rækkevidde, er blevet opdaget af bots og videregivet til mennesker. Som AI-forsker Merity siger: “jeg vil bogstaveligt talt sidde og se disse kampe, så jeg kan lære nye strategier. Folk ser på disse ting og siger: ‘dette er noget, vi skal trække ind i spillet.”

dette fænomen med AI-undervisning af mennesker vil sandsynligvis kun blive mere almindeligt i fremtiden. På en underlig måde virker det næsten som en velvillig handling. Som om bots i en visning af menneskelig nåde giver os en afskedsgave, når de overhaler vores evner. Det er selvfølgelig ikke sandt; AI er bare en anden metode, som mennesker har opfundet for at lære os selv. Men det er derfor, vi spiller. Det er en lærerig oplevelse — for os og maskinerne.

Gaming

tag en tur tilbage til 1997 med et utroligt sjældent, aldrig åbnet Nintendo 64 diskdrev dev kit

Gaming

Ghost of Tsushima får en filmtilpasning fra instruktøren af John væg

Gaming

Final Fantasy VIII er nu på iOS og Android

se alle historier i spil


«

+