Openais dota 2-nederlag er fortsatt en seier for kunstig intelligens

I forrige uke slo menneskeheten tilbake mot maskinene – slags.

faktisk slo Vi dem på et videospill. I en best-of-tre kamp, to lag av pro spillere overvant en tropp MED AI roboter som ble skapt Av Elon Musk-grunnlagt forskningslaboratorium OpenAI. Konkurrentene spilte Dota 2, et fenomenalt populært og komplekst kamparenaspill. Men kampen var også noe av en lakmustest for kunstig intelligens: den nyeste høyprofilerte mål på vår ambisjon om å skape maskiner som kan tenke oss.

i human-AI scorecard har kunstig intelligens racked opp noen store gevinster nylig. Mest bemerkelsesverdig var nederlaget til verdens beste Go-spillere Av DeepMind ‘ S AlphaGo, en prestasjon som eksperter tenkte ut av rekkevidde i minst et tiår. Nylig har forskere vendt oppmerksomheten mot videospill som neste utfordring. Selv om videospill mangler Det intellektuelle omdømmet Til Go og sjakk, er de faktisk mye vanskeligere for datamaskiner å spille. De holder tilbake informasjon fra spillere; finner sted i komplekse, stadig skiftende miljøer; og krever den slags strategisk tenkning som ikke lett kan simuleres. Med andre ord, de er nærmere de slags problemer VI vil AT AI skal takle i virkeligheten.

Dota 2 er et spesielt populært testområde, Og OpenAI antas å ha de beste Dota 2-botene rundt. Men i forrige uke tapte de. Så hva skjedde? Har vi nådd et slags tak i AIS evne? Er dette bevis på at noen ferdigheter bare er for komplekse for datamaskiner?

de korte svarene er nei og nei. Dette var bare en «bump i veien,» sier Stephen Merity, en maskinlæringsforsker og Dota 2 fan. Maskiner vil erobre spillet til slutt, og det vil trolig Være OpenAI som sprekker saken. Men å pakke ut hvorfor mennesker vant i forrige uke og Hva OpenAI klarte å oppnå – selv i nederlag — er fortsatt nyttig. Det forteller oss hva AI kan og ikke kan gjøre og hva som kommer.

et skjermbilde Av Dota 2, et fantasy arena kampspill hvor to lag med fem helter kjemper for å ødelegge hverandres base. Gameplay er komplisert, og kampene varer vanligvis mer enn 30 minutter.
Bilde: Valve

Først, la oss sette forrige ukes kamper i sammenheng. Bots ble opprettet Av OpenAI som en del av sitt brede forskningsoppdrag for å utvikle AI som «fordeler hele menneskeheten.»Det er et direktiv som rettferdiggjør mye forskjellig forskning og har tiltrukket noen av feltets beste forskere. Ved å trene sitt team Av dota 2 bots (kalt OpenAI Five), sier laboratoriet at det ønsker å utvikle systemer som kan » håndtere kompleksiteten og usikkerheten i den virkelige verden.»

de fem botene (som opererer uavhengig, men ble trent med de samme algoritmene) ble lært Å spille Dota 2 ved hjelp av en teknikk som kalles forsterkningslæring. Dette er en vanlig treningsmetode som i hovedsak er prøve-og-feil i stor skala. (Det har svakheter, men det gir også utrolige resultater, inkludert AlphaGo.) I stedet for å kode bots med reglene For Dota 2, blir de kastet inn i spillet og igjen for å finne ut ting for seg selv. Openais ingeniører hjelper denne prosessen ved å belønne dem for å fullføre bestemte oppgaver (som å drepe en motstander eller vinne en kamp), men ikke noe mer enn det.

dette betyr at botsene begynner å spille helt tilfeldig, og over tid lærer de å koble visse atferd til belønninger. Som du kanskje gjetter, er dette en ekstremt ineffektiv måte å lære på. Som et resultat må botsene spille Dota 2 i en akselerert hastighet, og kramme 180 års treningstid inn i hver dag. Som Openais CTO og medstifter Greg Brockman fortalte The Verge tidligere i år, hvis det tar et menneske mellom 12.000 og 20.000 timers praksis for å mestre en viss ferdighet, brenner botsene gjennom » 100 menneskelige livserfaringer hver eneste dag.»

En del av grunnen Til At Det tar så lang tid er At Dota 2 er enormt komplisert, mye mer enn et brettspill. To lag på fem møter hverandre på et kart som er fylt med ikke-spillbare figurer, hindringer og ødeleggbare bygninger, som alle har en effekt på kampens tidevann. Heltene må kjempe seg til motstanderens base og ødelegge den mens de jonglerer ulike mekanikere. Det er hundrevis av elementer de kan plukke opp eller kjøpe for å øke sin evne, og hver helt (hvorav det er mer enn 100) har sine egne unike trekk og attributter. Hvert Spill Av Dota 2 er som en kamp i antikken spilt ut i miniatyr, med lag krangle over territorium og sliter med å ut-manøvrere motstandere.

Å Behandle alle disse dataene slik at spill kan spilles raskere enn livet, Er en stor utfordring. For å trene sine algoritmer måtte OpenAI samle en enorm mengde prosessorkraft-noen 256 Gpuer og 128 000 CPU-kjerner. Dette er grunnen til at eksperter ofte snakker om OpenAI Five som et ingeniørprosjekt så mye som en forskning: det er en prestasjon bare for å få systemet i gang, enn si slå menneskene.

» Så langt som å vise nivået av kompleksitet moderne datadrevne AI-tilnærminger kan håndtere, Er OpenAI Five langt mer imponerende enn ENTEN DQN eller AlphaGo,» sier Andrey Kurenkov, Doktorgradsstudent ved Stanford som studerer datavitenskap og redaktør AV AI-nettstedet Skynet I Dag. (DQN var Deepminds AI-system som lærte seg å spille Atari.) Men, bemerker Kurenkov, mens disse eldre prosjektene introduserte «betydelige, nye ideer» på nivå med ren forskning, Bruker OpenAI Five hovedsakelig eksisterende strukturer på en tidligere ukjent skala. Vinn eller tap, det er fortsatt stort.

Tidligere i år, OpenAI Five beseiret et team av amatør spillere som en målestokk for sine evner.
Bilde: OpenAI

Maskiner mangler fortsatt en spillplan

Men å sette til side engineering, hvor bra kan botsene være hvis de bare mistet to kamper mot mennesker? Det er et rettferdig spørsmål, og svaret er: fortsatt ganske jævla bra.

i løpet av det siste året har botsene uteksaminert seg gjennom stadig vanskeligere versjoner av spillet, som starter med 1v1 bouts, deretter 5v5 matcher med restriksjoner. Imidlertid har de ennå ikke takle spillets fulle kompleksitet, og har spilt med visse spillmekanikk slått av. For kampene På The International ble noen av disse begrensningene fjernet, men ikke alle. Mest spesielt hadde botsene ikke lenger uskadelige kurere (Npcer som leverer varer til helter). Disse hadde tidligere vært en viktig prop for deres spillestil, og fraktet en pålitelig strøm av helbredende potions for å hjelpe dem med å holde opp et ubarmhjertig angrep. På The International måtte de bekymre seg for at forsyningslinjene deres ble plukket av.

selv om forrige ukes spill fortsatt blir analysert, er den tidlige konsensus at botsene spilte bra, men ikke eksepsjonelt så. DE var IKKE AI savants; de hadde styrker og svakheter, som mennesker kunne dra nytte av som de ville mot et lag.

begge spillene startet veldig nivå, med mennesker først å ta ledelsen, deretter bots, deretter mennesker. Men begge ganger, når menneskene fikk en betydelig fordel, fant botsene det vanskelig å gjenopprette. Det var spekulasjoner fra spillets kommentatorer at DETTE kan skyldes AT AI foretrukket » å vinne med 1 poeng med 90% sikkerhet, enn å vinne med 50 poeng med 51% sikkerhet.»(Denne egenskapen var også merkbar I Alphagos spillstil.) Det innebærer At OpenAI Five ble brukt til å slipe ut stabile, men forutsigbare seire. Da botsene mistet ledelsen, klarte de ikke å gjøre de mer eventyrlystne spillene nødvendige for å gjenvinne den.

Video Av OpenAI Fives andre kamp på The International.

dette er bare et gjetning, skjønt. SOM det vanligvis er tilfelle MED AI, er det umulig å spå den nøyaktige tankeprosessen bak bots handlinger. Det vi kan si er at de utmerket seg i nært hold, men fant det vanskeligere å matche menneskers langsiktige strategier.

OpenAI Five var unerringly presis, aggressivt plukke av mål med staver og angrep, og generelt å være en trussel mot eventuelle fiendtlige helter de kom over. Mike Cook, EN AI spill forsker ved University Of Falmouth og en ivrig Dota spiller som lever-twitret kamper, beskrev roboter stil som » hypnotisk.»»gjør med presisjon og klarhet,» Fortalte Cook The Verge. «Ofte ville menneskene vinne en kamp og så la vakt seg litt, og forventer at fiendens lag skal trekke seg tilbake og omgruppere. Men robotene gjør ikke det. Hvis de kan se et drap, tar de det.»

hvor botsene syntes å snuble var i det lange spillet, og tenkte hvordan kamper kan utvikle seg i 10-eller 20-minutters spenner. I den andre av sine to kamper mot Et Team Av Kinesiske pro spillere med et fryktelig rykte (de ble vekslet referert til av kommentatorene som «the old legends club» eller, ganske enkelt, «gudene»), valgte menneskene en asymmetrisk strategi. En spiller samlet ressurser for å sakte slå opp sin helt, mens de andre fire løp forstyrrelser for ham. Botsene syntes ikke å legge merke til hva som skjedde, og ved slutten av spillet hadde team human en souped-up helt som bidro til å ødelegge AI-spillerne. «Dette er en naturlig stil for mennesker som spiller Dota,» sier Cook. «til boter er det ekstrem langsiktig planlegging . «

dette spørsmålet om strategi er viktig ikke bare For OpenAI, men FOR AI-forskning mer generelt. Fraværet av langsiktig planlegging blir ofte sett på som en stor feil i forsterkningslæring fordi AI opprettet ved hjelp av denne metoden ofte legger vekt på umiddelbare utbetalinger i stedet for langsiktige belønninger. Dette skyldes at det er vanskelig å strukturere et belønningssystem som fungerer over lengre perioder. Hvordan lærer du en bot for å forsinke bruken av en kraftig stave til fiender er gruppert sammen hvis du ikke kan forutsi når det vil skje? Har du bare gi det små belønninger for ikke å bruke som spell? Hva om det bestemmer seg for aldri å bruke det som et resultat? Og dette er bare ett grunnleggende eksempel. Dota 2-spill varer vanligvis 30 til 45 minutter, og spillerne må hele tiden tenke gjennom hvilken handling som vil føre til langsiktig suksess.

det er imidlertid viktig å understreke at botsene ikke bare var tankeløse, belønningssøkende gremlins. Det nevrale nettverket som styrer hver helt, har en minnekomponent som lærer visse strategier. Og måten de reagerer på belønninger er formet slik at botsene vurderer fremtidige utbetalinger, så vel som de som er mer umiddelbare. Faktisk Sier OpenAI AT AI-agenter gjør dette i langt større grad enn noen andre sammenlignbare systemer, med en «belønningshalveringstid» på 14 minutter (grovt sett, hvor lenge botsene kan vente på fremtidige utbetalinger).

Kurenkov, som har skrevet mye om begrensningene i forsterkningslæring, sa at kampene viser at forsterkningslæring kan håndtere » langt mer kompleksitet enn de fleste AI-forskere kunne ha forestilt seg.»Men, legger han til, forrige ukes nederlag tyder på at nye systemer er nødvendig spesielt for å håndtere langsiktig tenkning. (Ikke overraskende, Openais chief technology officer er uenig.)

I Motsetning til utfallet av kampene, er det ingen åpenbar konklusjon her. Uenighet om bots suksess speiler større, uløste diskusjoner I AI. Som forsker Julian Togelius bemerket På Twitter, hvordan begynner vi selv å skille mellom langsiktig strategi og atferd som bare ser ut som det? Spiller det noen rolle? Alt vi vet for nå er AT I DETTE bestemte domenet KAN AI ikke tenke mennesker ennå.

Dota 2 tilbyr mer enn 100 forskjellige helter med en rekke evner, OG AI har ennå ikke mestret dem alle.
Bilde: Valve

umuligheten av like vilkår

Krangling over bots’ dyktighet er en ting, Men OpenAI Fives Dota 2-kamper reiste også et annet, mer grunnleggende spørsmål: hvorfor arrangerer vi disse hendelsene i det hele tatt?

Ta Kommentarene Til Gary Marcus, en respektert kritiker av begrensningene i moderne AI. I oppkjøringen Til Openais spill i forrige uke påpekte Marcus På Twitter At botsene ikke spiller rettferdig. I motsetning til menneskelige spillere (eller NOEN ANDRE AI-systemer), ser de ikke på skjermen for å spille. I stedet bruker De Dota 2s «bot API» for å forstå spillet. Dette er en feed på 20.000 tall som beskriver hva som skjer i numerisk form, og inneholder informasjon om alt fra plasseringen av hver helt til deres helse til nedkjøling på individuelle staver og angrep.

Som Marcus forteller The Verge, «snarveier dette enormt utfordrende problemet med sceneoppfattelse» og gir botsene en stor fordel. De trenger ikke å søke på kartet for å sjekke hvor teamet deres er, for eksempel, eller se ned på BRUKERGRENSESNITTET for å se om deres kraftigste stave er klar. De trenger ikke å gjette fiendens helse eller estimere avstanden for å se om et angrep er verdt det. De bare vet det.

men teller dette som juks?

det er noen måter å svare på dette. For Det Første Kunne OpenAI ha opprettet et visjonssystem for å lese pikslene og hente den samme informasjonen som bot API gir. (Hovedårsaken til at det ikke var det, er at det ville vært utrolig ressurskrevende.) Dette er vanskelig å dømme, som ingen vet om det ville fungere før noen faktisk gjorde det. Men det er kanskje irrelevant. Det viktigste spørsmålet kan være: kan vi noen gang ha en rettferdig kamp mellom mennesker og maskiner? Tross alt, hvis vi ønsker å tilnærme hvordan mennesker spiller Dota 2, trenger vi å bygge robot hender For OpenAI Five å operere en mus og tastatur? For å gjøre det enda mer rettferdig, skal hendene svette?

disse spørsmålene er litt fasetiske, men de understreker umuligheten av å skape et virkelig likeverdig spillfelt mellom mennesker og datamaskiner. En slik ting eksisterer ikke fordi maskiner tenker som mennesker på samme måte som fly flyr som fugler. SOM AI spill forsker Cook setter det: «Selvfølgelig er datamaskiner bedre enn oss på ting. Det er derfor vi oppfant datamaskiner.»

kanskje vi trenger å tenke litt dypere på hvorfor vi holder disse hendelsene i utgangspunktet. Brockman forteller The Verge at det er mer til det enn spill. «Grunnen Til At Vi gjør Dota er ikke slik at Vi kan løse Dota,» sier han. «Vi er i dette fordi vi tror vi kan utvikle AI-teknologien som kan drive verden i kommende tiår.»

det er sannhet i denne ambisiøse påstanden. Allerede blir treningsinfrastrukturen som brukes Til å undervise OpenAI Five-et system kalt Rapid-vendt til andre prosjekter. OpenAI har brukt den til å lære robothender å manipulere objekter med nye nivåer av menneskelignende fingerferdighet, for eksempel. SOM alltid MED AI, er det begrensninger, Og Rapid er ikke noen gjør alt algoritme. Men det generelle prinsippet gjelder: arbeidet som trengs for å oppnå selv vilkårlige mål (som å slå mennesker på et videospill) bidrar til å anspore HELE AI-feltet.

Sørkoreanske Go spiller Lee Sedol ble slått Av AlphaGo i 2016, men han lærte nye ferdigheter som et resultat.
Foto: Google / Getty Images

og det hjelper også de som utfordres av maskinene. En av De mest fascinerende delene Av AlphaGo-historien var at selv om menneskemesteren Lee Sedol ble slått av ET AI-system, lærte han og resten Av Go-samfunnet også av det. AlphaGo spillestil opprørt århundrer med akseptert visdom. Dens trekk blir fortsatt studert, Og Lee gikk på en vinnende strikke etter kampen mot maskinen.

Det samme begynner allerede å skje i Dota 2-verdenen: spillerne studerer OpenAI Fives spill for å avdekke nye taktikker og bevegelser. Minst en tidligere uoppdaget spillmekaniker, som lar spillerne lade opp et bestemt våpen raskt ved å holde seg utenfor fiendens rekkevidde, har blitt oppdaget av botsene og sendt videre til mennesker. Som Ai-forsker Merity sier: «jeg vil bokstavelig talt sitte og se på disse kampene, slik at jeg kan lære nye strategier. Folk ser på disse tingene og sier, ‘Dette er noe vi trenger å trekke inn i spillet.'»

dette fenomenet MED AI-undervisning av mennesker vil sannsynligvis bare bli mer vanlig i fremtiden. På en merkelig måte virker det nesten som en velvilje. Som om, i en visning av menneskelig nåde, bots gir oss en avskjedsgave som de innhente våre evner. DET er ikke sant, SELVFØLGELIG; AI er bare en annen metode mennesker har oppfunnet for å lære oss selv. Det er derfor vi spiller. Det er en lærerik opplevelse — for oss og maskinene.

Gaming

Ta en tur tilbake til 1997 med en utrolig sjelden, aldri åpnet Nintendo 64 Disk Drive dev kit

Gaming

Ghost Of Tsushima er å få en film tilpasning fra regissøren Av John Wick

Gaming

Final Fantasy VIII er nå på iOS og Android

Se Alle historier I Gaming



+