Openain Dota 2 — tappio on tekoälyn

viime viikolla ihmiskunta iski takaisin koneita vastaan-tavallaan.

itse asiassa voitimme heidät videopelissä. Paras kolmesta-ottelussa kaksi ammattilaispelaajien joukkuetta päihitti Elon Muskin perustaman tutkimuslaboratorio Openain luoman tekoälyrobotin. Kilpailijat pelasivat ilmiömäisen suosittua ja monimutkaista taisteluareenapeliä Dota 2: ta. Ottelu oli kuitenkin myös tekoälyn litmustesti: Viimeisin korkean profiilin mittari tavoitteestamme luoda koneita, jotka voivat päihittää meidät.

ihmisen ja tekoälyn tuloskortissa tekoäly on kerännyt viime aikoina isoja voittoja. Huomattavin oli maailman parhaiden Go-pelaajien DeepMindin AlphaGon tappio, saavutus, jota asiantuntijat pitivät tavoittamattomissa ainakin vuosikymmenen. Viime aikoina tutkijat ovat kiinnittäneet huomionsa videopeleihin seuraavana haasteena. Vaikka videopeleiltä puuttuu Gon ja shakin henkinen Maine, niitä on itse asiassa paljon vaikeampi pelata tietokoneilla. Ne salaavat tietoa pelaajilta, tapahtuvat monimutkaisissa, alati muuttuvissa ympäristöissä ja vaativat sellaista strategista ajattelua, jota ei voi helposti simuloida. Toisin sanoen, ne ovat lähempänä sellaisia ongelmia, joihin haluamme tekoälyn tarttuvan oikeassa elämässä.

Dota 2 on erityisen suosittu testikenttä, ja Openaissa arvellaan olevan parhaat Dota 2-botit ympärillä. Viime viikolla he kuitenkin hävisivät. Mitä tapahtui? Olemmeko saavuttaneet jonkinlaisen katon tekoälyn kyvyssä? Onko tämä todiste siitä, että jotkin taidot ovat liian monimutkaisia tietokoneille?

lyhyet vastaukset ovat ei ja ei. Tämä oli vain ”töyssy tiellä”, sanoo koneoppimisen tutkija ja Dota 2-fani Stephen Merity. Machines valloittaa pelin lopulta,ja todennäköisesti OpenAI ratkaisee tapauksen. Silti on hyödyllistä purkaa, miksi ihmiset voittivat viime viikolla ja mitä OpenAI onnistui — tappiossakin — saavuttamaan. Se kertoo, mitä tekoäly voi ja ei voi tehdä ja mitä on tulossa.

kuvakaappaus Dota 2: sta, Fantasia-areenan taistelupelistä, jossa kaksi viiden sankarin joukkuetta taistelee tuhotakseen toistensa tukikohdan. Pelattavuus on monimutkaista, ja ottelut kestävät tyypillisesti yli 30 minuuttia.
Kuva: Valve

ensin laitetaan viime viikon ottelut kontekstiin. Botit loi OpenAI osana laajaa tutkimusvaltuuksiaan kehittää tekoälyä, joka ” hyödyttää koko ihmiskuntaa.”Se on direktiivi, joka oikeuttaa paljon erilaisia tutkimuksia ja on houkutellut alan parhaita tutkijoita. Kouluttamalla Dota 2-bottiryhmäänsä (kutsutaan nimellä OpenAI Five), laboratorio sanoo haluavansa kehittää järjestelmiä, jotka pystyvät ”käsittelemään todellisen maailman monimutkaisuutta ja epävarmuutta.”

viisi bottia (jotka toimivat itsenäisesti, mutta koulutettiin samoilla algoritmeilla) opetettiin pelaamaan Dota 2: ta käyttäen tekniikkaa nimeltä raudoitusoppiminen. Tämä on yleinen koulutusmenetelmä, joka on lähinnä yrityksen ja erehdyksen suuressa mittakaavassa. (Sillä on heikkoutensa, mutta se tuottaa myös uskomattomia tuloksia, kuten AlphaGo.) Sen sijaan, että botit koodattaisiin Dota 2: n säännöillä, ne heitetään peliin ja jätetään selvittämään asioita itse. Openain insinöörit auttavat tätä prosessia palkitsemalla heidät tiettyjen tehtävien suorittamisesta (kuten vastustajan tappamisesta tai ottelun voittamisesta), mutta ei mitään muuta.

tämä tarkoittaa sitä, että botit aloittavat pelaamisen täysin satunnaisesti, ja ajan myötä ne oppivat yhdistämään tiettyjä käyttäytymismalleja palkintoihin. Kuten arvata saattaa, tämä on äärimmäisen tehoton tapa oppia. Tämän seurauksena bottien on pelattava Dota 2: ta kiihtyvällä tahdilla, jolloin jokaiseen päivään mahtuu 180 vuotta harjoitusaikaa. Kuten OPENAIN teknologiajohtaja ja perustaja Greg Brockman kertoi The Vergelle aiemmin tänä vuonna, jos vaatii ihmisen 12,000 – 20,000 tuntia harjoittelua tietyn taidon hallitsemiseksi, niin botit polttavat läpi ”100 ihmisen eliniän kokemuksen joka ikinen päivä.”

osasyy siihen on se, että Dota 2 on valtavan monimutkainen, paljon enemmän kuin lautapeli. Kaksi joukkuetta viisi kohtaavat toisensa kartalla, joka on täynnä ei-pelattavia hahmoja, esteitä ja tuhoutuvia rakennuksia, jotka kaikki vaikuttavat vuorovesi taistelu. Sankareiden on taisteltava tiensä vastustajan tukikohtaan ja tuhottava se samalla kun he jongleeraavat eri mekaniikoissa. On satoja kohteita he voivat poimia tai ostaa parantaa niiden kykyä, ja jokainen sankari (joista on yli 100) on oma ainutlaatuinen liikkuu ja attribuutteja. Jokainen peli Dota 2 on kuin taistelu antiikin pelataan ulos pienoiskoossa, joukkueet wrangling yli alueen ja kamppailee out-liikkumavaraa vastustajia.

kaiken tämän datan käsittely, jotta pelejä voi pelata elämää nopeammalla tahdilla, on valtava haaste. Jotta OpenAI pystyi kouluttamaan algoritminsa, sen täytyi kerätä valtava määrä prosessoritehoa: noin 256 GPU: ta ja 128 000 suoritinydintä. Tämän vuoksi asiantuntijat puhuvat OpenAI Fivestä usein yhtä paljon insinööriprojektina kuin tutkimusprojektina: se on saavutus vain saada järjestelmä käyntiin, saati voittaa ihmiset.

” OpenAI Five on paljon vaikuttavampi kuin DQN tai AlphaGo”, sanoo Andrey Kurenkov, tietojenkäsittelytiedettä opiskeleva jatko-opiskelija Stanfordissa ja TEKOÄLYSIVUSTO Skynetin toimittaja tänään. (DQN oli DeepMindin tekoälyjärjestelmä, joka opetteli pelaamaan Ataria.) Mutta, toteaa Kurenkov, vaikka nämä vanhemmat hankkeet esittelivät ”merkittäviä, uusia ideoita” puhtaan tutkimuksen tasolla, OpenAI Five hyödyntää pääasiassa olemassa olevia rakenteita aiemmin uneksimattomassa mittakaavassa. Voitto tai tappio, se on silti iso juttu.

aiemmin tänä vuonna OpenAI Five päihitti kykyjensä vertailukohtana amatööripelaajista koostuneen joukkueen.
Kuva: OpenAI

koneilta puuttuu vielä pelisuunnitelma

mutta jos unohdetaan tekniikka, kuinka hyviä botit voivat olla, jos ne vain hävisivät kaksi ottelua ihmisiä vastaan? Se on reilu kysymys, ja vastaus on: edelleen aika pirun hyvä.

kuluneen vuoden aikana botit ovat käyneet läpi asteittain kovempia versioita pelistä alkaen 1v1 bouts, sitten 5v5 ottelut rajoituksin. He eivät kuitenkaan ole vielä puuttuneet pelin täyteen monimutkaisuuteen, ja ovat pelanneet tiettyjen pelimekaniikoiden ollessa pois päältä. Kansainvälisissä otteluissa muutama näistä rajoitteista poistettiin, mutta ei kaikki. Ennen kaikkea botteilla ei enää ollut haavoittumattomia kuriireja (NPC, jotka toimittavat esineitä sankareille). Nämä olivat aiemmin olleet tärkeä potkuri heidän pelityylinsä, kuljettavat luotettava virta parantava juoma auttaa heitä pitämään säälimätön hyökkäys. Internationalissa heidän piti pelätä, että heidän huoltolinjansa katkaistaisiin.

vaikka viime viikon otteluita analysoidaan vielä, on alustava yksimielisyys siitä, että botit pelasivat hyvin, mutta eivät poikkeuksellisesti niin. He eivät olleet pelastajia.; heillä oli vahvuuksia ja heikkouksia, joita ihmiset pystyivät hyödyntämään kuin mitä tahansa joukkuetta vastaan.

molemmat pelit alkoivat hyvin tasaisina: ensin johtoon nousivat ihmiset, sitten botit, sitten ihmiset. Mutta molemmilla kerroilla, kun ihmiset saivat huomattavan edun, bottien oli vaikea toipua. Pelin kommentaattorit spekuloivat, että tämä voisi johtua siitä, että tekoäly mieluummin ” voittaa 1 pisteellä 90 prosentin varmuudella, kuin voittaa 50 pisteellä 51 prosentin varmuudella.”(Tämä piirre oli havaittavissa myös AlphaGon pelityylissä.) Viittaa siihen, että OpenAI Five oli tottunut jauhamaan tasaisia mutta ennustettavia voittoja. Kun botit menettivät etumatkansa, he eivät pystyneet tekemään sen takaisin saamiseksi tarvittavia seikkailunhaluisia näytelmiä.

Video OpenAI Fiven toisesta ottelusta Internationalissa.

tämä on kuitenkin vain arvaus. Kuten yleensä tekoälyn kohdalla, bottien toimien taustalla olevan tarkan ajatusprosessin selvittäminen on mahdotonta. Voimme sanoa, että he kunnostautuivat lähipiirissä, mutta heidän mielestään oli hankalampaa vastata ihmisten pitkän aikavälin strategioihin.

OpenAI-viisikot olivat erehtymättömän tarkkoja, iskivät aggressiivisesti kohteita loitsuilla ja hyökkäyksillä ja olivat yleensä uhka mille tahansa kohtaamalleen vihollissankarille. Mike Cook, TEKOÄLYPELIEN tutkija Falmouthin yliopistossa ja innokas Dota-pelaaja, joka twiittasi ottelut livenä, kuvaili bottien tyyliä ”hypnoottiseksi.””toimi tarkasti ja selkeästi”, Cook sanoi The Vergelle. ”Usein ihmiset voittivat taistelun ja laskivat sitten hieman suojaustaan odottaen vihollisryhmän perääntyvän ja ryhmittyvän uudelleen. Botit eivät tee niin. Jos he näkevät tapon, he ottavat sen.”

, jossa botit näyttivät kompuroivan, oli pitkässä pelissä miettimässä, miten ottelut voisivat kehittyä 10 tai 20 minuutin jaksoissa. Toisessa heidän kaksi jaksoja vastaan joukkue Kiinan pro pelaajat pelottava maine (ne olivat vaihtelevasti kutsutaan kommentaattorit kuin ”vanha legends club” tai, yksinkertaisemmin, ”jumalat”), ihmiset valitsivat epäsymmetrinen strategia. Yksi pelaaja keräsi resursseja sankarinsa hiljalleen valtaan, kun taas neljä muuta juoksivat häirintää hänen puolestaan. Botit eivät kuitenkaan tuntuneet huomaavan, mitä oli tapahtumassa, ja pelin lopussa team Humanilla oli souped-up-sankari, joka auttoi tuhoamaan TEKOÄLYPELAAJAT. ”Tämä on luonnollinen tyyli ihmisille, jotka pelaavat Dotaa”, Cook sanoo. ”botteille se on äärimmäistä pitkän aikavälin suunnittelua.”

tämä strategiakysymys on tärkeä paitsi Openaille, myös TEKOÄLYTUTKIMUKSELLE yleisemmin. Pitkän tähtäimen suunnittelun puuttuminen nähdään usein vahvennusoppimisen suurena puutteena, koska tällä menetelmällä luotu tekoäly korostaa usein välittömiä palkitsemisia pitkän tähtäimen palkitsemisen sijaan. Tämä johtuu siitä, että pidempiaikaisen palkitsemisjärjestelmän jäsentäminen on vaikeaa. Miten opettaa botti viivyttämään voimakkaan loitsun käyttöä, kunnes viholliset on ryhmitelty, jos ei voi ennustaa, milloin se tapahtuu? Annatko vain pieniä palkkioita siitä, ettet käytä loitsua? Entä jos se päättää olla käyttämättä sitä? Ja tämä on vain yksi perusesimerkki. Dota 2-pelit kestävät yleensä 30-45 minuuttia, ja pelaajat joutuvat jatkuvasti miettimään, mikä toiminta johtaa pitkäaikaiseen menestykseen.

on kuitenkin tärkeää korostaa, etteivät botit olleet vain ajattelemattomia, palkintoa tavoittelevia riiviöitä. Jokaista sankaria ohjaavassa hermoverkossa on muistikomponentti, joka oppii tiettyjä strategioita. Ja tapa, jolla he reagoivat palkkioihin, on muotoiltu niin, että botit harkitsevat tulevia lahjuksia sekä niitä, jotka ovat välittömämpiä. Itse asiassa OpenAI sanoo, että sen TEKOÄLYAGENTIT tekevät tämän paljon suuremmassa määrin kuin muut vastaavat järjestelmät, joiden ”palkitsemisen puoliintumisaika” on 14 minuuttia (karkeasti ottaen aika, jonka botit voivat odottaa tulevia payoffeja).

Kurenkov, joka on kirjoittanut laajasti raudoitusoppimisen rajoituksista, sanoi tulitikkujen osoittavan, että raudoitusoppiminen voi käsitellä ”paljon monimutkaisempaa kuin useimmat tekoälyn tutkijat saattoivat kuvitella.”Mutta, hän lisää, viime viikon tappio viittaa siihen, että uusia järjestelmiä tarvitaan nimenomaan pitkäjänteisen ajattelun hallitsemiseksi. (Yllättävää, Openain teknologiajohtaja on eri mieltä.)

toisin kuin otteluiden lopputuloksissa, tässä ei ole selvää johtopäätöstä. Erimielisyys bottien menestyksestä peilaa tekoälyssä isompia, ratkaisemattomia keskusteluja. Kuten tutkija Julian Togelius totesi Twitterissä, miten edes aletaan erottaa pitkän tähtäimen strategiaa ja sen näköistä käyttäytymistä? Onko sillä väliä? Tiedämme vain, että tällä alalla tekoäly ei voi vielä päihittää ihmisiä.

Dota 2 tarjoaa yli 100 erilaista sankaria, joilla on erilaisia kykyjä, eikä tekoäly ole vielä hallinnut niitä kaikkia.
Kuva: Valve

tasaisuuden mahdottomuus

bottien nokkeluudesta vääntäminen on yksi asia, mutta OpenAI Fiven Dota 2-ottelut herättivät myös toisen, perustavanlaatuisemman kysymyksen: miksi näitä tapahtumia ylipäätään lavastetaan?

ota esimerkiksi nykyajan tekoälyn rajoitusten arvostetun kriitikon Gary Marcuksen Kommentit. Viime viikon Openain pelien alla Marcus huomautti Twitterissä, että botit eivät pelaa reilusti. Toisin kuin ihmispelaajat (tai jotkin muut TEKOÄLYJÄRJESTELMÄT), he eivät oikeastaan katso näyttöä pelatakseen. Sen sijaan he käyttävät Dota 2: n ”bot API: ta” pelin ymmärtämiseen. Tämä on 20 000 numeron syöttö, joka kuvaa mitä tapahtuu numeerisessa muodossa, sisältäen tietoa kaikesta jokaisen sankarin sijainnista heidän terveyteensä ja yksittäisten loitsujen ja hyökkäysten jäähdyttämiseen.

kuten Marcus kertoo The Vergelle, tämä ”oikoo kohtausten havaitsemisen valtavan haastavan ongelman” ja antaa botteille valtavan edun. Heidän ei tarvitse etsiä kartalta esimerkiksi tiiminsä sijaintia tai vilkaista käyttöliittymää nähdäksesi, onko heidän tehokkain loitsunsa valmis. Heidän ei tarvitse arvata vihollisen terveyttä tai arvioida heidän etäisyyttään nähdäkseen, onko hyökkäys sen arvoinen. He vain tietävät.

mutta lasketaanko tämä huijaukseksi?

tähän on muutama tapa vastata. Ensinnäkin OpenAI on voinut luoda vision-järjestelmän, jolla voi lukea pikseleitä ja hakea samoja tietoja, joita botin API tarjoaa. (Tärkein syy se ei ole, että se olisi ollut uskomattoman resursseja intensiivinen.) Tätä on hankala arvioida, koska kukaan ei tiedä, toimisiko se ennen kuin joku todella teki sen. Mutta se on ehkä epäolennaista. Tärkeämpi kysymys voisi olla: voimmeko koskaan taistella reilusti ihmisten ja koneiden välillä? Loppujen lopuksi, jos haluamme arvioida, miten ihmiset pelaavat Dota 2, Onko meidän rakentaa robottikädet OpenAI Five käyttää hiirtä ja näppäimistöä? Jotta se olisi vielä oikeudenmukaisempaa, pitäisikö käsien hikoilla?

nämä kysymykset ovat hieman vitsikkäitä, mutta ne korostavat sitä, että on mahdotonta luoda aidosti tasapuolisia toimintaedellytyksiä ihmisten ja tietokoneiden välille. Sellaista ei ole olemassa, koska koneet ajattelevat kuin ihmiset samalla tavalla kuin lentokoneet lentävät kuin linnut. Kuten tekoälyn pelitutkija Cook asian ilmaisee: ”Tietokoneet ovat tietysti meitä parempia asioissa. Siksi keksimme tietokoneet.”

ehkä meidän täytyy miettiä hieman syvällisemmin, miksi ylipäätään pidämme näitä tapahtumia. Brockman kertoo The Vergelle, että kyse on muustakin kuin pelaamisesta. ”Syy, miksi teemme Dotaa, ei ole se, että voisimme ratkaista Dotan”, hän sanoo. ”Olemme tässä mukana, koska uskomme voivamme kehittää TEKOÄLYTEKNOLOGIAA, joka voi voimistaa maailmaa tulevina vuosikymmeninä.”

tässä kunnianhimoisessa väitteessä on perää. Jo nyt OpenAI Fiven opetukseen käytetty koulutusinfrastruktuuri — Rapid-järjestelmä-on siirtymässä muihin hankkeisiin. OpenAI on opettanut sen avulla esimerkiksi robottikäsiä manipuloimaan esineitä, joissa on uudenlaista ihmismäistä näppäryyttä. Kuten aina AI, on olemassa rajoituksia, ja Rapid ei ole mikään do-everything algoritmi. Mutta yleinen periaate pätee: mielivaltaisienkin päämäärien saavuttamiseen tarvittava työ (kuten ihmisten hakkaaminen videopelissä) auttaa kannustamaan koko tekoälyn kenttää.

Eteläkorealainen Go-pelaaja Lee Sedol jäi AlphaGon jalkoihin vuonna 2016, mutta oppi sen myötä uusia taitoja.
kuva: Google / Getty Images

ja se auttaa myös koneiden haastamia. Yksi kiehtovimmista osista AlphaGon tarinassa oli se, että vaikka tekoälyjärjestelmä päihitti ihmismestari Lee Sedolin, hän ja muu Go-yhteisö ottivat siitä myös opikseen. AlphaGon pelityyli järkytti vuosisatoja hyväksyttyä viisautta. Sen liikkeitä tutkitaan edelleen, ja Lee jatkoi voittoputkeaan pelikonetta vastaan pelaamansa ottelun jälkeen.

samaa alkaa jo tapahtua Dota 2: n maailmassa: pelaajat tutkivat OpenAI Fiven peliä löytääkseen uusia taktiikoita ja liikkeitä. Botit ovat löytäneet ainakin yhden aiemmin löytämättömän pelimekaanikon, jonka avulla pelaajat voivat ladata tietyn aseen nopeasti pysymällä vihollisen kantaman ulkopuolella, ja se on siirretty ihmisille. TEKOÄLYTUTKIJA Merity sanookin: ”Haluan kirjaimellisesti istua ja katsoa näitä otteluita, jotta voin oppia uusia strategioita. Ihmiset katsovat näitä juttuja ja sanovat, että tämä pitää vetää peliin mukaan.””

tämä ilmiö, jossa tekoäly opettaa ihmistä, tulee todennäköisesti vain yleistymään tulevaisuudessa. Oudolla tavalla se tuntuu melkein hyväntahtoiselta teolta. Aivan kuin botit antaisivat meille läksiäislahjan, kun ne ohittavat kykymme. Se ei tietenkään ole totta; tekoäly on vain yksi menetelmä, jonka ihmiset ovat keksineet opettaakseen itseämme. Mutta siksi me pelaamme. Se on oppimiskokemus-meille ja koneille.

Gaming

Take a trip back to 1997 with an incredibly, never-opened Nintendo 64 Disk Drive dev kit

Gaming

Ghost of Tsushima is getting a movie adaptation from the director of John Wick

Gaming

Final Fantasy VIII is now on iOS and Android

View all stories in Gaming



+