OpenAI Dota 2 porážka je stále výhrou pro umělou inteligenci

minulý týden lidstvo udeřilo proti strojům-tak nějak.

ve skutečnosti jsme je porazili ve videohře. V zápase best-of-three, dva týmy profesionálních hráčů překonaly skupinu robotů AI, které vytvořila výzkumná laboratoř OpenAI založená Elonem Muskem. Soutěžící hráli Dota 2, fenomenálně populární a složitá hra battle arena. Ale zápas byl také něco jako lakmusový test pro umělou inteligenci: nejnovější vysoce postavené měřítko naší ambice vytvářet stroje, které nás mohou překonat.

v hodnocení člověk-AI umělá inteligence nedávno získala několik velkých vítězství. Nejpozoruhodnější byla porážka nejlepších světových hráčů Go od DeepMind ‚ s AlphaGo, úspěch, který odborníci považovali za nedosažitelný po dobu nejméně deseti let. Nedávno vědci obrátili svou pozornost na videohry jako další výzvu. Ačkoli videohry postrádají intelektuální pověst Go a šachy, jsou ve skutečnosti mnohem těžší pro počítače hrát. Zadržují informace od hráčů; odehrávají se ve složitých, neustále se měnících prostředích; a vyžadují druh strategického myšlení, které nelze snadno simulovat. Jinými slovy, jsou blíže k druhům problémů, které chceme AI řešit v reálném životě.

Dota 2 je obzvláště populární testovací místo a OpenAI je myšlenka mít nejlepší Dota 2 roboty kolem. Minulý týden ale prohráli. Tak co se stalo? Dosáhli jsme nějakého stropu ve schopnostech AI? Je to důkaz, že některé dovednosti jsou pro počítače příliš složité?

krátké odpovědi jsou ne a ne. Byla to jen „rána na silnici,“ říká Stephen Merity, výzkumník strojového učení a Dota 2 fanoušek. Stroje nakonec hru dobývají a pravděpodobně to bude OpenAI, který případ rozbije. Ale rozbalit, proč lidé minulý týden vyhráli a čeho se OpenAI podařilo dosáhnout-i při porážce -, je stále užitečné. Říká nám, co AI může a nemůže dělat a co přijde.

Snímek obrazovky Dota 2, fantasy arény bitevní hry, kde dva týmy pěti hrdinů bojují, aby si navzájem zničily základnu. Hra je složitá, a zápasy obvykle trvají déle než 30 minut.
obrázek: Ventil

nejprve uvedeme zápasy minulého týdne do kontextu. Roboty vytvořil OpenAI jako součást své široké výzkumné působnosti na vývoj AI, která “ prospívá celému lidstvu.“Je to směrnice, která ospravedlňuje mnoho různých výzkumů a přilákala některé z nejlepších vědců v oboru. Školením svého týmu Dota 2 roboty (daboval OpenAI Five), laboratoř říká, že chce vyvinout systémy, které “ zvládnou složitost a nejistotu skutečného světa.“

pět botů (které fungují samostatně, ale byli vyškoleni používat stejné algoritmy) učili hrát Dota 2 pomocí techniky zvané posílení učení. Toto je běžná tréninková metoda, která je v podstatě pokus-omyl v obrovském měřítku. (Má své slabiny, ale také přináší neuvěřitelné výsledky, včetně AlphaGo.) Namísto kódování roboty s pravidly Dota 2, jsou hozený do hry a nechal přijít na věci pro sebe. Inženýři OpenAI pomáhají tomuto procesu tím, že je odměňují za splnění určitých úkolů(jako je zabití soupeře nebo vítězství v zápase), ale nic víc než to.

to znamená, že roboti začínají hrát zcela náhodně a postupem času se učí spojovat určité chování s odměnami. Jak asi tušíte, je to extrémně neefektivní způsob, jak se učit. Výsledkem je, že roboti musí hrát Dota 2 zrychlenou rychlostí a do každého dne napěchovat 180 let tréninku. Jako OpenAI CTO a spoluzakladatel Greg Brockman řekl The Verge na začátku tohoto roku, pokud to trvá člověka mezi 12,000 a 20,000 hodiny praxe zvládnout určitou dovednost, pak roboti spálit “ 100 lidské životy zkušeností každý den.“

jedním z důvodů, proč to trvá tak dlouho, je to, že Dota 2 je nesmírně složitá, mnohem víc než desková hra. Dva týmy z pěti nastoupí proti sobě na mapě, která je plná non-hratelných postav, překážky, a zničitelné budovy, z nichž všechny mají vliv na průběh bitvy. Hrdinové se musí probojovat k soupeřově základně a zničit ji při žonglování s různými mechaniky. Tam jsou stovky položek, které můžete vyzvednout nebo zakoupit na zvýšení jejich schopnosti, a každý hrdina (kterých je více než 100) má své vlastní unikátní pohyby a atributy. Každá hra Dota 2 je jako bitva starověku hrál v miniaturní, s týmy spory o území a snaží out-manévr soupeře.

zpracování všech těchto dat, aby hry mohly být hrány rychleji než život, je obrovská výzva. Trénovat své algoritmy, OpenAI musel ohrady obrovské množství výpočetního výkonu — některé 256 Gpu a 128,000 CPU jader. To je důvod, proč odborníci často mluví o OpenAI Pět jako inženýrský projekt, stejně jako výzkum jeden: je to úspěch, jen aby se systém nahoru a běží, natož porazit člověka.

„tak daleko, Jak je představí úrovni složitosti moderní data-driven AI přístupy mohou zvládnout, OpenAI Pět je daleko působivější, než buď DQN nebo AlphaGo,“ říká Andrej Kurenkov, PhD student na Stanfordu studoval počítačové vědy a editor AI stránek Skynet Dnes. (DQN byl DEEPMINDŮV AI systém, který se naučil hrát Atari.) Ale, poznámky Kurenkov, zatímco tyto starší projekty představil „významné, nové nápady“ na úrovni čistého výzkumu, OpenAI Pět je hlavně nasazení stávajících struktur na dříve netušené-z rozsahu. Vyhrát nebo prohrát, to je pořád velké.

začátkem tohoto roku OpenAI Five porazil tým amatérských hráčů jako měřítko svých schopností.
fotografie: OpenAI

strojům stále chybí herní plán

ale když odložíme inženýrství, jak dobří mohou být roboti, pokud právě prohráli dva zápasy proti lidem? Je to spravedlivá otázka, a odpověď zní: stále zatraceně dobrý.

v uplynulém roce roboti absolvovali postupně tvrdší verze hry, počínaje záchvaty 1v1, poté zápasy 5v5 s omezeními. Musí však ještě řešit celou složitost hry a hrají s vypnutými určitými mechanikami ve hře. Pro zápasy na mezinárodní, několik z těchto omezení bylo odstraněno, ale ne všechny. Nejvíce pozoruhodně, roboti již neměli nezranitelné kurýry(NPC, které dodávají předměty hrdinům). Ty byly dříve důležitou rekvizitou pro jejich styl hry, převoz spolehlivého proudu léčivých lektvarů, které jim pomohou udržet neúprosný útok. Na internacionále se museli obávat, že jim budou odebrány zásobovací linky.

přestože se hry z minulého týdne stále analyzují, počáteční shoda je, že roboti hráli dobře, ale ne výjimečně. Nebyli to AI savanti; měli silné a slabé stránky, které lidé mohli využít jako proti jakémukoli týmu.

obě hry začaly velmi na úrovni, kdy se lidé nejprve ujali vedení, pak roboti, pak lidé. Ale v obou případech, jakmile lidé získali značnou výhodu, roboti zjistili, že je těžké se zotavit. Tam byl spekulace, podle komentátorů ve hře, že by to mohlo být, protože AI přednost „k vítězství o 1 bod s 90% jistotou, než výhra o 50 bodů s 51% jistotou.“(Tato vlastnost byla patrná také v herním stylu AlphaGo.) Znamená to, že OpenAI Five byla zvyklá vybojovat stabilní, ale předvídatelná vítězství. Když roboti ztratili své vedení, oni byli schopni učinit odvážnější hraje nutné znovu získat.

Video z druhého zápasu OpenAI Five na mezinárodní.

to je jen odhad, ačkoli. Jak je tomu obvykle u AI, věštění přesného myšlenkového procesu za akcemi robotů je nemožné. Můžeme říci, že vynikali v těsné blízkosti, ale považovali za složitější odpovídat dlouhodobým strategiím lidí.

OpenAI Five byly neomylně přesné, agresivně vybíraly cíle pomocí kouzel a útoků a obecně byly hrozbou pro všechny nepřátelské hrdiny, na které narazili. Mike Cook, výzkumník her AI na University of Falmouth a vášnivý hráč Dota, který zápasy živě tweetoval, popsal styl robotů jako „hypnotický“.“jednejte s přesností a jasností,“ řekl Cook The Verge. „Lidé často vyhráli boj a pak mírně snížili svou stráž a očekávali, že nepřátelský tým ustoupí a přeskupí se. Ale roboti to nedělají. Pokud uvidí zabití, vezmou ho.“

kde se zdálo, že roboti klopýtají, bylo v dlouhé hře a přemýšleli o tom, jak by se zápasy mohly vyvíjet v rozpětí 10 nebo 20 minut. V druhé ze svých dvou zápasů proti týmu Čínské pro hráče s hrůzostrašnou pověstí (byly různě odkazoval se na podle komentátorů jako „staré legendy klubu“, nebo, více jednoduše, „bohové“), lidé se rozhodli pro asymetrickou strategii. Jeden hráč shromáždil prostředky, aby svého hrdinu pomalu napájel, zatímco ostatní čtyři za něj utíkali. Roboty nevšiml, co se děje, i když, a konec hry, tým lidská měl nadupaným-up hrdina, který pomohl zničit AI hráči. „Je to přirozený styl pro lidi hrající Dota,“ říká Cook. „pro roboty je to extrémní dlouhodobé plánování.“

tato otázka strategie je důležitá nejen pro OpenAI, ale pro výzkum AI obecněji. Absence dlouhodobého plánování je často považována za hlavní vadu posilování učení, protože AI vytvořená pomocí této metody často zdůrazňuje Okamžité výplaty spíše než dlouhodobé odměny. Je to proto, že strukturování systému odměn, který funguje po delší dobu, je obtížné. Jak naučit robota, aby zpoždění použití mocné kouzlo, dokud nepřátelé jsou seskupeny dohromady, pokud nemůžete předpovědět, kdy se to stane? Dáváte mu jen malé odměny za to, že nepoužíváte toto kouzlo? Co když se rozhodne, že ji nikdy nepoužije? A to je jen jeden základní příklad. Dota 2 hry obvykle trvají 30 na 45 minut, a hráči musí neustále přemýšlet, jaká akce povede k dlouhodobému úspěchu.

je však důležité zdůraznit, že roboti nebyli jen bezohlední, odměňovaní gremlins. Neuronová síť ovládající každého hrdinu má paměťovou složku, která se učí určitým strategiím. A způsob, jakým reagují na odměny, je tvarován tak, aby roboti zvažovali budoucí výplaty i ty, které jsou bezprostřednější. Ve skutečnosti, OpenAI říká, že jeho AI agentů dělat to v daleko větší míře, než jakékoliv jiné srovnatelné systémy, s „odměnu half-life“, 14 minut (zhruba řečeno, doba roboty mohou čekat na budoucí přínosy).

Kurenkov, který rozsáhle psal o omezeních posilování učení, uvedl, že zápasy ukazují, že posilování učení zvládne „mnohem složitější, než si většina vědců AI mohla představit.“Dodává však, že porážka z minulého týdne naznačuje, že nové systémy jsou potřebné speciálně pro řízení dlouhodobého myšlení. (Není překvapením, že hlavní technologický ředitel OpenAI nesouhlasí.)

na rozdíl od výsledku zápasů zde není zřejmý závěr. Nesouhlas s úspěchem robotů odráží větší, nevyřešené diskuse v AI. Jak poznamenal výzkumník Julian Togelius na Twitteru, jak vůbec začneme rozlišovat mezi dlouhodobou strategií a chováním, které tak vypadá? Záleží na tom? Vše, co prozatím víme, je, že v této konkrétní oblasti AI ještě nemůže myslet na lidi.

Dota 2 nabízí více než 100 různých hrdinů s řadou schopností a AI je ještě musí všechny zvládnout.
obrázek: Ventil

nemožnost rovné podmínky,

Tahanic roboty‘ chytrost je jedna věc, ale OpenAI Pět je Dota 2 zápasy také zvýšil jinou, zásadnější otázku: proč jsme se uspořádat tyto události?

Vezměte si komentáře Garyho Marcuse, respektovaného kritika omezení současné AI. V přípravě na hry OpenAI minulý týden Marcus na Twitteru poukázal na to, že roboti nehrají spravedlivě. Na rozdíl od lidských hráčů (nebo jiných systémů AI) se ve skutečnosti nedívají na obrazovku, aby hráli. Namísto, k pochopení hry používají „bot API“ Dota 2. To je krmivo 20000 čísla, které popisuje, co se děje v číselné podobě, obsahující informace o všem od umístění každého hrdinu, aby jejich zdraví cooldown na jednotlivá kouzla a útoky.

jak Marcus říká The Verge, toto „zkracuje nesmírně náročný problém vnímání scény“ a dává robotům obrovskou výhodu. Nemají hledat na mapě zjistit, kde se jejich tým je, například, nebo pohled dolů na UI, aby zjistili, zda jejich nejsilnější kouzlo je připraven. Nemusí hádat zdraví nepřítele ani odhadovat jeho vzdálenost, aby zjistili, zda útok stojí za to. Prostě to vědí.

ale počítá se to jako podvádění?

existuje několik způsobů, jak na to odpovědět. Za prvé, OpenAI mohl vytvořit systém vidění pro čtení pixelů a načtení stejných informací, které poskytuje rozhraní bot API. (Hlavním důvodem, proč tomu tak nebylo, je to, že by to bylo neuvěřitelně náročné na zdroje.) To je složité posoudit, protože nikdo neví, jestli by to fungovalo, dokud by to někdo skutečně neudělal. Ale je to možná irelevantní. Důležitější otázkou může být: můžeme někdy mít spravedlivý boj mezi lidmi a stroji? Po všem, pokud chceme přiblížit, jak lidé hrají Dota 2, musíme pro OpenAI Five postavit robotické ruce, abychom mohli ovládat myš a klávesnici? Aby to bylo ještě spravedlivější, měly by se ruce potit?

tyto otázky jsou trochu facetious, ale zdůrazňují nemožnost vytvořit skutečně rovné podmínky mezi lidmi a počítači. Taková věc neexistuje, protože stroje myslí jako lidé stejným způsobem, jako letadla létají jako ptáci. Jak říká výzkumník AI games Cook: „Počítače jsou samozřejmě ve věcech lepší než my. Proto jsme vynalezli počítače.“

možná bychom měli přemýšlet trochu hlouběji o tom, proč tyto události pořádáme. Brockman říká The Verge, že je toho víc než hraní her. „Důvod, proč děláme Dotu, není tak, abychom mohli vyřešit Dotu,“ říká. „Jsme v tom, protože si myslíme, že můžeme vyvinout technologii AI, která může v nadcházejících desetiletích pohánět svět.“

na tomto ambiciózním tvrzení je pravda. Vzdělávací infrastruktura používaná k výuce OpenAI Five-systému zvaného Rapid-se již obrací na jiné projekty. OpenAI jej používá například k tomu, aby naučil robotické ruce manipulovat s objekty s novými úrovněmi lidské obratnosti. Jako vždy s AI, existují omezení, a Rapid není nějaký algoritmus do-everything. Obecný princip však platí: práce potřebná k dosažení i libovolných cílů (jako je bití lidí ve videohře) pomáhá podnítit celé pole AI.

Jihokorejský Go hráč Lee Sedol byl v roce 2016 poražen AlphaGo, ale v důsledku toho se naučil nové dovednosti.
Foto: Google / Getty Images

a také pomáhá těm, kteří jsou napadeni stroji. Jednou z nejvíce fascinujících částí příběhu AlphaGo bylo to, že ačkoli lidský šampion Lee Sedol byl poražen systémem AI, on, a zbytek komunity Go, poučil se z toho, také. AlphaGo styl hry rozrušil staletí přijímané moudrosti. Jeho pohyby jsou stále studovány, a Lee šel na vítěznou sérii po svém zápase proti stroji.

totéž se již začíná dít ve světě Dota 2: hráči studují hru OpenAI Five, aby odhalili nové taktiky a pohyby. Alespoň jeden dříve neobjevený herní mechanik, který umožňuje hráčům rychle dobít určitou zbraň tím, že zůstane mimo dosah nepřítele, byl objeven roboty a předán lidem. Jak říká výzkumník AI Merity: „doslova chci sedět a sledovat tyto zápasy, abych se mohl naučit nové strategie.“. Lidé se na to dívají a říkají, “ To je něco, co musíme do hry vtáhnout.““

tento fenomén výuky AI lidí se pravděpodobně v budoucnu stane běžnějším. Zvláštním způsobem to vypadá téměř jako akt benevolence. Jako by nám roboti na ukázku lidské milosti dávali dárek na rozloučenou, když předjížděli naše schopnosti. Není to pravda, samozřejmě; AI je jen další metoda, kterou lidé vynalezli, aby se učili. Ale proto hrajeme. Je to zkušenost s učením-pro nás a stroje.

Herní

udělejte Si výlet zpět do roku 1997 s neuvěřitelně vzácné, nikdy otevřel Nintendo 64 Disk dev kit

Hraní her

Duch Tsushima je stále filmová adaptace od režiséra John Wick

Hraní her

Final Fantasy VIII je nyní na iOS a Android

Zobrazit všechny příběhy ve hrách



+