Az OpenAI Dota 2 veresége továbbra is győzelem a mesterséges intelligencia számára

a múlt héten az emberiség visszavágott a gépeknek — egyfajta.

valójában egy videojátékban győztük le őket. A három legjobb mérkőzésen két profi játékos Csapat legyőzte az AI botok csapatát, amelyet az Elon Musk által alapított OpenAI kutatólabor hozott létre. A versenyzők a Dota 2-t, egy hihetetlenül népszerű és összetett harci arénát játszották. De a meccs a mesterséges intelligencia lakmuszpróbája is volt: a legújabb nagy horderejű mércéje azon törekvésünknek, hogy olyan gépeket hozzunk létre, amelyek képesek túlgondolni minket.

az emberi-AI eredménymutatóban a mesterséges intelligencia a közelmúltban nagy győzelmeket gyűjtött össze. A legjelentősebb a DeepMind AlphaGo által a világ legjobb Go játékosainak veresége volt, olyan eredmény, amelyet a szakértők legalább egy évtizede elérhetetlennek tartottak. A közelmúltban a kutatók a videojátékokra fordították figyelmüket, mint a következő kihívásra. Bár a videojátékokból hiányzik a Go és a sakk szellemi hírneve,valójában sokkal nehezebb a számítógépek számára. Visszatartják az információkat a játékosoktól; összetett, folyamatosan változó környezetben zajlanak; és olyan stratégiai gondolkodást igényelnek, amelyet nem lehet könnyen szimulálni. Más szavakkal, közelebb állnak azokhoz a problémákhoz, amelyekkel az AI-t a való életben szeretnénk megoldani.

a Dota 2 különösen népszerű tesztpálya, és úgy gondolják, hogy az OpenAI rendelkezik a legjobb Dota 2 botokkal. De a múlt héten vesztettek. Szóval mi történt? Elértünk valamilyen plafont az AI képességében? Ez bizonyítja, hogy egyes készségek túl bonyolultak a számítógépek számára?

a rövid válaszok nem és nem. Ez csak egy “dudor az úton” – mondja Stephen Merity, a gépi tanulás kutatója és a Dota 2 rajongója. A gépek végül meghódítják a játékot, és valószínűleg az OpenAI fogja feltörni az ügyet. De annak tisztázása, hogy miért nyert a humans a múlt héten, és mit sikerült elérnie az OpenAI-nak-még vereségben is -, még mindig hasznos. Megmondja, mit tehet az AI, és mit nem, és mi következik.

a Dota 2 képernyőképe, egy fantasy aréna harci játék, ahol két öt hősből álló csapat harcol egymás bázisának elpusztításáért. A játékmenet összetett, a mérkőzések általában több mint 30 percig tartanak.
kép: Valve

először tegyük kontextusba a múlt heti mérkőzéseket. A botokat az OpenAI hozta létre széles körű kutatási feladatának részeként, hogy olyan AI-t fejlesszen ki, amely “az egész emberiség számára előnyös.”Ez egy olyan irányelv, amely sok különböző kutatást indokol,és a terület legjobb tudósait vonzotta. A Dota 2 botokból álló csapata (az OpenAI Five) képzésével a labor azt mondja, hogy olyan rendszereket akar kifejleszteni, amelyek “képesek kezelni a Való Világ összetettségét és bizonytalanságát.”

az öt botot (amelyek egymástól függetlenül működnek, de ugyanazokkal az algoritmusokkal képezték ki őket) megtanították a Dota 2 lejátszására a megerősítő tanulás nevű technikával. Ez egy általános képzési módszer, amely lényegében hatalmas léptékű próba-hiba. (Megvannak a gyengeségei, de hihetetlen eredményeket is produkál, beleértve az AlphaGo-t is.) Ahelyett, hogy a botokat a Dota 2 szabályaival kódolnák, bedobják őket a játékba, és magukra hagyják, hogy kitalálják a dolgokat. Az OpenAI mérnökei segítik ezt a folyamatot azzal, hogy jutalmazzák őket bizonyos feladatok elvégzéséért (például egy ellenfél megöléséért vagy egy mérkőzés megnyeréséért), de semmi mást.

ez azt jelenti, hogy a botok teljesen véletlenszerűen kezdenek el játszani, és idővel megtanulják összekapcsolni bizonyos viselkedéseket a jutalmakkal. Mint gondolnád, ez egy rendkívül nem hatékony módja a tanulásnak. Ennek eredményeként a botoknak gyorsított ütemben kell játszaniuk a Dota 2-t, minden nap 180 éves edzési időt töltve. Ahogy az OpenAI CTO-ja és társalapítója, Greg Brockman az év elején elmondta a The Verge-nek, ha egy embernek 12 000-20 000 órányi gyakorlásra van szüksége egy bizonyos készség elsajátításához, akkor a botok minden nap “100 emberi élet tapasztalatát” égetik el.”

az egyik oka annak, hogy ilyen sokáig tart, az, hogy a Dota 2 rendkívül összetett, sokkal inkább, mint egy társasjáték. Két ötfős csapat küzd meg egymással egy olyan térképen, amely tele van nem játszható karakterekkel, akadályokkal és elpusztítható épületekkel, amelyek mindegyike hatással van a csata dagályára. A hősöknek harcolniuk kell az ellenfél bázisához, és el kell pusztítaniuk, miközben különböző mechanikákkal zsonglőrködnek. Több száz elem van, amit felvehetnek vagy megvásárolhatnak, hogy növeljék képességeiket, és minden hősnek (amelyből több mint 100 van) saját egyedi mozdulatai és tulajdonságai vannak. A Dota 2 minden játéka olyan, mint egy miniatűr ókori csata, ahol a csapatok a terület felett küzdenek, és küzdenek az ellenfelek manőverezésével.

az összes adat feldolgozása, hogy a játékokat az életnél gyorsabb ütemben lehessen játszani, hatalmas kihívás. Algoritmusaik kiképzéséhez az OpenAI — nak hatalmas mennyiségű feldolgozási energiát kellett összegyűjtenie-mintegy 256 GPU-t és 128 000 CPU magot. Ez az oka annak, hogy a szakértők gyakran beszélnek az OpenAI ötről, mint egy mérnöki projektről, mint kutatási projektről: ez csak a rendszer üzembe helyezése és működtetése, nem beszélve az emberek legyőzéséről.

“ami a modern adatvezérelt AI megközelítések komplexitásának bemutatását illeti, az OpenAI Five sokkal lenyűgözőbb, mint akár a DQN, akár az AlphaGo” – mondja Andrey Kurenkov, a Stanford számítástechnikát tanuló PhD hallgatója, a Skynet ma AI oldal szerkesztője. (A DQN a DeepMind AI rendszere volt, amely megtanította magát Atari játékára.) De, jegyzi meg Kurenkov, míg ezek a régebbi projektek “jelentős, újszerű ötleteket” vezettek be a tiszta kutatás szintjén, az OpenAI Five elsősorban a meglévő struktúrákat telepíti egy korábban nem álmodott léptékben. Nyer vagy veszít, ez még mindig nagy.

az év elején az OpenAI Five legyőzte az amatőr játékosok csapatát képességeinek mércéjeként.
fénykép: OpenAI

a gépeknek még mindig nincs játéktervük

de a mérnöki munkát félretéve, mennyire lehetnek jók a botok, ha éppen két meccset veszítettek az emberek ellen? Ez egy jogos kérdés, és a válasz: még mindig nagyon jó.

az elmúlt évben a botok fokozatosan keményebb verziókon mentek keresztül, kezdve az 1v1 mérkőzésekkel, majd az 5v5 mérkőzésekkel korlátozásokkal. Azonban még nem oldották meg a játék teljes összetettségét, és bizonyos játékon belüli mechanikával játszottak. A nemzetközi mérkőzésekre, néhány ilyen korlátozást megszüntettek, de nem az összes. Legfőképpen a botoknak már nem voltak sebezhetetlen futáraik (NPC-k, amelyek tárgyakat szállítanak a hősöknek). Ezek korábban fontos támaszai voltak játékstílusuknak, megbízható gyógyító italokat szállítottak, hogy segítsék őket a könyörtelen támadás fenntartásában. Az Internationalnél aggódniuk kellett, hogy leszedik az utánpótlási vezetékeiket.

bár a múlt heti játékokat még elemzik, a korai konszenzus az, hogy a botok jól játszottak, de nem kivételesen. Nem voltak AI savants; voltak erősségeik és gyengeségeik, amelyeket az emberek kihasználhattak, mint bármelyik csapat ellen.

mindkét játék nagyon szinten kezdődött, először az emberek vették át a vezetést, majd a botok, majd az emberek. De mindkét alkalommal, miután az emberek jelentős előnyre tettek szert, a botoknak nehéz volt felépülniük. A játék kommentátorai spekuláltak, hogy ez azért lehet, mert az AI inkább “1 ponttal nyert 90% – os bizonyossággal, mint 50 ponttal 51% – os bizonyossággal.”(Ez a tulajdonság az AlphaGo játékstílusában is észrevehető volt.) Ez azt jelenti, hogy az OpenAI Five hozzászokott az állandó, de kiszámítható győzelmek őrléséhez. Amikor a botok elvesztették vezetésüket, nem tudták megtenni a kalandosabb játékokat, amelyek szükségesek ahhoz, hogy visszanyerjék.

videó az OpenAI Five második nemzetközi mérkőzéséről.

ez azonban csak találgatás. Mint általában az AI esetében, a botok cselekedetei mögött álló pontos gondolkodási folyamat megosztása lehetetlen. Azt mondhatjuk, hogy közelről kitűntek, de bonyolultabbnak találták az emberek hosszú távú stratégiáinak megfelelését.

az OpenAI Ötök hibátlanul precízek voltak, agresszíven szedték le a célpontokat varázslatokkal és támadásokkal, és általában veszélyt jelentettek minden ellenséges hősre, akivel találkoztak. Mike szakács, a Falmouth Egyetem AI játékkutatója és egy lelkes Dota játékos, aki élőben tweetelt a harcokról, a botok stílusát “hipnotikusnak” írta le.”cselekedj precízen és érthetően” – mondta szakács a The Verge-nek. “Gyakran az emberek megnyerték a harcot, majd kissé leengedték az őrüket, arra számítva, hogy az ellenséges csapat visszavonul és átcsoportosul. De a botok nem ezt teszik. Ha látnak egy gyilkosságot, elveszik.”

ahol a botok úgy tűnt, hogy megbotlik, a hosszú játékban volt, arra gondolva, hogyan alakulhatnak a mérkőzések 10 vagy 20 perces időtartam alatt. A félelmetes hírnévvel rendelkező Kínai profi játékosok csapata elleni két összecsapásuk második részében (a kommentátorok különféle módon “the old legends club” vagy egyszerűbben “the gods” néven emlegették őket), az emberek aszimmetrikus stratégiát választottak. Az egyik játékos erőforrásokat gyűjtött, hogy lassan bekapcsolja hősét, míg a másik négy beavatkozott érte. Úgy tűnt, hogy a botok nem vették észre, mi történik, és a játék végére a team human-nak volt egy felturbózott hőse, aki segített pusztítani az AI játékosokat. “Ez egy természetes stílus a DotA-t játszó emberek számára” – mondja szakács. “ahhoz, botok, ez extrém hosszú távú tervezés.”

ez a stratégiai kérdés nem csak az OpenAI, hanem általában az AI kutatás szempontjából is fontos. A hosszú távú tervezés hiányát gyakran a megerősítő tanulás egyik fő hibájának tekintik, mivel az ezzel a módszerrel létrehozott AI gyakran az azonnali kifizetéseket hangsúlyozza, nem pedig a hosszú távú jutalmakat. Ennek oka az, hogy a hosszabb ideig működő jutalmazási rendszer strukturálása nehéz. Hogyan tanítasz egy botot arra, hogy késleltesse az erős varázslat használatát, amíg az ellenségek össze nem csoportosulnak, ha nem tudod megjósolni, hogy ez mikor fog megtörténni? Csak kis jutalmat adsz neki, amiért nem használta ezt a varázslatot? Mi van, ha úgy dönt, hogy soha nem használja ennek eredményeként? És ez csak egy alapvető példa. A Dota 2 játékok általában 30-45 percig tartanak, és a játékosoknak folyamatosan át kell gondolniuk, hogy milyen akció vezet a hosszú távú sikerhez.

fontos azonban hangsúlyozni, hogy a botok nem csak meggondolatlan, jutalmat kereső Szörnyecskék voltak. Az egyes hősöket vezérlő neurális hálózatnak van egy memóriakomponense, amely megtanul bizonyos stratégiákat. A jutalmakra való reagálás módja úgy van kialakítva, hogy a botok figyelembe vegyék a jövőbeni kifizetéseket, valamint azokat, amelyek közvetlenebbek. Valójában az OpenAI szerint AI-ügynökei ezt sokkal nagyobb mértékben teszik, mint bármely más hasonló rendszer, 14 perces “jutalom felezési idővel” (nagyjából elmondható, hogy a botok mennyi ideig várhatnak a jövőbeni kifizetésekre).

Kurenkov, aki széles körben írt a megerősítő tanulás korlátairól, azt mondta, hogy a mérkőzések azt mutatják, hogy a megerősítő tanulás “sokkal bonyolultabb, mint a legtöbb AI kutató elképzelte.”De hozzáteszi, hogy a múlt heti vereség azt sugallja, hogy új rendszerekre van szükség kifejezetten a hosszú távú gondolkodás kezeléséhez. (Nem meglepő, hogy az OpenAI technológiai igazgatója nem ért egyet.)

a mérkőzések eredményétől eltérően itt nincs nyilvánvaló következtetés. A botok sikerével kapcsolatos nézeteltérés nagyobb, megoldatlan vitákat tükröz az AI-ben. Ahogy Julian Togelius kutató megjegyezte a Twitteren, hogyan kezdjük el megkülönböztetni a hosszú távú stratégiát és a viselkedést, ami csak úgy néz ki? Számít ez? Egyelőre csak annyit tudunk, hogy ezen a területen az AI még nem tudja felülmúlni az embereket.

a Dota 2 több mint 100 különböző hőst kínál különböző képességekkel, és az AI még nem elsajátította őket.
kép: Valve

az egyenlő versenyfeltételek lehetetlensége

a botok okosságán vitatkozni egy dolog, de az OpenAI Five Dota 2 mérkőzései egy másik, alapvetőbb kérdést is felvetettek: miért rendezzük ezeket az eseményeket egyáltalán?

vegye figyelembe Gary Marcus, a kortárs AI korlátainak elismert kritikusának megjegyzéseit. Az OpenAI múlt heti játékainak előkészítésekor Marcus a Twitteren rámutatott, hogy a botok nem játszanak tisztességesen. Az emberi játékosokkal (vagy más AI rendszerekkel) ellentétben valójában nem néznek a képernyőre játszani. Helyette, a Dota 2 “bot API-ját” használják a játék megértéséhez. Ez egy 20 000 számból álló hírcsatorna, amely numerikus formában írja le, hogy mi történik, minden információt tartalmaz az egyes hősök helyétől kezdve az egészségükön át az egyes varázslatok és támadások lehűléséig.

ahogy Marcus mondja a The Verge-nek, ez “rövidre zárja a jelenetérzékelés óriási kihívást jelentő problémáját”, és hatalmas előnyt biztosít a botoknak. Nem kell keresniük a térképen, hogy ellenőrizzék, hol van a csapatuk, például, vagy lenéznek a felhasználói felületre, hogy lássák, készen áll-e a legerősebb varázslatuk. Nem kell kitalálniuk az ellenség egészségét, vagy meg kell becsülniük a távolságukat, hogy lássák, megéri-e egy támadás. Csak tudják.

de ez csalásnak számít?

erre néhány módon lehet válaszolni. Először is, az OpenAI létrehozhatott egy vision rendszert a pixelek olvasására és a bot API által biztosított információk lekérésére. (A fő ok, amiért nem volt, az az, hogy hihetetlenül erőforrás-igényes lett volna.) Ezt bonyolult megítélni, mivel senki sem tudja, hogy működni fog-e, amíg valaki valóban meg nem tette. De ez talán lényegtelen. A fontosabb kérdés lehet: lehet-e valaha tisztességes harcot vívni emberek és gépek között? Végül is, ha meg akarjuk közelíteni, hogy az emberek hogyan játsszák a Dota 2-t, akkor robotkezeket kell építenünk az OpenAI Five számára az egér és a billentyűzet működtetéséhez? Annak érdekében, hogy még igazságosabb legyen, a kezek izzadnak?

ezek a kérdések kissé viccesek, de hangsúlyozzák, hogy lehetetlen valóban egyenlő versenyfeltételeket teremteni az emberek és a számítógépek között. Ilyen dolog nem létezik, mert a gépek ugyanúgy gondolkodnak, mint az emberek, mint a repülőgépek, mint a madarak. Ahogy szakács az AI games kutatója fogalmaz: “Természetesen a számítógépek jobbak nálunk a dolgokban. Ezért találtuk fel a számítógépeket.”

talán egy kicsit mélyebben el kell gondolkodnunk azon, hogy miért tartjuk ezeket az eseményeket. Brockman elmondja a The Verge – nek, hogy több van benne, mint a játék. “Az ok, amiért Dotát csinálunk, nem az, hogy meg tudjuk oldani a Dotát” – mondja. “Azért vagyunk ebben, mert úgy gondoljuk, hogy kifejleszthetjük azt az AI technológiát, amely a következő évtizedekben a világot táplálhatja.”

van igazság ebben az ambiciózus állításban. Az OpenAI Five — a Rapid nevű rendszer-tanításához használt képzési infrastruktúrát már más projektekre fordítják. Az OpenAI arra használta, hogy megtanítsa a robot kezeket tárgyak manipulálására például az emberszerű ügyesség új szintjeivel. Mint mindig az AI-nél, vannak korlátozások, és a Rapid nem valami do-everything algoritmus. De az általános elv érvényes: az önkényes célok eléréséhez szükséges munka (például az emberek legyőzése egy videojátékban) elősegíti az AI teljes területét.

a dél-koreai Go játékost, Lee Sedolt 2016-ban megverte az AlphaGo, de ennek eredményeként új készségeket tanult meg.
fotó: Google / Getty Images

és segít a gépek által kihívottaknak is. Az AlphaGo történetének egyik legérdekesebb része az volt, hogy bár az emberi bajnok Lee Sedolt egy AI rendszer legyőzte, ő és a Go közösség többi tagja is tanult belőle, is. AlphaGo játékstílusa felborította az évszázados elfogadott bölcsességet. A mozdulatait még tanulmányozzák, Lee pedig nyerő szériát folytatott a gép elleni meccs után.

ugyanez már a Dota 2 világában is megtörténik: a játékosok az OpenAI Five játékát tanulmányozzák, hogy új taktikákat és mozdulatokat fedezzenek fel. Legalább egy korábban felfedezetlen játékszerelőt, amely lehetővé teszi a játékosok számára, hogy gyorsan feltöltsenek egy bizonyos fegyvert azáltal, hogy az ellenség hatótávolságán kívül maradnak, felfedezték a botok, és átadták az embereknek. Ahogy az AI kutatója, Merity mondja: “szó szerint le akarok ülni és nézni ezeket a mérkőzéseket, hogy új stratégiákat tanulhassak. Az emberek ezt nézik, és azt mondják: ‘ezt be kell vonnunk a játékba.'”

az MI-nek az embereket tanító jelensége valószínűleg csak a jövőben fog egyre gyakoribbá válni. Furcsa módon, szinte jóindulatnak tűnik. Mintha az emberi kegyelem megnyilvánulásaként a botok búcsúajándékot adnának nekünk, miközben felülmúlják képességeinket. Ez természetesen nem igaz; az AI csak egy másik módszer, amelyet az emberek feltaláltak, hogy megtanítsák magunkat. De ezért játszunk. Ez egy tanulási élmény-nekünk és a gépeknek.

Gaming

Vegyünk egy utazás vissza 1997 egy hihetetlenül ritka, soha nem nyitott Nintendo 64 Disk Drive dev kit

Gaming

Ghost of Tsushima kap egy film adaptációja a rendező a John Wick

Gaming

Final Fantasy VIII most iOS és Android

az összes történet a játék



+