Înfrângerea Dota 2 a lui OpenAI este încă o victorie pentru inteligența artificială

săptămâna trecută, omenirea a lovit înapoi împotriva mașinilor — un fel de.

de fapt, i-am bătut la un joc video. Într-un meci cel mai bun din trei, două echipe de jucători profesioniști au depășit o echipă de roboți AI care au fost creați de laboratorul de cercetare OpenAI fondat de Elon Musk. Concurenții jucau Dota 2, un joc fenomenal de popular și complex de arena de luptă. Dar meciul a fost, de asemenea, un test de turnesol pentru inteligența artificială: cea mai recentă măsură importantă a ambiției noastre de a crea mașini care să ne poată depăși.

în tabloul de bord human-AI, inteligența artificială a câștigat recent câteva victorii mari. Cea mai notabilă a fost înfrângerea celor mai buni jucători Go din lume de către AlphaGo DeepMind, o realizare pe care experții au crezut-o de cel puțin un deceniu. Recent, cercetătorii și-au îndreptat atenția asupra jocurilor video ca următoarea provocare. Deși jocurile video nu au reputația intelectuală de Go și șah, ele sunt de fapt mult mai greu de jucat pentru computere. Acestea ascund informații de la jucători; au loc în medii complexe, în continuă schimbare; și necesită un fel de gândire strategică care nu poate fi ușor simulată. Cu alte cuvinte, sunt mai aproape de tipurile de probleme pe care vrem să le abordăm în viața reală.

Dota 2 este un teren de testare deosebit de popular, iar OpenAI se crede că are cei mai buni roboți Dota 2 în jur. Dar săptămâna trecută, au pierdut. Și ce s-a întâmplat? Am ajuns la un fel de plafon în capacitatea AI? Este această dovadă că unele abilități sunt prea complexe pentru computere?

răspunsurile scurte sunt nu și nu. Aceasta a fost doar o „lovitură în drum”, spune Stephen Merity, cercetător în învățarea mașinilor și fan Dota 2. Mașinile vor cuceri jocul în cele din urmă și probabil că OpenAI va sparge cazul. Dar despachetarea de ce oamenii au câștigat săptămâna trecută și ceea ce OpenAI a reușit să obțină — chiar și în înfrângere — este încă util. Ne spune ce poate și ce nu poate face AI și ce urmează.

o captură de ecran a Dota 2, un joc de luptă fantasy arena în care două echipe de cinci eroi luptă pentru a distruge baza celuilalt. Modul de joc este complex, iar meciurile durează de obicei mai mult de 30 de minute.

imagine: Valve

în primul rând, să punem meciurile de săptămâna trecută în context. Roboții au fost creați de OpenAI ca parte a misiunii sale largi de cercetare pentru a dezvolta AI care „aduce beneficii întregii umanități.”Este o directivă care justifică o mulțime de cercetări diferite și a atras unii dintre cei mai buni oameni de știință din domeniu. Prin instruirea echipei sale de roboți Dota 2 (supranumiți OpenAI Five), Laboratorul spune că dorește să dezvolte sisteme care să poată „gestiona complexitatea și incertitudinea lumii reale.”

cei cinci roboți (care funcționează independent, dar au fost instruiți folosind aceiași algoritmi) au fost învățați să joace Dota 2 folosind o tehnică numită învățarea întăririi. Aceasta este o metodă comună de formare care este în esență încercare și eroare la o scară uriașă. (Are slăbiciunile sale, dar produce și rezultate incredibile, inclusiv AlphaGo.) În loc să codifice roboții cu regulile Dota 2, sunt aruncați în joc și lăsați să-și dea seama singuri. Inginerii OpenAI ajută acest proces, recompensându-i pentru îndeplinirea anumitor sarcini (cum ar fi uciderea unui adversar sau câștigarea unui meci), dar nimic mai mult decât atât.

aceasta înseamnă că roboții încep să joace complet aleatoriu și, în timp, învață să conecteze anumite comportamente la recompense. După cum ați putea ghici, acesta este un mod extrem de ineficient de a învăța. Drept urmare, roboții trebuie să joace Dota 2 într-un ritm accelerat, înghesuind 180 de ani de antrenament în fiecare zi. După cum a declarat Greg Brockman, co-fondatorul OpenAI, la începutul acestui an, dacă este nevoie de un om între 12.000 și 20.000 de ore de practică pentru a stăpâni o anumită abilitate, atunci roboții ard prin „100 de vieți umane de experiență în fiecare zi.”

o parte din motivul pentru care durează atât de mult este că Dota 2 este extrem de complex, mult mai mult decât un joc de masă. Două echipe de cinci se confruntă unul împotriva celuilalt pe o hartă plină de personaje care nu pot fi redate, obstacole și clădiri distructibile, toate având un efect asupra valului de luptă. Eroii trebuie să lupte spre baza adversarului și să o distrugă în timp ce jonglează cu diverse mecanici. Există sute de articole pe care le pot ridica sau cumpăra pentru a-și spori capacitatea și fiecare erou (dintre care există mai mult de 100) are propriile sale mișcări și atribute unice. Fiecare joc din Dota 2 este ca o bătălie a antichității jucată în miniatură, cu Echipe care se ceartă pe teritoriu și se luptă să depășească adversarii.

procesarea tuturor acestor date, astfel încât Jocurile să poată fi jucate într-un ritm mai rapid decât viața, este o provocare uriașă. Pentru a-și antrena algoritmii, OpenAI a trebuit să corraleze o cantitate masivă de putere de procesare — aproximativ 256 de GPU-uri și 128.000 de nuclee CPU. Acesta este motivul pentru care experții vorbesc adesea despre OpenAI Five ca un proiect de inginerie la fel de mult ca unul de cercetare: este o realizare doar pentru a pune sistemul în funcțiune, să nu mai vorbim de a bate oamenii.

„în ceea ce privește prezentarea nivelului de complexitate pe care îl pot gestiona abordările moderne de IA bazate pe date, OpenAI Five este mult mai impresionant decât DQN sau AlphaGo”, spune Andrey Kurenkov, doctorand la Stanford care studiază informatica și editorul site-ului ai Skynet Today. (DQN a fost sistemul AI al lui DeepMind care s-a învățat să joace Atari.) Dar, notează Kurenkov, în timp ce aceste proiecte mai vechi au introdus „idei semnificative, noi” la nivelul cercetării pure, OpenAI Five implementează în principal structurile existente la o scară care nu a fost visată anterior. Câștiga sau pierde, care este încă mare.

la începutul acestui an, OpenAI Five a învins o echipă de jucători amatori ca punct de referință al abilităților sale.

fotografie: OpenAI

mașinile încă nu au un plan de joc
imposibilitatea unor condiții de concurență echitabile
ia-o excursie înapoi la 1997, cu un incredibil de rar, niciodată deschis Nintendo 64 Disk Drive dev kit
Fantoma de Tsushima este obtinerea o adaptare film de la directorul de John Wick
Final Fantasy VIII este acum pe iOS și Android

mașinile încă nu au un plan de joc

dar lăsând deoparte ingineria, cât de buni pot fi roboții dacă tocmai au pierdut două meciuri împotriva oamenilor? Este o întrebare corectă, iar răspunsul este: încă destul de al naibii de bun.

în ultimul an, roboții au absolvit versiuni progresiv mai grele ale jocului, începând cu 1v1 crize, apoi 5v5 meciuri cu restricții. Cu toate acestea, încă nu au abordat complexitatea completă a jocului și s-au jucat cu anumite mecanici din joc dezactivate. Pentru meciurile de la Internațional, câteva dintre aceste constrângeri au fost eliminate, dar nu toate. În special, roboții nu mai aveau curieri invulnerabili (NPC-uri care livrează obiecte eroilor). Acestea fuseseră anterior un element important pentru stilul lor de joc, transportând un flux fiabil de poțiuni vindecătoare pentru a-i ajuta să mențină un atac neobosit. La International, au fost nevoiți să-și facă griji că liniile lor de aprovizionare vor fi ridicate.

deși jocurile de săptămâna trecută sunt încă analizate, consensul timpuriu este că roboții au jucat bine, dar nu în mod excepțional. Nu erau savanți AI; aveau puncte forte și puncte slabe, de care oamenii puteau profita așa cum ar face împotriva oricărei echipe.

ambele jocuri au început foarte la nivel, oamenii preluând mai întâi conducerea, apoi roboții, apoi oamenii. Dar de ambele ori, odată ce oamenii au câștigat un avantaj considerabil, roboții au găsit greu să se recupereze. Comentatorii jocului au speculat că acest lucru s-ar putea datora faptului că AI a preferat „să câștige cu 1 punct cu 90% certitudine, decât să câștige cu 50 de puncte cu o certitudine de 51%.”(Această trăsătură a fost vizibilă și în stilul de joc al lui AlphaGo.) Aceasta implică faptul că OpenAI Five a fost folosit pentru măcinarea victorii constante, dar previzibile. Când roboții și-au pierdut conducerea, nu au reușit să facă piesele mai aventuroase necesare pentru a-l recâștiga.

Video al celui de-al doilea meci al lui OpenAI Five la Internațional.

aceasta este doar o presupunere, totuși. Așa cum se întâmplă de obicei cu AI, divinizarea procesului exact de gândire din spatele acțiunilor roboților este imposibilă. Ceea ce putem spune este că au excelat în sferturi apropiate, dar au găsit-o mai complicată pentru a se potrivi cu strategiile pe termen lung ale oamenilor.

OpenAI Five au fost extrem de precise, luând agresiv ținte cu vrăji și atacuri și, în general, fiind o amenințare pentru orice eroi inamici pe care i-au întâlnit. Mike Cook, un cercetător de jocuri AI la Universitatea din Falmouth și un jucător pasionat de Dota care a postat live luptele, a descris stilul roboților ca fiind „hipnotic.””acționați cu precizie și claritate”, a spus Cook pentru The Verge. „Adesea, oamenii câștigau o luptă și apoi lăsau garda jos ușor, așteptând ca echipa inamică să se retragă și să se regrupeze. Dar roboții nu fac asta. Dacă pot vedea o ucidere, o iau.”

unde roboții păreau să se poticnească era în jocul lung, gândindu – se cum s-ar putea dezvolta meciurile în intervale de 10 sau 20 de minute. În a doua dintre cele două lupte împotriva unei echipe de jucători profesioniști chinezi cu o reputație de temut (au fost denumiți în mod diferit de comentatori drept „the old legends club” sau, mai simplu, „The gods”), oamenii au optat pentru o strategie asimetrică. Un jucător a adunat resurse pentru a-și alimenta încet eroul, în timp ce ceilalți patru au intervenit pentru el. Roboții nu păreau să observe ce se întâmplă, totuși, și până la sfârșitul jocului, team human a avut un erou care a ajutat la devastarea jucătorilor AI. „Acesta este un stil natural pentru oamenii care joacă Dota”, spune Cook. „pentru roboți, este o planificare extremă pe termen lung.”

această chestiune de strategie este importantă nu doar pentru OpenAI, ci și pentru cercetarea ia în general. Absența planificării pe termen lung este adesea văzută ca un defect major al învățării de întărire, deoarece AI creat folosind această metodă subliniază adesea plățile imediate, mai degrabă decât recompensele pe termen lung. Acest lucru se datorează faptului că structurarea unui sistem de recompense care funcționează pe perioade mai lungi de timp este dificilă. Cum înveți un bot să întârzie utilizarea unei vrăji puternice până când dușmanii sunt grupați dacă nu poți prezice când se va întâmpla asta? Îi dai mici recompense pentru că nu folosești vraja? Ce se întâmplă dacă decide să nu-l folosească niciodată ca rezultat? Și acesta este doar un exemplu de bază. Jocurile Dota 2 durează, în general, între 30 și 45 de minute, iar jucătorii trebuie să se gândească constant la ce acțiune va duce la succesul pe termen lung.

este important să subliniem, totuși, că roboții nu erau doar gremlini nechibzuiți, care căutau recompense. Rețeaua neuronală care controlează fiecare erou are o componentă de memorie care învață anumite strategii. Și modul în care răspund la recompense este modelat astfel încât roboții să ia în considerare plățile viitoare, precum și cele care sunt mai imediate. De fapt, OpenAI spune că agenții săi AI fac acest lucru într-o măsură mult mai mare decât orice alte sisteme comparabile, cu un „timp de înjumătățire a recompensei” de 14 minute (aproximativ vorbind, durata de timp în care roboții pot aștepta plățile viitoare).

Kurenkov, care a scris pe larg despre limitările învățării prin întărire, a spus că potrivirile arată că învățarea prin întărire poate gestiona „mult mai multă complexitate decât și-ar fi putut imagina majoritatea cercetătorilor AI.”Dar, adaugă el, înfrângerea de săptămâna trecută sugerează că sunt necesare noi sisteme special pentru a gestiona gândirea pe termen lung. (În mod surprinzător, directorul tehnologic al OpenAI nu este de acord.)

spre deosebire de rezultatul meciurilor, nu există o concluzie evidentă aici. Dezacordul asupra succesului roboților reflectă discuții mai mari și nerezolvate în AI. După cum a remarcat cercetătorul Julian Togelius pe Twitter, cum începem chiar să facem diferența între strategia pe termen lung și comportamentul care arată așa? Contează? Tot ce știm deocamdată este că în acest domeniu special, AI nu poate încă să depășească oamenii.

Dota 2 oferă mai mult de 100 de eroi diferiți, cu o serie de abilități, iar AI nu le-a stăpânit încă pe toate.

imagine: Valve

imposibilitatea unor condiții de concurență echitabile

Wrangling peste inteligența roboților este un lucru, dar meciurile Dota 2 ale lui OpenAI Five au ridicat și o altă întrebare mai fundamentală: de ce organizăm deloc aceste evenimente?

luați comentariile lui Gary Marcus, un critic respectat al limitărilor AI contemporane. În perioada premergătoare jocurilor OpenAI săptămâna trecută, Marcus a subliniat pe Twitter că roboții nu joacă corect. Spre deosebire de jucătorii umani (sau alte sisteme AI), ei nu se uită de fapt la ecran pentru a juca. În schimb, folosesc „API-ul bot” al Dota 2 pentru a înțelege jocul. Acesta este un flux de 20.000 de numere care descrie ceea ce se întâmplă în formă numerică, încorporând informații despre orice, de la locația fiecărui erou până la sănătatea lor până la cooldown-ul vrăjilor și atacurilor individuale.

după cum spune Marcus The Verge, aceasta „scurtează problema extrem de provocatoare a percepției scenei” și oferă roboților un avantaj imens. Nu trebuie să caute pe hartă pentru a verifica unde se află echipa lor, de exemplu, sau să arunce o privire în jos la interfața de utilizare pentru a vedea dacă vraja lor cea mai puternică este gata. Nu trebuie să ghicească sănătatea inamicului sau să estimeze distanța pentru a vedea dacă un atac merită. Ei doar știu.

dar asta se consideră înșelăciune?

există câteva modalități de a răspunde la acest lucru. În primul rând, OpenAI ar fi putut crea un sistem de viziune pentru a citi pixelii și a prelua aceleași informații pe care le oferă API-ul bot. (Principalul motiv pentru care nu a făcut-o este că ar fi fost incredibil de intensiv în resurse.) Acest lucru este dificil de judecat, deoarece nimeni nu știe dacă ar funcționa până când cineva nu a făcut-o. Dar poate e irelevant. Cea mai importantă întrebare ar putea fi: putem avea vreodată o luptă corectă între oameni și mașini? La urma urmei, dacă vrem să aproximăm modul în care oamenii joacă Dota 2, trebuie să construim mâini robot pentru OpenAI Five pentru a opera un mouse și o tastatură? Pentru a face și mai corect, ar trebui să transpire mâinile?

aceste întrebări sunt puțin amuzante, dar subliniază imposibilitatea de a crea condiții de concurență cu adevărat egale între oameni și computere. Un astfel de lucru nu există deoarece mașinile gândesc ca oamenii în același mod în care avioanele zboară ca păsările. După cum spune cercetătorul de jocuri ai Cook: „Desigur, computerele sunt mai bune decât noi la lucruri. De aceea am inventat computerele.”

poate că trebuie să ne gândim puțin mai profund la motivul pentru care organizăm aceste evenimente în primul rând. Brockman spune Verge că există mai mult decât jocuri de noroc. „Motivul pentru care facem Dota nu este ca să putem rezolva Dota”, spune el. „Suntem implicați în acest lucru deoarece credem că putem dezvolta tehnologia AI care poate alimenta lumea în următoarele decenii.”

există adevăr în această afirmație ambițioasă. Deja, infrastructura de instruire folosită pentru a preda OpenAI Five — un sistem numit Rapid — este îndreptată către alte proiecte. OpenAI a folosit-o pentru a învăța mâinile robotului să manipuleze obiecte cu noi niveluri de dexteritate asemănătoare omului, de exemplu. Ca întotdeauna cu AI, există limitări, iar Rapid nu este un algoritm de a face totul. Dar principiul general este valabil: munca necesară pentru a atinge chiar și obiective arbitrare (cum ar fi bătaia oamenilor la un joc video) ajută la stimularea întregului domeniu al AI.

jucătorul sud-coreean Go Lee Sedol a fost învins de AlphaGo în 2016, dar a învățat noi abilități ca urmare.

Foto: Google / Getty Images

și îi ajută, de asemenea, pe cei provocați de mașini. Una dintre cele mai fascinante părți ale poveștii AlphaGo a fost că, deși campionul uman Lee Sedol a fost bătut de un sistem AI, el și restul comunității Go au învățat și din el. Stilul de joc al lui AlphaGo a supărat secole de înțelepciune acceptată. Mișcările sale sunt încă studiate, iar Lee a intrat într-o serie de victorii după meciul său împotriva mașinii.

același lucru începe deja să se întâmple în lumea Dota 2: jucătorii studiază jocul OpenAI Five pentru a descoperi noi tactici și mișcări. Cel puțin un mecanic de joc nedescoperit anterior, care permite jucătorilor să reîncarce rapid o anumită armă rămânând în afara razei de acțiune a inamicului, a fost descoperit de roboți și transmis oamenilor. După cum spune cercetătorul ai Merity: „vreau literalmente să stau și să urmăresc aceste meciuri, astfel încât să pot învăța noi strategii. Oamenii se uită la aceste lucruri și spun: ‘acest lucru este ceva ce trebuie să tragem în joc.”

acest fenomen al AI care învață oamenii va deveni probabil mai frecvent în viitor. Într-un mod ciudat, pare aproape ca un act de bunăvoință. Ca și cum, într-o manifestare a harului uman, roboții ne dau un cadou de despărțire în timp ce ne depășesc abilitățile. Nu este adevărat, desigur; AI este doar o altă metodă pe care oamenii au inventat-o pentru a ne învăța. Dar de aceea ne jucăm. Este o experiență de învățare — pentru noi și mașinile.

Gaming