Porażka OpenAI w Dota 2 to wciąż wygrana dla sztucznej inteligencji

w zeszłym tygodniu ludzkość zaatakowała maszyny-tak jakby.

właściwie pokonaliśmy ich w grze wideo. W meczu best-of-three dwie drużyny profesjonalnych graczy pokonały drużynę botów sztucznej inteligencji stworzoną przez założone przez Elona Muska laboratorium badawcze OpenAI. Zawodnicy grali w Dota 2, fenomenalnie popularną i złożoną grę battle arena. Ale mecz był również czymś w rodzaju lakmusu dla sztucznej inteligencji: najnowsza miara naszej ambicji tworzenia maszyn, które mogą nas prześcignąć.

w karcie wyników human-AI Sztuczna inteligencja odniosła ostatnio duże sukcesy. Najbardziej godna uwagi była porażka najlepszych graczy Go na świecie przez AlphaGo DeepMind, osiągnięcie, które eksperci uważali za nieosiągalne przez co najmniej dekadę. Ostatnio naukowcy zwrócili uwagę na gry wideo jako kolejne wyzwanie. Chociaż gry wideo nie cieszą się intelektualną reputacją gry w szachy, są one znacznie trudniejsze do grania na komputerach. Ukrywają informacje przed graczami; odbywają się w złożonych, ciągle zmieniających się środowiskach; i wymagają pewnego rodzaju myślenia strategicznego, którego nie da się łatwo zasymulować. Innymi słowy, są bliżej problemów, z którymi sztuczna inteligencja musi sobie radzić w prawdziwym życiu.

Dota 2 jest szczególnie popularnym poligonem testowym, a OpenAI uważa się za najlepsze boty Dota 2. Ale w zeszłym tygodniu przegrali. Co się stało? Czy osiągnęliśmy jakiś pułap zdolności si? Czy to dowód na to, że niektóre umiejętności są po prostu zbyt skomplikowane dla komputerów?

krótkie odpowiedzi to nie i nie. To był tylko „wybój na drodze”, mówi Stephen Merity, badacz uczenia maszynowego i fan Dota 2. Maszyny W końcu podbiją grę, a to prawdopodobnie OpenAI rozwali sprawę. Ale rozpakowanie, dlaczego ludzie wygrali w zeszłym tygodniu i co udało się osiągnąć OpenAI-nawet po porażce – jest nadal przydatne. Mówi nam, co AI może, a czego nie i co ma nadejść.

zrzut ekranu z Dota 2, gry bitewnej fantasy arena, w której dwie drużyny pięciu bohaterów walczą, aby zniszczyć swoją bazę. Rozgrywka jest złożona, a Mecze zazwyczaj trwają dłużej niż 30 minut.

Obraz: Valve

po pierwsze, umieszczmy mecze z zeszłego tygodnia w kontekście. Boty zostały stworzone przez OpenAI jako część jego szerokiego zakresu badań nad rozwojem sztucznej inteligencji, która ” przynosi korzyści całej ludzkości.”Jest to dyrektywa, która uzasadnia wiele różnych badań i przyciągnęła jednych z najlepszych naukowców w tej dziedzinie. Szkoląc swój zespół botów Dota 2 (nazwanych OpenAI Five), laboratorium twierdzi, że chce opracować systemy, które ” poradzą sobie ze złożonością i niepewnością prawdziwego świata.”

pięć botów (które działają niezależnie, ale zostały przeszkolone przy użyciu tych samych algorytmów) nauczyło się grać w Dota 2 za pomocą techniki zwanej uczeniem wzmacniającym. Jest to popularna metoda treningowa, która jest zasadniczo metodą prób i błędów na ogromną skalę. (Ma swoje słabości, ale daje też niesamowite rezultaty, w tym AlphaGo.) Zamiast kodować boty zgodnie z zasadami Dota 2, są wrzucane do gry i pozostawiane, aby same sobie coś wymyślić. Inżynierowie OpenAI pomagają w tym procesie, nagradzając ich za wykonanie określonych zadań (takich jak zabicie przeciwnika lub wygranie meczu), ale nic więcej.

oznacza to, że boty zaczynają grać całkowicie losowo, a z czasem uczą się łączyć pewne zachowania z nagrodami. Jak można się domyślić, jest to niezwykle nieefektywny sposób uczenia się. W rezultacie boty muszą grać w Dota 2 w przyspieszonym tempie, wciskając 180 lat czasu treningu każdego dnia. CTO i współzałożyciel OpenAI, Greg Brockman, powiedział The Verge na początku tego roku, że jeśli opanowanie określonej umiejętności wymaga od człowieka od 12 000 do 20 000 godzin praktyki, to boty przepalają „100 Ludzkich życiowych doświadczeń każdego dnia.”

jednym z powodów, dla których trwa to tak długo, jest to, że Dota 2 jest niezwykle złożona, znacznie bardziej niż gra planszowa. Dwie pięcioosobowe drużyny zmierzą się ze sobą na mapie pełnej grywalnych postaci, przeszkód i zniszczalnych budynków, które mają wpływ na przebieg bitwy. Bohaterowie muszą pokonać drogę do bazy przeciwnika i zniszczyć ją podczas żonglowania różnymi mechanikami. Są setki przedmiotów, które mogą podnieść lub kupić, aby zwiększyć swoje umiejętności, a każdy bohater (których jest ponad 100) ma swoje unikalne ruchy i atrybuty. Każda gra w Dota 2 jest jak Starożytna Bitwa rozgrywana w miniaturze, z drużynami walczącymi o terytorium i walczącymi o pokonanie przeciwników.

przetwarzanie wszystkich tych danych, aby można było grać w gry w tempie szybszym niż życie, jest ogromnym wyzwaniem. Aby wytrenować swoje algorytmy, OpenAI musiało wygenerować ogromną moc obliczeniową-około 256 GPU i 128 000 rdzeni procesora. To dlatego eksperci często mówią o OpenAI Five jako projekcie inżynierskim, jak i badawczym: to osiągnięcie tylko po to, aby uruchomić system, nie mówiąc już o pokonaniu ludzi.

„jeśli chodzi o prezentowanie poziomu złożoności nowoczesnych metod si opartych na danych, OpenAI Five jest o wiele bardziej imponujący niż DQN lub AlphaGo”, mówi Andrey Kurenkov, doktorant w Stanford studiujący informatykę i redaktor witryny AI Skynet dzisiaj. (DQN był systemem AI DeepMind, który nauczył się grać na Atari.) Ale, zauważa Kurenkov, podczas gdy te starsze projekty wprowadzały „znaczące, nowatorskie pomysły” na poziomie czystych badań, OpenAI Five wykorzystuje głównie istniejące struktury w niewyobrażalnej wcześniej skali. Wygrana czy przegrana, to wciąż coś wielkiego.

na początku tego roku OpenAI Five pokonało zespół amatorów jako punkt odniesienia swoich umiejętności.

Zdjęcie: OpenAI

Maszyny nadal nie mają planu gry
niemożność wyrównania pola gry
wybierz się w podróż do 1997 roku z niezwykle rzadkim, nigdy nie otwartym dyskiem Nintendo 64 Dev kit
Ghost Of Tsushima otrzymuje adaptację filmową od reżysera Johna Wicka
Final Fantasy VIII jest teraz na iOS i Androida

Maszyny nadal nie mają planu gry

ale odkładając na bok inżynierię, jak dobre mogą być boty, jeśli właśnie przegrały dwa mecze z ludźmi? To uczciwe pytanie, a odpowiedź brzmi: nadal cholernie dobra.

w ciągu ostatniego roku boty przeszły coraz trudniejsze wersje gry, zaczynając od Walk 1 na 1, a następnie meczów 5 na 5 z ograniczeniami. Jednak nie poradzili sobie jeszcze z pełną złożonością gry i grali z wyłączoną mechaniką gry. W przypadku meczów na arenie międzynarodowej usunięto kilka z tych ograniczeń, ale nie wszystkie. Co najważniejsze, boty nie miały już niezniszczalnych kurierów (NPC, którzy dostarczają przedmioty bohaterom). Wcześniej były one ważnym rekwizytem dla ich stylu gry, przewożąc niezawodny strumień leczniczych eliksirów, aby pomóc im utrzymać nieustający atak. Na Międzynarodówce musieli się martwić, że ich linie zaopatrzeniowe zostaną zerwane.

Chociaż gry z zeszłego tygodnia są nadal analizowane, wczesny konsensus jest taki, że boty grały dobrze, ale nie wyjątkowo. Nie byli uczonymi AI; mieli mocne i słabe strony, które ludzie mogli wykorzystać, tak jak przeciwko każdej drużynie.

obie gry zaczynały się na bardzo wysokim poziomie. najpierw na czele stali ludzie, potem boty, potem ludzie. Ale za każdym razem, gdy ludzie zyskali sporą przewagę, boty miały trudności z odzyskaniem. Komentatorzy gry spekulowali, że może to być spowodowane tym, że sztuczna inteligencja wolała „wygrać o 1 punkt z 90% pewnością, niż wygrać o 50 punktów z 51% pewnością.”(Cecha ta była również zauważalna w stylu gry AlphaGo.) Sugeruje, że OpenAI Five było używane do szlifowania stabilnych, ale przewidywalnych zwycięstw. Kiedy boty straciły przewagę, nie były w stanie wykonać bardziej ryzykownych zabaw, niezbędnych do jej odzyskania.

filmik z drugiego meczu OpenAI Five na Międzynarodowej.

to tylko przypuszczenie. Jak to zwykle ma miejsce w przypadku AI, odgadnięcie dokładnego procesu myślowego za działaniami botów jest niemożliwe. Możemy powiedzieć, że doskonale radzili sobie w zwarciu, ale łatwiej było im dopasować długoterminowe strategie ludzi.

OpenAI Five były bezbłędnie precyzyjne, agresywnie atakowały cele zaklęciami i atakami, a na ogół stanowiły zagrożenie dla wrogich bohaterów. Mike Cook, badacz gier si na Uniwersytecie w Falmouth i zapalony gracz Dota, który NA ŻYWO tweetował walki, opisał styl botów jako ” hipnotyczny.””działaj z precyzją i klarownością”, powiedział Cook The Verge. „Często ludzie wygrywali walkę, a następnie lekko opuszczali gardę, oczekując, że przeciwna drużyna wycofa się i przegrupuje. Ale boty tego nie robią. Jeśli widzą zabójstwo, biorą je.”

tam, gdzie boty wydawały się potknąć, był długi mecz, myśląc, jak mecze mogą rozwijać się w 10 – lub 20-minutowych odstępach. W drugim z dwóch pojedynków przeciwko drużynie Chińskich profesjonalnych graczy o przerażającej reputacji (byli różnie określani przez komentatorów jako „klub starych legend” lub po prostu „bogowie”), ludzie zdecydowali się na asymetryczną strategię. Jeden z graczy zbierał surowce, aby powoli zasilać swojego bohatera, podczas gdy pozostali czterej ingerowali w niego. Boty nie zdawały sobie jednak sprawy, co się dzieje, a pod koniec gry team human miał ulepszonego bohatera, który pomógł zniszczyć graczy si. „To naturalny styl dla ludzi grających w Dota”, mówi Cook. „dla botów jest to bardzo długoterminowe planowanie.”

ta kwestia strategii jest ważna nie tylko dla OpenAI, ale ogólnie dla badań nad sztuczną inteligencją. Brak długoterminowego planowania jest często postrzegany jako poważna wada uczenia się wzmacniającego, ponieważ sztuczna inteligencja stworzona przy użyciu tej metody często kładzie nacisk na natychmiastowe wypłaty, a nie długoterminowe nagrody. Dzieje się tak dlatego, że skonstruowanie systemu nagród, który działa przez dłuższy czas, jest trudne. Jak nauczyć bota opóźniać użycie potężnego zaklęcia, dopóki wrogowie nie zostaną zgrupowani, jeśli nie możesz przewidzieć, kiedy to nastąpi? Czy po prostu dajesz mu małe nagrody za to, że nie użyłeś tego zaklęcia? Co jeśli zdecyduje się nigdy nie używać go w rezultacie? A to tylko jeden podstawowy przykład. Gry Dota 2 zazwyczaj trwają od 30 do 45 minut, a gracze muszą stale zastanawiać się, jakie działania doprowadzą do długoterminowego sukcesu.

warto jednak podkreślić, że boty nie były tylko bezmyślnymi, szukającymi nagrody gremlinami. Sieć neuronowa kontrolująca każdego bohatera posiada komponent pamięci, który uczy się określonych strategii. A sposób, w jaki reagują na nagrody, jest tak ukształtowany, że boty biorą pod uwagę przyszłe wypłaty, a także te, które są bardziej natychmiastowe. W rzeczywistości, OpenAI twierdzi, że jego agenci AI robią to w znacznie większym stopniu niż jakikolwiek inny porównywalny system, z „okresem półtrwania nagrody” wynoszącym 14 minut (z grubsza mówiąc, czas, przez jaki boty mogą czekać na przyszłe wypłaty).

Kurenkov, który obszernie pisał o ograniczeniach uczenia się przez wzmacnianie, powiedział, że dopasowania pokazują, że uczenie się przez wzmacnianie może poradzić sobie „z większą złożonością niż większość badaczy sztucznej inteligencji mogłaby sobie wyobrazić.”Ale, dodaje, zeszłotygodniowa porażka sugeruje, że potrzebne są nowe systemy specjalnie do zarządzania długoterminowym myśleniem. (Nic dziwnego, że dyrektor technologiczny OpenAI nie zgadza się.)

w przeciwieństwie do wyników meczów, nie ma tu oczywistego wniosku. Niezgoda na sukces botów odzwierciedla większe, nierozwiązane dyskusje w sztucznej inteligencji. Jak zauważył Naukowiec Julian Togelius na Twitterze, jak w ogóle zacząć rozróżniać długoterminową strategię od zachowań, które po prostu tak wyglądają? Czy to ważne? Na razie wiemy tylko, że w tej konkretnej dziedzinie sztuczna inteligencja nie może jeszcze myśleć o ludziach.

Dota 2 oferuje ponad 100 różnych bohaterów o różnych zdolnościach, a Si nie opanowała ich wszystkich.

Obraz: Valve

niemożność wyrównania pola gry

kłócenie się o spryt botów to jedno, ale Mecze OpenAI Five w Dota 2 postawiły również inne, bardziej fundamentalne pytanie: dlaczego w ogóle organizujemy te wydarzenia?

weź pod uwagę komentarze Gary ’ ego Marcusa, szanowanego krytyka ograniczeń współczesnej sztucznej inteligencji. Podczas przygotowań do gier OpenAI w zeszłym tygodniu Marcus wskazał na Twitterze, że boty nie grają uczciwie. W przeciwieństwie do ludzkich graczy (lub innych systemów AI), nie patrzą na ekran, aby grać. Zamiast tego używają „bot API” Dota 2, aby zrozumieć grę. Jest to kanał zawierający 20 000 liczb, które opisują to, co się dzieje w formie liczbowej, zawierając informacje o wszystkim, od lokalizacji każdego bohatera, przez jego zdrowie, po Czas odnowienia poszczególnych zaklęć i ataków.

jak mówi Marcus The Verge, to „skraca ogromnie trudny problem percepcji sceny” i daje botom ogromną przewagę. Nie muszą na przykład przeszukiwać mapy, aby sprawdzić, gdzie znajduje się ich drużyna, ani spoglądać na interfejs, aby sprawdzić, czy ich najpotężniejsze zaklęcie jest gotowe. Nie muszą odgadywać zdrowia przeciwnika ani szacować odległości, aby sprawdzić, czy atak jest tego wart. Po prostu wiedzą.

ale czy to się liczy jako oszustwo?

można na to odpowiedzieć na kilka sposobów. Po pierwsze, OpenAI mogło stworzyć system wizyjny do odczytywania pikseli i pobierania tych samych informacji, które dostarcza bot API. (Głównym powodem tego nie było to, że byłoby niesamowicie zasobochłonne.) Jest to trudne do oceny, ponieważ nikt nie wie, czy to zadziała, dopóki ktoś nie zrobi tego. Ale to chyba nieistotne. Ważniejszym pytaniem może być: czy kiedykolwiek będziemy mieli uczciwą walkę między ludźmi a maszynami? W końcu, jeśli chcemy przybliżyć, jak ludzie grają w Dota 2, Czy musimy budować ręce robota dla OpenAI Five, aby obsługiwać mysz i klawiaturę? Aby było jeszcze sprawiedliwsze, czy ręce powinny się pocić?

te pytania są trochę żartobliwe, ale podkreślają niemożność stworzenia prawdziwie równych szans między ludźmi a komputerami. Takie coś nie istnieje, ponieważ maszyny myślą jak ludzie w ten sam sposób, w jaki samoloty latają jak ptaki. Jak to ujął badacz gier AI Cook: „Oczywiście komputery są lepsze od nas w różnych sprawach. Dlatego wymyśliliśmy Komputery.”

być może powinniśmy pomyśleć trochę głębiej o tym, dlaczego w ogóle organizujemy te wydarzenia. Brockman mówi The Verge, że jest w tym coś więcej niż gra. „Powodem, dla którego robimy Dota nie jest to, że możemy rozwiązać Dota”, mówi. „Jesteśmy w tym, ponieważ uważamy, że możemy rozwinąć technologię sztucznej inteligencji, która może zasilić świat w nadchodzących dziesięcioleciach.”

jest prawda w tym ambitnym twierdzeniu. Infrastruktura szkoleniowa użyta do nauczania OpenAI Five — system o nazwie Rapid — jest już wykorzystywana w innych projektach. OpenAI użyło go do nauczenia rąk robotów manipulowania obiektami z nowymi poziomami ludzkiej zręczności, na przykład. Jak zawsze w przypadku AI, istnieją ograniczenia, a Rapid nie jest jakimś algorytmem do-everything. Ale ogólna zasada utrzymuje: praca potrzebna do osiągnięcia nawet arbitralnych celów (takich jak pokonywanie ludzi w grze wideo) pomaga pobudzić całe pole sztucznej inteligencji.

południowokoreański gracz Go Lee Sedol został pokonany przez AlphaGo w 2016 roku, ale dzięki temu nauczył się nowych umiejętności.

Zdjęcie: Google / Getty Images

i pomaga również tym, którzy są kwestionowani przez maszyny. Jedną z najbardziej fascynujących części historii AlphaGo było to, że chociaż ludzki mistrz Lee Sedol został pokonany przez system sztucznej inteligencji, on i reszta społeczności Go również nauczyli się tego. Styl gry AlphaGo zakłócił wielowiekową akceptowaną mądrość. Jego ruchy są nadal badane, a Lee poszedł na zwycięską passę po meczu z maszyną.

to samo zaczyna się dziać w świecie Dota 2: gracze studiują grę OpenAI Five, aby odkryć nowe taktyki i ruchy. Co najmniej jedna wcześniej nieodkryta mechanika gry, która pozwala graczom szybko naładować określoną Broń, pozostając poza zasięgiem wroga, została odkryta przez boty i przekazana ludziom. Jak mówi badaczka sztucznej inteligencji Merity: „dosłownie chcę siedzieć i oglądać te mecze, aby móc uczyć się nowych strategii. Ludzie patrzą na te rzeczy i mówią: „to jest coś, co musimy wciągnąć do gry.'”

to zjawisko uczenia ludzi przez sztuczną inteligencję prawdopodobnie stanie się bardziej powszechne w przyszłości. W dziwny sposób, wydaje się to prawie jak akt życzliwości. Jakby, na pokaz ludzkiej łaski, boty dają nam pożegnalny Prezent, gdy wyprzedzają nasze zdolności. To nieprawda, oczywiście; sztuczna inteligencja to kolejna metoda, którą ludzie wymyślili, aby uczyć siebie samych. Ale dlatego gramy. To doświadczenie uczenia się-dla nas i maszyn.

gry