OpenAI ‘ s Dota 2 nederlaag is nog steeds een overwinning voor kunstmatige intelligentie

vorige week sloeg de mensheid terug tegen de machines — soort van.

eigenlijk hebben we ze verslagen bij een videospel. In een best-of-three match, twee teams van pro gamers overwon een team van AI bots die werden gemaakt door de Elon Musk-opgericht research lab OpenAI. De deelnemers speelden Dota 2, een fenomenaal populair en complex battle arena spel. Maar de match was ook een soort lakmoestest voor kunstmatige intelligentie.: de nieuwste high-profile maat van onze ambitie om machines te creëren die ons kunnen overtreffen.

in de human-AI scorecard heeft artificial intelligence onlangs een aantal grote overwinningen behaald. Het meest opvallende was de nederlaag van ’s werelds beste Go spelers door DeepMind’ s AlphaGo, een prestatie die deskundigen dacht buiten bereik voor ten minste een decennium. Onlangs hebben onderzoekers hun aandacht gericht op videospelletjes als de volgende uitdaging. Hoewel videogames de intellectuele reputatie van Go en chess missen, zijn ze eigenlijk veel moeilijker voor computers om te spelen. Ze houden informatie achter voor spelers; vinden plaats in complexe, steeds veranderende omgevingen; en vereisen het soort strategisch denken dat niet gemakkelijk kan worden gesimuleerd. Met andere woorden, ze zijn dichter bij het soort problemen dat we willen dat AI in het echte leven aanpakt.Dota 2 is een zeer populaire proeftuin, en OpenAI zou de beste Dota 2-bots hebben. Maar vorige week verloren ze. Dus wat is er gebeurd? Hebben we een soort plafond in AI ‘ s vermogen bereikt? Is dit het bewijs dat sommige vaardigheden gewoon te complex zijn voor computers?

de korte antwoorden zijn nee En Nee. Dit was gewoon een “hobbel in de weg,” zegt Stephen Merity, een machine learning onderzoeker en Dota 2 fan. Machines zullen het spel uiteindelijk te veroveren, en het zal waarschijnlijk OpenAI dat de zaak breekt. Maar uitpakken waarom mensen vorige week wonnen en wat OpenAI wist te bereiken — zelfs in nederlaag — is nog steeds nuttig. Het vertelt ons wat AI wel en niet kan doen en wat er gaat komen.

een screenshot van Dota 2, een fantasy arena battle spel waar twee teams van vijf helden vechten om elkaars basis te vernietigen. Gameplay is complex, en wedstrijden duren meestal meer dan 30 minuten.
afbeelding: Valve

laten we eerst de overeenkomsten van vorige week in context plaatsen. De bots zijn gemaakt door OpenAI als onderdeel van haar brede onderzoeksopdracht om AI te ontwikkelen die “de hele mensheid ten goede komt.”Het is een richtlijn die veel verschillende onderzoek rechtvaardigt en heeft een aantal van de beste wetenschappers uit het veld aangetrokken. Door zijn team van Dota 2 bots (genaamd de OpenAI Five) te trainen, zegt het lab dat het systemen wil ontwikkelen die “de complexiteit en onzekerheid van de echte wereld aankunnen.”

de vijf bots (die onafhankelijk werken, maar met dezelfde algoritmen werden getraind) werden geleerd om Dota 2 te spelen met behulp van een techniek genaamd reinforcement learning. Dit is een veel voorkomende trainingsmethode die in wezen trial-and-error is op grote schaal. (Het heeft zijn zwakheden, maar het levert ook ongelooflijke resultaten op, waaronder AlphaGo. In plaats van het coderen van de bots met de regels van Dota 2, Ze worden gegooid in het spel en links om dingen uit te zoeken voor zichzelf. OpenAI ‘ s ingenieurs helpen dit proces door hen te belonen voor het voltooien van bepaalde taken (zoals het doden van een tegenstander of het winnen van een wedstrijd), maar niets meer dan dat.

dit betekent dat de bots volledig willekeurig beginnen te spelen, en na verloop van tijd leren ze bepaalde gedragingen te verbinden met beloningen. Zoals je zou kunnen raden, is dit een extreem inefficiënte manier om te leren. Als gevolg daarvan, de bots hebben om te spelen Dota 2 in een versneld tempo, proppen 180 jaar van trainingstijd in elke dag. Zoals OpenAI ‘ s CTO en medeoprichter Greg Brockman vertelde The Verge eerder dit jaar, als het duurt een mens tussen 12.000 en 20.000 uur van de praktijk om een bepaalde vaardigheid onder de knie, dan is de bots branden door “100 menselijke levens van ervaring elke dag.”

een deel van de reden waarom het zo lang duurt is dat Dota 2 enorm complex is, veel meer dan een bordspel. Twee teams van vijf staan tegenover elkaar op een kaart die is gevuld met niet-speelbare personages, obstakels en vernietigbare gebouwen, die allemaal een effect hebben op het tij van de strijd. Helden moeten hun weg naar de basis van hun tegenstander te vechten en te vernietigen, terwijl jongleren verschillende mechanica. Er zijn honderden items die ze kunnen ophalen of kopen om hun vermogen te stimuleren, en elke held (waarvan er meer dan 100) heeft zijn eigen unieke bewegingen en attributen. Elk spel van Dota 2 is als een strijd uit de oudheid gespeeld in miniatuur, met teams worstelen over grondgebied en worstelen om te manoeuvreren tegenstanders.

het verwerken van al deze gegevens zodat games sneller dan het leven kunnen worden gespeeld, is een enorme uitdaging. Om hun algoritmen te trainen, moest OpenAI een enorme hoeveelheid rekenkracht verzamelen-zo ’n 256 GPU’ s en 128.000 CPU-cores. Dit is de reden waarom experts vaak praten over de OpenAI vijf als een engineering project zo veel als een onderzoek een: het is een prestatie gewoon om het systeem te krijgen en draaien, laat staan de mensen te verslaan.

” voor zover het tonen van het niveau van complexiteit moderne data-gedreven AI benaderingen aankan, is OpenAI Five veel indrukwekkender dan ofwel DQN of AlphaGo, ” zegt Andrey Kurenkov, een PhD student aan Stanford studeren computer science en de redacteur van AI site Skynet vandaag. (DQN was DeepMind ‘ s AI-systeem dat zichzelf leerde om Atari te spelen. Maar, merkt Kurenkov op, terwijl deze oudere projecten “significante, nieuwe ideeën” introduceerden op het niveau van puur onderzoek, implementeert OpenAI Five voornamelijk bestaande structuren op een voorheen onvoorstelbare schaal. Winnen of verliezen, dat is nog steeds groot.Eerder dit jaar versloeg OpenAI Five een team van amateurgamers als benchmark voor zijn capaciteiten.

foto: OpenAI

Machines missen nog steeds een spelplan

maar afgezien van engineering, hoe goed kunnen de bots zijn als ze net twee wedstrijden verloren tegen mensen? Het is een eerlijke vraag,en het antwoord is: nog steeds verdomd goed.

in het afgelopen jaar hebben de bots zich ontwikkeld door steeds hardere versies van het spel, te beginnen met 1v1 wedstrijden, daarna 5v5 wedstrijden met beperkingen. Echter, ze hebben nog aan de volledige complexiteit van het spel aan te pakken, en hebben gespeeld met bepaalde in-game mechanica uitgeschakeld. Voor de wedstrijden op de International werden een paar van deze beperkingen verwijderd, maar niet alle. De bots hadden niet langer onkwetsbare koeriers (NPC ‘ s die items leveren aan helden). Deze waren eerder een belangrijke rekwisiet voor hun stijl van spelen geweest, ferrying een betrouwbare stroom van helende drankjes om hen te helpen houden een meedogenloze aanval. Bij de International moesten ze zich zorgen maken dat hun aanvoerlijnen werden uitgezet.

hoewel de spellen van vorige week nog steeds worden geanalyseerd, is de vroege consensus dat de bots goed hebben gespeeld, maar niet uitzonderlijk. Het waren geen AI-geleerden.; ze hadden sterke en zwakke punten, waar mensen gebruik van konden maken zoals ze zouden doen tegen elk team.

beide spellen begonnen op zeer niveau, waarbij eerst de mens de leiding nam, daarna de bots, daarna de mens. Maar beide keren, toen de mensen een groot voordeel hadden, vonden de bots het moeilijk om te herstellen. Er werd gespeculeerd door de commentatoren van het spel dat dit zou kunnen zijn omdat de AI de voorkeur “te winnen met 1 punt met 90% zekerheid, dan te winnen met 50 punten met een 51% zekerheid.”(Deze eigenschap was ook merkbaar in AlphaGo ‘ s spelstijl. Het houdt in dat OpenAI Five gewend was om gestage maar voorspelbare overwinningen uit te slijpen. Toen de bots hun voorsprong verloren, waren ze niet in staat om de meer avontuurlijke Spelen nodig om het terug te krijgen.

Video van de tweede wedstrijd van OpenAI Five op de International.

dit is slechts een gok. Zoals gewoonlijk het geval is met AI, is het voorspellen van het exacte denkproces achter de acties van de bots onmogelijk. Wat we kunnen zeggen is dat ze uitblonken van dichtbij, maar het lastiger vonden om de langetermijnstrategieën van de mens aan te passen.

de OpenAI vijf waren feilloos nauwkeurig, ze pikten agressief doelwitten af met spreuken en aanvallen, en waren over het algemeen een bedreiging voor vijandelijke helden die ze tegenkwamen. Mike Cook, een AI games onderzoeker aan de Universiteit van Falmouth en een fervent Dota speler die live-getweet de gevechten, beschreef de bots’ stijl als “hypnotic.””handelen met precisie en duidelijkheid,” Cook vertelde The Verge. “Vaak, de mensen zouden een gevecht te winnen en dan laat hun waakzaamheid een beetje, in de verwachting van de vijandelijke team terug te trekken en te hergroeperen. Maar de bots doen dat niet. Als ze een dode zien, pakken ze hem.”

waar de bots leken te struikelen was in het lange spel, denken hoe wedstrijden kunnen ontwikkelen in 10-of 20-minuten overspanningen. In de tweede van hun twee wedstrijden tegen een team van Chinese pro-gamers met een angstaanjagende reputatie (ze werden door de commentatoren verschillend aangeduid als “The old legends club” of, eenvoudiger, “the gods”), de mensen gekozen voor een asymmetrische strategie. Een speler verzamelde middelen om zijn held langzaam aan te drijven, terwijl de andere vier interferentie voor hem deden. De bots leek niet op te merken wat er gebeurde, hoewel, en tegen het einde van het spel, team human had een opgevoerde held die hielp verwoesten de AI spelers. “Dit is een natuurlijke stijl voor mensen die Dota spelen,” zegt Cook. “voor bots is het extreme langetermijnplanning.”

deze kwestie van strategie is niet alleen van belang voor OpenAI, maar ook voor AI-onderzoek in het algemeen. De afwezigheid van langetermijnplanning wordt vaak gezien als een grote fout van versterking leren, omdat AI gemaakt met behulp van deze methode vaak benadrukken onmiddellijke uitbetalingen in plaats van lange termijn beloningen. Dit komt omdat het structureren van een beloningssysteem dat werkt over langere perioden van tijd is moeilijk. Hoe leer je een bot om het gebruik van een krachtige spreuk uit te stellen totdat vijanden zijn gegroepeerd als je niet kunt voorspellen wanneer dat zal gebeuren? Geef je het kleine beloningen voor het niet gebruiken van die spreuk? Wat als het besluit om het nooit te gebruiken als gevolg? Dit is slechts een basisvoorbeeld. Dota 2 games duren over het algemeen 30 tot 45 minuten, en spelers moeten voortdurend nadenken over wat actie zal leiden tot succes op lange termijn.

het is echter belangrijk om te benadrukken dat de bots niet alleen gedachteloze, beloning zoekende gremlins waren. Het neurale netwerk dat elke held controleert, heeft een geheugencomponent die bepaalde strategieën leert. En de manier waarop ze reageren op beloningen is zo gevormd dat de bots toekomstige uitbetalingen overwegen, evenals degenen die directer zijn. In feite, OpenAI zegt dat de AI agenten doen dit in een veel grotere mate dan andere vergelijkbare systemen, met een “beloning halfwaardetijd” van 14 minuten (ruwweg gesproken, de lengte van de tijd dat de bots kunnen wachten op toekomstige uitbetalingen).Kurenkov, die uitgebreid heeft geschreven over de beperkingen van reinforcement learning, zei dat de wedstrijden laten zien dat reinforcement learning “veel meer complexiteit aankan dan de meeste AI-onderzoekers misschien hadden gedacht.”Maar, voegt hij eraan toe, de nederlaag van vorige week suggereert dat nieuwe systemen specifiek nodig zijn om het langetermijndenken te beheren. (Unsurprisingly, OpenAI ‘ s chief technology officer het niet eens.)

in tegenstelling tot de uitkomst van de wedstrijden, is er hier geen duidelijke conclusie. Onenigheid over het succes van de bots weerspiegelt Grotere, onopgeloste discussies in AI. Zoals onderzoeker Julian Togelius op Twitter opmerkte: hoe beginnen we een onderscheid te maken tussen langetermijnstrategie en gedrag dat er gewoon op lijkt? Maakt dat wat uit? Alles wat we nu weten is dat in dit specifieke domein, AI nog niet beter kan denken dan mensen.Dota 2 biedt meer dan 100 verschillende helden met een scala aan vaardigheden, en AI heeft ze nog niet allemaal onder de knie.

afbeelding: Valve

de onmogelijkheid van een gelijk speelveld

ruzie over de slimheid van de bots is één ding, maar de Dota 2-wedstrijden van OpenAI Five deden ook een andere, meer fundamentele vraag rijzen: waarom organiseren we deze gebeurtenissen überhaupt?

neem de commentaren van Gary Marcus, een gerespecteerde criticus van de beperkingen van hedendaagse AI. In de aanloop naar OpenAI ‘ s games vorige week, Marcus wees op Twitter dat de bots niet eerlijk spelen. In tegenstelling tot menselijke gamers (of sommige andere AI-systemen), ze niet echt kijken naar het scherm om te spelen. In plaats daarvan gebruiken ze Dota 2 ‘ s “bot API” om het spel te begrijpen. Dit is een feed van 20.000 nummers die beschrijft wat er gaande is in numerieke vorm, met informatie over alles, van de locatie van elke held tot hun gezondheid tot de afkoeling van individuele spreuken en aanvallen.

zoals Marcus The Verge vertelt, “shortcuts the enorm uitdagend problem of scene perception” and gives the bots a huge advantage. Ze hoeven bijvoorbeeld niet op de kaart te zoeken om te controleren waar hun team is, of naar de gebruikersinterface te kijken om te zien of hun krachtigste spreuk klaar is. Ze hoeven de gezondheid van een vijand niet te raden of hun Afstand in te schatten om te zien of een aanval het waard is. Ze weten het gewoon.

maar telt dit als vals spelen?

er zijn een paar manieren om dit te beantwoorden. Ten eerste kan OpenAI een vision systeem hebben gemaakt om de pixels te lezen en dezelfde informatie op te halen die de bot API biedt. (De belangrijkste reden dat het niet deed is dat het ongelooflijk resource-intensief zou zijn geweest.) Dit is lastig om te beoordelen, omdat niemand weet of het zou werken totdat iemand het daadwerkelijk deed. Maar het is misschien irrelevant. De belangrijkste vraag zou kunnen zijn: kunnen we ooit een eerlijk gevecht hebben tussen mensen en machines? Als we willen benaderen hoe mensen Dota 2 spelen, moeten we dan robothanden bouwen voor de OpenAI Five om een muis en toetsenbord te bedienen? Om het nog eerlijker te maken, moeten de handen zweten?

deze vragen zijn een beetje grappig, maar ze onderstrepen de onmogelijkheid om een echt gelijk speelveld te creëren tussen mensen en computers. Zoiets bestaat niet omdat machines denken als mensen op dezelfde manier dat vliegtuigen vliegen als vogels. Zoals AI games onderzoeker Cook het zegt: “Natuurlijk zijn computers beter dan wij in dingen. Daarom hebben we computers uitgevonden.”

misschien moeten we wat dieper nadenken over waarom we deze gebeurtenissen in de eerste plaats houden. Brockman vertelt The Verge dat er meer aan de hand is dan gamen. “De reden dat we Dota doen is niet om Dota op te lossen”, zegt hij. “We doen dit omdat we denken dat we de AI-technologie kunnen ontwikkelen die de wereld in de komende decennia van stroom kan voorzien.”

deze ambitieuze bewering is waar. De opleidingsinfrastructuur die wordt gebruikt om les te geven aan de OpenAI Five — een systeem dat Rapid heet — wordt nu al gebruikt voor andere projecten. OpenAI heeft het gebruikt om robothanden te leren objecten te manipuleren met nieuwe niveaus van menselijke behendigheid, bijvoorbeeld. Zoals altijd met AI, zijn er beperkingen, en Rapid is niet sommige doe-alles algoritme. Maar het algemene principe geldt: het werk dat nodig is om zelfs willekeurige doelen te bereiken (zoals het verslaan van mensen in een videospel) helpt het hele gebied van AI te stimuleren.De Zuid-Koreaanse Go-speler Lee Sedol werd in 2016 verslagen door AlphaGo, maar hij leerde nieuwe vaardigheden.

foto: Google / Getty Images

en het helpt ook degenen die door de machines worden uitgedaagd. Een van de meest fascinerende delen van het verhaal van AlphaGo was dat hoewel de menselijke kampioen Lee Sedol werd verslagen door een AI-systeem, hij, en de rest van de go-gemeenschap, geleerd van het, ook. AlphaGo ‘ s speelstijl verstoorde eeuwen van geaccepteerde wijsheid. Zijn bewegingen worden nog steeds bestudeerd, en Lee ging op een winning streak na zijn wedstrijd tegen de machine.

hetzelfde begint al te gebeuren in de wereld van Dota 2: spelers bestuderen het spel van OpenAI Five om nieuwe tactieken en zetten te ontdekken. Ten minste een eerder onontdekte game monteur, die spelers in staat stelt om een bepaald wapen snel op te laden door buiten bereik van de vijand te blijven, is ontdekt door de bots en doorgegeven aan de mens. Zoals AI-onderzoeker Merity zegt: “Ik wil letterlijk zitten en kijken naar deze wedstrijden, zodat ik nieuwe strategieën kan leren. Mensen kijken naar dit spul en zeggen: “Dit is iets wat we in het spel moeten betrekken.””

dit fenomeen van AI-onderwijs aan de mens zal waarschijnlijk alleen in de toekomst vaker voorkomen. Op een vreemde manier lijkt het bijna een daad van welwillendheid. Alsof, in een vertoning van menselijke genade, De bots ons een afscheidscadeau geven terwijl ze onze capaciteiten overnemen. Het is niet waar, natuurlijk; AI is gewoon een andere methode die mensen hebben uitgevonden om onszelf te onderwijzen. Maar daarom spelen we. Het is een leerervaring — voor ons en de machines.

Gaming

neem een reis terug naar 1997 met een ongelooflijk zeldzame, nooit geopende Nintendo 64 Disk Drive dev kit

Gaming

Ghost of Tsushima krijgt een verfilming van de regisseur van John Wick

Gaming

Final Fantasy VIII is nu op IOS en Android

bekijk alle stories in Gaming



+