Openais Dota 2-Niederlage ist immer noch ein Sieg für künstliche Intelligenz

Letzte Woche schlug die Menschheit gegen die Maschinen zurück — irgendwie.

Eigentlich haben wir sie bei einem Videospiel geschlagen. In einem Best-of-Three-Match besiegten zwei Teams von Profispielern eine Gruppe von KI-Bots, die vom von Elon Musk gegründeten Forschungslabor OpenAI entwickelt wurden. Die Konkurrenten spielten Dota 2, ein phänomenal beliebtes und komplexes Kampfarena-Spiel. Aber das Spiel war auch so etwas wie ein Lackmustest für künstliche Intelligenz: die neueste hochkarätige Maßnahme unseres Ehrgeizes, Maschinen zu entwickeln, die uns übertreffen können.

In der Human-AI-Scorecard hat künstliche Intelligenz in letzter Zeit einige große Gewinne erzielt. Am bemerkenswertesten war die Niederlage der weltbesten Go-Spieler durch DeepMinds AlphaGo, eine Leistung, die Experten für mindestens ein Jahrzehnt für unerreichbar hielten. Vor kurzem haben Forscher ihre Aufmerksamkeit auf Videospiele als nächste Herausforderung gerichtet. Obwohl Videospielen der intellektuelle Ruf von Go und Schach fehlt, sind sie für Computer tatsächlich viel schwieriger zu spielen. Sie halten den Spielern Informationen vor, finden in komplexen, sich ständig verändernden Umgebungen statt und erfordern strategisches Denken, das nicht einfach simuliert werden kann. Mit anderen Worten, sie sind näher an den Problemen, die KI im wirklichen Leben angehen soll.

Dota 2 ist ein besonders beliebtes Testgelände, und es wird angenommen, dass OpenAI die besten Dota 2-Bots hat. Aber letzte Woche haben sie verloren. Also, was ist passiert? Haben wir eine Art Obergrenze für die Fähigkeiten der KI erreicht? Ist dies ein Beweis dafür, dass einige Fähigkeiten für Computer einfach zu komplex sind?

Die kurzen Antworten sind nein und nein. Dies war nur eine „Unebenheit“, sagt Stephen Merity, ein Forscher für maschinelles Lernen und Dota 2 Fan. Maschinen werden das Spiel schließlich erobern, und es wird wahrscheinlich OpenAI sein, das den Fall knackt. Aber das Auspacken, warum die Menschen letzte Woche gewonnen haben und was OpenAI erreicht hat — selbst bei einer Niederlage — ist immer noch nützlich. Es sagt uns, was KI kann und was nicht und was kommen wird.

Ein Screenshot von Dota 2, einem Fantasy-Arena-Kampfspiel, in dem zwei Teams von fünf Helden kämpfen, um die Basis des anderen zu zerstören. Gameplay ist komplex, und Spiele dauern in der Regel mehr als 30 Protokoll.
Bild: Ventil

Lassen Sie uns zunächst die Spiele der letzten Woche in einen Kontext stellen. Die Bots wurden von OpenAI im Rahmen seines breiten Forschungsauftrags zur Entwicklung einer KI entwickelt, von der „die gesamte Menschheit profitiert.“ Es ist eine Richtlinie, die viele verschiedene Forschungen rechtfertigt und einige der besten Wissenschaftler des Feldes angezogen hat. Durch die Ausbildung seines Teams von Dota 2-Bots (genannt OpenAI Five) will das Labor Systeme entwickeln, die „mit der Komplexität und Unsicherheit der realen Welt umgehen können.“

Den fünf Bots (die unabhängig voneinander arbeiten, aber mit denselben Algorithmen trainiert wurden) wurde beigebracht, Dota 2 mit einer Technik namens Reinforcement Learning zu spielen. Dies ist eine gängige Trainingsmethode, die im Wesentlichen aus Versuch und Irrtum in großem Maßstab besteht. (Es hat seine Schwächen, aber es produziert auch unglaubliche Ergebnisse, einschließlich AlphaGo.) Anstatt die Bots mit den Regeln von Dota 2 zu codieren, werden sie ins Spiel geworfen und müssen die Dinge selbst herausfinden. Die Ingenieure von OpenAI unterstützen diesen Prozess, indem sie sie für bestimmte Aufgaben belohnen (z. B. das Töten eines Gegners oder das Gewinnen eines Spiels), aber nicht mehr als das.

Dies bedeutet, dass die Bots völlig zufällig spielen und im Laufe der Zeit lernen, bestimmte Verhaltensweisen mit Belohnungen zu verbinden. Wie Sie sich vorstellen können, ist dies eine äußerst ineffiziente Art zu lernen. Infolgedessen müssen die Bots Dota 2 beschleunigt spielen und 180 Jahre Trainingszeit in jeden Tag stecken. Wie Openais CTO und Mitbegründer Greg Brockman The Verge Anfang dieses Jahres sagte, wenn ein Mensch zwischen 12,000 und 20,000 Stunden Übung benötigt, um eine bestimmte Fähigkeit zu beherrschen, dann verbrennen die Bots jeden Tag „100 menschliche Lebenszeiten Erfahrung.“

Ein Teil des Grundes, warum es so lange dauert, ist, dass Dota 2 enorm komplex ist, viel mehr als ein Brettspiel. Zwei fünfköpfige Teams treten auf einer Karte gegeneinander an, die mit nicht spielbaren Charakteren, Hindernissen und zerstörbaren Gebäuden gefüllt ist, die sich alle auf den Verlauf des Kampfes auswirken. Helden müssen sich zur Basis ihres Gegners kämpfen und diese zerstören, während sie mit verschiedenen Mechaniken jonglieren. Es gibt Hunderte von Gegenständen, die sie abholen oder kaufen können, um ihre Fähigkeiten zu verbessern, und jeder Held (von denen es mehr als 100 gibt) hat seine eigenen einzigartigen Bewegungen und Attribute. Jedes Spiel von Dota 2 ist wie eine Schlacht der Antike, die in Miniatur ausgetragen wird, mit Teams, die sich um Territorium streiten und darum kämpfen, Gegner auszumanövrieren.

Die Verarbeitung all dieser Daten, damit Spiele schneller als das Leben gespielt werden können, ist eine große Herausforderung. Um ihre Algorithmen zu trainieren, musste OpenAI eine enorme Rechenleistung aufbringen – etwa 256 GPUs und 128.000 CPU-Kerne. Aus diesem Grund sprechen Experten oft über die OpenAI Fünf als Engineering-Projekt so viel wie eine Forschung ein: es ist eine Leistung, nur um das System zum Laufen zu bringen, geschweige denn die Menschen schlagen.

„Was die Komplexität moderner datengesteuerter KI-Ansätze angeht, ist OpenAI Five weitaus beeindruckender als DQN oder AlphaGo“, sagt Andrey Kurenkov, Doktorand an der Stanford University und Herausgeber der KI-Site Skynet Today. (DQN war DeepMinds KI-System, das sich selbst beigebracht hat, Atari zu spielen.) Aber, bemerkt Kurenkov, während diese älteren Projekte „bedeutende, neue Ideen“ auf der Ebene der reinen Forschung einführten, setzt OpenAI Five hauptsächlich bestehende Strukturen in einem bisher ungeahnten Ausmaß ein. Gewinnen oder verlieren, das ist immer noch groß.

Anfang dieses Jahres besiegte OpenAI Five ein Team von Amateurspielern als Maßstab für seine Fähigkeiten.
Foto: OpenAI

Maschinen fehlt immer noch ein Spielplan

Aber abgesehen von der Technik, wie gut können die Bots sein, wenn sie nur zwei Spiele gegen Menschen verloren haben? Es ist eine faire Frage, und die Antwort lautet: immer noch verdammt gut.

Im vergangenen Jahr haben die Bots zunehmend schwierigere Versionen des Spiels durchlaufen, beginnend mit 1v1-Kämpfen, dann 5v5-Matches mit Einschränkungen. Sie müssen jedoch noch die volle Komplexität des Spiels angehen und haben mit bestimmten deaktivierten Spielmechaniken gespielt. Für die Spiele bei The International wurden einige dieser Einschränkungen aufgehoben, aber nicht alle. Vor allem hatten die Bots keine unverwundbaren Kuriere mehr (NPCs, die Gegenstände an Helden liefern). Diese waren zuvor eine wichtige Stütze für ihren Spielstil gewesen und brachten einen zuverlässigen Strom von Heiltränken, um ihnen zu helfen, einen unerbittlichen Angriff aufrechtzuerhalten. Bei der International mussten sie sich Sorgen machen, dass ihre Versorgungsleitungen abgegriffen wurden.

Obwohl die Spiele der letzten Woche noch analysiert werden, besteht der frühe Konsens darin, dass die Bots gut, aber nicht außergewöhnlich gut gespielt haben. Sie waren keine KI-Gelehrten; sie hatten Stärken und Schwächen, die Menschen ausnutzen konnten, wie sie es gegen jedes Team tun würden.

Beide Spiele begannen sehr ausgeglichen, wobei zuerst Menschen die Führung übernahmen, dann Bots, dann Menschen. Aber beide Male, sobald die Menschen einen beträchtlichen Vorteil erlangt hatten, fiel es den Bots schwer, sich zu erholen. Es gab Spekulationen der Kommentatoren des Spiels, dass dies daran liegen könnte, dass die KI es vorzog, „mit 90% iger Sicherheit um 1 Punkt zu gewinnen, als mit 51% iger Sicherheit um 50 Punkte zu gewinnen.“ (Diese Eigenschaft machte sich auch in Alphagos Spielstil bemerkbar.) Es impliziert, dass OpenAI Five verwendet wurde, um stetige, aber vorhersehbare Siege zu erzielen. Als die Bots ihre Führung verloren, waren sie nicht in der Lage, die abenteuerlicheren Spiele zu machen, die notwendig waren, um sie wiederzugewinnen.

Video vom zweiten Spiel von OpenAI Five bei The International.

Dies ist jedoch nur eine Vermutung. Wie es normalerweise bei KI der Fall ist, ist es unmöglich, den genauen Denkprozess hinter den Aktionen der Bots zu erraten. Was wir sagen können, ist, dass sie sich aus nächster Nähe hervorgetan haben, es aber schwieriger fanden, die langfristigen Strategien der Menschen zu erreichen.

Die OpenAI-Fünf waren zielsicher, griffen Ziele mit Zaubersprüchen und Angriffen aggressiv an und stellten im Allgemeinen eine Bedrohung für alle feindlichen Helden dar, auf die sie stießen. Mike Cook, ein KI-Spieleforscher an der Universität von Falmouth und ein begeisterter Dota-Spieler, der die Kämpfe live getwittert hat, beschrieb den Stil der Bots als „hypnotisch.“ handeln Sie mit Präzision und Klarheit“, sagte Cook The Verge. „Oft gewannen die Menschen einen Kampf und ließen dann ihre Wache leicht fallen, in der Erwartung, dass sich das gegnerische Team zurückzog und sich neu formierte. Aber die Bots machen das nicht. Wenn sie einen Mord sehen können, nehmen sie ihn.“

Wo die Bots zu stolpern schienen, war im langen Spiel und dachte darüber nach, wie sich Spiele in 10- oder 20-Minuten-Zeiträumen entwickeln könnten. Im zweiten ihrer beiden Kämpfe gegen ein Team chinesischer Profispieler mit einem furchterregenden Ruf (sie wurden von den Kommentatoren verschiedentlich als „The Old Legends Club“ oder einfacher als „the Gods“ bezeichnet), Die Menschen entschieden sich für eine asymmetrische Strategie. Ein Spieler sammelte Ressourcen, um seinen Helden langsam anzutreiben, während die anderen vier auf ihn warteten. Die Bots schienen jedoch nicht zu bemerken, was geschah, und am Ende des Spiels hatte Team human einen aufgemotzten Helden, der dazu beitrug, die KI-Spieler zu zerstören. „Dies ist ein natürlicher Stil für Menschen, die Dota spielen“, sagt Cook. “ für Bots ist es eine extreme langfristige Planung.“

Diese Strategiefrage ist nicht nur für OpenAI wichtig, sondern für die KI-Forschung im Allgemeinen. Das Fehlen einer langfristigen Planung wird oft als ein großer Fehler des verstärkenden Lernens angesehen, da KI, die mit dieser Methode erstellt wurde, oft eher sofortige Auszahlungen als langfristige Belohnungen hervorhebt. Dies liegt daran, dass die Strukturierung eines Belohnungssystems, das über längere Zeiträume funktioniert, schwierig ist. Wie bringt man einem Bot bei, den Einsatz eines mächtigen Zaubers zu verzögern, bis Feinde gruppiert sind, wenn man nicht vorhersagen kann, wann das passieren wird? Gibst du ihm nur kleine Belohnungen, wenn du diesen Zauber nicht benutzt? Was ist, wenn es beschließt, es nie als Ergebnis zu verwenden? Und das ist nur ein grundlegendes Beispiel. Dota 2-Spiele dauern in der Regel 30 bis 45 Minuten, und die Spieler müssen ständig darüber nachdenken, welche Maßnahmen zu langfristigem Erfolg führen.

Es ist jedoch wichtig zu betonen, dass die Bots nicht nur gedankenlose, belohnungssuchende Gremlins waren. Das neuronale Netzwerk, das jeden Helden steuert, verfügt über eine Gedächtniskomponente, die bestimmte Strategien lernt. Und die Art und Weise, wie sie auf Belohnungen reagieren, ist so gestaltet, dass die Bots sowohl zukünftige als auch unmittelbarere Auszahlungen berücksichtigen. Tatsächlich sagt OpenAI, dass seine KI-Agenten dies in weitaus größerem Maße als jedes andere vergleichbare System tun, mit einer „Belohnungshalbwertszeit“ von 14 Minuten (grob gesagt, die Zeit, die die Bots auf zukünftige Auszahlungen warten können).

Kurenkov, der ausführlich über die Grenzen des verstärkten Lernens geschrieben hat, sagte, dass die Übereinstimmungen zeigen, dass verstärktes Lernen „weitaus mehr Komplexität bewältigen kann, als sich die meisten KI-Forscher vorgestellt haben.“ Aber die Niederlage der letzten Woche deutet darauf hin, dass neue Systeme speziell für das langfristige Denken benötigt werden. (Es überrascht nicht, dass der Chief Technology Officer von OpenAI anderer Meinung ist.)

Im Gegensatz zum Ausgang der Spiele gibt es hier keine offensichtliche Schlussfolgerung. Meinungsverschiedenheiten über den Erfolg der Bots spiegeln größere, ungelöste Diskussionen in der KI wider. Wie der Forscher Julian Togelius auf Twitter bemerkte, wie fangen wir überhaupt an, zwischen langfristiger Strategie und Verhalten zu unterscheiden, das einfach so aussieht? Ist es wichtig? Alles, was wir jetzt wissen, ist, dass KI in diesem speziellen Bereich den Menschen noch nicht überdenken kann.

Dota 2 bietet mehr als 100 verschiedene Helden mit einer Reihe von Fähigkeiten, und die KI muss sie noch alle beherrschen.
Bild: Valve

Die Unmöglichkeit gleicher Wettbewerbsbedingungen

Das Gerangel um die Klugheit der Bots ist eine Sache, aber die Dota 2-Matches von OpenAI Five werfen auch eine andere, grundlegendere Frage auf: Warum veranstalten wir diese Ereignisse überhaupt?

Nehmen Sie die Kommentare von Gary Marcus, einem angesehenen Kritiker der Grenzen der zeitgenössischen KI. Im Vorfeld der OpenAI-Spiele letzte Woche wies Marcus auf Twitter darauf hin, dass die Bots nicht fair spielen. Im Gegensatz zu menschlichen Spielern (oder einigen anderen KI-Systemen) schauen sie nicht auf den Bildschirm, um zu spielen. Stattdessen verwenden sie die „Bot API“ von Dota 2, um das Spiel zu verstehen. Dies ist ein Feed mit 20.000 Zahlen, der beschreibt, was in numerischer Form vor sich geht, und Informationen über alles enthält, vom Standort jedes Helden über seine Gesundheit bis hin zur Abklingzeit einzelner Zauber und Angriffe.

Wie Marcus The Verge erzählt, „verkürzt dies das enorm herausfordernde Problem der Szenenwahrnehmung“ und gibt den Bots einen großen Vorteil. Sie müssen beispielsweise nicht die Karte durchsuchen, um zu überprüfen, wo sich ihr Team befindet, oder auf die Benutzeroberfläche schauen, um zu sehen, ob ihr mächtigster Zauber bereit ist. Sie müssen nicht die Gesundheit eines Feindes erraten oder seine Entfernung schätzen, um zu sehen, ob sich ein Angriff lohnt. Sie wissen es einfach.

Aber zählt das als Betrug?

Es gibt einige Möglichkeiten, dies zu beantworten. Erstens hätte OpenAI ein Vision-System erstellen können, um die Pixel zu lesen und dieselben Informationen abzurufen, die die Bot-API bereitstellt. (Der Hauptgrund dafür ist, dass es unglaublich ressourcenintensiv gewesen wäre.) Dies ist schwierig zu beurteilen, da niemand weiß, ob es funktionieren würde, bis es tatsächlich jemand getan hat. Aber es ist vielleicht irrelevant. Die wichtigere Frage könnte sein: kann es jemals einen fairen Kampf zwischen Mensch und Maschine geben? Wenn wir uns annähern wollen, wie Menschen Dota 2 spielen, müssen wir Roboterhände für die OpenAI Five bauen, um Maus und Tastatur zu bedienen? Um es noch gerechter zu machen, sollten die Hände schwitzen?

Diese Fragen sind ein wenig scherzhaft, aber sie unterstreichen die Unmöglichkeit, wirklich gleiche Wettbewerbsbedingungen zwischen Mensch und Computer zu schaffen. So etwas gibt es nicht, weil Maschinen wie Menschen denken, genauso wie Flugzeuge wie Vögel fliegen. Wie KI-Spiele-Forscher Cook es ausdrückt: „Natürlich sind Computer in Sachen besser als wir. Deshalb haben wir Computer erfunden.“

Vielleicht müssen wir etwas tiefer darüber nachdenken, warum wir diese Veranstaltungen überhaupt abhalten. Brockman sagt The Verge, dass es mehr als nur Spiele gibt. „Der Grund, warum wir Dota machen, ist nicht, dass wir Dota lösen können“, sagt er. „Wir sind dabei, weil wir glauben, dass wir die KI-Technologie entwickeln können, die die Welt in den kommenden Jahrzehnten antreiben kann.“

Diese ehrgeizige Behauptung ist wahr. Die Trainingsinfrastruktur, in der die OpenAI—Fünf unterrichtet werden — ein System namens Rapid – wird bereits für andere Projekte genutzt. OpenAI hat es verwendet, um Roboterhänden beizubringen, Objekte mit einem neuen Maß an menschenähnlicher Geschicklichkeit zu manipulieren. Wie immer bei KI gibt es Einschränkungen, und es gibt keinen Do-Everything-Algorithmus. Aber das allgemeine Prinzip gilt: Die Arbeit, die benötigt wird, um selbst willkürliche Ziele zu erreichen (wie das Schlagen von Menschen bei einem Videospiel), hilft, das gesamte Feld der KI voranzutreiben.

Der südkoreanische Go-Spieler Lee Sedol wurde 2016 von AlphaGo geschlagen, lernte aber dadurch neue Fähigkeiten.
Foto: Google / Getty Images

Und es hilft auch denen, die von den Maschinen herausgefordert werden. Einer der faszinierendsten Teile der AlphaGo-Geschichte war, dass der menschliche Champion Lee Sedol zwar von einem KI-System geschlagen wurde, er und der Rest der Go-Community jedoch auch daraus gelernt haben. Alphagos Spielstil erschütterte Jahrhunderte akzeptierter Weisheit. Seine Züge werden noch untersucht, und Lee machte nach seinem Match gegen die Maschine eine Siegesserie.

Das Gleiche passiert bereits in der Welt von Dota 2: Die Spieler studieren das Spiel von OpenAI Five, um neue Taktiken und Moves zu entdecken. Mindestens eine bisher unentdeckte Spielmechanik, mit der Spieler eine bestimmte Waffe schnell aufladen können, indem sie sich außerhalb der Reichweite des Feindes befinden, wurde von den Bots entdeckt und an Menschen weitergegeben. Der KI-Forscher Merity sagt: „Ich möchte buchstäblich sitzen und mir diese Spiele ansehen, um neue Strategien zu erlernen. Die Leute schauen sich dieses Zeug an und sagen: ‚Das ist etwas, was wir ins Spiel bringen müssen.“

Dieses Phänomen der KI, die Menschen unterrichtet, wird wahrscheinlich in Zukunft nur noch häufiger auftreten. Auf seltsame Weise scheint es fast wie ein Akt des Wohlwollens. Als ob, in einer Anzeige der menschlichen Gnade, die Bots geben uns ein Abschiedsgeschenk, wie sie unsere Fähigkeiten überholen. Es ist natürlich nicht wahr; KI ist nur eine andere Methode, die Menschen erfunden haben, um uns selbst beizubringen. Aber deshalb spielen wir. Es ist eine Lernerfahrung — für uns und die Maschinen.

Gaming

Machen Sie eine Reise zurück ins Jahr 1997 mit einem unglaublich seltenen, nie geöffneten Nintendo 64 Disk Drive Dev Kit

Gaming

Ghost of Tsushima erhält eine Verfilmung vom Regisseur von John Wick

Gaming

Final Fantasy VIII ist jetzt auf iOS und Android

Alle Geschichten in Gaming anzeigen



+