La défaite de Dota 2 d'OpenAI est toujours une victoire pour l'intelligence artificielle

La semaine dernière, l’humanité a riposté contre les machines — en quelque sorte.

En fait, nous les avons battus à un jeu vidéo. Dans un match au meilleur des trois matchs, deux équipes de joueurs professionnels ont vaincu une équipe de robots IA créés par le laboratoire de recherche OpenAI fondé par Elon Musk. Les concurrents jouaient à Dota 2, un jeu d’arène de combat extrêmement populaire et complexe. Mais le match était aussi un test décisif pour l’intelligence artificielle: la dernière mesure très médiatisée de notre ambition de créer des machines capables de nous surpasser.

Dans le tableau de bord de l’IA humaine, l’intelligence artificielle a récemment remporté de grandes victoires. Le plus notable a été la défaite des meilleurs joueurs de Go du monde par AlphaGo de DeepMind, un exploit que les experts ont pensé hors de portée pendant au moins une décennie. Récemment, les chercheurs ont porté leur attention sur les jeux vidéo comme prochain défi. Bien que les jeux vidéo n’aient pas la réputation intellectuelle de Go et d’échecs, ils sont en fait beaucoup plus difficiles à jouer pour les ordinateurs. Ils retiennent l’information des joueurs; se déroulent dans des environnements complexes et en constante évolution; et nécessitent le genre de réflexion stratégique qui ne peut pas être facilement simulée. En d’autres termes, ils sont plus proches des types de problèmes auxquels nous voulons que l’IA s’attaque dans la vie réelle.

Dota 2 est un terrain d’essai particulièrement populaire, et on pense qu’OpenAI possède les meilleurs robots Dota 2. Mais la semaine dernière, ils ont perdu. Alors que s’est-il passé? Avons-nous atteint une sorte de plafond dans la capacité de l’IA? Est-ce la preuve que certaines compétences sont tout simplement trop complexes pour les ordinateurs?

Les réponses courtes sont non et non. Ce n’était qu’une « bosse sur la route », explique Stephen Merity, chercheur en apprentissage automatique et fan de Dota 2. Les machines finiront par conquérir le jeu, et ce sera probablement OpenAI qui fissurera l’affaire. Mais déballer pourquoi les humains ont gagné la semaine dernière et ce qu’OpenAI a réussi à réaliser — même dans la défaite — est toujours utile. Il nous dit ce que l’IA peut et ne peut pas faire et ce qui est à venir.

Une capture d’écran de Dota 2, un jeu de combat d’arène fantastique où deux équipes de cinq héros se battent pour détruire la base de l’autre. Le gameplay est complexe et les matchs durent généralement plus de 30 minutes.

Image: Valve

Tout d’abord, mettons les matchs de la semaine dernière dans leur contexte. Les robots ont été créés par OpenAI dans le cadre de son vaste mandat de recherche pour développer une IA qui « profite à toute l’humanité. »C’est une directive qui justifie beaucoup de recherches différentes et qui a attiré certains des meilleurs scientifiques du domaine. En formant son équipe de robots Dota 2 (baptisés Openai Five), le laboratoire dit vouloir développer des systèmes capables de « gérer la complexité et l’incertitude du monde réel. »

Les cinq robots (qui fonctionnent indépendamment mais ont été formés en utilisant les mêmes algorithmes) ont appris à jouer à Dota 2 en utilisant une technique appelée apprentissage par renforcement. Il s’agit d’une méthode d’entraînement courante qui consiste essentiellement en essais et erreurs à grande échelle. (Il a ses faiblesses, mais il produit aussi des résultats incroyables, y compris AlphaGo.) Au lieu de coder les robots avec les règles de Dota 2, ils sont jetés dans le jeu et laissés à eux-mêmes. Les ingénieurs d’OpenAI aident ce processus en les récompensant pour avoir accompli certaines tâches (comme tuer un adversaire ou gagner un match), mais rien de plus que cela.

Cela signifie que les robots commencent à jouer de manière complètement aléatoire et qu’au fil du temps, ils apprennent à connecter certains comportements aux récompenses. Comme vous pouvez le deviner, c’est une façon extrêmement inefficace d’apprendre. En conséquence, les robots doivent jouer à Dota 2 à un rythme accéléré, accumulant 180 ans de temps d’entraînement chaque jour. Comme le directeur technique et cofondateur d’OpenAI, Greg Brockman, l’a déclaré à The Verge plus tôt cette année, s’il faut à un humain entre 12 000 et 20 000 heures de pratique pour maîtriser une certaine compétence, les robots traversent « 100 vies humaines d’expérience chaque jour. »

Une partie de la raison pour laquelle cela prend si longtemps est que Dota 2 est extrêmement complexe, bien plus qu’un jeu de société. Deux équipes de cinq s’affrontent sur une carte remplie de personnages non jouables, d’obstacles et de bâtiments destructibles, qui ont tous un effet sur le cours de la bataille. Les héros doivent se frayer un chemin jusqu’à la base de leur adversaire et la détruire tout en jonglant avec diverses mécaniques. Il y a des centaines d’objets qu’ils peuvent ramasser ou acheter pour augmenter leurs capacités, et chaque héros (dont il y en a plus de 100) a ses propres mouvements et attributs uniques. Chaque partie de Dota 2 ressemble à une bataille de l’antiquité jouée en miniature, avec des équipes se disputant un territoire et luttant pour déjouer les adversaires.

Traiter toutes ces données pour que les jeux puissent être joués à un rythme plus rapide que la vie est un énorme défi. Pour entraîner leurs algorithmes, OpenAI a dû stocker une énorme quantité de puissance de traitement — quelque 256 GPU et 128 000 cœurs de processeur. C’est pourquoi les experts parlent souvent de l’OpenAI Five comme d’un projet d’ingénierie autant que de recherche: c’est une réussite juste pour mettre le système en marche, sans parler de battre les humains.

« En ce qui concerne la mise en valeur du niveau de complexité que les approches d’IA basées sur les données modernes peuvent gérer, OpenAI Five est beaucoup plus impressionnant que DQN ou AlphaGo « , déclare Andrey Kurenkov, doctorant à Stanford en informatique et rédacteur en chef du site d’IA Skynet Today. (DQN était le système d’IA de DeepMind qui s’est appris à jouer à Atari.) Mais, note Kurenkov, alors que ces projets plus anciens introduisaient des « idées significatives et nouvelles » au niveau de la recherche pure, OpenAI Five déploie principalement des structures existantes à une échelle jusque-là inconnue. Gagner ou perdre, c’est quand même gros.

Plus tôt cette année, OpenAI Five a battu une équipe de joueurs amateurs comme référence de ses capacités.

Photo: OpenAI

Les machines n’ont toujours pas de plan de jeu
L’impossibilité d’un terrain de jeu égal
Retournez en 1997 avec un kit de développement de disque dur Nintendo 64 incroyablement rare et jamais ouvert
Ghost of Tsushima reçoit une adaptation cinématographique du réalisateur de John Wick
Final Fantasy VIII est maintenant sur iOS et Android

Les machines n’ont toujours pas de plan de jeu

Mais en mettant de côté l’ingénierie, à quel point les robots peuvent-ils être bons s’ils viennent de perdre deux matches contre des humains? C’est une question juste, et la réponse est: toujours sacrément bonne.

Au cours de l’année écoulée, les bots ont évolué dans des versions progressivement plus difficiles du jeu, en commençant par des combats 1 contre 1, puis des matchs 5 contre 5 avec des restrictions. Cependant, ils n’ont pas encore abordé toute la complexité du jeu et ont joué avec certaines mécaniques du jeu désactivées. Pour les matchs à l’International, quelques-unes de ces contraintes ont été supprimées, mais pas toutes. Plus particulièrement, les robots n’avaient plus de courriers invulnérables (PNJ qui livrent des objets aux héros). Ceux-ci étaient auparavant un accessoire important pour leur style de jeu, acheminant un flux fiable de potions de guérison pour les aider à suivre une attaque implacable. À l’International, ils ont dû s’inquiéter de la suppression de leurs lignes d’approvisionnement.

Bien que les jeux de la semaine dernière soient toujours en cours d’analyse, le premier consensus est que les robots ont bien joué, mais pas exceptionnellement. Ils n’étaient pas des savants de l’IA; ils avaient des forces et des faiblesses, dont les humains pouvaient profiter comme ils le feraient contre n’importe quelle équipe.

Les deux jeux ont commencé très au niveau, avec les humains d’abord en tête, puis les robots, puis les humains. Mais les deux fois, une fois que les humains ont acquis un avantage considérable, les robots ont eu du mal à récupérer. Les commentateurs du jeu ont spéculé que cela pourrait être dû au fait que l’IA préférait « gagner de 1 point avec une certitude de 90%, plutôt que de gagner de 50 points avec une certitude de 51%. »(Ce trait était également perceptible dans le style de jeu d’AlphaGo.) Cela implique qu’OpenAI Five était habitué à broyer des victoires régulières mais prévisibles. Lorsque les robots ont perdu leur avance, ils ont été incapables de faire les jeux les plus aventureux nécessaires pour la reprendre.

Vidéo du deuxième match d’OpenAI Five à l’International.

Ce n’est qu’une supposition, cependant. Comme c’est généralement le cas avec l’IA, il est impossible de deviner le processus de pensée exact derrière les actions des robots. Ce que nous pouvons dire, c’est qu’ils ont excellé en milieu rapproché, mais qu’ils ont trouvé plus délicat de faire correspondre les stratégies à long terme des humains.

Les Cinq OpenAI étaient d’une précision infaillible, piochant agressivement des cibles avec des sorts et des attaques, et constituant généralement une menace pour tous les héros ennemis qu’ils rencontraient. Mike Cook, un chercheur en jeux d’IA à l’Université de Falmouth et un joueur passionné de Dota qui a tweeté en direct les combats, a décrit le style des robots comme « hypnotique. » »agissez avec précision et clarté », a déclaré Cook à The Verge. » Souvent, les humains gagnaient un combat et baissaient légèrement leur garde, s’attendant à ce que l’équipe ennemie se retire et se regroupe. Mais les robots ne font pas ça. S’ils peuvent voir un meurtre, ils le prennent. »

Là où les robots semblaient trébucher, c’était dans le jeu long, en pensant à la façon dont les matchs pourraient se développer en 10 ou 20 minutes. Dans le deuxième de leurs deux combats contre une équipe de joueurs professionnels chinois à la réputation redoutable (ils ont été diversement appelés par les commentateurs « the old legends club » ou, plus simplement, « the gods »), les humains ont opté pour une stratégie asymétrique. Un joueur a rassemblé des ressources pour alimenter lentement son héros, tandis que les quatre autres ont fait des interférences pour lui. Les robots ne semblaient pas remarquer ce qui se passait, cependant, et à la fin du jeu, team human avait un héros gonflé qui a aidé à dévaster les joueurs d’IA. « C’est un style naturel pour les humains qui jouent à Dota », explique Cook. « pour les robots, c’est une planification extrême à long terme. »

Cette question de stratégie est importante non seulement pour OpenAI, mais pour la recherche en IA plus généralement. L’absence de planification à long terme est souvent considérée comme un défaut majeur de l’apprentissage par renforcement, car l’IA créée à l’aide de cette méthode met souvent l’accent sur des gains immédiats plutôt que sur des récompenses à long terme. En effet, il est difficile de structurer un système de récompense qui fonctionne sur de plus longues périodes. Comment apprendre à un bot à retarder l’utilisation d’un sort puissant jusqu’à ce que les ennemis soient regroupés si vous ne pouvez pas prédire quand cela se produira ? Donnez-vous juste de petites récompenses pour ne pas utiliser ce sort? Et s’il décide de ne jamais l’utiliser en conséquence? Et ce n’est qu’un exemple de base. Les jeux Dota 2 durent généralement de 30 à 45 minutes et les joueurs doivent constamment réfléchir à l’action qui mènera au succès à long terme.

Il est cependant important de souligner que les robots n’étaient pas seulement des gremlins irréfléchis à la recherche de récompenses. Le réseau de neurones contrôlant chaque héros a une composante mémoire qui apprend certaines stratégies. Et la façon dont ils réagissent aux récompenses est façonnée de sorte que les robots considèrent les gains futurs ainsi que ceux qui sont plus immédiats. En fait, OpenAI dit que ses agents d’IA le font beaucoup plus que tout autre système comparable, avec une « demi-vie de récompense » de 14 minutes (en gros, la durée pendant laquelle les robots peuvent attendre des gains futurs).

Kurenkov, qui a beaucoup écrit sur les limites de l’apprentissage par renforcement, a déclaré que les correspondances montrent que l’apprentissage par renforcement peut gérer « beaucoup plus de complexité que la plupart des chercheurs en IA n’auraient pu l’imaginer. »Mais, ajoute-t-il, la défaite de la semaine dernière suggère que de nouveaux systèmes sont nécessaires spécifiquement pour gérer la réflexion à long terme. (Sans surprise, le directeur de la technologie d’OpenAI n’est pas d’accord.)

Contrairement au résultat des matchs, il n’y a pas de conclusion évidente ici. Le désaccord sur le succès des robots reflète des discussions plus vastes et non résolues en IA. Comme l’a noté le chercheur Julian Togelius sur Twitter, comment pouvons-nous même commencer à faire la différence entre une stratégie à long terme et un comportement qui lui ressemble? Est-ce important? Tout ce que nous savons pour l’instant, c’est que dans ce domaine particulier, l’IA ne peut pas encore surpasser les humains.

Dota 2 offre plus de 100 héros différents avec une gamme de capacités, et l’IA ne les a pas encore tous maîtrisés.

Image: Valve

L’impossibilité d’un terrain de jeu égal

Se disputer sur l’intelligence des robots est une chose, mais les matchs Dota 2 d’OpenAI Five ont également soulevé une autre question plus fondamentale: pourquoi organisons-nous ces événements?

Prenez les commentaires de Gary Marcus, un critique respecté des limites de l’IA contemporaine. À la veille des jeux d’OpenAI la semaine dernière, Marcus a souligné sur Twitter que les robots ne jouent pas équitablement. Contrairement aux joueurs humains (ou à d’autres systèmes d’IA), ils ne regardent pas réellement l’écran pour jouer. Au lieu de cela, ils utilisent « l’API bot » de Dota 2 pour comprendre le jeu. Il s’agit d’un flux de 20 000 nombres qui décrit ce qui se passe sous forme numérique, incorporant des informations sur tout, de l’emplacement de chaque héros à sa santé en passant par le temps de recharge sur les sorts et les attaques individuels.

Comme le dit Marcus à The Verge, cela « raccourcit le problème extrêmement difficile de la perception de la scène » et donne aux robots un énorme avantage. Ils n’ont pas à chercher sur la carte pour vérifier où se trouve leur équipe, par exemple, ni à jeter un coup d’œil sur l’interface utilisateur pour voir si leur sort le plus puissant est prêt. Ils n’ont pas à deviner la santé d’un ennemi ou à estimer sa distance pour voir si une attaque en vaut la peine. Ils savent juste.

Mais cela compte-t-il comme de la triche?

Il existe plusieurs façons de répondre à cela. Tout d’abord, OpenAI aurait pu créer un système de vision pour lire les pixels et récupérer les mêmes informations que l’API bot fournit. (La principale raison pour laquelle ce n’était pas le cas est que cela aurait été incroyablement gourmand en ressources.) C’est difficile à juger, car personne ne sait si cela fonctionnerait jusqu’à ce que quelqu’un le fasse réellement. Mais ce n’est peut-être pas pertinent. La question la plus importante pourrait être: peut-on jamais avoir un combat équitable entre les humains et les machines? Après tout, si nous voulons approximer la façon dont les humains jouent à Dota 2, devons-nous construire des mains de robots pour que l’OpenAI Five puisse utiliser une souris et un clavier? Pour le rendre encore plus juste, les mains devraient-elles transpirer?

Ces questions sont un peu facétieuses, mais elles soulignent l’impossibilité de créer des conditions de concurrence vraiment équitables entre les humains et les ordinateurs. Une telle chose n’existe pas parce que les machines pensent comme les humains de la même manière que les avions volent comme des oiseaux. Comme le dit Cook, chercheur en jeux d’IA: « Bien sûr, les ordinateurs sont meilleurs que nous en matière de choses. C’est pourquoi nous avons inventé les ordinateurs. »

Peut-être devons-nous réfléchir un peu plus en profondeur à la raison pour laquelle nous organisons ces événements en premier lieu. Brockman dit à The Verge qu’il y a plus que du jeu. « La raison pour laquelle nous faisons Dota n’est pas pour pouvoir résoudre Dota », dit-il. « Nous en sommes là parce que nous pensons pouvoir développer la technologie de l’IA qui peut alimenter le monde dans les décennies à venir. »

Cette affirmation ambitieuse est vraie. Déjà, l’infrastructure de formation utilisée pour enseigner l’OpenAI Five — un système appelé Rapid — est tournée vers d’autres projets. OpenAI l’a utilisé pour apprendre aux mains de robots à manipuler des objets avec de nouveaux niveaux de dextérité semblable à celle d’un humain, par exemple. Comme toujours avec l’IA, il y a des limites, et Rapid n’est pas un algorithme à tout faire. Mais le principe général est le suivant: le travail nécessaire pour atteindre des objectifs même arbitraires (comme battre des humains dans un jeu vidéo) contribue à stimuler tout le domaine de l’IA.

Le joueur de go sud-coréen Lee Sedol a été battu par AlphaGo en 2016, mais il a appris de nouvelles compétences en conséquence.

Photo: Google / Getty Images

Et cela aide également ceux qui sont mis au défi par les machines. L’une des parties les plus fascinantes de l’histoire d’AlphaGo était que bien que le champion humain Lee Sedol ait été battu par un système d’IA, lui et le reste de la communauté Go en ont également tiré des leçons. Le style de jeu d’AlphaGo a bouleversé des siècles de sagesse acceptée. Ses mouvements sont encore à l’étude, et Lee a enchaîné les victoires après son match contre la machine.

La même chose commence déjà à se produire dans le monde de Dota 2: les joueurs étudient le jeu d’OpenAI Five pour découvrir de nouvelles tactiques et mouvements. Au moins un mécanisme de jeu encore inconnu, qui permet aux joueurs de recharger rapidement une certaine arme en restant hors de portée de l’ennemi, a été découvert par les robots et transmis aux humains. Comme le dit Merity, chercheur en IA: « Je veux littéralement m’asseoir et regarder ces matchs afin de pouvoir apprendre de nouvelles stratégies. Les gens regardent ce genre de choses et disent: « C’est quelque chose que nous devons tirer dans le jeu. » »

Ce phénomène d’apprentissage de l’IA à l’homme ne fera probablement que devenir plus courant à l’avenir. D’une manière étrange, cela ressemble presque à un acte de bienveillance. Comme si, dans une démonstration de grâce humaine, les robots nous donnaient un cadeau d’adieu alors qu’ils dépassaient nos capacités. Ce n’est pas vrai, bien sûr; l’IA n’est qu’une autre méthode que les humains ont inventée pour nous enseigner. Mais c’est pour ça qu’on joue. C’est une expérience d’apprentissage — pour nous et pour les machines.

Jeu