OpenAIのDota2の敗北は人工知能

先週、人類は機械に反撃しました。

実はビデオゲームで殴ったんです。 ベスト-オブ-スリーマッチでは、プロゲーマーの二つのチームは、イーロン-マスクが設立した研究ラボOpenAIによって作成されたAIボットのチームを克服しました。 競合他社は、驚異的に人気があり複雑なバトルアリーナのゲームであるDota2をプレイしていました。 しかし、試合はまた、人工知能のためのリトマス試験のようなものでした: 私達を考えることができる機械を作成する私達の野心の最も最近の知名度の高い測定。

人間-AIのスコアカードでは、人工知能は最近、いくつかの大きな勝利を上げています。 最も注目すべきは、DeepMindのAlphaGoによる世界最高の囲碁選手の敗北であり、専門家は少なくとも10年間は手の届かないところにあると考えていました。 最近、研究者は次の課題としてビデオゲームに注意を向けています。 ビデオゲームは囲碁やチェスの知的な評判を欠いていますが、コンピュータがプレイするのは実際にははるかに困難です。 彼らはプレイヤーからの情報を保留し、複雑で刻々と変化する環境で行われ、簡単にシミュレートすることができない戦略的思考のようなものを必要とし 言い換えれば、彼らは私たちがAIが現実の生活の中で取り組むべき問題の種類に近づいています。

Dota2は特に人気のあるテストグラウンドであり、OpenAIは最高のDota2ボットを持っていると考えられています。 しかし、先週、彼らは失われました。 それで何があったの? 私たちはAIの能力の天井に達しましたか? いくつかのスキルは、コンピュータのためにあまりにも複雑であることを、この証拠はありますか?

短い答えはノーとノーです。 機械学習研究者でDota2のファンであるStephen Merity氏は、これは単なる「道路の隆起」だったと述べています。 マシンは最終的にゲームを征服し、それはおそらくケースをクラックOpenAIになります。 しかし、なぜ人間が先週勝ったのか、そしてOpenAIが達成したこと—たとえ敗北しても—を解凍することはまだ有用です。 それは、AIができることとできないこと、そして何が来るのかを教えてくれます。

五人の英雄の二つのチームがお互いの基地を破壊するために戦うファンタジーアリーナの戦いのゲームDota2のスクリーンショット。 ゲームプレイは複雑で、試合は通常30分以上続きます。
: Valve

まず、先週の試合を文脈に入れてみましょう。 このボットは、「すべての人類に利益をもたらすAIを開発するための広範な研究送金の一環としてOpenAIによって作成されました。「これは、多くの異なる研究を正当化する指令であり、この分野の最高の科学者の何人かを引き付けています。 研究室は、Dota2ボット(OpenAI Fiveと呼ばれる)のチームを訓練することで、「現実世界の複雑さと不確実性を処理できるシステムを開発したいと述べています。”

五つのボット(独立して動作しますが、同じアルゴリズムを使用して訓練されました)は、強化学習と呼ばれる技術を使用してDota2をプレイするように教 これは、基本的に試行錯誤の巨大なスケールでの一般的なトレーニング方法です。 (それはその弱点を持っていますが、AlphaGoを含む信じられないほどの結果も生成します。)代わりにdota2のルールでボットをコーディングするのではなく、彼らはゲームに投げ込まれ、自分自身のために物事を把握するために残されています。 OpenAIのエンジニアは、特定のタスク(相手を殺すか、試合に勝つような)を完了するためにそれらに報酬を与えることによって、このプロセスを助けますが、

これは、ボットが完全にランダムに再生を開始し、時間が経つにつれて、彼らは特定の行動を報酬に結びつけることを学ぶことを意味します。 あなたが推測するかもしれないように、これは学ぶための非常に非効率的な方法です。 その結果、ボットはDota2を加速的にプレイしなければならず、180年のトレーニング時間を毎日詰め込まなければなりません。 OpenAIのCTO兼共同設立者であるGreg Brockmanが今年初めにThe Vergeに語ったように、特定のスキルを習得するために12,000〜20,000時間の練習が必要な場合、ボットは「毎日100人”

時間がかかる理由の一部は、Dota2が非常に複雑で、ボードゲームよりもはるかに複雑であるということです。 プレイできないキャラクター、障害物、破壊可能な建物で満たされたマップ上で、五人の二つのチームがお互いに向かい合っています。 英雄は、相手のベースに自分の道を戦うと、様々な力学をジャグリングしながら、それを破壊する必要があります。 彼らは彼らの能力を高めるために拾うか、購入することができますアイテムの数百があり、各ヒーロー(100以上がある)は、独自のユニークな動きと属性を持っ Dota2の各ゲームは、古代の戦いのようなもので、チームは領土を巡って争い、相手を操縦するのに苦労しています。

このデータをすべて処理して、ゲームを人生よりも速いペースでプレイできるようにすることは大きな課題です。 彼らのアルゴリズムを訓練するために、OpenAIは膨大な量の処理能力—いくつかの256Gpuと128,000CPUコアを囲う必要がありました。 このため、専門家はOpenAI Fiveについて、研究プロジェクトと同じくらいエンジニアリングプロジェクトとして話すことがよくあります。

“現代のデータ駆動型AIアプローチが扱うことができる複雑さのレベルを示す限り、OpenAI FiveはDQNやAlphaGoのいずれかよりもはるかに印象的です”と計算機科学を研究し、AIサイトSkynetの編集者であるAndrey Kurenkovは述べています。 (DqnはDeepmindのAiシステムで、Atariをプレイすることを教えていました。 しかし、これらの古いプロジェクトは純粋な研究のレベルで”重要で斬新なアイデア”を導入していましたが、OpenAI Fiveは主に以前は夢のない規模で既存の構 勝つか負けるか、それはまだ大きいです。

今年の初め、OpenAI Fiveはその能力のベンチマークとしてアマチュアゲーマーのチームを破りました。
写真: OpenAI

マシンはまだゲームプランを欠いています

しかし、エンジニアリングを脇に置いて、彼らはちょうど人間との試合を失った場合、ボットはどのように良 それは公正な質問であり、答えは次のとおりです:まだかなりいまいましい良いです。

この1年間で、ボットは1対1の試合から始まり、制限付きの5対5の試合まで、徐々に困難なバージョンのゲームを卒業しました。 しかし、彼らはまだゲームの完全な複雑さに取り組んでおらず、特定のゲーム内の仕組みをオフにして遊んでいます。 国際試合では、これらの制約のいくつかが削除されましたが、すべてではありませんでした。 最も顕著なのは、ボットはもはや不死身の宅配便(ヒーローにアイテムを届けるNpc)を持っていなかったことです。 これらは、以前は彼らが執拗な攻撃を維持するために癒しのポーションの信頼性の高いストリームを運んで、遊びの彼らのスタイルのための重要な小道具 国際では、彼らは彼らの供給ラインが拾われることを心配しなければならなかった。

先週のゲームはまだ分析されているが、初期のコンセンサスは、ボットは良好にプレイしたが、例外的にそうではないということである。 彼らはAIサバンストではありませんでした; 彼らには長所と短所があり、人間はどのチームに対してもそうであるように利用することができました。

両方のゲームは非常にレベルが高く、最初に人間がリードし、次にボット、次に人間がリードしました。 しかし、両方の時間は、人間がかなりの利点を得た後、ボットは回復するのが難しいと感じました。 ゲームのコメンテーターからは、AIが”50ポイントで51%の確実性で勝つよりも、1ポイントで90%の確実性で勝つことを好んだからかもしれない”との憶測があった。「(この特性はAlphaGoのゲームスタイルでも顕著でした。)これは、OpenAI Fiveが安定しているが予測可能な勝利を粉砕するために使用されたことを意味します。 ボットがリードを失ったとき、彼らはそれを取り戻すために必要なより冒険的な演劇を作ることができませんでした。

国際大会でのOpenAI Five第2戦の映像。

これはただの推測です。 通常、AIの場合と同様に、ボットの行動の背後にある正確な思考プロセスを占うことは不可能です。 私たちが言うことができるのは、彼らが近い四半期に優れていたが、人間の長期的な戦略に一致するようにトリッキー発見したということです。

OpenAI Fiveは正確ではなく、呪文や攻撃で積極的に標的を拾い、一般的に彼らが遭遇した敵の英雄にとって脅威であった。 Falmouth大学のAIゲーム研究者であり、戦いをライブツイートした熱心なDotaプレーヤーであるMike Cookは、ボットのスタイルを「催眠性」と説明しました。「正確さと明快さを持って行動する」とCookはThe Vergeに語った。 “多くの場合、人間は戦いに勝つと、敵チームが後退し、再編成することを期待して、わずかに彼らのガードを失望させるだろう。 しかし、ボットはそれをしません。 彼らが殺すのを見ることができれば、彼らはそれを取る。”

ボットがつまずいたように見えたのは、10分または20分のスパンで試合がどのように発展するかを考えていた長い試合でした。 恐ろしい評判を持つ中国のプロゲーマーのチームに対する彼らの二つの試合の第二に(彼らは様々な”古い伝説クラブ”または、より簡単に、”神々”としてコメンテーターによ 一人のプレイヤーはゆっくりと彼のヒーローをパワーアップするために資源を集め、他の四人は彼のために干渉を実行しました。 しかし、ボットは何が起こっているのか気付かなかったようで、ゲームの終わりまでに、team humanはAIプレイヤーを荒廃させるのを助けたsouped-up heroを持っていました。 “これはDotaをプレイする人間にとって自然なスタイルです”とCook氏は言います。 “ボットには、それは極端な長期的な計画です。「

この戦略の問題は、OpenAIだけでなく、より一般的なAI研究にとっても重要です。 この方法を使用して作成されたAIは、長期的な報酬ではなく即時の報酬を強調することが多いため、長期的な計画がないことは、強化学習の大きな欠陥と見なされることがよくあります。 これは、より長い期間にわたって機能する報酬システムを構築することが困難であるためです。 それがいつ起こるか予測できない場合、敵がグループ化されるまで強力な呪文の使用を遅らせるようにボットに教えるにはどうすればよいですか? あなたはその呪文を使用しないために小さな報酬を与えるだけですか? 結果としてそれを使用しないことを決定した場合はどうなりますか? そして、これはちょうど一つの基本的な例です。 Dota2のゲームは一般的に30-45分続き、プレイヤーはどのような行動が長期的な成功につながるかを常に考えなければなりません。

しかし、ボットは軽率で報酬を求めるグレムリンだけではなかったことを強調することが重要です。 各ヒーローを制御するニューラルネットワークには、特定の戦略を学習するメモリコンポーネントがあります。 そして、彼らが報酬に反応する方法は、ボットが将来のペイオフだけでなく、より直接的なものを考慮するように形作られています。 実際、OpenAIは、AIエージェントが他の同等のシステムよりもはるかに大きく、14分の「報酬半減期」(大まかに言えば、ボットが将来のペイオフを待つことがで強化学習の限界について広範囲に書かれているKurenkov氏は、この試合は、強化学習が「ほとんどのAI研究者が想像していたよりもはるかに複雑さを処理で”しかし、彼は先週の敗北は、新しいシステムが長期的な思考を管理するために特別に必要とされていることを示唆している、と付け加えました。 (当然のことながら、OpenAIの最高技術責任者は同意しない。)

試合の結果とは異なり、ここでは明らかな結論はありません。 ボットの成功をめぐる意見の相違は、AIにおける未解決の議論を大きく反映しています。 研究者Julian TogeliusがTwitterで指摘したように、長期的な戦略とそのように見える行動をどのように区別し始めるのですか? それは重要ですか? 今のところ私たちが知っているのは、この特定の領域では、AIはまだ人間を考えることができないということです。

Dota2は、さまざまな能力を持つ100以上の異なるヒーローを提供していますが、AIはそれらをすべて習得していません。
: Valve

レベルの競技場の不可能性

ボットの賢さをめぐる論争は一つのことですが、OpenAI FiveのDota2試合も別の、より根本的な質問を提起しました。

現代のAIの限界について尊敬される評論家、ゲイリー-マーカスのコメントを取る。 先週のOpenAIのゲームへの準備の中で、MarcusはTwitterでボットが公平にプレイしていないと指摘しました。 人間のゲーマー(またはいくつかの他のAIシステム)とは異なり、彼らは実際に再生する画面を見ていません。 代わりに、彼らはゲームを理解するためにDota2の「ボットAPI」を使用します。 これは、各ヒーローの場所から個々の呪文や攻撃のクールダウンに自分の健康にすべての情報を組み込んだ、数値形式で何が起こっているかを説明する20,000

マーカスがThe Vergeに語ったように、これは「シーン認識の非常に困難な問題をショートカット」し、ボットに大きな利点を与えます。 たとえば、チームがどこにいるかを確認するためにマップを検索したり、UIを一目で確認して、最も強力な呪文が準備されているかどうかを確認する必 彼らは敵の健康を推測したり、攻撃がそれだけの価値があるかどうかを確認するために彼らの距離を推定する必要はありません。 彼らは知っているだけです。

しかし、これは不正行為としてカウントされますか?

これに答えるにはいくつかの方法があります。 まず、OpenAIはピクセルを読み取り、bot APIが提供するのと同じ情報を取得するためのビジョンシステムを作成することができました。 (それがしなかった主な理由は、それが信じられないほどのリソース集約型だったということです。 誰かが実際にそれをやったまでそれがうまくいくかどうかは誰も知らないので、これは判断するのが難しいです。 しかし、それはおそらく無関係です。 より重要な質問は次のようになります: 私たちは人間と機械の間で公正な戦いをすることができますか? 結局のところ、人間がDota2をどのようにプレイするかを近似したいのであれば、OpenAI Fiveがマウスとキーボードを操作するためのロボットハンドを構築する必 それをより公平にするために、手は汗をかくべきですか?

これらの質問は少し面識がありますが、人間とコンピュータの間に真に平等な競技場を作ることが不可能であることを強調しています。 飛行機が鳥のように飛ぶのと同じように、機械は人間のように考えるので、そのようなことは存在しません。 AIゲーム研究者のCookが言うように: “もちろん、コンピュータは物事で私たちよりも優れています。 だから私たちはコンピュータを発明しました。「

そもそもなぜこれらのイベントを開催しているのか、もう少し深く考える必要があるかもしれません。 BrockmanはThe Vergeに、ゲーム以上のものがあると伝えています。 “私たちがDotaを行う理由は、Dotaを解決できるようなものではありません”と彼は言います。 「私たちは、今後数十年で世界に電力を供給できるAI技術を開発できると考えているため、これに取り組んでいます。”

この野心的な主張には真実があります。 すでに、OpenAI Fiveを教えるために使用されたトレーニングインフラストラクチャ—Rapidと呼ばれるシステム—は、他のプロジェ OpenAIは、例えば、人間のような器用さの新しいレベルでオブジェクトを操作するためにロボットの手を教えるためにそれを使用しています。 いつものようにAIには制限があり、Rapidはすべてのことを行うアルゴリズムではありません。 しかし、一般的な原則は、(ビデオゲームで人間を打つような)任意の目標を達成するために必要な作業は、AIの全分野に拍車をかけるのに役立ちます。

韓国の囲碁棋士イ・セドルは2016年にAlphaGoに敗れたが、結果として新たなスキルを習得した。
写真:Google/Getty Images

そして、それはまた、マシンによって挑戦された人たちを助けます。 AlphaGoの物語の中で最も魅力的な部分の1つは、人間のチャンピオンであるLee SedolがAIシステムに殴られたにもかかわらず、彼とGoコミュニティの残りの AlphaGoのプレイスタイルは、何世紀にもわたって受け入れられた知恵を混乱させました。 その動きはまだ研究されており、リーはマシンとの試合の後に連勝しました。

Dota2の世界でも同じことがすでに起こり始めています。 プレイヤーは敵の範囲外に滞在することにより、すぐに特定の武器を充電することができます少なくとも一つの以前に発見されていないゲームメカニ AI研究者Merityが言うように:「私は文字通り座ってこれらの試合を見て、新しい戦略を学ぶことができます。 人々はこのようなものを見て、”これは私たちがゲームに引き込む必要があるものです。”

人間を教えるAIのこの現象は、将来的にはより一般的になる可能性があります。 奇妙な方法では、それはほとんど慈悲の行為のように思えます。 まるで、人間の恵みの表示で、ボットは私たちの能力を追い越すように私たちに別れの贈り物を与えています。 AIは、人間が自分自身を教えるために発明したもう一つの方法です。 しかし、それが私たちが遊ぶ理由です。 それは私たちと機械のための学習体験です。

Gaming

1997年に戻って、信じられないほど珍しい、開かれていないNintendo64ディスクドライブの開発キット

Gaming

Ghost of TsushimaはJohn Wickの監督から映画化されています

Gaming

Final Fantasy VIIIはiOSとAndroid

Gaming

GamingGamingGamingGamingGaming



+