오오타이의 도타 2 패배는 여전히 인공지능

지난 주 인류는 기계에 반격했다.

사실,우리는 비디오 게임에서 그들을 이겼습니다. 3 중 최고의 경기에서 프로 게이머 두 팀은 엘론 머스크가 설립 한 연구실 오픈 아이에 의해 만들어진 인공 지능 봇의 분대를 극복했습니다. 경쟁자는 도타 2,급격하게 인기있는 복잡한 전투 경기장 게임을했다. 그러나 경기는 인공 지능에 대한 리트머스 테스트의 일이었다: 우리의 야망의 최신 하이 프로파일 측정은 우리를-생각 할 수있는 기계를 만들 수 있습니다.

인간-인공 지능 스코어 카드에서 인공 지능은 최근 몇 가지 큰 승리를 거두었습니다. 가장 주목할 만한 것은 딥마인드 알파고의 세계 최고의 바둑 선수들의 패배였다. 최근 연구자들은 다음 과제로 비디오 게임에 관심을 돌 렸습니다. 비디오 게임은 바둑과 체스의 지적 명성이 부족하지만 실제로 컴퓨터가 플레이하기가 훨씬 어렵습니다. 그들은 플레이어의 정보를 보류;복잡하고 끊임없이 변화하는 환경에서 개최;쉽게 시뮬레이션 할 수없는 전략적 사고의 종류를 필요로한다. 즉,인공지능이 실제 생활에서 해결하기를 원하는 문제에 더 가깝습니다.

도타 2 는 특히 인기있는 시험장이며,오픈아이는 최고의 도타 2 봇을 가지고 있다고 생각됩니다. 그러나 지난 주,그들은 잃었다. 그래서 무슨 일이 일어 났습니까? 우리는 인공 지능의 능력에 어떤 종류의 천장에 도달 했습니까? 일부 기술이 컴퓨터에 너무 복잡하다는 증거가 있습니까?

짧은 대답은’아니오’입니다. 기계 학습 연구자이자 도타 2 팬인 스티븐 메리티는”도로에서의 충돌”에 불과했습니다. 기계는 결국 게임을 정복 할 것이고,그 사건을 깨뜨릴 가능성이 있습니다. 그러나 지난 주에 인간이 왜 승리했는지,그리고 오픈 타이가 달성 한 것,심지어 패배에서도 여전히 유용하다는 것을 푸는 것은 여전히 유용합니다. 그것은 인공 지능이 할 수있는 것과 할 수없는 것,그리고 앞으로 올 것을 알려줍니다.

5 명의 영웅으로 구성된 두 팀이 서로의 기지를 파괴하기 위해 싸우는 판타지 경기장 전투 게임 인 도타 2 의 스크린 샷. 게임 플레이는 복잡하고,경기는 일반적으로 30 분 이상 지속됩니다.
이미지: 밸브

먼저,지난 주 경기를 맥락에서 보자. 이 봇들은”모든 인류에게 이익이 되는 인공지능을 개발하기 위한 광범위한 연구의 일환으로 오픈아이에 의해 만들어졌다.”그것은 많은 다른 연구를 정당화하고 현장 최고의 과학자 중 일부를 끌어들이는 지침입니다. 이 연구소는 도타 2 봇 팀(오픈아이 파이브라고 불림)을 교육함으로써”현실 세계의 복잡성과 불확실성을 처리할 수 있는 시스템을 개발하고자 한다.”

5 개의 봇(독립적으로 작동하지만 동일한 알고리즘을 사용하여 훈련 됨)은 강화 학습이라는 기술을 사용하여 도타 2 를 플레이하도록 가르쳤습니다. 이것은 근본적으로 거대한 가늠자에 시행 착오의 일반적인 훈련 방법 이다. (약점이 있지만 알파고를 포함하여 놀라운 결과를 산출합니다. 대신 도타 2 의 규칙과 봇을 코딩,그들은 게임에 던져 자신을 위해 일을 알아 내기 위해 남아 있습니다. 오픈아이의 엔지니어들은 특정 작업(상대를 죽이거나 경기에서 이기는 것과 같은)을 완료한 것에 대해 보상을 해줌으로써 이 과정을 도와준다.

이것은 봇이 완전히 무작위로 게임을 시작하고 시간이 지남에 따라 특정 행동을 보상과 연결하는 법을 배움을 의미합니다. 당신이 추측 할 수 있듯이,이 배울 수있는 매우 비효율적 인 방법입니다. 그 결과,봇은 매일 180 년의 훈련 시간을 주입시키는 빠른 속도로 도타 2 를 플레이해야합니다. 오픈아이의 공동 설립자인 그렉 브록먼은 올해 초,특정 기술을 습득하는 데 12,000 시간에서 20,000 시간 사이의 연습이 필요하다면,봇들은”매일 100 시간의 인간 경험을 통해 불타 오른다.”

너무 오래 걸리는 이유 중 일부는 도타 2 가 보드 게임보다 훨씬 복잡하기 때문입니다. 5 명으로 구성된 두 팀은 플레이 할 수없는 캐릭터,장애물 및 파괴 가능한 건물로 가득 찬 맵에서 서로 대결합니다.이 모든 것이 전투의 흐름에 영향을 미칩니다. 영웅은 상대의 기지에 그들의 방법을 싸우고 다양한 역학을 저글링하는 동안 그것을 파괴해야합니다. 그들이 선택하거나 자신의 능력을 향상하기 위해 구입할 수있는 항목의 수백이있다,각 영웅(있는 100 개 이상이있다)고유의 움직임과 속성이 있습니다. 도타 2 의 각 게임은 고대의 전투 팀이 영토를 통해 논쟁과 아웃 기동 상대에 어려움을 겪고,미니어처에서 연주 같다.

실물보다 빠른 속도로 게임을 플레이 할 수 있도록이 모든 데이터를 처리하는 것은 큰 도전입니다. 그들의 알고리즘을 훈련시키기 위해,오픈아이는 엄청난 양의 처리 능력(약 256 개의 프로세싱 프로세서 및 128,000 개의 프로세서 코어)을 확보해야 했다. 이 때문에 전문가들은 종종 연구 프로젝트만큼이나 엔지니어링 프로젝트로서 오픈아이 5 에 대해 이야기합니다.

“현대의 데이터 기반 인공지능 접근법이 처리할 수 있는 복잡성의 수준을 보여주는 한,오픈아이 파이브는 컴퓨터 과학을 공부하는 스탠포드의 박사 과정 학생이자 오늘날 인공지능 사이트 스카이넷의 편집자인 안드레이 쿠렌코프가 말한다. (딥마인드의 인공지능 시스템은 스스로 아타리를 연주하도록 가르쳤다. 그러나 쿠렌코프는 이러한 오래된 프로젝트들이 순수한 연구 수준에서”중요하고 새로운 아이디어”를 도입했지만,오픈아이 5 는 주로 이전에 꿈꾸지 못했던 규모로 기존 구조물을 배치하고 있다. 이기 든 지든,그것은 여전히 크다.

올해 초,오픈아이 파이브는 아마추어 게이머 팀을 그 능력의 벤치 마크로 물리 쳤다.
사진: 그러나 엔지니어링을 제쳐두고 봇이 인간과의 두 경기를 잃으면 얼마나 좋을 수 있습니까? 그것은 공정한 질문,그리고 대답은:여전히 꽤 빌어 먹을 좋은.

지난 한 해 동안,봇은 게임의 점차적으로 더 열심히 버전을 통해 졸업,조 1 시합으로 시작,다음 5 조 5 제한 일치. 그러나,그들은 게임의 전체 복잡성을 해결하기 위해 아직,및 해제 특정 게임 역학과 함께 연주하고있다. 국제 경기에서 이러한 제약 조건 중 일부는 제거되었지만 전부는 아닙니다. 특히,봇에는 더 이상 무적 특사가 없었습니다. 이들은 이전에 그들이 끊임없는 공격을 유지하는 데 도움이 치유 물약의 신뢰할 수있는 흐름을 배로 건네,자신의 플레이 스타일에 대한 중요한 소품이었다. 국제에서,그들은 그들의 공급 라인이 선택되는 것에 대해 걱정해야했다.

지난 주 경기가 여전히 분석되고 있지만,초기 합의는 봇이 잘 플레이했지만 예외적으로 그렇게하지 않았다는 것입니다. 그들은 인공 지능 학자가 아니 었습니다; 그들은 강점과 약점을 가지고 있었고,인간은 어떤 팀과도 마찬가지로 활용할 수있었습니다.

두 게임 모두 인간이 먼저 우위를 점하고 봇,인간을 이끌면서 매우 수준 높은 게임을 시작했습니다. 그러나 두 번 모두 인간이 상당한 이점을 얻으면 봇은 회복하기가 어려웠습니다. 게임의 주석가들은 인공지능이”50%의 확실성으로 51%의 확실성으로 50 점을 얻는 것보다 90%의 확실성으로 1 점을 얻는 것을 선호했기 때문일 수 있다고 추측했다.”(이 특성은 알파고의 게임 스타일에서도 두드러졌습니다.)그것은 오픈아이 5 가 꾸준하지만 예측 가능한 승리를 연마하는 데 사용되었다는 것을 의미한다. 봇이 리드를 잃었을 때,그들은 그것을 회복하기 위해 더 많은 모험적인 놀이를 할 수 없었습니다.

국제 열린 다섯 번째 경기의 비디오.

이것은 단지 추측 일뿐입니다. 인공지능의 경우와 마찬가지로,봇의 행동 뒤에 있는 정확한 사고 과정을 지적하는 것은 불가능하다. 우리가 말할 수있는 것은 그들이 가까운 곳에서 뛰어나지 만 인간의 장기 전략에 부합하는 것이 더 까다 롭다는 것입니다.

오픈아이 파이브는 어김없이 정확하며,주문과 공격으로 공격적으로 목표물을 뽑아내고,일반적으로 적 영웅에게 위협을 가했다. 마이크 쿡,팰 머스 대학의 인공 지능 게임 연구원과 싸움을 라이브 트윗 열렬한 도타 플레이어,최면”로 로봇’스타일을 설명.””정밀도와 선명도와 행동,”쿡은 직전 말했다. “종종 인간은 싸움에서 승리 한 다음 적 팀이 후퇴하고 재편성 할 것을 기대하면서 경비를 약간 실망 시켰습니다. 그러나 봇은 그렇게하지 않습니다. 그들이 살인을 볼 수 있다면,그들은 그것을 가져 간다.”

봇이 비틀 거리는 것처럼 보이는 곳은 10 분 또는 20 분 동안 경기가 어떻게 발전 할 수 있는지 생각하면서 긴 경기였습니다. 무시 무시한 명성을 가진 중국 프로 게이머 팀을 상대로 한 두 번의 시합 중 두 번째에서(그들은 해설자들에 의해”올드 레전드 클럽”또는 더 간단하게”신들”이라고 다양하게 언급되었습니다),인간은 비대칭 전략을 선택했습니다. 다른 네 그를 위해 간섭을 실행하는 동안 한 플레이어는 천천히 자신의 영웅을 전원을 자원을 모았다. 봇은 무슨 일이 일어나고 있는지 눈치 채지 못했고,게임이 끝날 무렵 팀 휴먼은 인공 지능 플레이어를 황폐화시키는 데 도움이되는 영웅을 가졌습니다. “이것은 인간이 도타를 연주하는 자연스러운 스타일입니다.”라고 쿡은 말합니다. “봇,그것은 극단적 인 장기 계획이다.”

이 전략 문제는 오픈아이뿐만 아니라 인공지능 연구에 더 일반적으로 중요하다. 이 방법을 사용하여 만든 인공 지능은 종종 장기적인 보상보다는 즉각적인 보상을 강조하기 때문에 장기 계획의 부재는 종종 강화 학습의 주요 결함으로 간주됩니다. 이 때문에 더 긴 기간 동안 작동 하는 보상 시스템을 구조화 하는 것은 어렵습니다. 언제 이런 일이 일어날지 예측할 수 없다면 적들이 뭉칠 때까지 강력한 주문의 사용을 연기하도록 봇을 어떻게 가르칩니까? 당신은 단지 그 마법을 사용하지 않는 작은 보상을 제공합니까? 그 결과로 그것을 결코 사용하지 않기로 결정한다면 어떨까요? 그리고 이것은 단지 하나의 기본 예입니다. 도타 2 게임은 일반적으로 30~45 분 지속,플레이어는 지속적으로 장기적인 성공으로 이어질 것입니다 어떤 조치를 생각해야합니다.

하지만 봇이 생각없는 보상을 추구하는 그렘린이 아니라는 점을 강조하는 것이 중요합니다. 각 영웅을 제어하는 신경망에는 특정 전략을 배우는 메모리 구성 요소가 있습니다. 그리고 그들이 보상에 반응하는 방식은 봇이 미래의 보수와 더 즉각적인 보상을 고려하도록 형성됩니다. 사실,오픈아이는 인공지능 요원들이 다른 어떤 비교 가능한 시스템보다 훨씬 더 큰 수준으로 이 작업을 수행하며,14 분(대략 말하자면,봇이 미래의 보수를 기다릴 수 있는 시간)의”보상 반감기”를 가지고 있다고 말한다.

강화 학습의 한계에 대해 광범위하게 쓴 쿠렌코프는 강화 학습이”대부분의 인공 지능 연구자들이 상상했던 것보다 훨씬 더 많은 복잡성을 처리 할 수 있음을 보여준다.”그러나 그는 지난 주 패배는 장기적인 사고를 관리하기 위해 특별히 새로운 시스템이 필요하다는 것을 암시한다고 덧붙였다. (당연히 오픈아이의 최고 기술 책임자는 동의하지 않는다.

경기 결과와 달리 확실한 결론은 없습니다. 봇의 성공에 대한 불일치는 인공 지능에서 더 크고 미해결 된 토론을 반영합니다. 줄리안 토겔리우스 연구원이 트위터에서 언급한 바와 같이,우리는 어떻게 장기적인 전략과 그것처럼 보이는 행동을 구별하기 시작합니까? 그것은 중요합니까? 우리가 지금 알고있는 전부는 인공 지능이 특정 영역에서 아직 인간을 생각할 수 없다는 것입니다.

도타 2 는 다양한 능력을 가진 100 명 이상의 다른 영웅을 제공하며,인공지능은 아직 모든 영웅을 마스터하지 못했습니다.
이미지: 판막

공평한 경기장의 불가능성

봇의 영리함에 대해 논쟁하는 것은 한 가지이지만,오픈아이 파이브의 도타 2 경기는 또 다른 근본적인 질문을 제기했다.

게리 마커스,현대 인공 지능의 한계의 존경받는 비평가의 의견을 가져 가라. 지난 주 오픈아이의 경기를 앞두고 마커스는 트위터에서 봇이 공정하게 플레이하지 않는다고 지적했다. 인간 게이머(또는 다른 인공 지능 시스템)와 달리 실제로 화면을 보지 않습니다. 대신,그들은 게임을 이해하기 위해 도타 2 의”봇”을 사용합니다. 이것은 숫자 형태로 무슨 일이 일어나고 있는지 설명하는 20,000 개의 숫자 피드이며,각 영웅의 위치부터 자신의 건강,개별 주문 및 공격의 재사용 대기 시간에 이르기까지 모든 정보를 통합합니다.

마커스가 직전에게 말했듯이,이”장면 인식의 엄청나게 도전적인 문제를 바로 잡고”봇에게 큰 이점을 제공합니다. 예를 들어,팀이 어디에 있는지 확인하기 위해 지도를 검색하거나,가장 강력한 주문이 준비되었는지 확인하기 위해 사용자 인터페이스를 훑어볼 필요가 없습니다. 그들은 적의 건강을 추측하거나 공격이 가치가 있는지 확인하기 위해 거리를 추정 할 필요가 없습니다. 그들은 단지 알고 있습니다.

그러나 이것은 부정 행위로 간주됩니까?

이 대답 할 수있는 몇 가지 방법이 있습니다. 먼저,오픈아이는 픽셀을 읽고 봇이 제공하는 것과 동일한 정보를 검색하는 비전 시스템을 만들 수 있었다. (가장 큰 이유는 엄청난 자원 집약적 이었기 때문입니다.)이 사람이 실제로 그것을했을 때까지 작동 할 경우 아무도 알 수 없기 때문에,판단하기가 까다 롭습니다. 그러나 그것은 아마도 관련이 없습니다. 더 중요한 질문은 다음과 같을 수 있습니다: 우리는 인간과 기계 사이에 공정한 싸움을 할 수 있습니까? 결국,인간이 도타 2 를 어떻게 플레이하는지 근사하고 싶다면,마우스와 키보드를 작동시키기 위해 로봇 손을 만들어야 할까요? 그것을 더 공정하게 만들려면 손이 땀을 흘려야합니까?

이러한 질문은 약간 우스꽝 스럽지만 인간과 컴퓨터 사이에 진정한 공평한 경기장을 만드는 것이 불가능하다는 것을 강조합니다. 기계는 비행기가 새처럼 날아가는 것과 같은 방식으로 인간처럼 생각하기 때문에 그런 것은 존재하지 않습니다. 인공 지능 게임 연구원 쿡이 말했듯이: “물론 컴퓨터는 사물에서 우리보다 낫다. 그것이 우리가 컴퓨터를 발명 한 이유입니다.”

우리는 애초에 왜 이런 사건들이 일어나는지 좀 더 깊이 생각할 필요가 있을 것이다. 브록 먼은 게임보다 더 많은 것이 있다는 것을 직전 알려줍니다. “우리가 도타를하는 이유는 우리가 도타를 해결할 수 없기 때문입니다.”라고 그는 말합니다. “우리는 향후 수십 년 동안 세계에 힘을 실어 줄 수있는 인공 지능 기술을 개발할 수 있다고 생각하기 때문에 이에 참여하고 있습니다.”

이 야심 찬 주장에 진실이있다. 이미 오픈아이 5 를 가르치는 데 사용되는 교육 인프라(빠른 시스템이라고 함)는 다른 프로젝트로 전환되고 있습니다. 예를 들어,새로운 수준의 인간과 같은 손재주를 가진 물체를 조작하는 로봇 손을 가르치기 위해 그것을 사용했습니다. 언제나처럼 인공 지능에는 한계가 있으며 빠른 것은 모든 알고리즘이 아닙니다. 그러나 일반적인 원칙은 다음과 같습니다:임의의 목표(비디오 게임에서 인간을 때리는 것과 같은)를 달성하는 데 필요한 작업은 인공 지능의 전체 분야에 박차를 가하는 데 도움이됩니다.

한국의 바둑 선수 이세돌은 2016 년 알파고에게 맞았지만 그 결과 새로운 기술을 배웠다.
사진:구글/게티 이미지

또한 기계에 의해 도전 사람들을 도와줍니다. 알파고 이야기의 가장 매력적인 부분 중 하나는 인간 챔피언 이세돌이 인공지능 시스템에 맞았음에도 불구하고,그와 고 커뮤니티의 나머지 부분도 그로부터 배웠다는 것이다. 알파고의 플레이 스타일은 수세기 동안 받아 들여지는 지혜를 화나게했습니다. 그 움직임은 여전히 연구되고 있으며,리는 기계에 대한 그의 경기 후 연승에 갔다.

같은 일이 이미 도타 2 의 세계에서 일어나기 시작:플레이어는 새로운 전술과 움직임을 밝히기 위해 오픈 타이 파이브의 게임을 공부하고 있습니다. 플레이어가 적의 범위를 벗어나 신속하게 특정 무기를 충전 할 수 있습니다 적어도 하나의 이전에 발견되지 않은 게임 정비사는,로봇에 의해 발견 인간에게 전달되었습니다. 인공 지능 연구원 메리 티는”나는 새로운 전략을 배울 수 있도록 말 그대로 앉아서 이러한 경기를보고 싶다. 사람들은 이런 것들을 보고”이것은 우리가 경기에 참여해야 할 것이다.”

인공지능이 인간을 가르치는 이러한 현상은 앞으로 더욱 흔해질 것이다. 이상한 방법으로,그것은 거의 자비의 행위처럼 보인다. 마치 인간의 은혜를 보여주는 것처럼,봇들은 우리의 능력을 따라 잡을 때 우리에게 이별의 선물을주고 있습니다. 인공지능은 인간이 우리 자신을 가르치기 위해 발명했던 또 다른 방법일 뿐이다. 그러나 그것이 우리가 노는 이유입니다. 그것은 우리와 기계에 대한 학습 경험입니다.

게임

게임

게임

쓰시마의 유령은 존 윅의 감독에서 영화 적응을 받고있다

게임

파이널 판타지 8 세는 이제 이오스와 안드로이드

게임의 모든 이야기보기



+