스타크래프트2 배틀넷 상위 0.2% 등극한 AI ‘알파스타’

2019.10.31 03:00
알파스타가 배틀넷상에서 실제 플레이하는 장면. 네이처 제공.
알파스타가 배틀넷상에서 실제 플레이하는 장면. 네이처 제공.

전세계적으로 가장 오랜 시간 동안 인기 있는 게임 중 하나인 스타크래프트의 후속작인 스타크래프트2에서 한 플레이어가 오래된 초반 전략 중 하나인 ‘캐넌 러시(Cannon Rush)’를 감행한다. 캐넌 러시는 유닛을 생산하지 않고 상대 진지 앞에 공격용 캐넌포를 설치해 상대 진지와 유닛을 공격하는 전략이다. 이 전략을 알아채지 못한 플레이어는 패한다.  

 

캐넌 러시 전략을 몰라 패배한 플레이어는 다음 게임에서 캐넌 러시를 수비하는 방법을 터득하고 막아낸다. 이 플레이어는 캐넌 러시 전략을 모르는 플레이어를 유닛 조합과 컨트롤로 물리치지만 또다른 플레이어가 새로운 약점을 찾아내 이 플레이어를 물리친다. 이같은 훈련 과정을 거친 플레이어는 스타크래프트 온라인 플랫폼 ‘배틀넷(Battle.net)’에서 상위 0.2%에 속하는 ‘그랜드 마스터’ 레벨에 올랐다. 이 플레이어는 인간이 아닌 인공지능(AI) 시스템이다. 

 

지난 2016년 3월 한국의 세계적인 바둑 기사 ‘이세돌’을 물리친 바둑 AI ‘알파고’로 유명세를 탄 영국 AI 기업 딥마인드가 스타크래프트2도 정복했다. 딥마인드는 자체 개발한 AI ‘알파스타(AlphaStar)’가 스타크래프트2 배틀넷에서 ‘그랜드 마스터’ 레벨에 등극한 연구논문을 국제학술지 네이처 30일(현지시간)자에 발표했다. 

 

2016년 알파고는 머신러닝과 딥러닝, 강화학습으로 알려진 AI 알고리즘으로 탄생했다. 인간이 입력한 수많은 기보 데이터 학습과 훈련을 통해 승리 확률이 가장 높은 한 수를 찾아나가는 인공지능이다. 2017년 10월 딥마인드는 업그레이드된 ‘알파고 제로’ 버전을 또다시 학술지 네이처에 공개했다. 알파고 제로는 인간의 기보 데이터나 훈련 없이 알파고 제로끼리 대국을 시작해 최종 승률이 가장 높은 수를 스스로 학습하고 바둑 이론을 업데이트했다는 점에서 기존 알파고와는 다르다. 

 

데미스 허사비스 딥마인드 창업자는 2018년 말 또다시 인류의 난제 중 하나인 단백질 3D 구조를 예측하는 ‘알파 폴드(AlphaFold)’를 공개해 과학계를 놀라게 했다. 단백질 3D 구조를 예측할 수 있으면 생명체의 근원 현상과 질병 원인 등을 보다 쉽게 파악할 수 있기 때문이다. 

 

딥마인드 연구진이 이번에 공개한 알파스타는 기존 AI와는 달리 범용 머신러닝 기술을 활용해 ‘확장 가능한 학습(Open-Ended Learning)’의 가능성을 제시했다는 점이다. 바둑이나 체스, 단백질 구조 등 특정 목적으로 개발된 AI가 아니라 범용 머신러닝으로 다양한 분야에 응용 가능한 새로운 AI를 내놓은 것이다. 

 

딥마인드 연구진은 스타크래프트2를 위한 AI 개발을 검토하며 기존의 ‘강화학습’이 스타크래프트에서는 효과가 없다는 사실을 알아냈다. 강화학습(Reinforcement Learning)은 머신러닝의 일종으로 컴퓨터 시스템이 주어진 상태에 대해 최적의 행동을 선택하는 학습 방법이다. 강화학습이 스타크래프트에서 비효율적인 이유는 게임에서의 액션이 일어나는 공간이 워낙 변화무쌍하기 때문이다. 컴퓨터에 ‘주어진 상태’를 제시하는 게 사실상 불가능하다는 판단이다. 

 

스타크래프트는 가상의 공간에서 제한된 정보를 이용해 예기치 못한 영향을 미치는 역동적이고 어려운 결정을 해야 하는 실시간 전략 시뮬레이션 게임이다. 연구진은 알파고 제로를 만들 때처럼 알파고끼리 대결을 시키는 ‘셀프 대국’과 유사한 AI 간 ‘셀프 플레이(self play)’와 ‘멀티 에이전트 러닝’, 그리고 인간의 전략을 모방하는 ‘이미테이션 러닝(Imitation Learning)’ 등을 결합해 알파스타를 개발했다. 

 

셀프플레이는 AI간 시도와 실패를 통해 승리 확률을 최대화하는 방식이다. 그러나 셀프플레이는 한계가 있었다. 연구진은 셀프플레이의 한계는 마치 ‘가위바위보 AI’ 같다고 했다. 처음에 바위를 내다가 셀프플레이가 진행될수록 가위나 보를 내게 되고 다시 결국엔 바위를 내는 순환에 빠진다는 것이다. 

데이빗 실버 딥마인드 연구원(가운데)과 딥마인드 연구진. 네이처 제공.
데이빗 실버 딥마인드 연구원(가운데)과 딥마인드 연구진. 네이처 제공.

순환의 문제를 해결하기 위해 연구진은 다양한 AI그룹으로 리그를 치르는 개념을 도입했다. 그러나 이길 가능성을 최대화할 뿐 강력해지지 않았다. 실제 스타크래프트 플레이어들은 훈련 파트너를 통해 전략의 약점을 찾아내고 이 약점을 극복하는 해결책을 제시하는 과정을 반복하며 실력을 쌓는다. 연구진은 이처럼 이른바 ‘메인 AI’가 강해질 수 있도록 하는 데 초점을 맞춘 AI를 설정해 복잡한 전략을 습득한 알고리즘을 만들어냈다. 앞서 소개한 캐넌 러시와 같은 과정을 반복한 것이다. 여기에 언어 AI 학습에 할용되는 아키텍처와 기술을 결합한 ‘모방 학습(Imitation Learning)’ 기술을 적용해 알파스타를 훈련시켰다.  

 

익명의 플레이어로 배틀넷에 참가한 알파스타는 프로토스와 테란, 저그 모든 종족으로 플레이해 상위 0.2% 플레이어에 올랐다. 인간 플레이어와의 차이점은 시각 정보를 카메라를 통해 얻었다는 점 뿐이다. 이 카메라도 스타크래프트2 선수들의 시각 처리 능력과 유사하게 조정했다. 

 

연구에 참여한 마인드의 오리올 비니얼즈(Oriol Vunyals) 연구원은 “알파스타 연구로 범용 머신러닝 기술을 통해서도 복잡한 변수가 관여하는 역동적인 환경에서도 제 역할을 할 수 있는 AI를 개발할 수 있다는 가능성을 제시했다”며 “바둑처럼 한정된 목적이 아닌 다양한 실생활 분야에서 AI 응용이 가능할 것으로 기대된다”고 말했다. 

메일로 더 많은 기사를 받아보세요!

댓글 0

작성하기

    의견쓰기 폼
    0/150