[전문가강좌] 알파고 은퇴 후 컴퓨터바둑 현황 저자: 김진호 ETRI 기술기획부 기술기획전문위원
알파고의 충격은 아직도 진행형이다. 바둑을 모르는 일반인들은 SF영화처럼 기계가 인간을 지배하는 세상이 온 것 같은 막연한 감성적 공황에 빠졌다. 컴퓨터 바둑 엔지니어들은 인간이 획득한 바둑지식을 컴퓨터 바둑 프로그램으로 구현하는 방법이 잘못되었음을 비로소 깨달았다. 응씨배 세계 바둑대회를 개최했던 대만의 잉창기 회장은 2000년까지 프로기사를 이기는 컴퓨터 바둑 프로그램에 백만 달러의 상금을 준다고 공언했다. 많은 엔지니어들이 도전했지만 2000년까지 개발된 컴퓨터 바둑 프로그램은 아마추어 저단자 수준에 불과했다. 알파고가 등장하기 바로 이전인 2015년 컴퓨터 바둑 프로그램 최고수는 프랑스의 크레이지 스톤(Crazy Stone), 일본의 젠(ZEN), 한국의 ‘돌바람’인데 아마 5단 수준으로 프로기사에게 4점 접히는 기력이었다. 알파고(AlphaGoLee)의 알고리즘은 몬테카를로 트리 탐색(MCTS, Monte Carlo Tree Search)과 컨볼루션 신경망(CNN, Convolutional Neural-Net)과 강화학습(Reinforcement Learning)을 통한 딥러닝(Deep-Learning) 방식이 적용되었다. CNN으로 구현한 정책망(Policy Network)으로 바둑판 착수지점을 판단하며 가치망(Value Network)으로 이길 확률을 계산한다. 알파고는 인터넷 바둑 서버 KGS에 저장된 아마추어 고단자 기보 16만 판으로 초기 정책망 학습후 강화학습으로 기력을 향상시켰다. 알파고제로(AlphaGoZero)는 CNN 대신 ResNet(Residual Network)을 사용했고 정책망과 가치망을 통합해 단순화시켰다, MCTS, CNN, 강화학습, ResNet 등은 이미 알려진 기법인데 바둑 프로그램에 적용해 프로기사를 능가하는 결과를 내었다. 알파고제로는 인간 기보에 의존하지 않고 바둑 규칙만 알려주고 구글의 TPU(Tensor Processing Unit) 2,000개를 사용하며 자가 대국으로 학습했다. 36시간 만에 알파고(AlphaGoLee)를 능가했고, 40일동안 2,900만 판 학습한 결과 Elo 레이팅이 5,185에 도달했다. ▲ 알파고제로의 기력 비교 (출처: 딥마인드) 딥마인드의 논문에 따르면 이세돌을 이긴 알파고는 Elo 점수가 3,739이고 알파고제로는 5,185인데, 프로기사는 3천대 초중반이다. Elo 점수가 4백~5백 차이날 때 한 점씩 기력 차이가 있다. 프로기사 최고수를 3,500 로 추정하면 알파고제로와 1,685점 차이나므로 3점 이상의 기력차이로 예상된다. 한국기원에서는 딥마인드 측에 알파고를 명예 9단 프로기사로 인정하는 단증을 수여했다. 그렇지만 알파고제로는 인간의 바둑지식으로는 이해하기 힘든 50국의 자가 대국 기보를 공개하고 2017년 5월 전격 은퇴했다,
구글 엔지니어 앤드류 잭슨(Andrew Jackson)은 딥마인드 소속이 아니며 개인적으로 바둑을 좋아하는 미국 바둑협회 소속의 동호인이다. 프로그래머 재능을 기부하며 오픈소스로 미니고(MiniGo) 개발을 시작했다. 미니고는 텐서플로우 기반으로 구글의 TPU를 활용해 학습하는 방식이다. 현재 v17 버전이 나왔으며 기력은 프로기사를 능가하는 수준이다. 페이스북은 기업이지만 오픈소스로 엘프고(ELF OpenGo)를 개발하고 있다. 페이스북은 2016년 다크포레스트(DarkForest) 라는 바둑 프로그램을 개발하며 딥마인드와 경쟁했으나 프로기사를 이긴 알파고와 달리 프로기사에게 3점 접히고도 지는 기력이었다. 체면을 구긴 페이스북은 2018년 딥러닝을 적용한 엘프고 오픈소스 개발을 선언했으며 현재 프로기사를 능가하는 수준의 v2 버전까지 개발되었다. ▲ AI 바둑 프로그램 로고 (출처: 나무위키) 릴라제로, 미니고, 엘프고는 모두 알파고제로를 재구현하는 목적으로 개발되고 있어 구동엔진을 릴라제로 엔진으로 공유한다. 뉴럴넷의 가중치 파일만 릴라제로용, 미니고용, 엘프고용으로 바꾸면 릴라제로, 미니고, 엘프고가 되는 방식이다. 알파고제로를 기반으로 개발된 이들을 통상적으로 제로 계열 바둑 프로그램이라고 한다. 카타고(KataGo)는 데이비드 우(David J. Wu)가 오픈소스로 개발하고 있는 바둑 프로그램인데 알파고제로가 아닌 독자적인 방식이다. 알파고제로를 기반으로 제로 계열 방식은 점이 7.5점으로 고정되어 있고 접바둑을 잘 두지 못하며 축버그가 발생하는 약점이 있다. 이러한 약점을 극복한 방식으로 카타고가 구현되었다. 카타고는 제로 계열 방식보다 학습속도가 빠르고 중국룰, 한국룰 등 다양한 바둑 규칙을 적용할 수 있고 덤을 자유롭게 조절할 수 있으며 특히 접바둑에 강하다. 현재 v1.3.2까지 개발되었는데 릴라제로를 능가하는 수준이다. 오픈소스로 개발되고 있는 AI 바둑 프로그램들은 알파고 수준을 이미 넘어섰고 알파고마스터(AlphaGoMaster) 기력에 근접하고 있다. 개발에 참여하는 자원봉사 엔지니어들에 의해 지금도 소스코드가 수정되고 있으며, 컴퓨팅 자원을 기부한 전세계 컴퓨터에 의해 분산 컴퓨팅으로 자가대국을 통해 기력이 향상되고 있다. 오픈소스로 개발되고 있는 AI 바둑 프로그램은 누구나 깃허브에서 다운로드 받아 컴파일해 사용할 수 있지만 깃허브 오픈소스는 컴퓨터를 잘 모르는 일반인에게는 사용하기에 문턱이 높다. 컴퓨터는 잘 모르지만 AI 바둑 프로그램을 사용코자 하는 일반인을 위해 오픈소스 AI 바둑 프로그램을 설치할 수 있는 통합팩을 제공하는 ‘세븐틴’이라는 블로거도 있다. 이 블로거는 전산 관련 전공자인데 사회에 재능 기부를 하는 셈이다. 통합팩 목록에 있는 AI 바둑 프로그램은 릴라, 릴라마스터(인간기보학습), 릴라제로(자가학습), 릴라제로변형판, 미니고(v15,v16,17), 엘프고(v1,v2), 카타고, AQ, Fuego, GnuGo, pachi, Ray 등이다. 오픈소스로 개발되고 있는 AI 바둑 프로그램 덕분에 한국에는 신종 직업도 생겼다. 통합팩의 AI 바둑 프로그램들을 고객의 PC에 설치하고 업데이트 등의 관리를 해준다. 원하는 AI 바둑 프로그램 기력에 적합한 PC 하드웨어도 추천하고 판매한다.
AI 프로그램이 추천하는 수도 참고도로 제공하기도 한다. 타이젬, 한큐바둑 등 인터넷 바둑 사이트에서는 AI 프로그램으로 대리 대국하는 사용자가 많아지고 있다. 집에 성능 좋은 그래픽보드를 장착한 PC를 마련하고 릴라제로 등의 AI 프로그램을 실행시켜 인터넷 대국 상대의 착점을 놓으면 AI 프로그램이 거기에 대응하는 착점을 표시하는데 이를 인터넷 대국 화면에 옮겨 놓는 방식이다. 마치 아자황(Aja Huang)이 이세돌과 겨루는 알파고의 착점을 마우스로 옮겨 놓았던 방식이다. AI 바둑 프로그램 기력이 프로기사보다 세다보니 사람과 두지 않고 AI 프로그램 대리 대국자끼리 맞붙는 경우가 많다. 이들은 스스로를 인공유저(인공지능 바둑 프로그램 사용자)로 부르며 대국을 즐기는데 동일한 AI 바둑 프로그램을 이용하더라도 컴퓨터 사양이 높은 쪽이 이길 확률이 높다보니 최신형 PC 본체를 구입하고 고사양의 그래픽카드를 장착하는데 주저하지 않는다. ▲ <표1> 알파고 이후 AI 바둑 프로그램 개발현황 2. 중국과 일본의 AI 바둑 프로그램 개발 현황 2016년 100억 규모의 AI 연구소 자원을 투입해 중국판 알파고 개발에 돌입했다. 글자 그대로 패스트팔로워 전략이다. 중국판 알파고의 명칭은 절예(絶藝, FineArt, ‘줴이’라고 발음)이다. 절예는 2017년 3월 29개 컴퓨터 바둑 프로그램이 참가한 제10회 일본 전기통신대학(UEC) 컴퓨터 바둑대회에서 일본의 딥젠고(DeepZenGo)를 꺽고 우승하며 화려한 등장을 알렸다. 2018년 4월 Berry Genomics Cup 세계 AI바둑대회에서 절예는 봉황(PhoenixGo)에게 져 준우승했지만 봉황도 텐센트 AI 연구소에서 개발한 프로그램이다. 절예가 알파고처럼 인간기보를 학습한 방식인데, 봉황은 알파고`제로처럼 자가 대국으로 학습하는 방식이다. 다시 말해 봉황은 절예-제로인 셈이다. 이후 봉황은 AI 바둑대회에 출전하지 않고 절예만 출전하는 걸로 봐서 봉황의 제로계열 학습방식을 절예에 이식한 것으로 추정된다. 이후 절예는 2018년 텐센트배 AI 세계바둑대회, 2019년 중신증권배 세계AI바둑오픈 (제3회) 등 출전대회마다 우승을 하고 있다. 중국 바둑계는 2018년 4월 23일 텐센트와 공식적으로 바둑 국가대표팀의 훈련 전용 AI로 절예를 사용하기로 했고 외부에는 프로그램을 공개하지 않기로 합의했다. 절예를 개발한 텐센트 인공지능 연구소(Tencent AI Lab)는 50여명의 인공지능 전문가와
200여명의 엔지니어로 2016년 4월 출범했다. 텐센트는 AI 기술의 4대 응용분야를 콘텐츠,
SNS, 게임, 플랫폼으로 설정하고 AI 기술발전을 도모하고 있다. 중국 AI 바둑의 또 다른 강자 ‘골락시’ 골락시는 2018년 7월 텐센트배 AI 세계바둑대회에 처음 등장하며 결승에서 절예에게 져 준우승했다. 이후 절예가 출전하지 않는 AI 바둑대회는 모두 우승했다. 최근 2019년 8월 중신증권배 세계AI바둑오픈(제3회)에서 절예와 결승전을 치뤘지만 또 지고 말았다. 절예를 제외한 나머지 AI 바둑 프로그램 보다 우세한 기량을 보이지만 텐센트라는 중국 대기업이 후원하는 절예는 넘어서지 못하고 있다. 일본에서는 2008년부터 일본 전기통신대학(UEC) 컴퓨터 바둑대회도 개최되고 있고 젠(Zenith Go, 줄여서 Zen)이라는 상용 바둑 프로그램도 오래전부터 판매되고 있다. 알파고의 영향을 받아 2016년에는 젠에 딥러닝 기법을 도입해 딥젠고(DeepZenGo) 개발을 시작했다. 딥젠고는 드완고 라는 기업과 동경대학에서 딥러닝 접목을 지원받아 완성되었다. 딥젠고는 2017년 3월 일본 전기통신대학 컴퓨터 바둑대회(제10회) 준우승, 2017년 8월 중신증권배 세계 AI바둑대회에서 우승하는 등 프로기사에 필적하는 기력을 갖추었다. 딥젠고 홍보를 위한 이벤트 기전으로 2017년 월드바둑챔피언십이 개최되었다. 한중일 대표 프로기사 3명과 딥젠고가 리그전을 벌였는데 주최측의 기대와 달리 딥젠고는 3위에 그쳤다. 2017년 제3회 몽백합배 세계바둑오픈전에 와일드카드 자격으로 32강 본선에 출전했다. 본선 첫판에서 중국선수에게 져 탈락했지만 세계대회에 출전한 첫번째 바둑 프로그램이 되었다. 딥젠고 개발팀은 기력향상에 한계를 인지하고 개발을 중단하며 딥젠고의 은퇴를 선언했다. 이후 일본은 기존 프로그램인 AQ와 Ranyz를 통합한 Globis-AQZ를 개발했는데 4,000개의 GPU가 지원되었다. 그러나 2019년 12월 일본 전기통신대학 컴퓨터 바둑대회(제11회)에서 골락시에 이어 준우승에 머물렀다. ▲ <표2> 세계 AI 바둑대회 3. 한국의 AI 바둑 프로그램 개발 현황 바두기(BaduGI)는 이주영 고등과학원 교수가 개발하고 있다. 이주영 교수는 단백질 구조예측 분야를 수십년간 연구한 전문가인데, 딥마인드가 알파폴드라는 프로그램으로 단백질 구조예측 (CASP) 학술대회에 처음 출전해 1위를 획득하며 본인의 수십년 연구성과를 뛰어넘은데 충격을 받고 알파고 논문을 분석했다. 또한 알파고 논문를 직접 구현해 프로기사를 능가하는 기력이 나오는 지 확인하려고 연구과제를 신청해 바두기를 개발했다. 바두기는 2018년 4월 첫 출전한 2018 세계 AI바둑대회에서 5위를 달성했다. 2018년 10월 SK그룹의 재정 지원과 고등과학원 자체 투자로 120개의 GPU를 증설했는데, 자체 대국 수가 하루 2천 판에서 5만 판으로 증가해 기력이 프로기사 수준을 넘어섰다. 2019년 5월 보소프트컵(Bossoft Cup) 2019 세계AI바둑대회에 준우승, 2019년 12월 일본 전기통신대학 컴퓨터 바둑대회(제11회) 3위의 성과를 거뒀다. 한돌(HanDol)은 국내 인터넷 대기업인 NHN에서 전격 개발한 AI 바둑 프로그램이다. 돌바람, 바두기와 달리 대기업이 본격적으로 AI 바둑 프로그램 개발에 참여함으로써 텐센트의 중국, 산학연의 일본과 대등한 경쟁에 들어갔다고 볼 수 있다. 한돌 또한 알파고제로를 구현하는 제로 계열의 AI 바둑 프로그램이며 2017년 연말에 공개되었다. NHN 한게임 바둑 사이트에서 한돌과의 대국을 서비스하고 있으며 지속적으로 업그레이드해 버전 2.0 까지 개발되었다. 세계 AI 바둑대회는 2019년 8월 중신증권배 AI 바둑대회에 첫 출전해 3위를 차지했다. 1위가 절예, 2위가 골락시 임을 감안하면 좋은 성적이다. 2019년 12월 이세돌 은퇴기에서 한돌의 축버그가 발생해 1패를 당했는데, 알파고도 이세돌에게 1패 당한 후 알파고제로를 내놨듯 한돌도 성능 더 좋은 AI 프로그램으로 업그레이드 될 것으로 기대된다.
중국 프로기사 커제와의 공식대결에서 3승 0패를 거두며 알파고의 1패를 만회했다. 알파고마스터만 해도 인간 기보를 학습한 버전이었다. 2017년 10월 출시한 알파고제로는 알파고마스터와 동일한 알고리즘에 동일한 컴퓨팅 사양을 적용했지만, 인간 기보를 전혀 학습하지 않고 바둑규칙만 알려주고 스스로 대국해 기력을 성장시키는 방식을 채택했다. 알파고제로는 알파고마스터와의 대결에서 89승 11패를 기록해 한 수 위 기력임을 보였다. 알파고 제로의 학습에는 TPU 2천 개가 투입되었는데 그 연산성능은 2017년 세계 1위 슈퍼컴퓨터에 맞먹는다. 이러한 컴퓨팅 자원을 수개월간 온전히 바둑 연구에만 투입한 것은 AI 시대의 주도권을 확보코자 하는 구글의 전격적 지원 덕분이다. 인간의 바둑지식을 전혀 사용하지 않고 취득한 알파고제로의 바둑지식은 정석, 행마 등 수 천년간 인간이 축적한 바둑지식와 동일한 것도 있지만 인간이 이해하기 어려운 초반 착점과 예측불가인 행마 등 인간보다 더 높은 경지의 지식을 구축한 것으로 보인다. ▲ <표3> 구글 딥마인드 인공지능 활용 성과 구글 딥마인드는 범용 AI를 만들겠다고 호언한 CEO 데미드 허사비스의 말처럼 2017년 12월 알파고제로를 범용으로 만든 알파제로(AlphaZero)를 개발했다. 알파고제로에서 바둑을 의미하는 ‘고’를 떼버려 범용임을 강조했다. 알파제로는 바둑뿐만 아니라 체스, 쇼기(일본식 장기) 등의 보드게임에 범용으로 사용됨을 증명했다. 또한 같은 시기 제13회 단백질 구조예측(CASP, Critical Assessment of Structure Prediction) 학술대회에서 딥마인드는 알파폴드(AlphaFold)를 출전시켜 97개 참가팀 중 1위를 달성했다. 딥마인드의 범용 AI 기술이 게임 뿐만 아니라 인류에게 실질적 도움이 되는 의료 및 생명공학 분야에 활용될 수 있다는 걸 보였다.
이후 딥마인드는 알고리즘을 보완하고 공정성 논란이 일었던 게임 엔진 연동도 하지 않고 배틀넷에서 수개월간 게임을 해 2019년 12월 플레이어 상위 0.2%의 그랜드 마스터 레벨에 등극했다. 보드 게임과 달리 ‘스타크래프트2’는 상대방 정보를 알 수 없는 불완전한 정보의 게임이고 실시간으로 전장을 판단하고 대응해야 한다. 이를 위해 딥마인드는 멀티 에이전트 강화학습 방식을 적용해 인간 게임 데이터로 기본 전략 학습 후 1억 2천만 회 셀프플레이 학습으로 실력을 높였다. 구글의 AI 기술은 구글의 강력한 딥러닝 전용 하드웨어 TPU를 기반으로 한다. 알파고제로, 알파제로, 알파스타 등의 학습에는 방대한 연산량을 커버하기 위한 TPU 컴퓨팅 파워가 뒷받침되었다. TPU도 유한한 자원이어서 컴퓨팅 자원의 효율성을 고려한 범용 AI 필요성을 인지한 딥마인드는 뮤제로를 개발했다. ▲ 뮤제로(Learned Model)와 알파제로(Learned Model)의 연산량 및 기력 비교 뮤제로는 작은 연산량으로도 알파제로의 성능을 낸다는 걸 보였다. 달리 표현하면 알파제로보다 더 빨리 학습할 수 있다. 그러나 학습최종결과의 수준은 알파제로보다 높지 않았다. 빠른 학습이라는 장점보다 더 큰 장점은 게임 규칙을 알려주지 않아도 스스로 규칙을 터득하는 점이다. 알파제로는 게임의 규칙 등을 미리 알려 주어야 하므로 사용에 제약이 있는 반면, 뮤제로는 적용대상에 사전 제약이 없고 일반화된 범용 AI 기술이라는 점이다. 뮤제로는 게임규칙을 알려주지 않은 체스, 쇼기, 57개 아타리게임 등을 알파제로보다 빨리 정복했고, 바둑규칙을 알려주지 않아도 자가대국으로 학습해 알파제로 수준에 도달했다.
실제로 딥마인드는 바둑만 둘 수 있던 2017년 알파고제로 개발 이후 범용 보드게임용 알파제로 개발, 단백질 구조예측 생명공학용 알파폴드 개발, 스타크래프트 비디오 게임용 알파스타 개발을 거쳐 규칙도 스스로 파악하고 컴퓨팅 파워도 적게 소모하는 2019년 뮤제로 개발까지 불과 2년만에 범용인공지능 개발을 선도하고 있다. 손정의 소프트뱅크 회장이 세 번이나 AI를 강조한 것처럼 한국은 지금이라도 AI 연구개발에 패스트팔로워 정책을 펴야 제4차 산업혁명 시대에 생존할 수 있다. 한국은 패스트팔로워를 넘어 퍼스트무버로 가야 한다고 주장하지만, AI 분야의 현실은 슬로우팔로워도 못하고 있다. 지금이라도 굴지의 S그룹, H그룹 등이 AI 중요성을 인지하고 늦었지만 슬로우팔로워라도 해야 AI 시대에 생존할 수 있다. 이주영 고등과학원 교수가 단기간에 중국 텐센트의 절예에 근접하는 바두기를 개발한 바와 같이
한국은 AI 분야에 잠재력을 갖추고 있다. 정부와 기업이 AI 분야에 장기적으로 R&D 연구의
선택과 집중을 한다면 한발 앞서가고 있는 중국을 따라잡는 것은 물론 구글 딥마인드와 범용인공지능 개발
선두다툼에 동참할 수 있을 것이다. |