游戏力：人机对弈五十年小史

2017-06-24姜姝姝

机器人产业 2017年3期

关键词：蒙特卡洛人机棋手

□文/姜姝姝

游戏力：人机对弈五十年小史

□文/姜姝姝

近日，AlphaGo2.0来中国，与它有关的中国乌镇·围棋峰会在5月23日于乌镇举行，“人机大战第二季”大幕拉起。实际上，围棋领域的人机大战并不是一个“新鲜”话题。围棋作为一种开启智力的“游戏”，人机对弈已有近50年历史。

围棋是“外星人的杰作”吗？

究竟是何人发明了围棋，说法甚多。追溯流传最久最远的一种说法是“尧造围棋，丹朱善之”。这句话据传是出自已佚名的《世本》一书，《世本》相传成书于战国时期，司马迁也曾采用过不少《世本》中的资料，但《世本》并没有流传下来。《大英百科全书》中说：“围棋，公元前2356年起源于中国。”《美国百科全书》说：“围棋于公元前2300年由中国发明。”公元前2356年，即尧即位元年，显然世界上最权威的百科全书，所依据的也是中国“尧造围棋”的传说。

但根据比较可靠的考证，围棋不是一发明出来就完善到今天这个样子——横竖十九道。敦煌及河北等地就曾出土过十七道的围棋盘和围棋子及其他资料。至于相传尧造围棋一说，与神农氏尝百草的传说也有异曲同工之处。

围棋最先传入东邻日本，是在南北朝时期，这也是围棋发展的一个重要阶段。当时已经开始按棋艺的高低将棋手分为不同的等级。南朝的梁武帝为了推进围棋的发展，设立了“棋品制”，将棋品定为“九品”，沿袭至今的段位制即来源于此。十六世纪，渡海而来的欧洲人也初次接触到了中国的围棋。著名传教士利玛窦在自己的日记里记载，中国人有好几种这类的游戏，但他们最认真从事的是玩一种在三百多个格的空棋盘上用两百枚黑白棋子下的棋，一望即知，这显然是在介绍围棋。

围棋的英译名Go是日语的发音译来的，围棋在日语里写成“碁”（即GO的发音），把围棋译成Go或者The game of go大概是最蹩脚的翻译了，尤其是在互联网时代，把围棋译成Go非常不利于围棋的推广，但AlphaGo的出现或能改变这个事实。

当然，还有一些西方人认为，围棋是外星人发明的，是外星人给地球人的礼物。谈到这个问题，聂棋圣曾经快人快语，“我猜测，围棋应是外星人创造的。当然，对于这一说法，我也没有证据。我只是觉得，围棋太深奥了，人类不可能创造出来”。的确，公元前2000多年距今已有近5000年，能发明出像围棋这样高智慧的竞技模式是一个谜。

游戏是知识之源，自古以来，围棋备受帝王、将军和知识分子、神童的喜爱，在国外包括爱因斯坦、约翰纳什和图灵等都是围棋的爱好者。

第一代围棋AI是中国教授发明

棋类游戏是人类智能的挑战，自然也成了人工智能的标志之一。而围棋一直被认为是人工智能领域里的非常困难的挑战。二战没结束，图灵就研究计算机下棋，他在1947年编了第一个下棋程序，但直到1968年最早的电脑围棋程序才被编写出来。

它是由Albert Lindsey Zobrist开发的，引入了一个评估函数对棋局进行分析，来估算双方占空的大小。然而，在国际象棋里能够得心应手地杀败世界冠军，放在围棋里却行不通了，在相当长的一段时间里，业界的普遍观点是电脑围棋只能达到业余棋手的水准。

真正意义上的第一代围棋AI——“手谈”，是由已故中山大学化学系教授陈志行研发的围棋程序，从1993年到2002年共10次获得电脑围棋世界冠军，而“手谈”这个名字也是围棋除“弈”之外的别称。说围棋是“手谈”意思是对弈双方通过一递一着进行着无言的交谈，同样达到了交流思想、融洽情感的目的。

陈志行教授原本研究的是量子化学，但同时也是围棋业余高手。在1991年退休后，他才开始潜心研发电脑围棋软件，虽然当时的电脑软件技术水平还非常低，而围棋棋盘大（19x19，一共有361点），空间状态多，打劫、终局规则复杂，一般程序员至少需要设计一两年才可能让电脑学会下围棋。但量子化学专业出身的陈志行使用速度快但不太常用的汇编程序语言搭建围棋框架和编写围棋对弈引擎，他潜心编写的“Alpha-Beta搜索引擎”速度非常快，在当时领先其他同行几个数量级，达到了13层搜索深度。也就是说“手谈”可以算清后面的13步棋，而其他程序通常只能算七八步。陈志行编写的“模式识别”专家系统在当时也是无人能及。

陈志行潜心研发“手谈”3年后，终于在世界比赛中斩获首个世界冠军。当时的“手谈”以战斗力超强著称，智能水平遥遥领先国际同行。之后“手谈”对弈水平不断进步，在国际性的电脑围棋对弈比赛上连续夺冠，夺得了该时期大部分世界比赛的冠军。

当时个人电脑系统刚在世界范围内普及，许多围棋爱好者还专门购买电脑安装“手谈”软件，用作学习围棋和训练的工具，“手谈”软件在世界范围内销售量排名第一。可以说，“手谈”软件的成功在国内掀起了一波围棋人工智能研究的热潮。

“蒙特卡洛树”算法开启二代围棋AI

当如IBM深蓝那样的超级电脑，已经能够击败世界上最好的国际象棋棋手时，围棋软件却始终无法击败世界顶级围棋棋手。

但是，从2006年开始，随着应用蒙特卡罗方法的树搜索即蒙特卡洛树搜索和机器学习在围棋上的应用，电脑围棋水平有了突飞猛进的增长，棋力普遍提升到业余高段的水准。

姜姝姝

本刊副总编辑

围棋的棋子多，组合可能性也多，画出博弈树的所有可能枝叶后，在上面跑α-β不太经济。于是聪明人想到了蒙特卡罗方法。蒙特卡罗方法最常用的教学例子就是计算圆的面积：在一个正方形里贴边画一个圆，然后随机向这个正方形里扔沙粒，扔到足够多时，开始数有多少沙粒落在圆里，结果除以所扔沙粒总数再乘以正方形面积，就是圆的面积。蒙特卡洛算法是一种基于“随机数”的计算方法，这一方法源于美国在一战中研制原子弹的“曼哈顿计划”。频率决定概率，围棋对弈软件将最常见的对弈定式及棋形输入其中，从而达到较短时间提高棋力的功效。用通俗的语言解释了这种算法：“简单来说，人脑下围棋靠的是逻辑思维，而蒙特卡洛算法就是一个抽样调查的方法。其实就是一个赌博概率式的方法，如果电脑下100盘棋，用这种下法赢了60盘，用另一种下法只赢了50盘，那么，它就会认定第一种下法，而淘汰另一种下法。”

蒙特卡洛树搜索算法的出现，可以看作是人工智能取得突破性进展的标志：计算机的思考方式，已经有点接近人类的思维方式了。目前使用蒙特卡洛树搜索的围棋对弈软件有疯石围棋（CrazyStone）、银星围棋（SilverStar）、天顶围棋（ZEN）等电脑围棋程序都取得了不错的成绩。

2011年8月欧洲围棋大会，电脑围棋软件ZEN在19路盘上让五子击败日本职业棋手林耕三六段。2012年3月，ZEN被让四子击败了日本超一流棋手武宫正树九段，这是围棋程序首次在让四子的情况下战胜第一流职业选手。2013年，CrazyStone被让四子击败日本石田芳夫九段，2014年，CrazyStone被让四子击败日本依田纪基九段。可见围棋软件进步迅速，至少比起十年前对弈水平已经提高一大截，受让四子优势明显。

2015年10月，同样基于蒙特卡洛树搜索的Google旗下人工智能公司DeepMind开发的AlphaGo，在没有任何让子的情况下，以五战全胜的成绩击败了欧洲围棋冠军——职业围棋二段樊麾，这也是电脑围棋程序首次击败围棋职业棋手，当然也意味着围棋AI新时代的来临。

AlphaGo、绝艺以及人机协作

围棋AI之难，难在这项运动本身的多重复杂性——“最简单的规则，最复杂的变化”。在AlphaGo及其开发团队DeepMind出现之前，几乎所有研究者都认为在十年内人工智能战胜围棋大师的机会是渺茫的。而在它出现以后，几乎所有人都在惊呼人工智能已破解了围棋这一历史难题，甚至在极短的时间内两次让研究成果上了《Nature》杂志的封面。

据AlphaGo官方介绍，AlphaGo采用了一种更加“通用”的人工智能方法，即采用将改进的蒙特卡洛决策树算法与深度神经网络算法相结合的方法构建最终的学习系统。其包括两个部分：策略网络与价值网络。策略网络在当前给定的棋局中，负责预测下一步的走棋，并对下一步走棋的好坏进行打分，策略网络的作用好比“模仿”人类棋手的各种走法，以达到预测的效果。然而仅凭模仿无法击败最顶级的人类高手，AlphaGo又增加了价值网络来判断当前的局面，到底对哪一方有利。但围棋程序的局势评估相当困难，只能通过深度学习网络之间自我训练的方法来达到良好的效果。

2016年3月AlphaGo以4:1战胜世界围棋名将李世石，这场被称为全球顶级“人机大战”的对抗中，AlphaGo的实力首次被世人真正认可。但是围棋界人士也表示，李世石心态上准备不足，未必发挥出真实的最高水准。DeepMind创始人Demis Hassabis在赛后也表达，希望AlphaGo能与中国的高水平棋手对弈，比如世界排名第一的柯洁九段，所以DeepMind团队于2017年1月下旬宣布推出新版“AlphaGo”，也就是这次来乌镇的AlphaGo 2.0。这一版本的升级亮点是——摒弃人类棋谱，即仅通过监督学习和强化学习，再度进化出新的“围棋机器人”。柯洁将遭遇一个全新的、更强大的对手。AlphaGo是来自“未来的人”。我会尽我全力去对决。我站在了历史变革的节点，不会说：输了无所谓。不管它有多强大，我都不会言败。柯洁这样说。

事实上，除了AlphaGo现在还有围棋AI程序也已被证明达到甚至超过了人类棋手的一流水平，比如腾讯AI Lab（腾讯人工智能实验室）研发的围棋人工智能程序“绝艺”（Fine Art），它在今年首次参加UEC杯计算机围棋大赛，就以11连胜夺得了本届UEC杯冠军，在随后的人机大战后完胜日本先锋棋手一力辽。

至此，人类棋手与围棋AI，输赢不再是被首要关注的话题。但AI做为工具，被人类棋手“喂招”不断进化后，它也能“反哺”人类，棋手使用围棋AI（人工智能），开展人机协同，AI为人类棋手“蓄力”，1+1>2的进化成为了新看点。

英国著名诗人亚历山大·波普曾经写过一首赞美牛顿的诗：“自然和自然界的规律，隐藏在黑暗里。上帝说：让牛顿去吧！于是，一切成为光明。”牛顿来了，利用模型归纳总结过去记录的现象，发展出了理论科学。DeepMind出现了，随着数据量的高速增长，AI可以分析总结、自我学习，人则可以通过善用AI、人机协作，开启智慧时代，改变现在以及未来一切。