AlphaGO 背后的人工智能，能教会我们人类什么

2016-09-02凯德梅茨CadeMetz王赛锦

国外社会科学前沿 2016年8期

凯德·梅茨（Cade Metz）王赛锦/译

凯德·梅茨（Cade Metz）
王赛锦/译

选自美国《连线》杂志2016年6月号

日裔美国人黄士杰（Aja Huang）把手伸到一个木碗里，碗里满是圆滑的黑色棋子，他瞧也没瞧一眼，就用中指和食指夹出一个。目光透过金属丝眼镜死死地盯着棋盘，他把手里的棋子放在棋盘上一个几乎空白的区域，在一枚孤零零的白色棋子左下方。在围棋里，这被称为“肩冲”（shoulder hit），即从远离大部分对弈区域的侧边进行攻击。

桌子对面的李世石（Lee Sedol），这个围棋界过去十年里最优秀的选手，僵住了。他看了看棋盘上铺开的37枚棋子，起身默默离开。

在离对弈场50英尺的评论室里，迈克尔·雷德蒙（Michael Redmond）通过闭路电视注视着比赛。雷蒙德是西方世界里围棋唯一达到九段的选手，九段是围棋的最高级别。他和李世石一样震惊。“我不知道这一步走得好还是不好。”雷蒙德对近200万的在线观众说道。

“我觉得那是步错棋。”另外一个英语评论员克里斯·加洛克（Chris Garlock）说道，他是美国围棋协会联络副主席。

几分钟以后，李世石重又走回对弈室。他坐下了，但是并没碰碗里的白色棋子。一分钟过去了，两分钟过去了……15分钟过去了，而棋手对弈一局的基本时限是两个小时，这就占去了不少时间。最后，李世石拿出一枚棋子，就放在黄士杰刚落的那枚黑棋的正上方。

黄士杰的那一步是整局棋的第37步，李世石始终未能挽回局面。4小时20分过去了，李世石选择认输。

但是黄士杰并非这场围棋游戏的真正赢家。他只是遵照指令行事，位于他左侧的一台平板显示器与控制室相连，控制室位于附近的首尔四季酒店，同时还与分布在世界各地的谷歌数据中心的成百上千台电脑相连。在这个或许是人类有史以来设计的最复杂的游戏里，它击败了世界上最厉害的选手之一。

在同一个房间，另外一位围棋专家也在观战，他就是三届欧洲围棋冠军樊麾（Fan Hui）。一开始，第37步棋也令他迷惑。但他与AlphaGo对弈过。与其他人相比，他还兼具AlphaGo的陪练身份。5个月中，樊麾与机器下了数百局，目的是为了让它的创造者知道问题所在。樊麾经常输给机器，但是他也渐渐了解了AlphaGo，比其他任何人都了解得多。樊麾认为，那个“肩冲”不像是人类会走的一步棋。但是想了10秒钟之后，他明白了。“漂亮，”他说道，“太漂亮了！”

在这种五局三胜制里，现在AlphaGo以二比零的优势领先李世石，甚至是整个人类。第37步说明，AlphaGo并不只是重复多年来的编程，或者是通过暴力预测算法来机械地落子。在那一刻，AlphaGo证实了，它有理解的能力，或至少是有别于真实事物的模仿理解力。在李世石眼中，AlphaGo展示了围棋选手所言的“直觉”，也就是它能以类人的方式，甚至是超越人类的方式进行一场漂亮的对弈。

但是不要为李世石的失败，或人类的失败掩面哭泣。李世石并非殉道者，第37步棋也不是机器超越人类的标志。恰恰相反：第37步标志着机器与人类共同进步的开始。

大卫·席尔瓦（David Silver）领导的团队创造了AlphaGo

当大卫·席尔瓦还是一名来自英格兰东海岸城市萨福克（Suffolk）的15岁国际象棋锦标赛选手时，戴密斯·哈萨比斯（Demis Hassabis）已经是一名战无不胜的国际象棋神童了。哈萨比斯是个不折不扣的神童，他妈妈是中国和新加坡混血，爸爸是希腊和塞浦路斯混血，他们一家人都住在伦敦。他曾是世界上14岁以下棋手中段位排名第二的选手。他常常通过参加一些地方赛事来保持自己思维的灵活性，也顺道挣些外快。“我知道戴密斯时他还不知道我，”AlphaGo团队的领导者席尔瓦说道，“我曾经见到他出现在我们镇子上，赢了比赛，然后离开了。”

到剑桥读本科时，他们才正式见了面，二人都学习计算神经科学，为的是理解人类思维，以便有一天也赋予机器一点儿智力，像人一样。但是两人真正深入交往却是出于游戏，包括棋牌游戏和计算机游戏。

1998年，二人毕业之后很自然地开创了一家电子游戏公司。哈萨比斯经常和一名同事下围棋。席尔瓦被哈萨比斯的游戏兴趣所鼓动，也开始自己学习。“如果你能在任何方面战胜戴密斯的话，这几乎就像是一种荣誉，”席尔瓦说道，“而且我知道，戴密斯对这个游戏的兴趣才刚刚兴起。”

他们加入到了一个当地的围棋俱乐部，和二段三段选手对弈（相当于空手道黑带）。他们的野心还不止于此：他们忍不住地思考，为何机器从未破解这种智力游戏呢？1995年，一个名为“奇努克”（Chinook）的跳棋计算机程序打败了世界上最优秀的跳棋选手。两年以后，国际商用机器公司（IBM）的“深蓝”（Deep Blue）超级计算机打败了世界象棋冠军加利·卡斯帕罗夫（Garry Kasparov）。次年，机器还在Scrabble（一种拼字游戏——译注）、Othello，甚至电视问答游戏节目《危险边缘》（Jeeopardy）中获胜！用博弈论的术语来说，围棋与国际象棋和西洋跳棋一样，是一种完全信息博弈游戏——毫无运气可言，信息完全公开。通常来说，电脑应该能轻松掌握，但是就是攻克不下围棋。

围棋看上去很简单。源起于3000年前的中国，两名棋手在19×19的棋盘上对弈。棋手交替将黑白棋子放置于棋盘直线的交叉点上，努力包围对方的棋子，或者将对方的棋子隔开，避免被包围。人们把象棋喻为战场，但是把它比作单个的战场更形象。围棋则是整体作战，或地缘作战。棋盘上一个角落里的变动会影响全局。局势变幻莫测，势力此消彼长。在象棋游戏中，棋手在一轮中一般有35种下法可选，但在围棋中，却可达200种。正常对弈下来，复杂程度不可同日而语。正如哈萨比斯和席尔瓦所言，围棋棋盘上可能出现的情况比整个宇宙中的原子数量还要多。

所以，与国际象棋不同，围棋棋手——不论是人类还是机器——都看不透每一步落子会带来的最终结果。顶级骑手靠的是直觉，而非单纯的计算。“良好的布局看起来就很美，”哈萨比斯说道，“它遵循一定的美学。这就是几千年来围棋一直令人着迷的原因。”

2005年，哈萨比斯和席尔瓦的游戏公司倒闭了，两人也分道扬镳。在阿尔伯塔大学（University of Alberta），席瓦尔学习了人工智能的初级形式，也就是增强学习，机器通过不断地执行任务、追踪带来最大利益的决策，从而达到自我学习。哈萨比斯进了英国伦敦大学学院（Unviversity College London），获得了认知神经科学的博士学位。

2010年，他们重新找到对方。哈萨比斯成立了伦敦DeepMind人工智能公司；席尔瓦加入了他。他们雄心勃勃，想要创造真正能够思考的通用人工智能。但他们必须找到一个出发点。

他们理所当然地把游戏作为出发点。这的确是对人工智能的一个很好的测试。从定义上说，游戏是有限制的。这和实际生活不同，而更像是装在瓶子里的小型宇宙，你能客观地批判成败输赢。DeepMind将增强学习和深度学习结合起来，从庞大的数据集中寻找规律。为了验证这种方式的可行性，研究者们教授他们刚刚成形的人工智能玩“太空侵略者”（Space Invaders）和“打砖块”（Breakout）。

它在“打砖块”上成绩斐然。这个游戏基本上和“乒乓”（Pong）差不多，不过不是和对手来回击打一个像素小球，而是用像素小球击打彩色砖块。打中一个块砖，砖块便会消失；没接中球或者把球打到了屏幕外就算输。玩了500局游戏之后，DeepMind的系统学会了将球以一定的角度打到砖块后面去，从而保证小球一直在墙后击打砖块。这是一个经典的“打砖块”打法，但是DeepMind的电脑每次都能精准地使用这一方法，其速度更是无人能及。

为了寻找投资人，哈萨比斯在一次晚宴上瞄准了著名的贝宝（PayPal）共同创建人和脸谱网（Facebook）投资者彼得·蒂尔（Peter Thiel）。哈萨比斯只有几分钟的时间，他知道蒂尔热衷于国际象棋，就壮着胆子说国际象棋之所以流传这么久，是因为象和马的优劣势之间充满了创意的博弈。蒂尔提出要哈萨比斯第二天和他正式比一场。

一旦一位硅谷（Silicon Valley）亿万富翁听说了你，其他富翁就也知道了。通过蒂尔，哈萨比斯结识了伊隆·马斯克（Elon Musk），马斯克又向谷歌首席执行官拉里·佩奇（Larry Page）介绍了DeepMind。谷歌很快就以6.5亿美元（据报道）的价格购买了这个公司。

加入谷歌这个搜索引擎巨头之后，哈萨比斯在一次会议上用雅达利游戏机（Atari）做了展示，谷歌联合创始人谢尔盖·布林（Sergey Brin）也参加了此次会议。二人发现他们有着相同的爱好。在斯坦福攻读硕士学位时，布林便沉迷于围棋，佩奇甚至因此担心谷歌能不能建立。

所以，当布林见到哈萨比斯之时，他们就聊了游戏。“你知道吗，DeepMind或许几年之后能打败世界围棋冠军，”哈萨比斯告诉布林，“如果我们真的认真去做的话。”

“我觉得不可能。”布林答道。

哈萨比斯就等这句话。如他们所言，游戏已经开始。

第二局棋结束之后，席尔瓦进入AlphaGo的控制室，就位于走廊尽头。AlphaGo的大脑不在此处，也不在其他地方，而是存在于全球成百上千台电脑之中。面对这些显示器，席尔瓦能窥探AlphaGo的思想，监控其运行，跟踪它对每场对弈解决的预测有何变化。

轻敲几下键盘，席尔瓦轻松地调出了AlphaGo在游戏中的决策记录。他主要关注第37步之前到底发生了什么。

在DeepMind和AlphaGo出现之前，人工智能的研究者就尝试着用机器破解围棋，在游戏进行过程中，他们令机器用一种系统方式预测每一步可能产生的结果，试图以野蛮的计算机力量解决问题。1997年IBM的“深蓝”击败卡斯帕罗夫时就差不多是这样的。我当时是PC Magazine（美国著名的IT杂志——译注）的见习记者，报道了那次事件。和李世石对战AlphaGo一样，人们都认为这是人工智能发展的标志性事件。奇怪的是，正如李世石和AlphaGo的第二局比赛，“深蓝”在和卡斯帕罗夫对战的第二局中也走了一步人类不可能走的棋。两人都同样困惑，但是卡斯帕罗夫迫于压力立刻就认输了，而李世石则坚持战斗。

暴力计算从未攻克围棋。围棋的可能性太多，即使是电脑也难以处理。席尔瓦的团队另辟蹊径，建造了一个能学会很好地下棋的机器，然后再让它比赛。

在伦敦国王十字车站附近的DeepMind办公室中，这支团队将3000万步人类的围棋步法输入到一个深度神经网络中，这个网络中的硬件和软件松散地模仿人类大脑中的神经元。神经网络其实很普通，脸谱网用它们进行照片中的人脸识别，谷歌用它们识别安卓智能手机中的语音指令。如果你把足够多你妈妈的照片放到神经网络里，那么它们便能学会识别她。输入足够多的言语，他们也能学会如何识别你的话语。将3000万步围棋步法整合其中，它们也能学会怎么下围棋。

但是了解规则和成为棋王并不是一回事儿。第37步并不在这3000万步之中。那么，AlphaGo是怎么学会这一步的呢？

AlphaGo知道——就它所“知道”的东西——那一步是个险招。“它知道专业人士不会走那一步，但是，在它逐渐加深的搜索中，能推翻最初的指导。”席尔瓦说。AlphaGo从某种程度上说，已经能自己思考了。它并非根据其创造者编码的一系列规则，而是它自学的算法。“这真的是它在不断反思和分析的过程中自己发现的。”

实际上，这台机器已经算出来专业人类选手走同样一步的概率为1/10000。不管怎样，AlphaGo那么做了。

它从人类的招数中学会这个游戏之后，席尔瓦就让这台机器和它自己对弈。让它和一个与自己神经网络（稍）有不同的版本一局一局地下。在对弈的过程中，它会追踪每一步所能产生的最大效益，也就是在棋盘上占领地盘——这正是席尔瓦在研究生期间学习到的增强学习技巧。AlphaGo开始开发出一套属于它自己的非人类指令系统。

但是这还只是一部分。紧接着，席尔瓦团队把数百万非人的步法输入到它的第二个神经网络中，教它像卡斯帕罗夫（或“深蓝”）预测国际象棋棋局一样预测围棋的棋局。它无法像国际象棋那样预测所有可能的步法，目前这还无法实现。但是将其与自己对弈多场后收集到的所有信息输入进去之后，AlphaGo开始能预测一场围棋对弈可能展开的方式。

戴密斯·哈萨比斯于2010年创立人工智能公司——DeepMind

从最初那些你没见过的情况中预见可能的结果？这叫直觉。AlphaGo第二局中的第37步便是直觉，但是这种直觉连世界顶级的围棋选手也难以预料。甚至它的创造者也想不到。“我观赛的时候，说不出心里有多紧张，”席尔瓦在回控制室的途中告诉我，“我也真的不知道接下来会发生什么。”

你不可能给一个公司投资6.5亿美元就仅仅是建造一台只会玩棋盘游戏的计算机。深度学习和神经网络支撑了谷歌的十多项服务，包括其全能搜索引擎在内。AlphaGo的另一项武器是增强学习，现在已经正在训练公司实验室里的机器人了，教它们学习如何拿起和移动各种不同类型的物体。由此你便可看出这项比赛对谷歌来说有多重要了。谷歌前首席执行官埃里克·施密特（Eric Schmidt）在第一局游戏开始之前专程赶来。谷歌最有名的工程师杰夫·迪恩（Jeff Dean）也赶到现场等待游戏开始。塞吉·布林（Sergey Brin）乘飞机来观战第三局和第四局，还在他的木制棋盘上跟着下。

还不仅如此。在比赛期间，我和哈萨比斯一起去钟路区（Jongno-gu）散步，这个地方是首尔的文化和政治中心，有着600年的历史。韩国电视和新闻上到处都是哈萨比斯的面孔。我们在交谈的过程中，一位年轻女性认出了哈萨比斯，她眼睛瞪得大大的，愣了一会儿，就好像看到了泰勒·斯威夫特（Taylor Swift）或贾斯汀·比伯（Justin Bieber）一样。

“你看到了吗？”我说。

“看到了，”哈萨比斯面无表情地答道，“这是常事。”

他可能并非开玩笑。计算机工程师一般没什么粉丝，但是韩国有800万人下围棋，而李世石简直又是这个国家的民族英雄。中国有超过2.8亿人在线观看此次比赛。

所以，当李世石连输两局之后，粉丝们狂喜激动的热情开始被削减了。第二局结束之后，一位叫周峰（Fred Zhou）的中国记者在评论室拦住我，很高兴地和我谈论AlphaGo是科技的胜利，而非仅仅是围棋杀手。

然后我问他对李世石失败作何感想，周峰指指自己的心，说道：“我很难过。”

我也感到难过。曾经专属于人类的智慧已经丧失了人类的专属地位。观看比赛的很多人都开始意识到，机器已经越线了。它们能比人类做得好。虽然它们还不能真正地进行对话，还不能编造一个好玩的笑话，还不能表演猜字游戏，还不能复制古老的常识，但是，AlphaGo无情地向我们展示了，机器能够模仿——实际上是超越——人类的直觉，而正是这种直觉才造就了世界上最优秀的围棋选手。

李世石第三局又输了，在五局三胜的赛制下，AlphaGo已经稳拿冠军了。随后的新闻发布会上，哈萨比斯坐在他旁边，李世石表示歉意，他让人类失望了。“我本可以拿出更好的成绩，带来更好的结局。”他这样说道。

李世石发言的过程中，一种难以预料的感觉向哈萨比斯袭来。作为AlphaGo的创造者之一，他自豪、甚至得意，人们以为机器不可能做到的，他让机器做到了。但是，他作为人的另一面也在躁动不安，他开始希望李世石赢一局了。

第四局下了两个小时之后，李世石又陷入了另一个麻烦之中。这局他下得咄咄逼人，对棋盘上的特定区域猛烈进攻。但是AlphaGo也采取了更加豪迈的风格，以着眼整体的方式对整局棋进行衡量。在下第37步时，AlphaGo将一枚黑子置于一个旁边只有一枚白棋的地方，远离主战场。又一次，在第四局中，机器使用了一种神秘的方法控制了这场比赛。

AlphaGo已经赢得了比赛。李世石继续下棋并非为了输赢，而是为人类而战。77步走完之后，他看起来犹豫不决了。他把右手支在下巴上，前后摇晃，坐立不安，另一只手来回得搔着脖颈后方。两分钟过去了，四分钟过去了，六分钟了。

然后，他依旧左手挠着脖颈后方，开始出击。右手两根手指夹起一枚棋子，放在紧挨棋盘中心的地方。这是这局棋的第78步，一步“挖”步，即在两片大范围密集的地区中间插入一棋。然后机器眨了眨眼，当然，并非真的眨眼，但是它的下一步令人心惊肉跳。李世石向黄士杰投以尖锐的目光，似乎黄士杰才是他的对手，而不是那十亿个电路。

在AlphaGo的控制室里，人们暂时停下手中的活计，盯着显示屏看。李世石走出第78步之前，AlphaGo赢得此局的概率为70%。八步之后，双方势均力敌。AlphaGo忽然不是“深蓝”的后继者了——它是卡斯帕罗夫。它想不到人类会走那一步，概率仅仅为1/10000。

和人类一样，AlphaGo也会因突然袭击而乱了阵脚。游戏进行到4小时45分，AlphaGo投降了，和我们人类一样，它也会输。

“AlphaGo之前思考的所有东西在那个点上都成了无用功，”哈萨比斯说道，“它必须得重新开始。”

最后一局比赛开始了，我本该全程关注报道哈萨比斯和他的团队的。但是就在我要去见他们的时候，一名谷歌工作人员到记者招待室找到了我，说：“我们很抱歉，但是团队改变主意了。最后一局，他们不想有任何记者出现在那个房间。”

她走之后，我转向《连线》（WIRED）杂志的摄影师乔迪·伍德（Geordie Wood），说：“你知道这意味着什么吗？AlphaGo觉得它要输了。”

事实确实如此。游戏一开始，AlphaGo就犯了一个初级错误。在棋盘下半部分的拥挤区域，它将一枚白子放得太过接近李世石的一些黑子，丢掉了整片区域。AlphaGo的直觉错了；和人类一样，这个机器也有盲区。

但是，游戏进入第三个小时时，AlphaGo重新振作，开始挽回颓势。在第三小时30分时，李世石的时限到了。根据比赛规则，从此刻开始，他每一步至多能用一分钟，否则就算犯规。但是在他右手上方的棋盘上，还有一大片空白区域。一次又一次，他直到最后一秒才落子。

随后，AlphaGo的时限也用完了。双方都开始以看似不可能的速度下着棋。棋盘上满布棋子。整场比赛中，这是第一次棋局似乎会下到最后才进行最终计分，双方都不认输。但是到了第五个小时，李世石和Alphago之间的差距太大，李世石选择认输。AlphaGo也会失败，但依然赢得了最终胜利。

欧洲围棋冠军樊麾，AlphaGo的陪练，他也在不断提升自我

全世界只有一个人能确切地体验李世石的感受，那就是樊麾。樊麾是三次欧洲围棋赛冠军，也是AlphaGo的真正陪练。去年十月，为了给这场在首尔举行的更大型比赛进行训练，他与AlphaGo进行了一场非公开对弈，以五比零的结局输给了这个机器。此后，樊麾以雇佣棋手的身份加入了DeepMind，在和这台机器的较量中，屡战屡败。

虽然樊麾不断输给AlphaGo，但是另一个有趣的现象却在悄然上演。樊麾开始以全新的视角全面地看待围棋。在与其他人的对弈中，樊麾胜利的次数增加了——包括四次直接与顶尖围棋选手的对决。他的排名上升了，AlphaGo也训练了他。

所以，在比赛期间，我问樊麾，我们应如何看对李世石与AlphaGo的对决？

“善待李世石，”樊麾说，“善待。”

这些日子，世界上最大、最富有的科技公司正在加紧利用AlphaGo所拥有的科技寻求竞争优势。哪个应用能更好地识别照片？哪个能更好地响应语音指令？不久以后，同样的系统就可能用来帮助机器人以更加接近人类的方式与现实环境交互。

但是，相对于AlphaGo的非人类的类人之处，这些现实的应用似乎平庸了不少。一种亚文化已经围绕着AlphaGo，以前所未有的方式展现了出来，例如Google Photo应用。在德国的杜塞尔多夫，J.马丁（J. Martin）——游戏设计、媒体和通讯教授——现在运营着一个名为“第37步”的推特账号。一名来自弗罗里达，名为乔迪·恩赛（Jordi Ensign）的45岁程序员在网上读过我写的一篇关于首尔比赛的文章之后，给我发来邮件，说她的右臂内侧纹有AlphaGo第37步的纹身，而她的左臂内侧则纹有李世石的第78步——围棋界已将这一步称之为“神之一手”了。

第四局结束之后，李世石和哈萨比斯坐了一会儿。哈萨比斯这个曾经的游戏天才告诉李世石，他理解他的压力，理解他的创造力及动力。“我曾经也是一名游戏选手，”哈萨比斯说道，“如果我的生命轨迹有点变化的话……我明白达到你那样的高度要做出多少努力，多少牺牲。”

李世石回答，和机器对弈重新燃起了他对围棋的热情。和樊麾一样，AlphaGo开拓了他的眼界，让他看到了围棋的崭新一面。“我已经得到提高了，”李世石说，“它给了我新的思路。”从那之后，他从未输过。

这场比赛之前，哈萨比斯向世界宣布，AlphaGo所使用的人工智能技术能推动一项全新的科学研究，机器将指点人类取得巨大突破。那个时候，还没有证据，这些言辞显得空洞乏力，就是典型的科技噱头而已。但是现在不同了。这个机器做了一件人做的事，而且比人做得更好。但同时，它也让人类有所进步。是的，你可以将第37步视为机器超越人类创造的预兆，但你也可以将其视为一粒种子：没有第37步，怎会有第78步？

原文标题：What the AI behind AlphaGO can Teach Us about Being Human