DeepMind：一个神童玩的游戏

2017-07-29许智博

南都周刊 2017年14期

许智博

5月23日晚上的乌镇西栅景区，白天的大雨已经止住，如织的游人在雨后的凉爽潮湿里踏在青石板路上，抓紧时间欣赏眼底灯火点点的江南水乡，或许他们绝大多数人并不晓得，就在这天的下午雨还没有停的时候，中国的顶尖围棋选手、世界排名第一的柯洁，在这里刚刚以1/4子输给了他的对手、人工智能AlphaGo，丢掉了第一盘棋的比赛，成为了当天重要的全球科技新闻。

在入口通往散布于景区里的酒店和民宿的电动摆渡车上，一个穿着西装、有些微醺的体育官员，正在与同行的一位长者絮叨地感慨着：“我晚饭时问他们的二把手，可不可以把你们的技术做成平板电脑，给我们队的棋手训练使用，他说这要问他们的CEO……对，就是那个哈萨比斯，但他可能觉得围棋实在是太‘小了，他明天会在论坛上说AlphaGo的用途，肯定还是他关心的医疗啊能源啊这些大事——唉，这个哈萨比斯，简直就像是又一个霍金！”

神童爱上电游

那个体育官员口中让他难以理解的哈萨比斯（Demis Hassabis），正是目前全球人工智能（Artificial Intelligence，缩写为AI）领域的领军人物之一。

这个戴着黑框眼镜的小个子英国人虽然其貌不扬，但却是一个绝对的天才，尚不到41岁的人生充满传奇：他生于倫敦，是一个普通移民家庭的孩子，父亲是希腊的塞浦路斯人，母亲则是新加坡的华人。家庭成员的构成很难解释他的数理天赋遗传于谁，父母都是教师，也会做一些兼职，他的弟弟和妹妹擅长的则是写作和作曲。

哈萨比斯的早慧从小就显露出来，4岁时他看父亲和舅舅下国际象棋，两周后便在棋盘上打败了成年人。从5岁开始，他开始参加正式的国际象棋比赛，6岁时便获得了伦敦8岁以下组的冠军，9岁时已经是英国11岁组少年队的队长，13岁时在世界14岁以下的国际象棋棋手中以2300积分排名第二，而领先他35个积分、排在他前面的那个选手，则是国际象棋界传奇“波尔加三姐妹”中的小妹朱迪特·波尔加（Judit Polgár），那是后来被称为“有史以来最厉害的国际象棋女棋手”的神级角色，连续26年女子国际象棋排名第一。

或许让哈萨比斯后来没有选择做一名职业棋手的原因，是他在8岁那年用下棋赢得的200英镑购买的一台电脑。这台1982年由Sinclair公司生产的8位个人电脑ZX Spectrum在现在看起来更像是一个黑色键盘，但这台频谱计算机却让哈萨比斯找到了某种人生终极乐趣。

迷恋上电脑游戏的他很快就发现别人设计的游戏简直太LOW了，干脆拆解了电脑，开始自学编程做游戏。“我爸会带我去Foyles（伦敦最大的书店），坐在计算机编程类书籍的区域，学习如何在游戏中无限续命，我从直觉上感到这是一个神奇的设备，你可以释放你的创造力。”回忆童年时哈萨比斯如此说。他曾花一个夏天的时间，在北伦敦的布伦特十字（Brent Cross）站的一个报刊铺浏览那些他买不起的计算机杂志。

在这样的“探索”过程里，小哈萨比斯已经在思考两个问题：一，大脑是怎么思考的？二，计算机可以模拟人类吗？

正是这样的痴迷，让15岁的他后来在一场为游戏《太空侵略者》（Space Invaders）设计续集的比赛中获得第二名，被视频游戏公司牛蛙工作室（Bullfrog）的老板彼得·莫利纽克斯（Peter Molyneux）相中。被中国资深游戏玩家昵称为“魔力牛”的莫利纽克斯是英国的传奇级游戏设计师，通过设计游戏拿到过大英帝国勋章的游戏界“老炮”，他开创了“上帝视角”的游戏《上帝也疯狂》，也创造了可以让玩家转换游戏扮演角色的《地下城守护者》，后来他的工作室基本都被美国游戏巨头EA（艺电）收购。

虽然哈萨比斯和莫利纽克斯年纪差了十多岁，但用哈萨比斯的话说，两个人“相互影响”。与“魔力牛”偏爱让玩家在虚拟世界里扮演拥有绝对权力的上帝不同，在牛蛙，哈萨比斯主持并协助设计的是沉浸式模拟现实游戏《主题公园》（Theme Park）。在游戏中，玩家可以设计和管理游乐园，为了在非常现实的条件下做到盈利，甚至要使用在汽水里加盐、好让游人多喝几杯的小伎俩。这个需要耐心的游戏吸引了很多玩家，游戏软件卖了几百万份，还赢得了当年英国的“金手柄”奖（Golden Joystick Award）。

1997年，哈萨比斯大学毕业后，“魔力牛”再一次把他招至自己狮头工作室（Lionhead）。在狮头工作室不到一年的工作中，哈萨比斯创造出了电子游戏领域第一个具有自我学习能力的人工智能——游戏《黑与白》（Black & White）中的“神兽”，在“上帝视角”的游戏里打造了一个拥有鲜明个性和自我意识的角色，让玩家根据它的习性实施间接的影响力。

在这个游戏里，“神兽”拥有可怕的力量，但心智仅相当于两岁左右的孩童，作为神兽的主人，玩家在游戏中最重要的任务，就是通过胡萝卜加大棒，把神兽训练成自己想要的样子：当神兽干了坏事，比如随地大小便，乃至是吃人的时候，就要用一顿抽打来让它长些记性。而当神兽偶尔帮助村民干活的时候，适时爱抚可以强化它们的记忆，从而培养做好事的习惯……当然，如果玩家愿意，也可以反过来做。

与升级和解锁新技能的老套路游戏比，《黑与白》中神兽的培养过程其实非常接近人工智能领域里“机器学习”（machine learning）的“强化学习”（Reinforcement Learning）概念：导入训练数据，让AI在不断试错中积累正面反馈，最终找到获得利益最大化的途径——只不过在游戏中，判定权重的工作（即玩家对神兽行为的反馈）由人类来完成的，而非像后来的AlphaGo那样去自己判断。

1998年，哈萨比斯决定单飞，成立了自己的公司Elixir Studios。在这次不算成功的创业期里，他在《黑与白》的思维逻辑基础上，做了两款将模拟现实与上帝视角结合起来的游戏，其中策略游戏《共和：革命》（Republic： The Revolution）更像是一个更加复杂的《主题公园》，虚拟了一个20世纪90年代发生制度变革的东欧小国，玩家要在游戏里不断依靠资源分配、合纵连横才能最后达到自己执掌政权的目标，而《邪恶天才》（Evil Genius）则是后来被很多专业人士评价为水准不低于《半条命2》（Half-Life）的作品，游戏以007系列电影为灵感，打造了一个席卷全球的“黑暗势力”，被很多“硬核玩家”评价为“设定平衡度很高的游戏”。

可惜那时随着电脑硬件性能的飞速进化和互联网的普及，电子游戏界的整体风潮从单机游戏的趣味性、平衡度转向了强调游戏的视觉呈现和玩家之间的交互，所以最后这两款游戏都不算成功。哈萨比斯面对变化的游戏市场，意识到了自己痴迷游戏的本源其实是人工智能：“20世纪90年代，游戏很有趣，也有创新性。但到了新世纪，游戏注重图像和内容，想通过游戏这扇‘后门去展开人工智能研究已经非常困难，这违背了我做游戏的初衷。”

天才改变世界

2005年，哈萨比斯“戒”了游戏，直到现在，作为曾经的资深游戏迷，他对一些爆款的大型多人游戏依然感觉失望，“我从来都无法真正融入游戏，因为虚拟人物看起来傻傻的。他们没有记忆，不会改变，也与环境无关。如果有学习型人工智能，游戏质量就能提升到新水平。”

实际上，哈萨比斯能果断地结束自己的“游戏开发者”的职业生涯，也是为了重新集中自己的精力去做人工智能——20年前在剑桥大学学习计算机的时候，当讲台上的教授讲解着“狭义人工智能”（当时IBM的“深蓝”，Deep Blue）战胜了国际象棋大师卡斯帕罗夫（Gary Kasporov）是轰动的新闻，“深蓝”是狭义人工智能的代表，下面听课的哈萨比斯就在心里想着，自己是否可以做一个“通用人工智能”。作为一个曾经的国际象棋大师，哈萨比斯认为“深蓝”不过是“仅在某一领域发挥特长的狭义人工智能”的极致，但战胜卡斯帕罗夫的“其实并不是机器或者算法本身，而是一群聪明的编程者智慧的结晶”。

“他们与每一位国际象棋大师对话，汲取他们的经验，把其转化成代码和规则，组建了人类最强的象棋大师团队。但是这样的系统仅限于象棋，不能用于其他游戏。对于新的游戏，你需要重新开始编程。在某种程度上，这些技术仍然不够完美，并不是传统意义上的完全人工智能，其中所缺失的就是普适性和学习性。”在今年初回到剑桥大学演讲时，哈萨比斯说。

1994年，《主题公园》上市发行后，剑桥大学同意17岁的哈萨比斯入学（16岁时他就已经通过考试并提交申请，只是剑桥认为他年龄太小没有接受）。那时的他依旧沉迷于各种与头脑和智力相关的事情，除了游戏，他也是智力奥运会（Mind Sports Olympiad）的热衷参与者。这于1997年在伦敦开始的智力大赛包括多种棋牌游戏，前7届比赛里，哈萨比斯揽下了5届冠軍。大赛组织者戴维·利维（David Levy）还清楚地记得20年前，在皇家节日音乐厅举办的第一届比赛中，他看见哈萨比斯为了同时参加两场比赛，在楼梯上跑上跑下。利维说：“非常聪明的人有一些不寻常的行为，是意料之中的事情。”

在剑桥，哈萨比斯还遇到了自己后来的好友、合作伙伴之一大卫·西维尔（David Silver），两人为了研究人工智能彼此监督，19岁的哈萨比斯第一次接触到围棋之后，就教会了西维尔怎么去下。在他创立Elixir Studios之后，第一件事情就是拉西维尔入伙，让他成为了《共和：革命》的主程序员，直到2004年，西维尔决定不再与电脑游戏里的“假人工智能”浪费时间，而是要去触碰人工智能的核心领域，选择了师从人工智能“强化学习之父”理查德·萨尔腾（Richard Sarten）去读博士。

为了寻找灵感，哈萨比斯也在2005年将游戏版权卖掉后解散工作室重回高校。与好友直接选择与人工智能相关的研究方向不同，他选择的是在伦敦大学学院（UCL）进修神经系统科学博士学位——因为他觉得通过研究真实人脑也许能找到研究人工智能的线索。在UCL期间，哈萨比斯主要研究的是海马体。海马体是人脑的一个区域，对方向感、记忆调取和未来事件的想象至关重要，但目前人类对它所知甚少。

作为一个没有学习高中生物的计算机科学家与游戏企业家，哈萨比斯在一群医学博士和心理学家间显得尤为另类。“我经常开玩笑说，我对大脑唯一了解的事情就是，它在头盖骨里。”

但哈萨比斯与埃莉诺·马圭尔（Eleanor Maguire，其做出的一项发现是，伦敦出租车司机的海马体比常人更大）教授密切合作，很快便做出了成绩：2007年，他在一项被《科学》杂志评选为“年度突破”的研究中发现，五名因脑损伤而遭受失忆症折磨的病人，他们的海马体会努力地设想未来的事情，这显示大脑中被认为只与过去有关的部分也对计划未来至关重要。

哈萨比斯后来得到了一笔博士后奖学金，可以使他在哈佛和麻省继续研究脑神经科学，但这并不是他想要的，他想要的是“人工智能科学”。

2010年，哈萨比斯与童年时代的好友穆斯塔法·苏莱曼（Mustafa Suleyman，此君履历同样光彩夺目，曾在牛津大学学习哲学和神学，后来放弃学业开办“穆斯林青年求助热线”，成为了伦敦市长的政策官员之一，还创办了“变革实验室”这个“复杂问题咨询机构”）、人工智能专家谢恩·莱格（Shane Legg，UCL盖茨比计算神经科学院博士后，哈萨比斯也曾在此处与其共事）一起创办了DeepMind——当然，哈萨比斯同样没忘记拉着已经担任英国皇家学会研究员的西维尔给DeepMind做顾问。DeepMind尽管被外界认为是一家公司，但是在哈萨比斯的定义里，这是一种新的研究机构和企业组织结合的组织。

哈萨比斯对外宣布，DeepMind将研究领域放在通用人工智能这个大方向，是“21世纪的阿波罗计划”，“勇于了解并研究人工智能，然后驾驭它、利用它来帮我们解决一切难题。”

虽然这个团队到底在干什么，外界并不清楚，但很快就有了两个投资者——其中一家是李嘉诚的维港投资（Horizons Ventures）。有Skype的一个联合创始人做指导顾问，DeepMind也很快引起了许多硅谷大佬的注意，包括伊隆·马斯克（Elon Musk，SpaceX创办人，特斯拉和PayPal的联合创办人）。这位对人工智能又爱又防备的“钢铁侠”在2012年为Deepmind投资了650万美元，意图是“让我可以监视人工智能到达什么程度了”。据说有一次哈萨比斯去马斯克的SpaceX火箭工厂参观，两人坐在食堂里聊天，马斯克正在解释他创建SpaceX的终极目标是完成世界上最重要的项目：星际殖民。哈萨比斯回答说，事实上，他也在研究世界上最重要的项目：开发超级人工智能。马斯克回答说，这正是他决定殖民火星的原因之一：假如人工智能反叛，倒戈攻击人类，我们至少有一个落脚的地方。哈萨比斯笑眯眯地说，人工智能会跟着我们一起去火星。

事实上，也正是马斯克在自己的私人飞机上将DeepMind推荐给了正在寻找人工智能人才的拉里·佩奇（Larry Page，谷歌联合创始人）。

2013年，西维尔正式加入DeepMind，用他擅长的“强化学习”开发出一套算法，“能玩50种Atari游戏，通过自我学习、玩游戏、看视频，来找到玩游戏的方法”。巧合的是，西维尔所说的“Atari”是一家曾经美国的游戏公司，在这套算法所“攻克”的50款游戏里，“打砖块”（Pong）的开发者正是当年苹果的创始人之一沃兹尼亚克（Stephe Wozniak），而乔布斯则是Atari和沃兹尼亚克之间的掮客，沃兹尼亚克靠开发这个游戏赚到了350美元，但乔布斯则从Atari那里多领了5000美元的报酬。

不知道是有意还是无意，DeepMind的初试牛刀，多少有了点向前辈致敬的意思。

这一年年底，这套算法在美国加州和内华达州交界的太浩湖畔的第一次公开亮相震惊了众人。它并没有被编入“如何玩游戏”的指令，但通过控制键盘，观察显示器分数，经过反复试错之后，成为了一个专业级游戏高手。“软件”可以通过神经模拟网络处理数据，像人脑一样“本能地”学习——这正是哈萨比斯想要的那种可以“深度学习”（deep learning）的“通用人工智能”。他说：“这是我们知道大脑会做的事，当你睡觉的时候，你的海马体就会重演你当天的记忆，然后再返回大脑皮层。”

观看演示的拉里·佩奇也不吝赞美，称赞说这是“我多年以来见过的最惊人技术之一”，演示之后，Facebook也开始加入与DeepMind的商业谈判，向“人工智能先行”（AI First）转型的谷歌当机立断，答应之前谈判中哈萨比斯的要求，设立了人工智能道德监察委员会，以4亿英镑的价格完成了谷歌在欧洲最大的一笔收购，在2014年初结束了之前与DeepMind拖拖拉拉长达两年的试探性接触。

对于“道德委员会”的事情，哈萨比斯在乌镇接受采访时解释说：“正确地使用人工智能，包含有两个层面的意思。第一个层面，它必须是造福于全人类、不能用于干坏事，比如说不能用于研发武器，而是应该用于例如科学、制药等领域。第二个层面的意思，人工智能不能仅为少数几家公司或者是个人去使用，应该是全人类共享的。”

新的哈勃望远镜

除了利物浦队的忠实球迷的身份之外，哈萨比斯对于生于斯长于斯的伦敦有着很深的眷恋。在他的坚持下，DeepMind依旧留在了伦敦，而不是搬到加州山景城的谷歌总部。每天，他都要工作到夜里11点多;当午夜时分到来时，他开始了所谓的“第二天”，与美国的同事进行电话会议，一直到1点多;这之后才是他自己的思考时间，通常会持续到凌晨三四点。

DeepMind现在已经搬迁到谷歌位于伦敦的豪华新总部，国王十字车站的潘克拉斯广场6号（6 Pancras Square），这里也是谷歌英国Android和YouTube业务软件工程师的办公之地。新总部拥有午休休息室、90米跑道的小型体育场以及一个按摩房等。楼顶还有露台，可以观赏伦敦风景。每周五晚的楼顶聚会已成惯例，公司还有跑步协会、足球队、棋类协会。DeepMind每间办公室都以天才来命名：特斯拉、拉马努詹、柏拉图、费曼、亚里士多德、居里夫人。虽然互联网行业人员流动很频繁，对手公司也试图来挖墙脚，但DeepMind从创建起离职率一直为零，人数从被谷歌收购时的75人增加到了200多人。

不过要成为这里的一员并不容易，一位已经入职DeepMind的工程师在Quora（“知乎”就是中国版的Quora）上回答“怎样才能在DeepMind里工作”时这样写道：你看过的大部分谷歌招聘的过程都不适用于DeepMind，这里的应聘面试总共有8個小时之久，“你必须要有一个博士学位，最好还有几年机器学习研究经历。”

攻克了Atari游戏之后，哈萨比斯和西维尔又将他们的下个课题指向了他们19岁时热衷的游戏——围棋。这个有着3000年历史的双人棋盘游戏在1997年卡斯帕罗夫输给“深蓝”之后，一直被视为人类智力最后的自留地，因为按照狭义人工智能的思路，围棋的计算量是国际象棋的1亿倍，是计算机难以用穷举法解决的问题。

DeepMind的这套算法就是后来震惊世界的AlphaGo，虽然被中国网友们戏称为“阿尔法狗”，但实际上，哈萨比斯为这套算法起的名字里，有不少涵义。用西维尔的话说，“其中一个意思是Alphabeta——谷歌的母公司，因为这名字和谷歌神经网络几乎是在同一时间发布的;同时，Alpha有‘较高的意识状态的意思，当你把某件事思考得很透彻的时候，你有了更高的意识状态，这是另一层意思。”而“Go”正是英语里对围棋的称谓。

起初，他们希望像玩Atari游戏那样，让AlphaGo的人工神经网络（artificial neural network，一种模仿动物大脑和中枢神经系统的结构和功能设计的数学模型或计算模型）“自己理解”围棋的规则，但发现效率不高，直到后来引入了“价值网络”（value network，原来是商业管理的概念，判断公司客户的重要程度，这里指是用一个“价值”数来评估当前的棋局），局面才豁然开朗。

根据DeepMind发表的论文，专业人士可以窥探到AlphaGo的基本设计思路——任何完全信息博弈（棋类游戏是典型的例子）都无非是一种搜索。搜索的复杂度取决于搜索空间的宽度（每步的选择多寡）和深度（博弈的步数）。对于围棋，宽度约为250，深度约为150。AlphaGo用“价值网络”消减深度，用策略网络（policy network，在棋局里评估每一种应对可能的胜率，从而根据当前盘面状态来选择走棋策略）消减宽度，结合在棋类电脑游戏里成熟的蒙特卡洛树搜索（Monte Carlo tree search）算法，从而极大地缩小了搜索范围。“这样，你只需看那5到10种可能性，而不用分析所有的200种可能性了。”哈萨比斯说。

在2016年3月AlphaGo在韩国首尔4：1击败韩国天才棋手李世石九段，一时间让人工智能成为了全世界刷屏的新闻，一天之内，韩国出现了3300多篇介绍哈萨比斯和DeepMind的报道，而围棋在西方世界成为了一种时髦。

而早在之前一年，中国旅欧棋手樊麾二段就先被它折服了。“当时我是法国欧洲围棋冠军，我在伦敦跟AlphaGo进行了第一次的比赛，被AlphaGo打了5：0，一盘棋都没有赢。”樊麾在今年乌镇AlphaGo跟柯洁的比赛间隙接受采访时说，“那次对我来说，震撼是非常强大的，于是我加入团队，帮助测试和提升AlphaGo。”

李世石在去年败给AlphaGo之后曾说：“AlphaGo让我找到了继续下棋的乐趣和动力。”随后一年，这位曾经世界第一的棋手一直在研究AlphaGo的下棋思路。李世石的做法也是中国年轻一代棋手们的做法，在今年5月乌镇的柯洁与AlphaGo对弈的第一局，执黑先行的柯洁就使出了AlphaGo最爱使用的“三·3”开局，他按照之前揣摩AlphaGo的棋风想针锋相对，但却最终找不到破绽，以1/4子告负。

在5月25日的第二盘对弈上，柯洁下出了迄今为止人类与AlphaGo比赛过程里最完美的前100手棋，让在后台观棋的哈萨比斯在第一时间发推大赞。在现场的九段棋手们评价说，一般高水平棋手会在棋盘上“挑起六条龙”，但柯洁“今天挑起了十条”。然而在处处充满希望的“大乱战”中，人类的计算能力稳定性上再次输给人工智能一筹，柯洁因为计算失误再次告负。但这场博弈让哈萨比斯对柯洁更加欣赏，赛后发布会上言语和目光都充满了天才之间的惺惺相惜——当柯洁要求第三局要像第二局一样执白后行时，哈萨比斯爽快地说：“好，没问题，就这样！”

5月27日，柯洁在比赛过程里因为失误离席痛哭，见证了人力在智力上将最后一块阵地拱手相让。但在一周时间里，DeepMind团队不断披露的信息，也足以证明了这个19岁少年的优秀——与战胜李世石的那版AlphaGo相比，一年后与柯洁对弈的AlphaGo在算法上已经更加优化，要胜过老版“三子”左右，而运算量则降低到1/10——如果说在首尔的AlphaGo还是网络版，那么在乌镇的AlphaGo则更像是“单机版”。

正如那个体育官员在首战之后所说，在结束了与柯洁的对弈之后， DeepMind也同时宣布AlphaGo的“使命结束”。就像之前哈萨比斯在剑桥对他的学弟学妹们说的那样：“我们发明AlphaGo，并不是为了赢取围棋比赛。”

“从现在开始，AlphaGo 的研发团队将把精力投入到其他重大挑战中，研发出高级通用算法，为科学家们解决最复杂的问题提供帮助，包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。”哈萨比斯对媒体宣布说。

这早已经是启动的项目，目前DeepMind正在与英国NHS（国家医疗服务体系）进行合作成立了“DeepMind健康”项目，希望用技术手段帮助有意向参与的医护人员提高服务质量;而在去年7月， DeepMind在谷歌的全球机房用机器学习搭建了三个人工神经网络（收集相关温度和功率信息、预测温度、预测下一小时负荷），组成了一个PUE（Power Usage Effectiveness，能源使用效率）評估网络，然后由人工智能自动调节机房的温度，结果比人管理的时候节电40%——在今年，这个技术将向更多的火电厂和计算中心推广。

当然，作为离别礼物，DeepMind为全球的围棋棋手和爱好者留下来50盘AlphaGo在战胜李世石之后“自我对弈”的棋谱（从那时起AlphaGo已经不再参考人类棋手的棋谱了）。在乌镇对弈结束的当晚，有棋手在网上看过了5张棋谱之后，评价说，这根本就不是人类下棋的思维。

或许正应了哈萨比斯的那句话，人类3000年以来，或许连围棋的表皮都没有揭开，而AlphaGo这样的人工智能则像天文学里的哈勃望远镜，人类借助它，可以更深刻地理解很多我们认为已经十分了解的东西。