人机大战2.0:进阶的AlphaGo
2017-06-14朱信明
朱信明
柯洁知道自己会输,但是希望输得精彩。
与AlphaGo的三番棋,首局落后四分之一子,后两局均中盘投子认输,这不是意料之外的成绩,但他还是哭了。
从2016年3月韩国首尔光化门四季酒店的五番对弈,到2017年5月中国乌镇西栅互联网国际会展中心的三番较量,围棋人工智能程序AlphaGo,给人们的认知带来翻天覆地的转变。最初,几乎没有人认为李世乭会输;如今,很难还有谁觉得柯洁能赢。
“感觉AlphaGo和去年判若两人,当时觉得它的棋很接近人,现在感觉越来越像围棋上帝。”2017年5月23日,“中国乌镇·围棋峰会”第一局结束后,目前等级分排名世界第一的职业九段棋手柯洁说。棋圣聂卫平甚至尊AlphaGo为“阿老师”。
人工智能对围棋施加的影响,已经得到淋漓尽致的展现,这一切,DeepMind公司只用了一年。不过,DeepMind的目标并非下围棋,公司的愿景是“解决智能问题”。
“我认为电脑是不可能赢人的”
如果从项目正式启动算起,那么AlphaGo的生日应该在2014年的2月。三年的学习时间,与人类传承千年的经验相抗衡,至少在一年前,围棋界觉得这是不可思议的。
2016年3月聂卫平在公开演讲中说:“我认为电脑是不可能赢人的。你们说的这些东西我认为是忽悠。”
聂卫平说这番话不是凭空而来,早在1988年他就接触过会下围棋的电脑。当时的比赛,人类棋手让电脑九个子,结果在形势极好的情况下,电脑突然认输了。聂卫平认定,即使是现在的技术,电脑依旧学不会判断围棋的形势。
最初的AlphaGo团队只有三个人:戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰。三个人的身份分别是:老板、项目带头人、资深研究员。他们一开始就确定了研究方向:深度学习和强化学习。
哈萨比斯曾说:希望能够通过研究,使机器拥有直觉和创造力。他们要攻破通用人工智能,目标不止于让机器理解语言或是识别人像,而是通过机器学习和系统神经科学让网络学会自己决策,像人类一样。
项目启动的一年里,黄士杰负责建立AlphaGo的引擎,其中一部分技术来自他过去开发的围棋程序Erica。当年夏天,通过卷积神经网络,AlphaGo学习大量围棋高手的对局,3毫秒内能做出不输于人类的围棋直觉,黄士杰为其命名“策略网络”。一年后,AlphaGo拥有强大的分布式搜索技术,它不仅能阅读棋局检索多种局面变化,而且可以计算出之后的40到60步下法。再过两个月,席尔瓦给AlphaGo带来“价值网络”:输入落子的位置,然后输出0至1之间的数字,越接近0,表示对手赢面大;接近1,表示自己赢面大。
当AlphaGo集齐战胜人类棋手的武器,业余6段身份的黄士杰回忆:“当时AlphaGo已经可以碾压我了。”这之后,2015年10月蝉联三届欧洲围棋冠军的职业二段棋手樊麾,在五局正式对弈中被AlphaGo零封;五个月后,世界顶级棋手职业九段李世乭四比一落败。在获知樊麾输棋后,聂卫平说:“樊麾水平太低,给我们丢脸了。”柯洁则表示:“就算阿法狗战胜了李世乭,但它赢不了我。”
DeepMind母公司谷歌的CEO桑达尔·皮查伊在AlphaGo战胜李世乭当月的月底,现身聂卫平在北京的围棋道场。参与此次会面的不只有聂卫平的两位徒弟,古力、柯洁,还有中国围棋队的领队华学明。华学明曾对媒体说:“条件允许的话,会在未来积极推动中国棋手与电脑的对抗。”就在中国版人机大战开打前,升级过的AlphaGo先后在围棋网站弈城和野狐,注册名为“Master”的账号,在2016年12月29日至2017年1月4日,连胜诸多职业棋手60局快棋。彻底震惊整个围棋界。
顶级棋手们前赴后继般地挑战AlphaGo,大多在中盘前就败下阵来。代AlphaGo落子的“人肉臂”黄士杰告诉本刊,在事后的复盘中,他与网名为“Hopeldo”的日本职业九段井山裕太的对局中,他下错AlphaGo计算的落子位置。当然,最终并没影响比赛。
“阿老师”
为了对付AlphaGo,中国围棋界在峰会前冥思苦想。想出的招数包括延长棋手用时、团体赛“群殴”、将局面导入复杂战斗以及下出模仿棋等。但几天的比赛下来,证明这些招数基本没有用。
为了“群殴”AlphaGo,“打狗天团”在赛前还进行一次预演,柯洁“扮演”AlphaGo。因为棋风差异,“场均一条龙”时越、“棋坛搅王”唐韦星、“小钢炮”陈耀烨、“激进派”芈昱廷、“均衡派”周睿羊,对行棋的看法各不相同,以至于几个人彼此互不相让,唐韦星告诉本刊:“确实吵得比较凶。”因为对手是柯洁,唐韦星当时希望“进攻性足一点”。但是五个人真正要面对的其实是AlphaGo,后来他一想,可能开始时应该“稳一点”。
如何面对这种超越过往经验的存在,开始成为职业生涯中无法绕开的问题。向AlphaGo学几招,目前已在职业棋手中成为普遍现象。
2016年3月22日,柯洁在弈城网和韩国棋手朴廷桓下棋,两名棋手的前36手,几乎就是在复制“李世乭人机大战”的第二局,只是落子的次序稍有差别。
职业九段周睿羊的新外号叫“阿尔法羊”。因为频繁使用AlphaGo的招法,从去年底到今年初的胜率不低,一度拿到九连胜,战胜多为九段棋手。虽然周睿羊笑称自己是“瞎下”,但毕竟战胜了曾经阻止自己拿到第二个世界冠军的古力。
自从棋手们纷纷开始学习AlphaGo,唐韦星明显感觉围棋的下法發生很多改变,“思维比以前活跃多了”。他感觉以前的理论正在刷新,但一切都只是刚刚开始。柯洁曾对媒体说:“阿尔法围棋强大的地方很多,很多棋手在模仿和借鉴它的招法,我也在吸取它的一些东西……要学习它的思想,单纯的模仿肯定不行,最终还是要下自己的棋,不理解的棋,我也不会去下。”
中国围棋队教练余斌对本刊介绍:虽然现在棋手们大多是在网上与人工智能对弈,但棋院愿意接受专家学者的帮助,来专门订制能够辅助棋手训练的程序。“光对着电脑围棋很难完全学好,得有竞争的伙伴,有十来个人的团体。应该有好的老师,有竞争的环境,将来再有电脑辅助。”
台湾围棋世界冠军周俊勳所在的海峰棋院,去年已经开始尝试与科研机构合作,测试人机合作动态学习平台。他告诉本刊:“慢慢的我们会以AI的棋来当解说的重点,把AlphaGo的下法跟下一代小朋友讲。”
5月27日,距比赛现场18公里的桐乡北港小学三年级的几十名小学生观看了柯洁的第三場比赛。忍受不住漫长的棋局,不少孩子像小熊猫般在座位爬上爬下。田宁(化名)比同学们更安静些,他学棋三年多,视柯洁为偶像。自从AlphaGo在网上连赢60局后,围棋培训班的老师偶尔会向他提起人工智能。在田宁的认识中,这家伙是“带着一千台电脑一起练棋的”,会投掷虚拟的骰子来下棋,也能学习人类的棋谱。
人工智能必须攻克的“游戏”
了解哈萨比斯的人生轨迹,你就不会对这个创立DeepMind,开发出AlphaGo的人感到意外。他13岁时成为该年龄段排名世界第二的国际象棋大师;17岁设计出包含人工智能元素的游戏《主题公园》;22岁创立自己的游戏公司;29岁去伦敦大学攻读认知神经科学博士,其研究成果在两年后被学术期刊《科学》评委“年度突破”。
棋牌玩家、游戏设计师、商人、神经科学家,从这个走向看,开发人工智能简直就是人生的最后一块拼图。
在接受谷歌收购时,DeepMind在一点上毫不妥协——总部要继续留在伦敦。哈萨比斯认为,“如果你从剑桥拿到博士学位,想干点改变世界的科技,(除了伦敦)没啥别的选择,而硅谷的机会遍地都是。但是如果你关注的是长期目标,硅谷可能就是泡沫——人们总是希望下一秒创造出另一个Snapchat,整个体系里有很多噪音。”
在伦敦国王十字车站后的一座六层大楼里,几个房间以阿兰·图灵、达芬奇和尼古拉·特斯拉等巨匠命名,这里就是DeepMind总部,人们安静地进行计算。
虽然AlphaGo是公司目前最知名的项目,但对于人工智能自我学习的探索,围棋并非DeepMind最先尝试的领域。他们研发的人工智能程序起初将大把时间用在玩电子游戏上,而且还是在史上首部真正意义上的家用游戏主机系统“雅达利2600”。
习惯了电脑和智能手机的新一代棋手们,对这种来自于“上古时代”的产物陌生。“雅达利2600”于1977年发布,直到1992年才停止发售。在70后和80后的记忆中,这台需要连接电视,插游戏卡带,用摇杆操作的游戏机,带来《乒乓》、《太空侵略者》、《打砖块》等经典游戏。
哈萨比斯曾在不同场合多次介绍过,Deepmind的人工智能可以在玩电子游戏上达到“堪比人类水平的表现”。在时长1分12秒的演示视频里,哈萨比斯展示了人工智能作为一名电子游戏玩家,玩《打砖块》游戏的蜕变过程。
前100次游戏,人工智能还无法完全领会游戏的规则,放任小球下落而不去接住;玩到200次,虽然掌握了玩法,但它还只是个“手残”玩家;400次后,顺利进行游戏已经不在话下;到600次时,人工智能开始将小球集中反弹到砖墙的一侧打出通道,让小球能够绕到砖墙的后方大量打碎砖块,轻松得分。显然,人工智能找到这款游戏的最佳策略。
DeepMind的成果被整理成论文,2015年2月在英国科学杂志《自然》发表。名为Deep-Q Network的算法,搭载在一颗GPU(图形处理单元)上,这个系统通过自主学习,玩了49款游戏,其中43款玩得比其他人工智能好,23款达到击败职业玩家的程度。
这是其他人工智能从未达到的成绩,但是在DeepMind公司的创始人哈萨比斯看来,“雅达利2600”这个平台的魅力相比围棋,还逊色了一些。“围棋就是终极,是所有游戏的顶峰,所需的智力深度也最高……令我们感到激动的不只是我们掌握这个游戏,还有我们在其中使用的神奇有趣的算法。”哈萨比斯在接受《卫报》的专访时说。
围棋一直都是人工智能必须攻克的游戏。这个拥有千年历史,依靠人类的经验、策略甚至直觉来进行的游戏,提供丰富到难以让程序进行穷举搜索的变化,更不要说从浩如烟海的可能性中,寻找到通往胜利的路径。所以,围棋能够成为人工智能构建和理解运算的最佳实验平台。
对于人类来说,决定在围棋领域有所作为,就意味着人生进入一个与众不同的体系。他们大多在孩童时期开始学棋,10岁前就已经在家乡棋坛难觅敌手;之后孩子们会被家长送到著名的围棋道场中深造,接收全日制训练;再过几年,定段,打职业联赛,甚至进入国家队。
从一名学期孩童到世界冠军,1997年出生的柯洁用了12年。虽然国棋国手们的经历各不相同,但多都如同柯洁一样,因围棋而使人生加速。他们的一生大概能下两三万局棋,再加上前人传授的经验,以及与生俱来的天赋,其中最伟大的那个人,所能达到的极限就是称霸棋坛一段时间。
退场的AlphaGo和进击的人工智能
“最后三盘,人生最后三盘了。”看着手机里柯洁和AlphaGo第一局较量的实况转播,正在吃午饭的古力发出感慨。
赛前柯洁在微博发文章称:“无论输赢,这都将是我与人工智能最后的三盘对局。”因为人工智能的日渐强大,面对它时无法感受到对围棋的热爱,柯洁选择尽全力一战后不再面对这样的对手。
这个对手寄宿在配置4个TPU(Tensor Processing Unit)的单机版服务器上,连接着“计算云”。起初它学习一些人类棋谱,随后过渡到自我对弈,可以对特定手段进行自我分析和学习。具体到围棋上,以前的AlphaGo能模仿历代围棋大师,现在的AlphaGo则能够下出它自己的围棋。它比对战李世乭的版本强三子(无贴目),使用40层神经网络,按黄士杰的话说,它是“大量自我对弈的成果”。
从结果上看,第一局柯洁输了四分之一子。这是中国规则下最小的差距。棋手们不是没有思考过AlphaGo的弱点,唐韦星始终认为,既然对手是个算法,就一定有弱点存在,“但是我们不知道”,就算找到也会因为水平有限,“无法抓住”。
5月24日,唐韦星独自到会场旁听“人工智能高峰论坛”,一位负责国内某个基金的管理者上前求合影。他建议唐韦星,跟AlphaGo下棋时要把局面引入混战,唐韦星回答:“我们是想引导,但是引导不过去啊。”
当天也有研究人工智能的朋友向唐韦星建议,把棋局复杂化,下到双方都算不清的程度,“就是不怕搞大事。”唐韦星将对话发到微博,柯洁留言:“纸上谈兵,说的总是比别人做的容易。”
5月25日第二局,当柯洁执白棋在第114手下出“断”以后,全盘至少有10块未活之棋绞杀在一起。难掩兴奋的胡耀宇九段感慨:“这样的大格局,别说是跟阿尔法狗的对局中很难出现,就连人类比赛中也很罕见!”
现场观战的棋迷不知局面是好是坏,议论纷纷,当柯洁的母亲周柳萍看到大屏幕上,儿子用手拍胸口时,她知道这棋可能会赢。周柳萍告诉本刊:“我知道他的性格,他捂胸口的时候应该已经赢到了。”
但柯洁选择在白棋128手时引爆棋局左下角的劫争,在胡耀宇看来,开劫的时机并不稳妥,这步棋后局势逐渐倒向AlphaGo。唐韦星说:“如果下对,那么局面将极端复杂。虽说也未必能赢,但至少可以看看电脑的极限。”
赛后哈萨比斯发布推特表示:“第二局比赛形势复杂,令人惊叹!虽AlphaGo最终获胜,但柯洁一度将AlphaGo逼至极限!”他还透露自己一直在观察数据,对局的前50手,柯洁表现完美;前100手是迄今人类棋手与AlphaGo最接近的局面,“没有其他棋手达到这个水准”。哈萨比斯将这次的比赛视作一个竞技程序所能企及的巅峰。
5月27日第三局,柯潔再次执白棋,还是输了。柯洁多次避免与AlphaGo在局部纠缠,着眼全局希望重现第二局的复杂战斗,坚持三个半小时以上。
不甘心的柯洁坐在已经结束的棋局前复盘,他的手搅动着棋子。会场里,人们的议论声变低了,能听见哗啦哗啦的棋子声。
三局人机大战后,中国围棋协会授予AlphaGo职业九段证书。自此,AlphaGo将退出围棋的竞技舞台。不过,DeepMind的舞台早已延至别处。去年,DeepMind利用深度学习算法,帮助谷歌数据中心的冷却系统节约用电40%,为谷歌每年节省几亿美元电费。
人工智能首现“政府工作报告”
一场国家层面的竞技比赛
东西方科技领域的力量平衡正在发生改变,特别是中国大力押注人工智能之后。上海科技大学下属实验室助理教授师泽仁在德国完成有关自主机器人的博士后研究,理论上,他应该会去人工智能研究领先和成熟欧美。但他选择去中国。
在接受《纽约时报》采访时,师泽仁表示,他在中国拿到的拨款是在欧洲或美国的六倍多。这让他有机会搭建起一个完整的人工智能实验室。“美国和欧洲的研究资金在缩水,但中国的明显在增加。”
就在今年3月5日召开的十二届全国人大五次会议上,国务院总理李克强在政府工作报告中提出,“要全面实施战略性新兴产业发展规划,加快新材料、人工智能、集成电路、生物制药、第五代移动通信等技术研发的转化。”
这是人工智能首次出现在政府工作报告中。
据报道,过去六年里,中国投资者为51家美国人工智能公司提供资金,融资额达七亿美元。
企业对人工智能的反应要比政府快得多。今年“两会”,百度李彦宏的三项政协提案各个聚焦人工智能。在其中的一项提案中,他明确提出,应当加强人工智能的行业应用,从而帮助构建国家创新型经济。
百度也是BAT中率先发力人工智能的企业,面部识别、语音识别、无人车、医疗大脑、机器人小度等都取得不错成绩。小度曾在江苏卫视的《最强大脑》第四季,以3:2的比分战胜人类“最强大脑”王峰。
地方政府也开始行动。湖南湘潭市承诺拿出20亿美元发展人工智能。在苏州,领先的人工智能企业在当地设立分支机构可获得约80万美元的补助。深圳则为在当地的人工智能项目提供100万美元资金。
除此之外,企业与政府部门也展开合作。比如百度利用面部识别技术,推出“百度寻人”平台,帮助走失人员回归家庭。通过与民政部的合作,平台对接数万条走失人员信息。旷视科技的人脸识别技术已经在20多个省、市落地并试点,协助警方抓捕逃犯的案例达500多起。
除了下棋,人工智能将对实体经济、行业升级、国家治理等各方面发挥不可替代的作用。正如李彦宏所说,人工智能时代已经到来,这一技术也将改变中国的各行各业,让经济焕发新活力,更让中国变得不一样,如此不一样的未来值得每一个人期待。