让AI成为全能游戏高手
——记中国科学院自动化研究所研究员兴军亮
2022-01-22谢更好
谢更好
2018年,兴军亮在瑞典斯德哥尔摩参加国际人工智能联合大会和国际机器学习大会。
电子游戏从诞生之时起就带来了各种争议性的话题,尤其在当今社会,游戏上瘾逃学和玩暴力游戏引发暴力行为的报道层出不穷。电子游戏真的是洪水猛兽吗?也许换个角度,对此会有完全不同的看法。
从早期的西洋跳棋,到近期的围棋,乃至德州扑克……每一次人工智能在游戏中战胜人类都会在全社会产生强烈反响。在中国科学院自动化研究所(以下简称“中科院自动化所”)研究员兴军亮看来,电子游戏是人工智能研究的最新“测试场”。让机器打游戏是兴军亮近年来的研究兴趣点,他研发的星际争霸AI曾获2017年IEEE CIG星际争霸AI第2名,研发的德州扑克AI胜率超过了2018年国际计算机扑克大赛(ACPC)冠军程序Slumbot和2017年发表在美国《科学》杂志上的DeepStack方法的开源实现版本,速度较DeepStack提升超过1000倍。这些游戏AI技术不仅可以被应用到游戏产业中,让游戏内容更有趣、情节更吸引人,甚至在未来更有望应用于个人电子助理、推荐系统、无人驾驶、芯片设计、决策支持等所有需要做出持续决策的领域中,帮助大家解决更多的实际问题,让生活更美好。
AI有双“火眼金睛”
在博士阶段和刚进入中科院自动化所工作时,兴军亮所做的工作与游戏其实没有太大关系。在西安交通大学计算机系本科毕业后,他被保送为清华大学计算机科学与技术系的直博生,开始做计算视觉研究。
读博对兴军亮是一个转折,开始做科研后,他发现很多时候不只需要去学习,而且更需要去发现问题和解决问题。周围不乏优秀的人,又在一定程度上为兴军亮带来了压力,尤其是算法在调试了很久无法得到好的结果时,他会变得灰心丧气。当时导师艾海舟教授给了兴军亮很多支持和鼓励,同时为了适应这些变化,他自己也在寻找调整的方法,通过运动,通过与别人交流,他的状态慢慢好起来。
“一定要做顶天立地的研究。”这是导师对兴军亮的要求,所以在博士阶段,兴军亮做的工作都是实用性的创新研究。由于当时国内对科研的投入不多,而国外的大公司却有非常强烈的合作意愿,于是跟随导师,兴军亮也参与到了和惠普、英特尔、欧姆龙等知名企业的多项合作研究课题中,研究的是与人脸、人体检测和跟踪相关的技术,其中很多技术都用到了这些公司的产品中。
不断思考、转换思路,在坚持中求变,兴军亮在博士期间进步很大,收获也很大。他曾获得清华大学计算机系学术新秀、清华大学综合一等奖学金、清华大学优秀博士毕业论文、谷歌学者等奖励和荣誉称号。因表现出色,2012年博士一毕业,他就顺利加入了中科院自动化所模式识别国家重点实验室。
刚进入胡卫明研究员组里时,兴军亮仍继续进行计算机视觉相关研究,同时,围绕互联网内容安全他也做了很多算法研发。另外,在运动分析、多物体跟踪上,他做的几个比较典型的工作也取得很好的结果,组里在多个相关问题的科研水平一直保持在当时的国际前列。
2012年12月至2013年12月在新加坡国立大学的访学和2015年4月至11月作为“铸星计划”访问教授在微软亚洲研究院网络媒体组的科研经历,又为兴军亮带来了拓展视野和提升自我的机会。
在新加坡国立大学,与颜水成教授合作,兴军亮不仅解决了一直解决不了的人脸配准问题,而且还做了一套美颜系统。淘宝最早的虚拟换装应用,用的就是这个技术方案。相关论文“Wow!You Are so Beautiful Today!(哇,你今天真漂亮)”更是获得了2013年多媒体领域顶级国际会议ACM Multimedia最佳论文奖。
在被称为中国IT业“黄埔军校”的微软亚洲研究院,兴军亮感受到了顶尖科研机构做研究的方法和模式。在宽松的研究氛围中,大家可以凭借兴趣开展任何研究,并进行充分的讨论交流。在那里,兴军亮参与完成的一些基于骨架关节点的动作识别研究工作,成为这个问题中的经典论文。由于在那里的良好互动,直至现在,兴军亮仍与微软亚洲研究院的很多老师保持着密切的合作。
凭借对科研的兴趣和坚持不懈的努力,在计算视觉领域深耕,兴军亮取得了一系列不俗的成绩。他出版计算机视觉译著2部;多次带队在人脸识别、车辆识别、视频识别等国际和国内挑战赛中获得冠军;在重要国际期刊如TPAMI、IJCV、AI以及重要国际会议上如AAAI、IJCAI、ICCV、CVPR上发表论文100余篇,谷歌学术引用接近1万次。
作为项目负责人或核心骨干,他主持或参与了国家自然科学基金、原国家“863”“973”计划项目等多项重要课题,并与富士通、华为、腾讯等大企业开展了多次合作,研究课题涉及人脸和人体视觉、网络敏感内容安全和大数据分析应用等多个方向。尤其在“基于区分性模型学习的综合在线多物体检测、跟踪和分割”的课题中,通过一系列高效和鲁棒的多物体检测、跟踪和分割算法,兴军亮采用区分性学习模型统一去构建智能化视觉监控原型系统,提高了已有视觉监控系统的有效性和实用性,促进了视频中物体检测、跟踪和分割等相关技术的发展。
而针对无约束环境下的人脸识别这个极具挑战的研究课题,兴军亮以深度神经网络为基本建模工具和学习框架,提出了无约束人脸识别问题的新型框架和多种模型方法,多次在国际人脸识别技术挑战赛中获得冠军,构建出的高性能可实用的无约束人脸识别系统,又促进了人脸识别相关理论方法的发展,推动了无约束人脸识别算法在实际认证系统中的应用。
目前,兴军亮研发的视觉感知相关技术已在华为、微软等许多机构得到了多次应用落地和推广,取得了良好的经济和社会效益。按理说兴军亮会在计算视觉领域继续做下去,但在2016年,他却突然转变了自己的研究方向,走上了另一条路。
游戏是AI的试验场
一直很少接触游戏的兴军亮,为什么会选择将游戏作为自己的研究课题呢?“为了不失业。”兴军亮开玩笑说,“我们研究的计算视觉,基本上就是在教AI识别‘是什么’,即识别图片里是张三还是李四,是车子还是桌子等。但我慢慢发现,如果只是让AI学会识别‘是什么’这类问题,离最终想达到的人工智能目标可能相差甚远。而且到2016年的时候,我感到计算视觉领域已经非常成熟了,再往下做可能将没有太多空间,于是我开始思考下一步该做些什么。”
2016年,AlphaGo横空出世。兴军亮发现让计算机去下围棋,其实是在解决一个很重要的问题——认知智能。即它不光要知道“是什么”,更要知道“为什么”,它要一步一步地去做,去明白为什么这么做就会赢。由于当时觉得这个问题很有意思,兴军亮便开始考虑怎么转向这个方向。
为了对各种游戏有了解,他甚至熬夜把所有以前没有玩过的一些游戏都拿来研究,学习一些教程,练习手速,希望能通关。他自己都差点上瘾,觉得游戏非常有意思,尤其游戏里的设置很适合用来研究一些基本科学问题。于是在2016年,兴军亮坚定地转向了游戏博弈这类问题的研究上。
如果说研究计算视觉是为了让计算机具备像人眼那样的功能,那么研究游戏博弈就是为了让计算机拥有像人脑那样的功能。而游戏为什么对人工智能如此重要呢?
在人工智能的发展历史中,游戏一直伴随左右。早在人工智能创始期,人工智能之父、英国科学家艾伦·图灵,在1950年就提出了一个重要概念“图灵测试”,即让一个人向一台隔离的机器和另外一个人提问,如果提问的人没办法分清回答问题的是机器还是人,就认为这台机器通过了图灵测试。图灵测试提供了评估机器智能水平一个非常简单的方法,其实也可以把它理解成一个游戏,一个让人和机器玩猜真假的游戏。
接着,IBM研究院一位优秀的研究员塞谬尔,在1959年设计了一款具有一定自学能力的程序,他让这个程序学习西洋跳棋。一段时间后,他发现自己已经打不过这个程序了。随后他让程序继续不断学习,到了1962年,这个程序已经能够打败美国的州冠军,这是人工智能领域早期一个里程碑式的事件。
其实在人工智能发展的不同阶段,游戏一直是相关研究的试验场。1996年,IBM的深蓝计算机使用一种改进的搜索化程序,战胜了国际象棋世界冠军卡斯帕罗夫,引起了世界轰动。到了2016年,更广为人知的是AlphaGo战胜了围棋九段李世石及世界排名第一的柯洁。
AlphaGo已经在人类最复杂的棋类游戏中获胜了,但它远远没有解决真实的人工智能问题。围棋游戏其实还非常简单,因为它有着明确的规则和确定的边界,并且双方都可以看到完整的盘面信息。围棋的决策复杂度大概是10360,这样的复杂度已经是目前人类解决的最复杂的决策问题之一了,但它跟现实世界中的决策问题实际还相差甚远,因为一些开放环境下的现实决策问题,复杂度会远远超过1010000。
那么如何从百级的指数复杂度跨越到万级的指数复杂度,这就需要一些新环境去测试,这个环境还是游戏,只不过这一次是复杂的实时策略电子游戏。《王者荣耀》《星际争霸》《刀塔》等,它们的复杂度大约都在101000到1010000之间,非常适合用来训练人工智能,超越AlphaGo。
在人工智能研究的不同历史时期,都会找到不同复杂度的游戏用以测试人工智能的新技术。在游戏的试验场中,兴军亮带领团队筛选了很多典型游戏,包括最简单的单机游戏、麻将这种棋牌类游戏,《王者荣耀》这种实时策略游戏,以及更复杂一点的足球游戏,旨在从简单到复杂,从单个智能体到多个智能体的游戏中研发人工智能。
博弈学习研究组部分成员合影
兴军亮说,游戏的不同分类能帮助人工智能学习不同的能力,以探索类为例:“在《蒙特祖玛的复仇》这个游戏中,智能体的目标是走出迷宫,而要走出去就必须通过右边那扇门,要想走出那扇门就必须拿到左边那把钥匙,而底下有骷髅头会让它死掉。一开始它什么都不知道,就在里面不断地尝试。经过尝试之后,它就能发现一条很好的路径,它最终会学到先跳到梯子那里,然后下去,跳过骷髅头,爬上梯子,拿到钥匙,然后再下去,再跳跃,最后就走出去了,这是一个很复杂的过程。在这个复杂的决策过程中,它需要不断地去摸索怎么一步步走下去,慢慢地理解为什么要这么走。而人类在平时生活工作中也会遇到很多类似的情况。比如当面临很多选择的时候,怎么做决定?当失败的时候该怎么办?这都跟这种小游戏背后的原理很像。所以,我们去研究这类小游戏,就可以让人工智能更容易理解人的决策过程,并在人工智能不断变聪明的过程中了解人的智能是怎么形成的。”
除了小游戏外,兴军亮带着团队还做了一款德州扑克的游戏AI。它的复杂度跟围棋差不多,都是10的百次方。它的难点在于每个人手上都有两张私有牌。持有的牌小的时候也不一定会输,因为可以假装很大,押很大的注,把对方吓跑,这就涉及不完美信息的博弈问题。
为让机器学会打这种游戏,兴军亮他们用了十余台计算服务器,每台有8个GPU、2个CPU和1TB的内存,集中这么大的算力,让AI不断地自己跟自己打牌。用了大概20多天,共打了1亿局左右,最后AI达到了很高的博弈水平。最近,兴军亮的研究组又进一步提升了游戏学习的性能,仅仅使用一台服务器训练不到3天就能让AI达到极高的博弈水平。“所以AI会学习一些类似于人类专业选手才会有的计谋,这也是这种不完美信息博弈最有趣的地方。”兴军亮说。
为了推广这个不完美信息博弈研究的环境,让AI更聪明,也为了让人理解AI的决策过程,后来他们还做了一套德州扑克在线人机对抗平台OpenHoldem(http://holdem.ia.ac.cn/),目前已对外开放。
“这个系统可能是目前国内唯一的一个能够公开打德州扑克的地方,也欢迎大家注册到这个系统中跟AI打扑克,试试AI的水平,也帮助AI不断提升。”兴军亮介绍。“除此,我们还做了一款麻将AI。麻将和德州扑克有一个共性,都会有私有信息。但麻将相对于德州扑克来说难度会更大,因为未知的牌更多,所以它的信息缺失程度更大。我们打一盘麻将通常要几十个回合才能玩完,所以它的决策过程也更复杂。我们做这个程序时,不想再像德州扑克那样靠那么多机器去算,会特别耗电。我们希望在算力有限的情况下,通过算法的改进,尽快让AI学到比较高的水平。所以我们设计了很多不同的算法策略,进行改进和提升。之后我们也会把这个麻将AI放到网上让大家玩,一方面可以帮助AI学习,另一方面提升自己牌技,过年回家打牌可以多赢点。”
但在麻将、德州扑克和单机小游戏中,只是让一个智能体学习如何与其他玩家或环境博弈。实际上,现实中很多问题是要多个智能体一起学习,而且要相互配合。为解决多智能体博弈的求解问题,兴军亮带领团队又开展了基于博弈对抗的足球推演系统研究。“足球比赛是11个球员跟11个球员对打,这里面的配合、战术、战法都会更复杂,其复杂度又增加了很多个数量级。这个工作还处于前期,目前取得了一些初步成果,很多AI学会了快速突防、门前补射等战术。未来希望能使这11个智能体同时学习,并配合得到更好的结果。我们也希望这些研究能提升中国足球的水平,得到一些可取的参照经验。”兴军亮说。
科学家应心怀高远
从2016年转到游戏博弈研究后,兴军亮也慢慢建立起了自己的团队。“现在的学生都非常有想法和个性,所以对他们的培养需要因材施教。而且还要多跟他们交流,让他们愿意把心里话告诉我,所以我跟他们是亦师亦友的关系。”兴军亮谈起了与学生的相处方式。
兴军亮认为这些聪明的学生,理应心怀高远,从国家的角度出发,去解决一些更大、更重要的问题。他希望他们不要被外界的诱惑和压力影响,能在最宝贵的时光里做最重要的事情。虽然很多学生能做到,但也有一部分学生因为种种原因不能全身心去投入。
“我认识很多人非常有天赋,但最后他们选择去了更赚钱的地方,也是迫于生活等各方面的压力。其实每个行业都一样,都在选择合适的人做合适的事。中科院、清华、北大等院所、高校出来的研究生,是百里挑一、万里挑一的优秀人才,他们是最适合解决科学和工程研究难题的那批人,这些人都去干别的事情了,国家的科技发展要靠谁?”兴军亮说,对人才的流失心里很担忧。
虽然环境的影响让职业选择更加多元化,但兴军亮还是希望有更多人投入到科研事业中来,于是他经常去学校做科普,希望有更多学生未来能成为科学家。面对充满变数的国际形势,他更呼吁海外的那些优秀科技人才能回来,加入到为祖国科技发展作贡献的队伍中来,让技术更聪明、人们生活更美好、国家更富强。
而对兴军亮来说,眼下最重要的是把正在开展的项目“大规模不完美信息博弈高效求解方法研究”完成好。他介绍,不完美信息动态博弈在经济政策制定、法律法规优化、外交策略选择等诸多领域具有广泛应用。国外以加拿大阿尔伯特大学和美国卡内基梅隆大学为代表的研究机构长期致力于大规模不完美信息博弈的求解技术研究,近年来取得了诸多进展,而国内相关研究积累非常薄弱,与国外存在很大差距。
而正在开展的项目不仅面向一些实际应用需求,而且匹配了科技部发布的《科技创新2030——“新一代人工智能”重大项目2019年度定向项目申报指南》的技术方向。以突破大规模不完美信息博弈高效求解技术为牵引,重点研究两人及多人不完美信息博弈建模与均衡分析方法、大规模不完美信息博弈计算与优化学习技术、不完美信息博弈性能评价指标和高效评测协议等内容,项目最终想要实现的目标是:形成一个开放的不完美信息博弈在线评测和训练研究平台,从而打破国外相关研究机构在该研究领域的垄断地位,推动国内在不完美信息博弈及相关研究领域的技术发展和应用转化。
兴军亮介绍,在人工智能领域有个很明显的现象,一旦一款游戏被攻破、一个目标被实现,它所用的这个技术就不属于人工智能了。这既是一个残酷的现实,又给相关科研人员不断带来希望,他们可以通过更复杂的游戏,让AI不断进步。“也许某一天,游戏AI在某个领域战胜了人,但是它还需要去完成一些更复杂的任务,以更好地去帮助人、替换人。所以这个领域可能不会遇到我之前研究视觉问题时面临的失业问题,因为我们会持续地研究下去,直到最后得到一个更聪明、更有用、可与人类融为一体的人工智能。”兴军亮说。