AI已经不想打败人类了
2022-05-30倪妮
倪妮
1992年,艾尔伯特大学研发的跳棋程序Chinook挑战跳棋高手马里恩·廷斯利(MarionTinsley)失败,此后长达30年的时间里,人类一直执着于在各类游戏中探索人工智能(AI)技术所能达到的能力极致。但是最近,业界对AI在游戏中打败人类已经越来越无所谓了。
像去年大热的科幻电影《失控玩家》里的非玩家角色(NPC)主角“盖”那样,逐渐拥有自主意识,甚至让人误以为其背后就是真人玩家,似乎开始成为AI技术在游戏中的主要应用方向。
AI应用在游戏中的历史最早可以追溯至著名的“图灵测试”。1950年艾伦·图灵(AlanTuring)在“模仿游戏”中引入计算机以检测机器是否可以像人一样思考。在这个测试中,玩家A是一台计算机,玩家B和玩家C都是人类,游戏中,玩家C需要与其他两个玩家隔离,并找出哪位是机器。图灵提出,如果玩家C无法准确判断谁是机器,那么计算机就通过了测试,并被认为是智能的—迄今为止,还没有任何计算机真正通过图灵测试,也就是说,人类仍能够较轻易地分辨出真人和机 器。
而相比“伪装”人类,战胜人类似乎要简单得多。比如经过3年的“学习”,Chinook在與马里恩的对决中已经能打出6局平手,并最终取得胜利;到了2007年,Chinook已经完全破解西洋跳棋游戏,这意味着人类永远无法在与Chinook的对局中取胜。而IBM的Deep Blue、DeepMind的AlphaGo、OpenAI的OpenAI Five也先后在国际象棋、围棋、《星际争霸Ⅱ》中打败了人类世界冠军。
就在几年前,“打败人类”还是AI在游戏行业里最被认可的价值,但是渐渐地,人们发现,让AI在游戏中参赛获胜,再让它成为职业选手的陪练,其实并不能带来太多价值。与其展现“AI有多强”,不如将更多精力放在思考如何提高大多数玩家的体验上,让它们的行为举止更接近人,成为“拟人化的 AI”。
已经有一些游戏和技术公司做出尝试。成立于2019年的AI游戏公司超参数,其代表产品就是AI玩家参与的《轮到你了》在线推理游戏。2020年春节,腾讯也在手游《穿越火线-枪战王者》中推出了包含拟人化AI玩家在内的新剧情玩法“电竞传奇”。去年,商汤科技开源了可以帮助开发者训练高智能水平游戏AI的训练平台DI-engine,降低游戏公司训练拟人化AI的门槛。
对于这种拟人化AI如何提升真人玩家的体验,启元世界创始人兼CEO袁泉对《第一财经》杂志形容它“有输有赢,输得漂亮”。这家公司为包括游戏在内的众多领域提供AI技术支持。
在竞技类游戏中,有一种概念叫“温暖局”:如果人类玩家在游戏中连续战败多次,通常这时会出现系统设置的角色来“送人头”,让玩家赢一次,不至于太过挫败。只是在传统游戏的设定中,这些系统角色往往一动不动或者对空放技能,“放水”行为太过明显,如此,玩家可能非但不会感受到多少胜利的快乐,反而会觉得智商受到侮辱,游戏体验感变得更差了。
但拟人化A I不同,它们有自己的作战风格,会躲避,会攻击,当然,也会犯错。“当玩家无法区分角色背后是人还是AI,同时这种AI角色又能挖掘玩家的情绪价值时,AI在游戏中应用的这条路才算真的走通。”商汤科技智慧决策与游戏事业部总经理兼高级研究总监刘宇对《第一财经》杂志 说。
目前在游戏中,拟人化AI主要有两种应用场景,一种是可以对战也可以协作的AI玩家,另一种则是可以对话从而产生非脚本剧情的AI角色。其中,AI玩家更多地出现在第一人称射击游戏(FPS)、多人在线战斗竞技游戏(MOBA)、策略类游戏(SLG)等游戏类型中;可以自主对话的AI角色则多见于开放世界游戏。因为AI游戏智能体以得分为目标最容易定义,即以“赢”为最终目的,所以相较于剧情类游戏,竞技类的游戏普遍被认为是当前训练AI最理想的一种模 型。
竞技类游戏中的机器学习分为两种情况。已经上线一段时间、有一定玩家的“热启动”游戏往往已有大规模的玩家数据,AI可以先通过模仿学习(Imitation Learning)的方式,掌握一定的作战风格。比如在《王者荣耀》这类MOBA对战中,有的AI玩家会躲在草丛埋伏偷袭,也有的AI玩家会正面进攻。掌握一定风格后,AI进入强化学习(Reinforcement learning)阶段,不同风格的AI玩家通过互相对战或自对弈的方式,探索不同于人类数据的新打法。随后,AI玩家被投放至真实市场,与人类玩家组队、对战,并在此过程中不断学习。
AI在游戏中的应用大事记
但对于还未上线、没有用户的“冷启动”游戏来说,训练一个拟人化的AI玩家非常艰难:没有人类玩家数据,模仿学习所需要的数据只能由程序员在传统规则的基础上编写,人为生成数据。
此外,不同于2D平面,在3D射击游戏中训练拟人化AI玩家的难度更大,AI的每个视角都是另一个环境状态,这与自动驾驶技术的训练相似。
据启元世界的一位产品经理介绍,3D射击游戏中AI玩家训练的难处主要是三个方面。首先是输入信息量大,AI玩家需要捡装备、找掩体,这要求AI玩家根据输入的环境数据感知地形、判断周边的物体;其次是动作空间复杂,在3D环境中,不同于2D下棋游戏中前后左右的四个方向移动,AI玩家可以有360度的移动和瞄准状态;最后是决策时间短,拟人化的AI玩家应该不必遵循固定的动作规则,比如在同一时间,AI玩家可以选择“走”“打”“躲”等不同的动作,需要应对不同的战况,且需要在非常短的时间中作出选择,这并不是传统行为树能够完全覆盖的领域。
以计算机程序的反应速度和精度来看,在3D射击游戏中,让AI做到枪枪爆头并不是什么难事,可一旦要求“拟人化”,就是提出了新的要求。“拟人化的AI 玩家需要在游戏机制上与真实玩家基本相同,不能在规则上让AI玩家作弊,比如它也应该看不清掩体对面是什么,它也需要学习人类玩家的那种‘探头然后立刻缩回去的动作,想要更拟人,主要是靠大规模深度强化学习,提升AI的认知和决策能力,并通过端到端训练系统来不断优化。”启元世界的产品经理告诉《第一财经》杂志。为了让AI玩家能够和不同等级的人类玩家对决,团队需要训练出足够强大且拟人的AI玩 家,才能匹配不同分段玩家的需求。
AI玩家在游戏中的训练过程
而在商汤科技的刘宇看来,AI领域的每一座“珠峰”其实都是从游戏中产生的。很长的时间里,游戏都是验证AI技术能力和技术发展最完美的试验田。游戏是一个相对拟真的环境,尤其在3D游戏中,可以呈现出有楼、有人、有车的微缩版现实社会;与此同时,游戏中的测试相对现实社会是零成本的,比如如今许多已落地的自动驾驶技术,最初就是在游戏相关场景中试验的:游戏中可以模拟突然窜出的行人、强行加塞的车辆,并设置风霜雨雪等复杂天气情况,从而测试自动驾驶汽车应对突发情况的决策和控制能力。也就是说,拟人化AI的价值不仅仅体现在游戏 中。
不过刘宇认为,目前AI对于游戏行业的贡献还处于非常早期的阶段。如今应用在游戏中的AI技术,其实和20年前电脑游戏中针对难度等级分配不同对战模式的程序没有什么不同。虽然基于强化学习、深度学习,拟人化让AI相比传统时期具备了更多样的性格与表现方式,但现有成果仍只停留在游戏公司和技术公司合力做出几个AI机器人和人类玩家协作、對战,AI的应用并未渗透到游戏的策划、运营等各个阶段。像《失控玩家》中的“盖”那样能让游戏充满无限可能性的AI玩家,还仅仅停留在设想中。
像《失控玩家》中的“盖”那样能让游戏充满无限可能性的AI玩家,仅停留在设想中。
监管趋严也不同程度地限制了游戏行业在AI领域的探索。一方面新客获取艰难、增量萎缩,另一方面在游戏精品化成为大趋势的背景下,企业的研发成本、运营推广成本又在不断提升。因此,在刘宇的观察中,大多数游戏公司在“AI+游戏”的探索中趋于保守,对于中小厂而言,开发AI训练系统更是无法承受。
“什么时候搜索‘AI+游戏,出现的主题从‘谁谁谁又在什么游戏中击败人类玩家,变成了AI技术已经完全成为了游戏机制的一部分,这可能才是AI在游戏应用中的终极形态。”刘宇说。