游戏公司的大模型好用吗?天工3.5水平如何
2023-05-30颜媛媛
颜媛媛
游戏行业竞相入局AI
从游戏人物角色设计、环境辅助生成到NPC对话、分支剧情设计等等应用,游戏被普遍认为是AI赋能的确定性受益者,AI技术在游戏生产的上、中、下游环节均可提供助力。
对游戏厂商而言,AIGC其实不是一个陌生概念。厂商们在探索工业化开发管线的过程中,实则已经探索AIGC技术多年。例如,美国游戏厂商Rockstar,之前在旗下游戲《侠盗猎车手5》和《荒野大镖客2》的NPC交互、人物建模、环境渲染等环节,均使用了AIGC技术辅助开发。
在这样的大趋势下,游戏企业布局AI技术也就不足为奇了。如腾讯已有自主研发的“混元”AI大模型,并将AI技术定位为推进业务发展的“加速器”,有着较为清晰的布局方向和后续应用场景:除了通过AIGC技术辅助游戏开发创作外,还将在社交、广告、内容创作、数字人等场景应用AI技术。另一头部厂商网易此前则在2022年年报中提到,公司自2018年起启动GPT模型研究,已自研数十个超大规模预训练模型,目前公开的大模型仅有伏羲实验室研发的“玉言”大模型(如图1)。
而除腾讯、网易两大游戏圈巨擘外,昆仑万维、巨人网络、汤姆猫等国内知名游戏企业同样积极布局AI生态,自身“降本增效”的同时,更能在AI游戏时代攫取更多话语权,其中,游戏厂商选择自研大模型的毕竟是少数,而昆仑万维自宣布和奇点智源合作推出自研“天工”AI大模型后就备受市场关注,这一热度更是随着“天工3.5”大语言模型的出现而攀升至巅峰。
承载昆仑万维野心的天工3.5
“中国第一个真正实现智能涌现的国产大语言模型”——昆仑万维对“天工3.5”的评价极高,而在大语言模型混战的当下,昆仑万维更是在近期预告旗下大模型“天工”邀测的公告中直接叫板友商称,自己才是“中国第一个真正实现智能涌现的国产大语言模型”,友商则依赖“定向优化”“人工打补丁”来“覆盖特定题库”。对于“天工3.5”,昆仑万维更是毫不掩饰地称天工大模型“已经非常接近OpenAIChatGPT的智能水平”。之所以把这个版本命名为天工3.5,就是因为ChatGPT是基于GPT3.5大模型。
如此高调出厂,显然充分激起了广大网友的兴趣,在有幸通过内测申请后,笔者第一时间就对“天工3.5”定位进行了问询。根据首界面显示,“天工3.5”语言大模型自称“天工AI助手”并表示“作为一款大型语言模型,我拥有强大的自然语言处理和智能交互能力,能够智能答、聊天互动、创作文本等等。并且我有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。希望我能帮助到你”(如图2)。
“天工3.5”语言对话界面同其他大语言模型类似,除自我介绍和热门话题外,就是底部的聊天输入框了。当笔者以“同ChatGPT3.5、文心一言、阿里通义等大语言模型相比,天工3.5处于怎样的水平?”为问题,向天工AI助手提问时,天工AI助手的回答还是相当低调的(如图3)。
天工AI助手虽然没有明确答复三款大语言模型高下,而是反复强调“天工3.5”的优秀,不过明确表明“天工3.5在处理长文本和复杂任务方面具有更强的能力”,这让笔者非常好奇“天工3.5”在这两部分的表现。
“长文本能力”检验:没有想象的强
汉语言文学本身博大精深,大部分语言模型都能在“帮我写一篇赞美‘秋天的文章”“高考前15天应该如何缓解孩子紧张、焦虑情绪”等开放式命题中取得不错的成绩,但一旦需要大语言模型对语义、语境进行分析乃至品读时,往往很难取得让人满意的结果。
在“长文本能力”检验环节,我们首先通过一道古诗词鉴别题目测试“天工3.5”对于长文本语义、语境的理解,本身古诗词句意在网络上也有大量的语料可供查询,按理说这是比较简单的题目,“天工3.5”的答案却让人大跌眼镜(如图4)。
显然,“天工3.5”没有理解“下列哪一首诗句不属于送别诗?”的题目,虽然给出答案A属于送别诗,可同笔者最终想要的答案多少有些牛头不对马嘴的感觉。而古诗词含义测试未能通过,笔者还是决定再给“天工3.5”一次机会,尝试让它完成一道长文本的语序排列题目(如图5)。
问题和前面的古诗词一样,“天工3.5”并不能很好地理解题目的意思,即便是小学四年级的语文语序题目,“天工3.5”也没办法给出参考答案和建议。当然,在面对“帮我写一篇有关重庆夏天的文章”一类开放式题目的时候,“天工3.5”还是能够给出一份让人满意的答案。
从“长文本能力”检验环节可以看出,“天工3.5”对于限定范围的语句、语序理解上,同人们一贯的认知还有一段相当大的差距。
“复杂任务能力”检验:未通过并不意外
在“复杂任务”处理方面,更多时候数学思维题目往往能体现各家AI语言大模型的能力,尤其是数学思维这块,即便是人脑也存在“数论决定下限,组合决定上限”的说法,目前笔者测试过的ChatGPT3.5、文心一言、通义大模型中,暂时没有任何一款语言大模型能够通过相对复杂的数论和组合题目,而“天工3.5”在这一块的测试上也不出意外的没有通过(如图6)。
无论从分析方法还是答案看,“天工3.5”都没有正确地理解题意并且完成正确答案的验算。尝试着将数学思维题目难度降低,让“天工3.5”计算相对基础的环形跑道问题,因为涉及多次相遇和速度差、顺时针等语言问题,“在400米的环形跑道上,甲、乙两人同时从某地出发,按顺时针方向跑步,甲每秒跑5米,乙每秒跑4米,两人每跑100米,都要停10秒钟,那么甲第二次追上乙需要的时间是多少秒?”这道题目也可以算是复杂的任务,可从“天工3.5”的答案可以看出,其挑战复杂数学问题再次失败(如图7)。
接下来我们不断尝试将题目化简,直至“一条环形跑道长400米,小青每分钟跑260米,小兰每分钟跑210米,两人同时出发同向而行,经过多少分钟追上?”,可非常遗憾的是即便将环形跑道问题化简至此,“天工3.5”依旧无法演算出正确答案(如图8)。
“開放性问题”检验:工整但无优势
“长文本能力”和“复杂任务能力”两个“天工3.5”自认为较擅长的领域测试中,其给出的结果显然达不到人们的预期目标,无论是对题目本身的理解还是面对复杂问题时给出的解决办法,“天工3.5”都多少让人有些失望。而在“开放性问题”检验中,我们也尝试使用“高考最后15天如何快速提分?”“高考失利的话应该如何选择今后的路?”这样的问题去考查“天工3.5”的逻辑思维能力是否清晰(如图9)。
显然,在面对开放性的问题时,“天工3.5”还是能够给出条理、逻辑清楚的答案,对于广告文案撰写、简单文本写作等应用,“天工3.5”还是能够较好地满足用户所需,不过话题又回到最开始,如果“天工3.5”只是能够实现人机对话并在开放语境下才能给出答案,恐怕很难体现出其生产力属性以及同其他语言大模型相比的差异性。
期待语言大模型的差异化
回顾过去一年,大模型的诞生宣告了整个人工智能进入全新的重工业时代。而从文心一言开始,国内大语言模型进入热闹非凡、阵营林立的百家争鸣时代。据不完全统计,在ChatGPT发布后的短短4个月时间里,已经有至少30个国内研发机构与企业纷纷推出自己品牌的大模型与相关产品。一时间,整个产业圈热闹纷呈、争先恐后,“类ChatGPT”漫天飞舞,“国内首发”比比皆是。
浮华之下,真正的生产力属性与差异化又在哪里?单从人机对话来讲,早在智能音箱混战时,人机对话就已经普及,尤其是各智能手机品牌嵌入的语音助手,完全可以在功能上同这些语言大模型相重叠。相比之下,国内大语言模型的根又在哪里?
单从商业模式上看,ChatGPT已经明确指向API、订阅制和战略合作(嵌入微软Bing、Office等软件)三种营收方式,且已在用户数据积累、产品布局和生态建设层面充分领先;Google虽有意追赶,但由于聊天机器人这样的产品形态对于其主营的搜索引擎业务的助益有限,因此在与搜索引擎结合方面较为审慎,更希望借助大模型能力开展“模型即服务”范式,开拓其当前市占率较低的云服务业务的市场空间。
在这样的大环境下,国内大语言模型们,或许是时候思考下自己未来的定位和发展方向了。