APP下载

霉霉说中文,AI再陷隐忧

2023-12-19非田

看世界 2023年23期
关键词:语音游戏模型

非田

近日,綽号“霉霉”的美国歌手泰勒·斯威夫特的一则说中文视频,刷屏了中国社交媒体。

在短短几十秒的视频里,霉霉操着一口流利的普通话,讲述着自己最近的旅行—霉霉居然学会了中文,这是为来中国巡演做准备吗?事实上,这段视频是利用AI工具制作而成,有别于刻板印象中AI死板的翻译,和发音对不上口型,这次的视频几乎以假乱真,网友被这个“没有译制片腔调的翻译”深深震撼到。

AI与人声这两个关键词结合,在今年已经贡献了一个又一个热搜,先是不断有网友以AI模拟孙燕姿声线发布翻唱,为后者赢得了“AI歌后”的昵称,再到近来香港老牌艺人尹光,推出了一首本人和自己AI声线合唱的歌曲,他也成为香港首个注册了自己AI形象的歌手。

当下AI再度“进化”,以“霉霉说中文”视频中用到的软件“HeyGen”为例,即便是不懂技术的小白,也可以轻松实现视频中完美口型和语音卡点的效果,这对营销、配音等行业,乃至大家的日常生活,都是一次巨大的冲击。

为了让电脑能和人类一样“说话”,科技工作者经历了多年的漫长探索,如今AI时代来临,如此逼真的深度合成技术,对人类而言,究竟是惊喜还是惊吓呢?

免费开源工具

事实上,在AI的帮助下,要想让外国人“说中文”并不困难,但背后需要应用多种不同的AI模型。

正如“霉霉说中文”视频上传者所说,制作这个视频,要掌握地道的口语翻译、语音克隆和替换嘴型。

先是语音类,包括语音转文本(Speech To Text,即“STT”)和文本转语音(Text To Speech,即“TTS”)两部分。以微软、谷歌为代表的技术大厂,开发迭代了一系列语音类通用模型,国内如网易、讯飞等,也都开放了免费的语音识别类模型,类似微信等软件所采用的“语音打字”,就应用了STT技术。

以微软为例,其STT可快速准确地将音频转录为超过100种语言和方言的文本,还能通过自定义模型,提高特定术语的准确性。

而短视频网站上充斥着“这个男人叫小帅”“N分钟看完一部剧”式的影视解说,所用的“解说声音”,大多也是来自微软的TTS模型。

然后是翻译,ChatGPT等语言模型的诞生,让翻译变得更为自然准确,避免了转折生硬的“机翻口吻”,从而能生成出一份更接近口语的文本。

再就是声音,这一步通常需要用到歌声合成(Singing Voice Synthesis,即“SVS”)和歌声转换(Singing Voice Conversion,即“SVC”)技术。AI可以将一段人声音频转换为符合用户需求的另一种声线—初音未来、洛天依等虚拟歌手、地图软件里的明星虚拟导航员、此前异常火爆的AI翻唱,大多是应用了这类技术。

得益于AI行业的突飞猛进,上述步骤均有免费的开源软件方案可以提供。

AI配音平台HeyGen

处理完上述步骤后,还必须让生成的视频与口型同步,这一步同样需要AI利用计算机视觉技术,生成出逼真度极高、在任意角度和距离下都不失真的三维模型。

得益于AI行业的突飞猛进,上述步骤均有免费的开源软件方案可以提供,只要用户不嫌麻烦,可以先将视频里的语音提取成文字,翻译后语音输出,再经声音克隆和嘴型修正,从而让任何外国人“说中文”,而且不花一分钱。

可一键生成

不过,实际制作类似视频的过程并没有这么麻烦,如HeyGen、AI Dubbing、LipDub、Verbalate等软件,都可以通过融合及应用上述模型实现一键生成。

以知名度较高的HeyGen为例,其背后的诗云科技是一家2020年在深圳成立的公司,两位创始人本科都毕业于同济大学。目前该公司已经获得了两轮百万美元级别的融资,在加利福尼亚州也设有办公室。

几个月前,HeyGen发布了两则其公司创始人面对镜头侃侃而谈的视频,并表示,该视频全部内容包括人像和声音均为AI自动生成。这让不少网友大开眼界,一些媒体开始以“AI视频领域的Midjourney”来称呼HeyGen。

Midjourney是一款绘画类AI,可根据文字描述自动生成出符合要求的图片,其生成的图片也解决了AI绘图中常见的六指或人脸表情过于僵硬等常见问题。而HeyGen也颇具颠覆性—媒体发布的那两则视频里,除了AI数字人眨眼过于频繁外,几乎看不出破绽。

HeyGen趁热打铁,在今年9月开放了“视频翻译”(Video Translate)功能,再度在国外社交媒体上霸榜,其网站当月的访问量突破700万次,同比上涨了约92%。

两则视频里,除了AI数字人眨眼过于频繁外,几乎看不出破绽。

《未定事件簿》采用A I 配音的角色莫弈

HeyGen在官网介绍中写着,“一键翻译您的视频,使用语音克隆技术,还原自然真实说话风格”。有媒体指出,HeyGen接入了负责翻译的ChatGPT、实现语音克隆的11Labs,以及同步人物口型的wav2lip-2三个AI模型。

如今挂在HeyGen首页被当作范例的,是一段头部科技博主Brownlee说西班牙语,和埃隆·马斯克说法语的视频。付费版的HeyGen价格为24-192美元(约合人民币175-1400元)/月,可实现近20种语言視频的无缝转换,单个视频最多支持5分钟时长,免费版在视频时长等方面均有所限制,等待时间也较长。

配音行业冲击几何?

每一次新的AI技术应用,都会对原有行业产生冲击,AI语音同样不例外。当AI不仅可以克隆音色,还能无缝翻译时,这对配音行业无疑是巨大的冲击。

这一两年来,AI配音在游戏行业里也引发了不少讨论。知名游戏《赛博朋克2077》在不久前推出的最新DLC中,就用AI技术重现了已故知名配音演员Mi?ogost Reczek的声音。据国外媒体报道,游戏开发商使用的也是类似SVC的技术,邀请了一位声线与Reczek接近的配音演员参与配音,再通过AI复刻。

国内游戏厂商也同样不排斥AI声音。米哈游的《未定事件簿》和网易的《时空中的绘旅人》两款游戏,在去年9月都出现了部分配音演员因故无法参与的情况,而两家公司选择的方案都是用AI配音来代替。

尽管AI与顶级配音演员相比仍显逊色,但在轻重、停顿、颤音等声音细节方面都有一定的表现力。“不行就换AI”,甚至成为一些玩家吐槽配音水准太差时的常用语。

但并非所有游戏在运用AI声音上都能让人满意,一款名为《The Finals》的多人竞技射击游戏,近来在国外游戏圈颇为火爆,既因为这款游戏在玩法上能看到诸多经典同类型游戏的影子,却也因为它的配音过于难听和洗脑。

该游戏开发团队成员随后承认,游戏除了呼吸声等AI难以模拟的声音外,大多数人声都是AI完成,并坦称目的就是为了能花更少钱,得到更专业的配音。

对于大多数玩家而言,AI与否或许并不重要,更有感情、更像人声才是重点。但对于配音演员来说,AI登场后,情况明显严峻得多。

据路透社报道,在美国演员工会掀起的罢工浪潮中,有98.32%的工会成员同意对包括动视、迪士尼、EA等在内的10家大型游戏公司进行罢工。

双方无法就如何合理地使用人工智能等问题达成一致,一些由知名演员或声优参与配音、动作捕捉的游戏势必受到影响,该工会主席弗兰·弗雷舍尔称:“AI再一次将我们的成员置于减少工作机会的危机之中。”

监管问题难解

除了具体的行业外,语音类AI对普通人的影响也不容忽视。

首先是心理层面。1970年代,日本机器人专家森政弘提出了“恐怖谷效应”理论,大意是指,当机器人与人类的接近程度超过一定界限时,人类在心理上对机器人的好感就会降至冰点。而如今随着AI技术发展,离取代一部分人越来越近,人类对AI的惊惧随之攀升,历史进程也走到了属于AI的“恐怖谷”时段。

在现实层面,HeyGen无疑给深度造假(Deepfakes)提供了更多可能。当Faceswap等换脸AI问世时,视频画面的内容就不再100%可信,“眼见为实”的规律被打破。

而如今HeyGen等AI上线,甚至连视频里听见的声音都不一定为实。从AI换脸再到如今AI换声,技术的加持让居心不良者,几乎可以凭空捏造出一个不存在的视频,欺骗公众的难度大大降低,普通人想要分辨哪些信息是由AI生成,也将变得更难。

得益于AI技术的发展与大量免费开源AI,创造虚假信息的难度越来越低,只要稍具名气,都可能成为的“受害者”,名人更是不胜其扰。更不用说,这种技术正在滋生新型诈骗。

11月1日,首届全球人工智能安全峰会在英国举行

日前,国外社交媒体上流传着一段印度尼西亚总统佐科以流利中文发表演讲的视频,视频的背景音还有观众的笑声,显得相当真实。然而,该国通信和信息技术部信息应用司司长杰拉潘在调查后称,该视频画面截取自2015年的一场活动,但内容是利用深度造假技术伪造而成。

极低的创作门槛低意味着更难的监管。一些国家已经推出了相关的规定—以中国为例,以今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》规定,相关AI技术在向公众提供服务前,都需经安全评估和备案。但从世界范围来看,相关法规还远远称不上完善。

值得庆幸的是,人类在当下已经就AI问题达成了一定共识。11月1日,在首届全球人工智能安全峰会上,中英美等近30个国家和地区及欧盟联合签署了《布莱切利宣言》,共同应对AI可能带来的挑战。英国媒体称,这是罕见的全球团结表现。

技术不分善恶,如何牵好技术的缰绳,不让人沦为技术进步的牺牲品,这是全人类需要共同关注的课题。

责任编辑吴阳煜 wyy@nfcmag.com

猜你喜欢

语音游戏模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
数独游戏
疯狂的游戏
3D打印中的模型分割与打包
爆笑游戏