“互联网+”趋势下人工智能在配音中的应用
2018-02-21肖爱云
郭 栋 肖爱云
(作者单位:西安工程大学新媒体艺术学院)
1 “互联网+”时代全面来临
从农业时代到工业时代再到信息化时代,人们口中的“互联网+”是什么?“互联网+”是互联网思维的进一步实践。其实,“互联网+”就是“互联网+各个传统行业”。它指的是利用互联网平台和信息通信技术将互联网与传统产业等各个行业深度融合在一起,从而在新领域创造出新的发展生态。
从“你今天抢红包了吗?”“你今天逛淘宝了吗?”到“网上号码,不要等待”,这些盛行的网络语言背后,显示了互联网对传统行业的渗透,这种影响几乎可以在每个行业中看到。
2 人工智能配音与生活
清早起床收到优酷的一条推送,是每日的新闻简报。与以往不同的是,视频的配音不再是专业的播音员而是人工智能配音;中午去魏家凉皮吃饭,吧台时不时传出类似岳云鹏的订单提示音,这个也是人工智能软件的合成声音;晚上开车回家,车载导航使用的仍然是人工智能配音,人工智能配音在不知不觉中已经融入人们的生活。例如,人工智能界的大红人-苹果手机的语音助手siri,先是由美国大妈苏珊贝内特用了一个多月的时间进行录制,而后技术人员使用电脑提取声音,最后利用人工智能算法将其改写成新的短语和句子,至此全球几千万用户使用的siri语音系统就诞生了。
百度教育团队也利用人工智能语音合成技术代替传统配音做了一个关于阿基米德的教学视频。“阿基米德,出生于公元前287年……”随着阿基米德的肖像照片,伴着沉着镇定不快不慢的男声,给人一种肖像和声音浑然一体的感觉。虽然视频中的声音是机器合成的,但它的声音标准、节奏合适,断句也很合理,其中,英语、数字和语气词等表达都非常出色。还有一款阅读产品iReader,使用智能语音合成技术来实现语音朗读效果,增强用户的阅读体验。目前,它支持中文普通话广播,中英文混合广播以及各种声音。此外,以大型游戏《逍遥西游》为例,通过百度语音合成技术实现游戏场景中的公告、任务等信息发布,让玩家玩游戏的同时,也可接听新任务。
实践证明,配音合成不仅可以用于视听阅读,还可以用于教学视频制作和课件制作场景。若是用在无需真人配音场景,或是低成本视频制作,视频配音的时间、人力等制作成本会大幅降低。
3 人工智能配音技术的先进性
人工智能配音技术称为“TTS”(文本到语音)。它是一种将计算机生成或外部输入的文本信息转换为可听、流畅的口头输出的技术。简单地说,文本被合成为一个声音,即一个声音文件。这种合成技术将用户输入的文本转换为流畅自然的语音输出,并支持语速、音调、音量和音频设置。其打破了传统的人机交互方式,使人们更加自然地沟通。在此技术基础上,结合顶级声学模型和语言模型,结合韵律处理,情感语音合成等技术,最终呈现出自然而富有张力的配音。
3.1 多种音色,可供挑选
AI语音合成技术支持中英文混合阅读,并提供各种声音包括男性、女性、情感和儿童,等等。
3.2 支持离线在线融合模式
AI语音合成采用在线融合技术,可以根据当前网络环境自动判断本地引擎或云端引擎,进行语音合成。
3.3 合成效果流畅自然
在合成效果方面,良好的AI合成效果接近真人的声音,流畅自然,非常富有表现力,能够提供更舒适的聆听体验。
3.4 电音模拟技术
用户只需要读取软件指定的文本两分钟,就可以模拟它们的电子声音。它用于唱歌、背诵,并以所有可以想象的语言去模拟一切可能的声音。由于这项技术,今天许多技术行业将进一步发展。
首先,所有种类机器人的拟人化将更加成功,因为它们可以模拟真实、可控的声音模型。一个具体的例子是,在今年的国际消费电子展上,ObEN和凯撒娱乐集团与微信合作。在凯撒娱乐旗下的酒店中,提供名为“Ben”的虚拟客户服务。入住凯撒娱乐集团酒店的客人可以通过跟随凯撒娱乐集团的微信号与手机进行互动,它可以用任何语音或语言回复。
4 人工智能配音的缺陷性和适应性
针对人工智能配音的适应性进行了一些抽样问卷调查,结果显示,对于资讯类消息和任务播报场景等,63%的人从一开始就没有表现出不适应和排斥;21%的人表示在使用过程中不适感慢慢消失,开始习惯人工智能的配音;仍有16%的人坚持认为人工智能配音缺乏独特的个性,更习惯真人配音。传统的配音方法很大程度上依赖于配音演员,演员录制的内容是固定的。而这一切将可能因为人工智能而改变。一些看似简单的视频也需要专业团队在制作、场地、设备、演员、配音等方面花费数天时间,投资不小。除人声合成外,AI配音在对环境音和景物音的模拟中更是表现出色,常常使人真假难辨。很长一段时间、高价格、缓慢的过程、反复的确认和修改是传统配音的软肋,尤其是高操作门槛让很多普通用户抱怨。人工智能软件配音的诞生改变了传统配音的弊端,操作门槛较低,配音效率较高,文字通过智能算法即刻变成人声,这中间也省略了很多过程。随着合成技术和专业设备的升级,人工智能配音的服务能力也将提升到一个新水平。
但AI智能配音还是有一定的缺陷,首先它没有情感也没有思想,在现阶段仅仅只是能够做到更接近人声,但缺乏配音员对于声音形象和具体情节的塑造,所以适用场景有限。其次,在智能语音交互方面,它还无法达到完全理解用户的程度。要充分了解用户不仅需要高度的语音识别,还需要复杂的动态语义理解,机器才能准确理解用户的意图。这是两种不同的技术:语音识别仅将用户的语音命令与嘈杂的背景声音分开,确保原始命令正确;而语义理解更复杂,是增强用户体验以支持不同用户场景的关键步骤,能够了解用户的号令和真实需求,执行上下文管理以及有效完成对话。
5 结语
虽然智能化很方便也专业省事,但是远比人工服务冰冷机械很多,在越来越发达的科技背后,人们会更加怀念人与人之间的交流与沟通。例如,在智能手机流行的当代时代,许多人呼吁放下手机与周围的人面对面交流。所以,未来科技越发达,越要重视人工服务的重要性。人工智能听起来仿佛很遥远,但事实上已渗透到人们的日常工作和生活中。在不久的将来,互联网的发展,大数据、硬件和软件优化,甚至整个社会的参与,人工智能将离开实验室真正发挥作用,成为改变人们生活的一部分。人工智能虽好,但也离不开人,所以智能配音不仅不会成为威胁,还将为配音行业带来更大的商机。