短视频AI配音的使用与满足研究

2024-03-17夏春秋

新闻研究导刊 2024年4期

摘要：声音作为一种媒介，影响着人与场景之间的关系，让人感知并涉入世界。当下，迅速发展的智能语音合成技术不仅可以用于人机协作、自然语言理解等领域，而且在改善语音交互体验、服务于特定人群等方面也具有广泛的应用价值。作为AIGC（人工智能生产内容）的分支之一，AI配音在短视频领域也迎来了极大的发展和创新。一方面，智能音色在语音转换、音效增强、画面配音等方面能够起到增益效果，促进内容创作的繁荣。另一方面，基于技术创造的标签、话题、热梗开辟了网络传播的新形式。低成本、效果优、差异化的优点让智能语音在某种程度上代替甚至超越真人人声，以一种贴合大众的视点转述用户的表达并提供全新的听觉审美体验。为了进一步探索AI配音在短视频领域所凸显的功能，本研究采用文献调查法、观察法等，分析短视频中AI配音所呈现的特征，将其总结为资源预置化、声音赛博化、听觉审美化三点。文章以使用与满足理论为依据，从技术手段、语音符号、听觉方式、传播模因多角度入手，探讨短视频AI配音对受众的娱乐、情感、认知、整合等需求的满足。文章认为，对于短视频AI配音应保持关注和反思，虽然AI配音存在同质化、版权等问题，但是相信随着社会技术的变革，智能语音的发展会适配更多短视频场景，为更便捷高效的生活方式创造更多可能。

关键词：AI配音；人工智能；使用与满足；听觉文化；模因传播

中图分类号：TP18；G206 文献标志码：A 文章编号：1674-8883（2024）04-0001-03

基金项目：本论文为2023年度中共辽宁省委党校国家社科办社科基金项目“数据驱动国家治理现代化的内在机理与实现路径”研究成果，项目编号：23BZZ084

一、引言

智能语音即实现人与机器以语言为纽带的通信[1]。AI配音是基于语音合成技术，运用计算机采集人类声音样本生成语言模型以此完成配音任务的过程。TTS（语音合成）能够将文字转化为声音（朗读出来），是AI配音的技术支撑。抖音短视频对应的剪辑软件“剪映”、快手短视频的“快影”，都提供各式各样的AI配音。如今技术的发展与赋权使得众多UGC进入短视频市场，AI配音的使用主体迅速下沉到各个圈层，极大地丰富了视听元素。声音比影视更具渗透力、爆破力，正常人可以将眼睛长时间闭上，却无法长时间把耳朵捂着[2]。短视频作为视听艺术的载体，画面配音直接或间接地影响受众对视频内容的解读，能够满足用户不同的视听需求。

二、短视频AI配音的应用特征

（一）资源预置化

正如保罗·莱文森所说：“一切媒介的性能终将越来越人性化。”[3]AI配音的声音是通过“爬数据”来组成，迭代速度快。只要采集到足夠多的声音样本，其在不同的场景就可以随意变换音色。对声音来说，可选择的原声、预置的音色，为用户提供了一种模式化、可复制的表演前台，人们原本丰富多彩的个性被划分为了不同的“人设”[4]。

AI配音现象在短视频平台随处可见，小到生活记录、大到主流媒体玩“梗”，表面上是不同的影视角色、地域方言讲述着不符合他们形象的故事，实际上是大众通过网络切换身份向世界袒露心声、表达倾向。如剪映APP从最初的通用基础男女声，到现在拥有百余种音色选择，主要包括影视人物、动漫角色、地域方言等。这些一键生成的预设选项降低了视频创作成本，满足了不愿出镜或不想使用同期声的用户的需求，保护了用户隐私，给予了用户足够的自由。

（二）声音赛博化

约斯·德·穆尔总结了数字媒介的三种特性：多媒体性、互动性、虚拟性[5]。19世纪七八十年代，留声机、唱片的发明和使用让人声脱离了身体实在。随着互联网时代的到来，人们只需轻点指尖便可游离于形形色色的场景之中，当身体被隐藏，声音作为一种物理现象在网络中呈现出赛博化的特征。

短视频功能的开发和细化不断挖掘着声音的价值和魅力，平衡了视与听之间的关系，也在无形中改变了大众的生活方式与感知模式。对于用户而言，在视频中发声也属于一种情感实践。

在讲述相关故事的过程中，智能音色发挥了重要作用，“猴哥”开始进行知识科普、“主持人”吐槽起了日常琐碎。如果说一般的真人配音是对文本内容的物理加工，那么AI配音作用于文本，带来的则是熟悉而又陌生的化学反应。

（三）听觉审美化

人们在接触视听作品的过程中，由于视觉的直观性，审美对象仍以承载意义的文字为主，而声音的审美价值可能被有意无意地忽略。基于智能音色所产生的信息产品虽难以被纳入绘画、音乐等艺术范畴，但也会在一定程度上影响受众的认知、态度、行为等。不同的音色呈现多元的个性风格和审美特征：动漫音活泼、年轻化；播音腔庄重，凸显专业度；方言亲切，消解距离感。和能够辨别方向的眼睛相比，耳朵是一种情感性媒介[6]。

AI配音正以全新的听觉方式塑造新的声音景观。短视频能够直接抓取用户眼球，并产生指向性让用户投入画面当中，开启第一次内容解读，而声音揭示了另一层解读意义，引导用户跟随博主的步调继续了解视频内容。一般来说，真人人声听起来更加亲切，但带有科技纹理的AI配音未尝不能响应用户的心声。

三、短视频AI配音的使用与满足

1974年，美国社会学家卡茨提出，“使用与满足”理论，把受众看作有特定需求的个人，把他们的媒介接触活动看作基于特定需求的动机“使用”媒介，从而使这些需求得到“满足”的过程[7]。

新媒体时代，传受双方的地位发生了“融合性”变化，用户既是生产者也是传播者。短视频AI配音让用户与内容之间的联系更加紧密，逐渐影响用户的使用习惯，满足不同的使用需求。

（一）赛博声音满足情感需求

声音不像目光那样带有方向性地向其对象投射，却总是形成一个将听觉主体沉浸其中的环境[8]。AI配音的特质提高了用户讲故事的能力，助力个人表达内心情感。

如果说短视频打开了人们抒发情感的另一扇门，那么AI配音就是他们细化喜怒哀乐的窗口。不管是虚拟世界还是现实世界，总有“沉默的大多数”，AI配音授予那些在现实世界中“开不了口”的用户开口的权限，让那些在虚拟世界中“开不了口”的用户有了开口的勇气。

当智能语音技术加入口语传播行列后，有声语言传播便可摆脱人的限制，进行非器官发声[9]。热门的“猴哥”“译制片男”语音包，不论是用于个人日常Vlog创作，还是评论其他热点现象，仅仅通过一键生成，灵动、厚重的声音能为单薄的文本增色添彩，视频创作也更加便捷和富有表现力。互联网自带的趣缘性特征让用户交际处于弱关系状态，而赛博化的声音提高了人们表达情感的自由度，从而加强对自我世界的“强建构”。

（二）语言质感满足娱乐需求

美国社会学家戈夫曼在《日常生活中的自我呈现》一书中提出拟剧理论。他指出，人生是一场表演，社会是一个舞台，社会成员通过运用各种符号按照事先准备的脚本进行表演[10]。用户通过这些预置的音色即刻达到配音效果，扮演不同的角色。

对于生活类短视频来说，受众使用AI配音更多的是想尝试喜爱的风格来释放情绪、卸下伪装，听众也不需要过多思考，二者互为陪伴。在分享的过程中，人们被重视、被认可、被崇拜的需要得到了满足[11]。

泛娱乐化媒体有自身的声音标识，统一声音风格也是树立创作者形象的标准之一。如抖音“会火”“巨星火火”等百万级资讯媒体多使用甜美音、温柔音来输出丰富的生活信息，既适应短视频平台的调性，也满足了目标受众的视听习惯和娱乐需求。如今，媒体和用户互为内容素材，通过视频中各种有趣的声音符号来传播，活化了平凡的生活文本，诉说着严肃，又消解着严肃。

（三）高效生成满足认知需求

对于专业性内容生产而言，画面与声音具有强烈的相关性和匹配度。短视频中的影视解说往往以沉稳声、播音腔为标志，配合剧情的画面片段和BGM（背景音乐），造就一部高质量短片。

对于短视频新闻而言，音色或磁性沉穩，或温柔轻快，在没有人工配音的基础上能做到与画面有机配合、智能产出，满足用户需求。从当前的情况来看，AI配音作为辅助工具，可能会在一定程度上代替人类进行新闻报道[12]。

值得注意的是，当这样一种文本朗读模式被套用在文学读物中时，也别有一番滋味。在文字还没有成熟之时，以口语传诵的荷马史诗、《诗经》等诗歌作品，就已经开始传达人们的思想与情感，记录人们的生活与文化[13]。AI配音能够模仿抑扬顿挫的人声，将相关内容以歌唱的形式表现出来。抖音短视频中#AI读诗#有8000万次播放量，理性的人工智能把感性的文艺诗词唱出来之后，在某种程度上强化了人们对文化的感知。

（四）网络模因满足整合需求

模因是通过模仿而传播的文化基因，由于模仿而导致的大规模传播行为，被称为“模因传播”[14]。在技术赋权时代，网络传播的内容、形式、范围和速度都发生了变化，人们往往更倾向于模因传播来引发网络狂欢，重视创新参与和趣味互动。

由于生产中不同的编码意图和传播中不同的改进意愿，同一音色能建构庞大的内容矩阵。虽表不同意，然声从同源。曾经流行的“鼠鼠文学”便是大众通过“鼠鼠”这个意象来进行自我消解，配上“译制片声”，讲述自己微不足道的底层经验。相比于真人人声，配音能够更好地传达平等交流的理念，这既是对自我信心的强化，也能够加强个人与群体的连接。除此之外，AI音色与特定内容的绑定，也可成为视频创作和传播的模因，如短视频平台大量涌现的“在校大学生宿舍好物分享”“买家秀与卖家秀”等主题内容，该类模因已具备语言模因的性质。声音不仅具有解释画面的功能，更能够呈现人的回忆与想象[15]。

四、结语

短视频AI配音改变了人们的视听体验，拓展了用户创作和网络传播的边界。多元音色不仅能满足用户基本的娱乐需求，还能起到替代性作用，为“沉默的大多数”打开与外界交流的窗口。专业领域对该技术的应用客观上也加强了圈层之间的交流，促进了社会的整合。AI配音在AIGC领域扮演着越来越重要的角色，提供各式资源供大众娱乐和诉情，同时也在塑造着新的听觉方式和声音景观。尽管AI配音目前存在一些问题，如内容同质、声音版权等，但这些都没能阻止它在各个领域的广泛应用。相信随着社会技术的变革，智能语音会适配更多的短视频场景，为人们的休闲娱乐创造更多的可能，让人们获取信息更加便捷高效。

参考文献：

[1] 2020年中国智能语音行业研究报告[R].艾瑞咨询，2020-02-10.

[2] 廖贾克·阿达利.噪音：音乐的政治经济学[M].宋素凤，翁桂堂，译.开封：河南大学出版社，2017：3.

[3] 保罗·莱文森.软利器：信息革命的自然历史与未来[M].何道宽，译.上海：复旦大学出版社，2011：5.

[4] 王洋溢.短视频声音创作中“网感”的生成模式研究[J].新闻研究导刊，2023，14（2）：1-4.

[5] 约斯·德·穆尔.赛博空间的奥德赛[M].麦永雄，译.南宁：广西师范大学出版社，2007：89.

[6] 许加彪，张宇然.耳朵的苏醒：场景时代下的声音景观与听觉文化[J].编辑之友，2021（8）：12-17，23.

[7] 郭庆光.传播学教程[M].北京：中国人民大学出版社，2011：167-168.

[8] 季凌霄.从“声景”思考传播：声音、空间与听觉感官文化[J].国际新闻界，2019，41（3）：24-41.

[9] 白贵，任青青.人工智能环境下有声语言传播创新的趋向及影响[J].海河传媒，2020（3）：1-6.

[10] 欧文·戈夫曼.日常生活中的自我呈现[M].冯钢，译.北京：北京大学出版社，2016：103-107.

[11] 董晨宇，丁依然.当戈夫曼遇到互联网：社交媒体中的自我呈现与表演[J].新闻与写作，2018（1）：56-62.