播音主持领域人工智能技术的应用

2024-08-21王晓燕

卫星电视与宽带多媒体 2024年15期

【摘要】在当今数字化浪潮的推动下，人工智能技术以其卓越的数据处理能力和学习机制，正逐步渗透至传媒行业的各个角落，播音主持领域亦然。人工智能（Artificial Intelligence，AI）技术通过仿真的语音合成、情感分析以及深度内容理解承担起新闻播报、节目主持等任务，并能根据观众反馈实时调整内容以提升传播效果。本文旨在分析AI技术在播音主持领域的应用优势与表现的机遇，及人工智能技术在播音主持领域的具体应用，以期为播音主持行业的可持续发展提供理论支撑与实践指导。

【关键词】播音主持；人工智能技术；语音合成；虚拟主播

中图分类号：J9 文献标识码：A   DOI：10.12246/j.issn.1673-0348.2024.15.033

在当今科技飞速发展的时代背景下，人工智能技术（AI）已经渗透到社会生活的方方面面，而播音主持领域作为信息传播的重要窗口也正在经历着由AI引领的深刻变革。从智能语音合成到情感识别，再到虚拟主播的诞生，AI技术的应用正重塑大众对播音主持艺术的认知。本文将探讨AI技术在播音主持领域的具体应用，并分析其对行业产生的深远影响。

1. 人工智能如何影响播音主持行业

在近几年来，互联网技术的飞速进步重塑了全球媒体领域，而人工智能技术的融入则催生了前所未有的内容创作与传播模式，这些创新正在深刻影响着播音与主持行业的叙述手法和思维逻辑。播音主持行业正在经历一场变革，移动化、可视化、智能化和互动化成为其主要发展趋势[1]。当前，移动化趋势愈发明显，5G时代的到来使得人们更倾向于通过移动设备获取信息，智能手机和平板电脑早已深深融入我们的日常生活，这凸显了移动设备在现代社会中的普及程度，也预示着移动化将成为未来发展的重要趋势。且短视频崛起已成为人们获取新闻信息的新宠，新媒体与传统媒体竞相涉足短视频市场以迎合观众日益增长的观看偏好。据某美国知名设备公司预测，在未来五年里，全球移动视频数量将迎来爆炸性增长，飙升近九倍，这反映了人们对高质量、便捷视频内容的不断追求，也预示着移动设备和网络技术的快速发展将继续推动视频行业的繁荣。

2. 人工智能技术的播音主持应用优势

2.1 信息播报规范

播音主持作为传播学视角下的媒介传播形式，致力于实现信息的有效传递与接收。播音员或主持人在接收到当天的稿件后，首要任务是确保以精确无误且自然流畅的语调进行朗读。然而在这一过程中或许会遭遇诸多挑战与突发状况，如信息传递的误差或发音上的瑕疵等问题。在当今融媒体时代，可借助尖端的人工智能技术对海量信息进行深度加工，经过精心处理后，以清晰流畅的语音形式完美呈现，确保播音文稿的每个细节都得以精准传达。人工智能技术能够精准调控声音的响度、速率及音质，这些关键参数均通过计算机程序预设，并以语音技术原型为基础，通过样本数据实现语音的合成[2]。人工智能合成语音以其精确无误的词汇运用、严谨的语法结构、清晰的发音以及流畅的表达能力，在播音主持领域展现出显著的应用优势，成为播报信息的标准化工具。

2.2 表现形式创新

人工智能技术所催生的虚拟人物现已在播音主持领域大放异彩，这些虚拟角色拥有与真人主持人相媲美的各项主持技能，能通过高度逼真的面部表情、目光交流和肢体语言，为观众带来身临其境的观看体验。人工智能技术在播音主持领域展现出惊人的灵活性，能轻松切换男女声音并根据需求塑造出各式各样的形象——从逼真的人类形象到可爱的卡通角色，应有尽有。这种创新的应用方式为播音主持工作注入了前所未有的活力，并不断激发观众的好奇心，因此人工智能在播音主持领域的运用凭借其独特且富有创意的表达形式脱颖而出，成为行业的一大亮点。

2.3 具备高效学习技巧

人工智能展现出卓越的学习天赋，其核心在于构建深层的智能学习网络，并通过不断地对巨量数据进行深度挖掘和学习，提炼出最具价值的特征信息，从而实现高效的特征学习。借助人工智能技术的独特优势，可实现播音主持在情感对话和知识解答方面的高效执行[3]。如人工智能机器人“微软小冰”在收到用户提问后，能迅速检索其庞大的应答语料库，并据此给出精确答案。该人工智能机器人通过持续的数据采集和深度学习技术可逐渐提升其解答观众问题的精准度和速度。

3. 人工智能技术提升播音主持表现的机遇

3.1 自动剪辑技术对播音主持表现的影响

自动剪辑技术可利用先进的计算机视觉和图像处理技术自动识别视频中的关键帧、人物动作、情感表达等元素，并根据预设的规则或算法进行快速剪辑，以提高剪辑效率，降低人工成本。在视频图像处理过程中，自动剪辑能够实时地对画面质量进行增强，包括去噪、稳定化和色彩校正等，使得主持人的表现即使在光线不足或动态变化的环境中仍能保持最佳效果[4]；或通过绿幕技术和AR在虚拟的环境中进行播报，为观众提供新颖的观看体验。如在新闻报道中自动剪辑系统可以自动识别出主持人的口型和表情变化，从而选择最合适的镜头进行切换，使得播报更加自然流畅。在剪辑中，深度学习算法可分析视频内容，自动选择最佳的镜头来展示主持人的表现，减少人工选择的时间和主观因素；或通过分析主持人的语音和面部表情识别出主持人的情绪状态，并据此调整剪辑点使节目的情感表达更加自然和连贯。

3.2 基于用户数据挖掘的个性化主持服务

随着互联网的普及和大数据技术的发展，用户需求的多样性和个性化特征日益凸显。而为满足用户的个性化需求，播音主持人需不断地调整自己的主持风格和内容，其中基于用户数据挖掘的个性化主持服务正是实现这一目标的有效途径。用户兴趣模型是个性化主持服务的基础，其通过收集用户的观看历史、点赞记录、评论内容等信息构建出用户的兴趣模型，并根据模型的变化动态地调整主持内容和风格，且为保持用户兴趣模型的时效性和准确性，还需要定期对模型进行更新和优化。目前，常用的推荐算法包括协同过滤、内容推荐、混合推荐等，其中协同过滤通过分析用户的历史行为数据找出用户之间的相似性，从而预测用户可能感兴趣的内容；而矩阵分解则试图找到用户和商品之间的潜在关系，通过这种关系来预测用户的评分或偏好[5]。

在实际应用中，可根据具体需求选择合适的推荐算法进行实现：①上下文感知推荐。结合用户的当前上下文信息（如时间、地点、设备类型）来调整推荐结果，以提高推荐的相关性和及时性；②多模态推荐系统。利用文本、图像和视频等多种模态的数据，通过深度学习模型来理解用户的复杂偏好，实现更加精细的个性化推荐；③强化学习。在推荐系统中应用强化学习让系统通过试错来学习如何优化推荐策略，以最大化用户满意度和长期参与度。

4. 人工智能技术在播音主持领域的应用

4.1 语音合成技术的应用

语音合成技术，又称为文本到语音技术（Text-to-Speech，TTS）能够将文本信息转化为自然流畅语音的技术。近年来，基于深度学习的语音合成模型如循环神经网络（RNN）、长短期记忆网络（LSTM）和生成对抗网络（GAN）等取得了显著的突破，尤其是Transformer模型的提出为语音合成技术的进一步发展奠定了基础，其通过大量的训练数据学习语音的深层特征使得生成的语音更加自然、流畅[6]。基于深度学习的语音合成模型主要包括文本分析模块和语音生成模块，前者负责将输入的文本信息转化为语音合成所需的特征表示，如音素、音调、节奏等；而后者则根据这些特征表示，利用深度学习模型生成对应的语音信号。比如，谷歌的Tacotron系列模型和百度的Deep Voice系列模型都是基于深度学习的语音合成技术的“代表”，其能生成高质量的语音并根据不同的语言、口音和情感等要求进行定制化的语音合成。

其中，科大讯飞作为国内领先的人工智能企业，其语音合成技术在播音主持领域的应用尤为突出。央视纪录片《创新中国》全片采用科大讯飞的人工智能配音技术，成功复刻已故配音大师李易老师的声音，这是对李易老师的致敬，同时也标志着个性化人工智能语音合成技术在影视领域的崭新里程碑[7]。此外，科大讯飞的语音合成技术还被广泛应用于新闻播报、有声读物、虚拟助手等多种场景，如在一些新闻节目中由于时间紧迫或播音员临时缺席等原因，制作人员会选择使用语音合成技术来生成新闻稿的旁白部分，以确保节目的正常播出并能在一定程度上节省人力和时间成本。自2024年1月1日起，新疆阿克苏地区的AI主播“小芮”成为该地区首个常态化播报地方新闻的AI主播，以解决传统播音员数量不足的问题，提高新闻播报的准确性和时效性。且“小芮”利用先进的语音合成技术将新闻稿件转化为流畅自然的语音输出，其声音甜美、清晰且深受观众喜爱。

4.2 语音识别技术的应用

传统的语音识别方法主要基于特征工程和统计模型，如隐马尔可夫模型（HMM）和高斯混合模型（GMM），其方法需要手工设计复杂的特征提取器并对声学模型和语言模型的参数调整非常敏感，这限制了其性能。而深度学习的兴起为语音识别带来了革命性的变化，特别是RNN和LSTM的提出为处理序列数据提供了强大的工具。随后，Transformer模型的出现以其自注意力机制（self-attention）彻底改变了语音识别的面貌，其可捕捉长距离依赖关系以提高语音识别的准确率[8]。目前，基于Transformer的语音识别系统，如WaveNet、Baidu's Deep Speech 2和Google的Speech-Trans演示了前所未有的性能，其在公开的语音识别基准测试中取得了惊人的成绩，接近甚至超越了人类的识别水平。

在电视新闻、体育比赛和在线会议等场合，实时字幕可以帮助听力障碍人士或非母语观众更好地理解内容，如CNN和BBC等新闻频道在实时报道中提供自动生成的字幕，其基于先进的语音识别技术在嘈杂的环境中可保持较高的准确率，且苹果的Siri和亚马逊的Alexa亦是基于TTS技术的智能助手的典范。同时，语音识别技术还被用于自动生成播客和音频书籍，将文本文件转换为音频文件为用户提供随时随地的听书体验，如Audible和Google Play Books等音频书平台允许用户下载由真人朗读或TTS系统生成的书籍。2018年新华社联合搜狗推出了首个AI合成主播“新小浩”采用先进的语音识别技术和深度学习算法实时将用户的语音转换为标准的播音腔，并通过合成技术生成逼真的人脸图像和口唇动作实现虚拟主播的功能，以降低新闻播报的成本和难度为观众带来全新的视觉体验，且“新小浩”还具备智能对话和互动功能，可根据观众的提问和反馈进行实时回应和互动，增强观众的参与感和沉浸感。

4.3 自然语言处理技术的应用

自然语言处理（Natural Language Processing， NLP）技术可以使计算机理解、解释、生成和操作人类语言以简化内容创作过程，在主持稿件的生成中NLP的应用体现在：①自动化写作。利用NLP中的模板生成和NLG技术自动生成新闻稿件、体育比赛报告和财经资讯等，这通常需要大量的数据训练以便学会如何构造符合语法和语义规则的句子；②个性化内容。NLP可通过分析听众的历史数据和偏好帮助生成个性化的新闻简报和推荐内容，如流媒体服务平台使用NLP技术来分析用户的观看习惯，从而推荐用户可能感兴趣的新节目；③实时更新。NLP可针对体育赛事和新闻报道等需要快速更新信息的场景，实现对最新数据的自动整合和语言表达以确保信息的及时传递；④多语言支持。NLP技术使得自动生成的内容可支持多种语言，这对于国际新闻和多语言市场尤为重要。比如，湖南卫视的数字主播“小漾”基于智能对话系统而构建，其拥有充满朝气的形象且具备高度智能化的交互能力，能实时感知观众的情感和需求并根据不同的情境做出相应的回应。“小漾”可以提供定制化的播报服务，与观众进行趣味横生的对话以丰富节目的内容形式，从而赢得年轻观众的喜爱与追捧。2024年1月10日，正值长沙市两会隆重举行之际，长沙广电推出《两会AI回答》互动平台，其中名为“常小星”的AI虚拟主播惊艳亮相，与广大网友展开了热烈的交流和互动，而长沙广电通过这一新颖的形式成功地将两会的精神和内容以更加生动、形象的方式传递给了广大市民，引发了社会各界的广泛关注和热议。

5. 结束语

人工智能技术的应用正在深刻地改变播音主持领域的现状，从语音合成到自然语言处理，再到增强学习和推荐系统的应用，AI技术的发展可以提高播音主持的工作效率，为观众带来更为沉浸及个性化的听觉体验。且随着AI在播音主持中的应用越来越广泛，有理由相信未来的播音主持行业将会变得更加智能化、个性化和多元化。因此需不断关注AI技术的发展动态，积极探索其在播音主持领域的应用前景和发展方向。

参考文献：

[1]王欣.基于人工智能背景下播音主持的发展趋势研究[J].数字通信世界，2020（10）：168-169.

[2]郑爽悦.人工智能对播音主持工作的影响及应对举措研究[J].传媒论坛，2023，6（20）：64-66.

[3]魏宁.人工智能技术环境下播音主持现状分析[J].中国报业，2020（06）：90-91.

[4]邢煜婷.融媒体时代人工智能技术在播音主持工作的应用[J].黄河.黄土.黄种人，2022（11）：38-40.

[5]庄皓瀛.人工智能技术与播音主持协同创新研究[J].新闻文化建设，2022（03）：77-79.

[6]贾斐然.人工智能技术冲击背景下播音主持的价值坚守与发展路径研究[J].西部广播电视，2023，44（13）：207-209.

[7]王立元，王小宇.人工智能技术在播音主持领域的应用概述[J].传媒论坛，2020，3（19）：40.

[8]王一民.融媒体语境下以人工智能技术推动播音主持工作[J].华东科技，2022（09）：119-121.

作者简介：王晓燕（1985—），女，河南安阳人，编辑，研究方向：主持人与编辑。

展开全文▼

卫星电视与宽带多媒体

2024年15期

播音主持领域人工智能技术的应用

杂志排行

卫星电视与宽带多媒体的其它文章