智能语音识别技术在广播节目监测监听中的应用

2021-11-14王玮

魅力中国 2021年27期

王玮

（贵州省广播电视监测中心，贵州贵阳 550002）

一、前言

广播电台是一种重要的传统媒体，在宣传党和政府的相关思想、政策方面发挥着重要作用，广播电台播出的内容日益呈现出多样化、开放性的特点，这就给其安全性带来了很大的隐患，如果在节目播出过程中出现违规不良信息、导向偏差、低俗化娱乐化倾向等问题，势必会在广大收听人群中产生不良反应，造成恶劣的社会影响。

目前，贵州省每年全省广播节目播出时长约22 万小时，平均每天播出广播节目约600 小时。节目量大、覆盖面广、内容繁杂，个别广播节目存在“三俗”现象；违规医药、金融广告等夸张虚假宣传；违规传播不法政治倾向、淫秽色情等内容的现象时有发生。因此，贵州省广播电视监测中心也意识到自己的职责所在，提出利用先进的科学技术，加强对广播节目内容和质量的监督，积极从多个方面采取有效措施加强安全保障，防止在广播播出过程中出现问题节目，促进广播电台的健康、稳定发展，保障广播电台的安全播出，引导社会大众形成正确的价值观和道德观。

二、语音识别技术概述及发展

语音识别技术，也被称为自动语音识别（automatic speech recognition，ASR），其目标是将人类的语音词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。通俗地说就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语言。

语音识别技术发展至今，共4 个阶段。第一阶段是萌芽阶段源于AT&T贝尔实验室的Andry 系统,它可实现十个英文数字的识别。第二阶段是技术突破阶段（20 世纪80 年代），HMM 模型在语音识别中的成功应用及人工神经网络在语音识别中的研究进一步推动了语音识别研究工作。第三阶段是产业化阶段（20 世纪90 年代到21 世纪初），微软利用基于上下文相关的深度神经网络-隐马尔科夫模型对大词汇量语音识别的研究成果,对语音识别系统的原有技术框架进行了彻底改造,语音识别技术进入新时代。第四个阶段是快速应用阶段（2010年至今），如今语音识别技术已经运用于各类通信、生活服务终端,国外微软、谷歌、苹果公司研发投入各自的移动终端虚拟语音助手;国内百度、搜狗、讯飞等均声称的语音识别系统性能达到97%。这些均标志着语音识别技术已经成熟。

三、智能语音识别技术应用

（一）现状分析

监测中心已有一套广播内容监审系统，但该系统并没有利用人工智能技术对广播节目内容进行监管，导致绝大部分监听监测工作需要人工的参与。目前，监测中心已将贵州省市（州）级以上主要自办广播节目25 套（省台7 套，市州18 套）纳入监听监测范围，对各级播出单位广播节目每天近600小时数据量进行监听监测，要及时发现问题，找出违规内容，这个工作量对于监测中心有限的工作人员来说，是一个不可能及时完成的任务。我们急需一个高效可靠的解决方案。

（二）解决方案

无论是从监审的质量还是速度上来看，监测中心当前的监听监测效率都有待提高。因此急需在监测工作中应用智能语音识别技术建立完善的监管体系，系统的覆盖本地资源，自动完成分析、分解工作，工作人员可在系统内查看与审查敏感词，整个过程与原始音频关联，同时，系统基于预设的告警信息，自动对音频流进行监控报警，不仅提高监管的质量，更加提高效率。

（三）关键技术分析

语音转写与说话人无关，为自助语音终端提供连续语音识别功能。针对语音识别应用中面临的方言口音、背景噪声等问题，基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据，通过先进的区分性训练方法进行语音建模，使语音识别在复杂应用环境下均有良好的效果表现。

语音转写系统应具备的特性：

1.支持常见语句听写

语音识别对于日常使用的常用对话有着很高的识别准确率，包含短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻等领域；

2.支持中文标点智能预测

语音识别使用超大规模的语言模型，对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测；

3.端点检测

端点检测是对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理；

4.噪音消除

在实际应用中，背景噪声对于语音识别应用是一个现实的挑战，即便说话人处于安静的办公室环境，在语音中也难以避免会有一定的噪声。语音识别系统应具备高效的噪音消除能力，以适应用户在千差万别的环境中应用的要求；

5.大词汇量、独立于说话人的健壮识别功能

满足大词汇量、与说话人无关的识别要求。产品可以支持数万条语法规模的词汇量；并能适应不同年龄、不同地域、不同人群、不同终端和不同噪声环境的应用环境；

6.置信度输出

置信度反映了识别结果的可信程度。语音识别引擎可以在返回识别结果时会携带该识别结果的置信度，应用程序可以通过置信度的值进行分析和后续处理；

7.针对识别结果能够进行二遍智能纠正

针对语音识别第一次识别错误的结果，能够根据陈述人后面说话的识别结果对第一次的错误结果进行纠正，从而表明系统具备自主学习的能力；

8.效果优化

为保障识别效果，在语音转写服务自身识别能力基础上，通过采集到的数据资料，利用学习服务不断迭代优化行业模型，进行语音模型库的更新，用于提升语音转写引擎的整体效果。通过统一采集、收集智能语音转写服务存储上的非结构化和结构化数据，分析和筛选出其中特定或有特色文本数据，通过用户判断学习内容自动提取特征并辅助专业化工具标注，以调整语音识别和语音合成的模型参数，使其获得更好地语音识别效果。通过训练的音频、语料等数据，不断完善扩大训练数据，根据业务系统的识别模型资源需求，提供相应模型资源。

四、智能语音识别方案实施

（一）广播内容监审系统在系统架构上分为5 个层次，分别为：

1.基础支撑层,包含:计算资源、存储资源、网络资源、安全资源。

2.核心能力层,包含:中文离线转写、智能断句、标点预判、噪声消除、端点检测、文本篇章级优化配置、语气词过滤配置。

3.平台层,包含:统一身份认证、统一用户管理、用户中心。

4.应用层,包含:节目管理、自动拆条、影视频转码、语音转写、机器研判、人工复审、评议管理、信息检索、报表管理、日志管理、敏感库管理、消息推送。

5.用户层,包含:广播监测部门人员、其他部门人员。

广播内容监审系统是基于AI 智慧媒体云平台建立的，整个云平台为一个整体基础服务框架，作为语音转写等能力的调用基础。对外提供稳定高效的服务，并具备扩展性、可伸缩性和高可用性。

（二）本项目的网络拓扑图如下图所示

从部署架构上看，系统分为智能监审系统服务器、代理服务器、统一管理平台服务器、数据库服务器四个部分，各部分功能描述如下：

1.智能监审系统服务器：包含两台中文离线转写引擎服务器，主要用于部署中文离线转写引擎。

2.代理服务器：提供安全服务功能。

3.统一管理平台服务器：用于对统一身份认证、系统管理等功能进行服务。

4.数据库服务器：主要用于对监审结果进行存储。

贵州省广播节目监管系统核心功能就是利用中文离线语音转写技术对广播节目中的语音部分内容进行处理，将音频信息转换成文字信息，并利用敏感库对转换后的文字信息做机器研判处理。

广播内容监审系统主要包含以下几大模块：广播节目管理模块、研判监管模块、评议管理模块、信息检索模块、报表管理模块以及系统管理模块。系统可支持对监测中心所监管的广播数据的监审，可支持机器自动化研判结果，可支持人工审核，可支持周期性自动化出具分析报告。

五、经济和社会效益

系统建成后通过语音转写、敏感词比对等技术，几小时的节目数据在人工智能技术的辅助下仅需十几分钟即可提供研判分析结果，工作效率提升数倍，极大地提高了监测中心对广播节目的监管效率，也不需要额外再增加人员进行人工监听，为单位节省了不必要的开支。

对贵州省广播电视监测中心从更广阔的层面来看，也提升了社会效益。首先，系统能够加快推进工作方式的改造提升，保障广播节目安全播出，响应国家广电总局关于进一步强化安全播出责任意识的要求。其次，随着社会经济发展，人民群众日益增长的多层次、多样化的文化生活需要，对广播传播内容提出了更高要求，广播节目必须承担起社会责任，着眼于受众的需求，用优秀的节目去引导大众。同时要求各级播出机构也要恪守节目内容必须始终坚持正确的政治方向，牢牢把握正确的舆论导向，坚持团结稳定鼓劲、正面宣传为主的方针。发挥主流媒体的引领作用，努力构建一个纯净、和谐的播出环境，打造立体多样、丰富生动的广播节目创新集群，为新时代新征程营造良好舆论氛围，实现经济效益与社会效益的双赢。