APP下载

基于语音识别技术的“黑广播”自动识别系统设计

2018-06-11崔传金宋振祥

数字通信世界 2018年5期
关键词:广播语音监测

崔传金,马 良,宋振祥

(国家无线电监测中心检测中心,北京 100048)

1 引言

异常广播信号发现和查处是无线电监管部门广播监测和保障工作的重要组成部分,特别是2013 年以来,国家对医药广告严格管理,很多违规药品广告通过“黑广播”的方式向公众传播,给公众财产和社会稳定产生重大威胁。2016年底实施的《中华人民共和国无线电管理条例》和2017年实施的《最高人民法院、最高人民检察院关于办理扰乱无线电通讯管理秩序等刑事案件适用法律若干问题的解释》都对“黑广播”监控管理作出了明确规定。工信部发布的《国家无线电管理规划(2016-2020年)》针对超短波监测工作提出:“开展重点业务的数字信号监测和分析能力建设”、“按需配置打击‘伪基站’、‘黑广播’等专项监测设施”、“在重点区域,加大设备配置力度,具备无线电监管的智能化运行能力”、“推进无线电管理一体化平台建设,完善门户系统、应用安全、应用集成、地理信息等平台”等意见。目前超短波监测工作依然面临业务系统与实践监测工作结合不够紧密、任务执行自动化水平较低、监测数据分析处理深度不够、重复性工作多、效率不高等问题,特别是“黑广播”发现和查处存在人工发现困难、监测设备无法全面监测、定位查找耗时耗力等问题,本文针对这些问题,设计出使用语音识别技术的“黑广播”自动识别系统。该系统设计对打击“黑广播”犯罪、保障广播安全、维护空中电波秩序具有重要意义。

2 语音识别技术与广播信号识别

应用到广播信号的监管当中。但是,广播语音和实际生活中人们说话有一些区别,例如广播语音内容多样,广告、音乐、新闻播报、曲艺节目等都大量存在;广播语音信号不稳定,语音内容会随信号强弱优劣发生变化等。针对这些差异,本文设计针对广播语音识别的特殊应用,不仅考虑到广播语音内容,还考虑信号频率、功率、信噪比等特殊因素,更大程度的满足“黑广播”发现的需要。随着语音识别技术日趋完善,多种形式语音识别技术也应运而生,常见的有语言听写、语音唤醒、离线命令词识别、在线语音合成、机器翻译、声纹识别等技术,每一种技术都有自身的应用场景。分析广播语音的特点是语音内容复杂多样、信号质量好坏不同,并且识别实时性要求很高,还要保证识别结果方便后续广播性质判定,所以一定要选用抗干扰能力强、识别效果好、性能稳定的识别技术。对“黑广播”性质判定是十分复杂的过程,系统判定除了使用识别出来的关键词信息,还可以利用离线命令词识别出是否整点报时、是否有台标信息等。另外判定过程还要分析频率是否在合法台站数据库中,分析信号强度是否正常,统计广播发射时间和规律是否正常等。如图1所示,对广播性质判定需要利用多种信息。

由于机器自动识别判定广播属性不如人工判定灵活,且不能保证识别结果100%准确,因此综合使用多种信息对“黑广播”进行判定,目的是提高判定准确率,减少“黑广播”的误识别和漏识别。

语音识别技术(Auto Speech Recognize,ASR)要解决的问题是将语音中的文字信息“提取”出来,将人类的语言声音信号转为文字或指令。随着计算机科学和人工智能技术的不断发展,语音识别技术近年来取得明显进步,并在各个行业中得到很好的应用。2010年,微软发现深度神经网络(Deep Neural Network,DNN)技术可显著提高语音识别精度,2012年10月,微软又演示了全自动同声转译系统,可实时将英文转换为汉语。2012年底,国内的百度公司也发布了百度语音助手,后续又发布了百度语音开发平台,到2015年语言识别正确率达到了97%。科大讯飞在语音识别技术方面也取得了巨大成就,特别是在汉语语言识别方面处在领先位置。

最近几年,使用语音识别技术的应用真正走进了人们的生活,特别是智能手机、智能家居等方面得到很好的应用。由于广播信号也是以语音的方式被人们接收,所以完全可以把语音识别技术

图1 判定“黑广播”所用的信息

3 系统整体设计

目前FM“黑广播”监测识别技术主要采取人工识别,或者先存储语音再进行人工识别。现实情况中,由于繁重的人员成本,多变的无线电广播环境,致使传统的监测技术不能高效完成识别工作,这就造成了FM“黑广播”监测的局限性。本文主要研究一种对“黑广播”设备监测行之有效的自动识别方案,目的是实现广播信号搜索采集、语音内容识别、语音保存传输、广播性质判定、“黑广播”警示告警全部无人工干预的自动化识别系统。基于语音识别技术的”黑广播”自动识别系统结构图如图2所示。

图2 系统整体结构设计图

系统主要由广播智能监测接收机、黑广播智能监测平台、用户终端三部分组成。广播智能监测接收机主要功能是通过接收天线同时采集多路广播语音信号,广播语音信号同时传输到接收机软件进行语言识别,接收机在识别的同时保存语音文件,接收机软件根据语言识别结果、广播频率等判定疑似“黑广播”的概率,对可疑广播进行告警并将其识别结果和语音传输到监测平台;黑广播智能监测平台的主要功能是将接收机上报的各种告警信息、语音文件、识别结果等进行统计汇总,将监测结果统一展示给用户,分析识别结果并更新系统配置;用户终端是将识别结果展示给用户的接口,主要功能是向用户展示各告警信息等具体内容,用户通过终端可以控制接收机工作等。

4 系统功能模块设计

图3 系统功能模块图

(1)多路信号采集模块。它是系统主要功能之一,采集广播语音内容是语音识别和判定广播性质一系列功能的前提。该模块主要功能将FM广播频段完整的扫描一遍,并将频段内所有的广播信道标出,根据硬件的配置将多个信道设置到其采集录音通路中,对广播语音实时采集。

(2)语音识别模块。它是系统的核心功能模块,该模块的主要功能是将多路信号采集模块采集的语音进行识别,找出广播语音中的关键词内容、判断是否整点报时、是否有台标信息等,并将识别结果上报至上层软件。该模块使用的语音识别技术和准确程度决定了系统对“黑广播”识别的效率和准确率。

(3)广播性质判定模块。其主要功能是根据语言识别的结果、广播播放频率、信号强度,台站数据库对比情况等信息,对广播属性进行判定。判定使用多因素分层分析方法,能根据每个因素对判定结果的影响大小进行加权分析,最终给出广播疑似“黑广播”的概率,这种方法能更大程度保证判定结果的准确。

(4)语音结果传输模块。其主要功能是将采集的语音内容、语音识别结果和广播判定结果保存在特定文件中,并将可疑广播信号相关的语音和结果上传到系统服务器中。

(5)后台数据处理模块。其主要功能是把各个设备上报的语音内容、识别结果、判定结果等各种数据进行汇总保存,并对这些数据进行统计分析。分析的方向可以包括某个频率是否连续播放“黑广播”、某个时间段是播放高峰、某个区域发现了多少个“黑广播”等,这种分析统计可以为无线电管理部门全面掌握广播频率的使用情况提供帮助。另外后台数据处理模块可以根据大量语言识别的结果进行数据挖掘,从而发现“黑广播”更普遍的特征,比如发现某个关键词在“黑广播”中大量出现,可以提高该关键词的等级进而提高识别准确率。

(6)用户终端模块。它是为了将识别判定结果展示给用户,并且能够和用户交互的窗口。用户可以通过终端查看结果和统计信息,根据工作需要对系统和设备进行的操作都可以使用用户终端进行控制。

(7)广播定位模块。它是当系统中部署了多个识别设备时,通过TDOA算法将广播的发射位置进行查找的功能模块。该模块只有当某个广播信号同时被至少三个设备同时接收的情况下才可以使用,是满足无线电监管部门发现“黑广播”后进一步查找定位的工作需要。

5 结束语

基于语音识别技术的黑广播自动识别系统可完成对广播电台的监测、识别和快速定位,自动实现信号搜索、广播性质判定、数据集中处理、广播电台监测月报生成等功能,满足大部分广播信号的监测要求。系统使用先进的人工智能相关技术,语音识别技术对广播语音进行识别,对大量采集的数据进行数据挖掘,系统可以通过不断更新,最终使系统更智能更准确的判定“黑广播”。目前,天维讯达(北京)科技有限公司使用这种设计方案开发了“黑广播”智能监测平台,使用期间取得了良好的效果,被越来越多的无线电监管和广电部门关注和使用,为无线电监管工作作出重要贡献。

[1] 中华人民共和国无线电管理条例.工业和信息化部官方网站http://www.miit.gov.cn/newweb/n1146295/n1146557/n1146619/c5382915/content.html.

[2] 最高人民法院、最高人民检察院关于办理扰乱无线电通讯管理秩序等刑事案件适用法律若干问题的解释.最高人民法院官方网站http://www.court.gov.cn/zixun-xiangqing-49322.html.

[3] 国家无线电管理规划(2016-2020年).国家发展与改革委员会官方网站http://www.ndrc.gov.cn/fzgggz/fzgh/ghwb/gjjgh/201706/t20170620_851820.html.

[4] 杨东沿.基于语音识别技术的调频广播保障系统研究[D].西华大学,2016.

猜你喜欢

广播语音监测
特色“三四五六”返贫监测帮扶做实做细
STK及IGS广播星历在BDS仿真中的应用
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
广播发射设备中平衡输入与不平衡输入的转换
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
网络在现代广播中的应用