音频比对技术在安全播出中的发展与应用

2016-12-19李晓辉

新媒体研究 2016年21期

关键词：特征提取

摘要对播出前后的音频信号进行比对，及时发现播出过程中的异常，是安全播出中的重要工作内容。基于AES67-2013的网络音频传输标准和声音特征抽样算法，使音频比对技术进入智能化时代。通过对算法的不断改进，音频比对技术已进入高效实用阶段。

关键词音频比对声音特征；AoIP；特征提取

中图分类号 G2 文献标识码 A 文章编号 2096-0360（2016）21-0041-02

播出后的信号是否正常，如果不正常，是在哪个环节开始出现问题，如何缩短发现问题的时间，在第一时间发现播出过程中出现的异常，是播出安全工作中的重要课题。下面就音频比对技术在广播安全播出工作中的发展与应用情况做简单介绍。

1 音频比对技术的发展情况

在模拟信号时代，播出前后的音频是否一致完全靠人耳判断，这也是目前为止准确率最高的方式，但缺点也显而易见。随着需要监听的信号源和点不断增多，会出现因监听主体疲劳或责任心不强，造成误判、发现不及时等现象，从而引发播出安全

事故。

进入数字音频时代后，音频比对技术发展经历了三个阶段。

第一阶段，自动判断信号有无。主要是对音频信号进行数字化处理，然后进行抽样，当信号电平值低于设定值一定时长后，系统判断为信号缺失。显而易见，这种方式的局限性很大，不具备真正意义上的比对功能。

第二阶段，自动比对两个音频信号的电平值。随着数字技术的发展，利用DSP强大的处理能力，可以做到同时对两路或多路信号进行处理。与第一阶段的原理一样，主要是通过对采样信号的电平值进行比对，做到信号一致性判断。这一阶段虽然可以做到对多点信号间进行比对，但准确率低，缺少准确的评判机制。

第三阶段，基于声音特性算法的智能比对。前两个阶段的音频比对技术是基于信号纯净，没有任何其他干扰成分为基础的。实际上，音频信号通过传输通路过程中会引入各种干扰成分，同时系统中还存在人为的和非可控的因素，造成音频信号的相位、幅度和频谱等特性指标发生改变。因此，想要准确的对比出两个音频是否一致，就要对声音的物理特征进行比对。新一代的音频比对技术正是以此建立算法模型，从而使音频比对技术上升到自动化、智能化层面。

2 广播音频比对技术的特点

要想有效地实现广播音频信号的对比，首先要了解广播音频信号的特点。广播音频信号具有动态范围大、频谱范围广、存在时延等特点，并且在不同的通路上存在形态不一的随机串扰。那么信源、各传输节点和接收端的信号会存在内容和时延上的差异性，这些差异性部分是合理的，这就对音频的比对提出了更高的要求。

在日常播出中，最常见的信号异常现象有：

1）信号中断，主要由设备和线路故障造成。

2）内容不一致，主要由非法插播和节目路由失误造成。

3）杂音，一般由传输设备故障和外来干扰

造成。

4）反相，节目在制作时，音频的左右声道相位不一致或传输通路信号线极性错误，都会造成声音的反相。

针对广播音频信号在传输过程上的独特性，广播领域的音频比对技术应具有如下特点。

1）具有即时性，能对实时播出中的信号进行比对。

2）能解决时延的影响，做到延时后的信号能和源信号进行比对。

3）能准确判断出内容的不一致，包括噪音、串播、插播等原因造成的内容不一致。

4）能判断出声音失真，包括声调、峰值等失真现象。

5）能同时进行多路多组信号间的对比。

由以上介绍可知广播播出上的音频比对技术难题在于两点。一是建立一套符合声音特征的数据分析算法，即从音频信号中提取声音特征参数，通过对这些参数进行分析，比对出两个音频内容的一致程度。二是将延时后信号恢复到原始的时间点，只有确定两个音频信号在时序上一致，为同一信号，才有比对的价值。

3 基于AoIP的音频比对技术

在采用AES/EUB规范的数字音频时代和模拟音频时代，由于音频数据缺少时钟同步系统，不同时延后的同一信号缺少时间标识，致使音频传输通路上的不同点信号没有时序上的参考，音频的比对在这种情况下就显得毫无意义，而基于TCP/IP协议的AoIP数字音频格式的出现彻底改变了这一困局。

2013年9月，可互通性质的高保真AoIP音频流应用标准（AES67-2013）颁布，其主要包括10个组成部分，涉及到的内容有媒体时钟同步规范、编码、连接管理、数据传输以及数据发现等。标准采用了IEEE1588作为媒体时钟的同步源，使用现有的IP协议，如传输层使用UDP/RTP，QoS使用DiffServ等。AoIP数据流完全继承了IP数据流的特性，使得音频内容的时间管理成为可能。当音频通路全都采用符合AoIP规范的设备（尤其是延时器），那么我们就可以对源信号在不同传输位置的新的时间码得以掌握，使得我们可以对任意时延长度的音频信号进行精确的配对，从而广播信号的音频比对具有现实意义。那么，要想实现广播音频信号的比对，音频信号的传输必须建立在AES67-2013标准框架之上。

转换成AoIP格式的源信号进入传输通路后，要想提取通路中某一环节的信号与源信号进行比对，首先要确认两者在时序一致，或者说为延时后的信号找到“前世”。当确认两者为同一信号后再进行声音特征参数抽取采集。因所采集到的音频在具体数据信息量上相对较大，直接获取音频特征的相关参数往往会造成参数量较大，最终影响其实时性。所以，在实际工作中，可以采用专业化的Haar小波变换非重构算法对音频信息进行有效压缩。

音频数据经压缩后，需要分析的数据量大大减少，这时再进行音频特征参数提取。提取音频特征参数，通常采用“音频帧”法。针对音频帧，需提取其12个Mel倒谱系数、质心以及均方根，总共14个参数。针对音频序列，以20 ms采集到的音频数据量归纳为一个音频帧，而且还必须要在音频帧当中等分32子带，以此准确计算帧质心以及均方根。12个Mel倒谱系数、1个质心以及1个均方根，能够共同构成1个音频帧的14维特征参数，之后再由特征参数构成了参数矩阵。

在音频帧维特征参数当中，需要分别对质心、均方根以及Mel倒谱系数实施科学化欧氏距离计算，这个距离越小，则通常情况下表示其相似度就越高，如果距离越大，则相似度会越低。

通过大量对比对实验可以发现，当两个音频信号相似度达到90%以上时，基本可以断定为内容一致；相似度低于80%时，两个音频内容就会存在明显的差异性，这时需要引起足够的重视。

4 结束语

AoIP技术的出现，使得音频比对技术取得长足的发展，对噪声、串扰、信号中断、反相、失真、插播等常见劣播现象的发现成功率能达到95%以上，从此广播音频比对实现了全自动化和智能化，对提高安全播出具有重大意义。

参考文献

[1]郭兴吉.基于特征的音频比对技术[J].河南师范大学学报，2006，34（2）：35-38.

[2]张万里，刘桥.Mel频率倒谱系数提取及其在声纹识别中的作用[J].贵州大学学报，2005，22（2）：207-210.

[3]姚天认.数字语音处理[M].武汉：华中科技大学出版社，2002.

[4]R.Venkatesha Prasad. Comparison of Voice Activity Detection Algorithms for VoIP[M].Proceedings of the Seventh International Symposium on Computers and Communications （ISCC02）1530-1346/02，2002.

作者简介：李晓辉，工程师，研究方向为广播安全播出。