基于频域和时域差分的音频指纹算法研究
2014-09-04牛宪华1曾柏森2陈思利
牛宪华1,曾柏森2,陈思利
(1.西华大学数学与计算机学院,四川 成都 610039;,2. 中国联通成都市分公司网络优化中心,四川 成都 610036;3.成都工业学院通信工程系,四川 成都 611730)
随着互联网的发展和音频压缩技术的进步,网络上出现了海量的音频信息。人工管理海量的数字音频数据是一件几乎无法完成的工作,这直接促使了音频指纹(audio fingerprinting,AF)技术的快速发展。音频指纹技术建立了一种用于比较2个音乐数据听觉质量的有效机制,可以快速高效地识别和检索出音频内容,是数字音频的内容识别、版权保护、内容完整性校验等领域的关键技术之一。近年来,音频指纹技术成为国内外学者研究的热点[1-4]。采用短时傅里叶变换得到音频信号的频谱信息是提取音频指纹时广泛使用的一种方法。2002年,J.Haitsma等[5]提出Philips音频指纹算法。Philips算法将频谱子带能量时频滤波结果的正负值作为音频特征,对多种信号畸变具有较好的鲁棒性。2006年,A.Ramalingam等[6]将香农熵、子带能量、频谱子带质心、频谱带宽和梅尔频率倒谱系数等多种基于短时傅里叶变换的特征作为音频特征分析其鲁棒性,其实验结果表明在一定的信号畸变下,频谱子带质心的鲁棒性较好。J. S.Seo等[7]基于文献[6]提出采用归一化频谱子带质心(normalized spectral sub-band centroids, NSSC)作为音频特征,并证明NSSC算法具有良好的鲁棒性。本文对性能较好的Philips算法进行了仿真分析,并针对Philips算法在某些信号畸变情况下,鲁棒性不理想的情况,引入功率谱差分的思想,给出了改进算法,并将改进算法与现有算法进行了比较分析。
1 算法概述
1.1 Philips算法
Philips音频指纹算法是在2002年提出的[5]。该算法将频谱子带能量时频滤波结果的正负值作为音频特征,其流程图如图1所示。
图 1 Philips音频指纹算法流程图
重叠分帧模块是按31/32的重叠率进行分帧;傅里叶变换模块实现时频转换;频带滤波器模块是使用滤波器组划分频谱子带;二维滤波器模块是使用滤波器组进行频谱子带差分;门限判别模块是计算每帧信号的音频指纹。
1.2 Philips 算法分析
本文主要分析Philips算法中的2个关键模块:频带滤波器模块和二维滤波器模块。通过分析发现,改进Philips算法在这2个模块所采用的滤波器形式,就可以有效地提高音频指纹的鲁棒性。
1.2.1 频带滤波器模块
频带滤波器模块主要是使用滤波器组来划分频谱子带。常用的功率谱子带划分方式有2种:一种是采用Bark刻度[8-9]的矩形滤波器组;另一种是采用Mel刻度的三角形滤波器组[10]。Philips算法采用Bark刻度的矩形滤波器组划分频谱子带,各个滤波器之间没有重叠。本文将Philips算法中的矩形滤波器组用三角形Mel刻度滤波器组来代替。采用这2种滤波器组的算法仿真对比分析结果如图2所示。
从图2可以看出,使用Mel刻度三角形滤波器组的音频指纹,在时间刻度修改和线性速度改变时,误码率明显减小,但在白噪声干扰情况下误码率变化不大。通过计算可得出2种滤波器组功率谱子带间的相关性,如图3所示。可以看出,使用Mel刻度三角形滤波器组时功率谱子带间的相关性较高。结合图2的结果可知:增大功率谱子带间的相关性可以有效提高音频指纹针对线性速度改变和时间刻度修改的鲁棒性;与之相反的是,可以提高音频指纹对白噪声的鲁棒性[11]。
图 2 矩形Bark刻度滤波器组与三角形Mel刻度滤波器组的音频指纹误码率比较
图 3 2种滤波器组的子带相关性
1.2.2 二维滤波器模块
设原始音频信号s(n)被噪声d(n)污染,形成带噪音频信号x(n)=s(n)+d(n)。带噪音频信号经过短时分帧处理后表示为
xn(m)=sn(m)+dn(m) (0≤m≤M-1,
0≤n≤N-1)。
(1)
式中:m为帧号;M为音频信号的帧数;n为帧内序号;N为每帧信号的长度。
根据傅里叶级数性质,式(1)的离散傅里叶级数关系可以表示为
Xk(m)=Sk(m)+Nk(m)。
(2)
式中,Xk(m) 、Sk(m)和Nk(m)分别表示xn(m)、sn(m)和dn(m)的离散傅里叶级数,0≤k≤K-1,K表示离散傅里叶变换的长度。
设加性噪声d(n)的均值为零,那么Nk(m)的均值也为零,记为Nk。有
(3)
(4)
(5)
再通过多项式近似的方法来求功率谱对时间t的导数[12],为
(6)
对功率谱进行子带划分即让功率谱通过特定的滤波器组。每个滤波器的输出为
(7)
式中:a和b分别表示带通滤波器的频带宽度的上下限;αi表示滤波器组的系数。根据式(5)和式(6)可以得出
(8)
其中T值代表计算滤波器输出的差分值时用到的前面帧和后面帧的个数。
由以上推导可知,滤波器输出对时间求导的结果与噪声无关,因此可以采用功率谱频域和时域差分的方式给出改进算法。Philips算法相当于把功率谱子带通过一个二维的滤波器,即在频域和时域上都通过一个一阶高通FIR滤波器,滤波器传递函数均为
U1(z) = 1-z-1。
(9)
仿真结果表明,时域差分可以消除直流分量和变化缓慢的噪声干扰,频域差分可以减小频谱间的相关性。由前面的推导可知,功率谱子带求导可以消除噪声的影响,功率谱子带对时间的导数即为滤波器输出的差分值。当进行差分运算时只用到前后各1帧,即T=1时,滤波器组的输出就可以认为经过了一个二阶带通FIR滤波器,滤波器传递函数为
U2(z) =z-z-1。
(10)
当使用前后各2帧进行差分运算,即T=2时,滤波器组的输出即为一个四阶带通FIR滤波器,相应的滤波器传递函数为
U3(z) =3z3+2z2+z-z-1-2z-2-3z-3。
(11)
3种滤波器的传递函数U1、U2、U3的幅度特征如图4所示。
图 4 滤波器U1、U2、U3的幅度响应
可以看出:采用滤波器U1过滤白噪声和变化缓慢的噪声时,提升了高频分量;但是由于高频分量里的有效信息较少,这样会造成大量频谱信息的丢失。若选用既包含更多低频分量同时又能抑制高频分量的滤波器U2或U3来处理,则可以更好地消除白噪声和变化缓慢的噪声。
1.3 改进算法
通过前面对功率谱子带划分和子带间时频差分的分析发现,改变功率谱子带划分方式和功率谱子带间的时频差分方式,可以有效提高音频指纹在白噪声和时间刻度修改等信号畸变下的鲁棒性;因此,基于时频差分的思想给出了改进的音频指纹算法,其流程图如图5所示。
图 5 音频指纹改进算法流程图
重叠分帧模块是按15/16的重叠率进行分帧的,比Philips算法31/32的重叠率低,减少了数据的处理量;傅里叶变换模块实现时频转换;频带滤波器模块使用三角形Mel刻度滤波器组代替Bark刻度滤波器组进行频谱子带划分;频率差分和时域差分模块使用滤波器组U3+U1进行功率谱子带差分;门限判别模块用于计算每帧信号的音频指纹。
笔者在Philips音频指纹算法的基础上,主要修改了频带滤波器组模块的功率谱子带划分方式和二维滤波器模块的子带间时频差分方式,提出了2种改进算法,算法主要修改部分描述如下。
1)改进算法1:频带滤波器组使用矩形Bark刻度滤波器组,频率和时域差分模块改用滤波器组U3+U1。
2)改进算法2:频带滤波器组改用三角形Mel刻度滤波器组,频率和时域差分模块改用滤波器组U3+U1。
2 噪声鲁棒性分析
把实验环境分为理论环境和真实环境来模拟常见的噪声环境。在理论环境条件下,采用包括MP3编解码、白噪声、幅度压缩的方法对音频信号进行畸变;在真实环境条件下,采用在4个典型场景采集的音频信号作为实验样本。
2.1 理论环境
首先,对实验样本进行几类常见的处理:幅度压缩、白噪声、MP3编解码、时间刻度修改和线性速度改变。然后利用NoiseX-92[13]中的几类噪声(车内噪声、公共场合噪声和工厂噪声)对实验样本加噪。在上述噪声环境条件中,Philips算法和改进算法的误码率如图6所示。
从图6可以看出:在车内、公共场合和工厂环境下,改进算法一的误码率明显低于其他2种算法,即在这些环境下改进算法1的噪声鲁棒性优于另外2种算法;在时间刻度修改和线性速度改变这2种信号畸变情况下,改进算法2的误码率较低,噪声鲁棒性优于另外2种算法;而针对一些对音频指纹误码率影响较小的畸变,如幅度压缩、MP3编解码等,改进算法与Philips算法的误码率相差不大。
笔者又将改进算法1和Philips算法进行比较,其结果如图7所示,改进算法1的鲁棒性优于Philips算法。
图 7 算法的正确识别率比较
2.2 真实环境
将实验样本在4个不同的真实场景下进行录音采集。为符合一般的采集条件,使用Samsung GT-I9305型号手机在4种典型环境下进行信号采集:1)室内,安静,噪声少;2)小区,安静,噪声相对较少;3)商场,喧闹,存在说话声、音乐等各种背景噪声;4)公交车,喧闹,嘈杂,存在发动机声、说话声等各种背景噪声。
将以上4种典型环境下采集的音频信号作为实验样本,分别采用改进算法和Philips算法提取音频指纹,得到的误码率如图8所示。
图8的实验结果表明:在比较喧闹嘈杂的环境下,改进算法一相较Philips算法,其鲁棒性明显改善;在相对安静的环境下,2种改进算法与Philips算法差别不大;本文提出的改进算法在真实环境下的噪声鲁棒性相较Philips算法有明显提高。
3 结束语
本文通过对经典音频指纹算法——Philips算法进行分析研究,发现Philips音频指纹算法在低信噪比、线性速度改变等方面存在鲁棒性较差的问题,通过仿真分析总结出功率谱差分能有效消除加性噪声的特性。为此,提出了一种基于频域和时域差分的音频指纹提取算法。在实验环境和真实环境条件下对改进算法和现有算法进行了对比分析。其实验结果表明,改进算法的鲁棒性优于Philips算法。
图 8 真实环境下算法误码率比较
[1]Grosche P, Müller M, Serrà J. Audio Content-Based Music Retrieval[J]. Multimodal Music Processing, 2012, 3:157-174.
[2]Kamaladas M D , Dialin M M. Fingerprint Extraction of Audio signal using Wavelet Transform[C]//2013 International Conference on Signal Processing Image Processing & Pattern Recognition (ICSIPR). Coimbatore:IEEE, 2013: 308-312.
[3]Doets P J O , Lagendijk R L. Distortion Estimation in Compressed Music Using Only Audio Fingerprints[J].IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(2): 302-317.
[4]Lee S , Yook D , Chang S. An Efficient Audio Fingerprint Search Algorithm for Music Retrieval[J].IEEE Transactions on Consumer Electronics, 2013, 59(3): 652-656.
[5]Haitsma J , Kalker T. A Highly Robust Audio Fingerprinting System[J]. Proceedings of the International Symposium on Music Information Retrieval, 2002, 11: 107-115.
[6]Ramalingam A , Krishnan S. Gaussian Mixture Modeling of Short-Time Fourier Transform Features for Audio Fingerprinting[J].IEEE Transactions on Information and Forensics and Security, 2006, 1(4): 457-464.
[7]Seo J S , Jin M , Lee S , et.al. Audio Fingerprinting Based on Normalized Spectral Subband Centroids[J]. IEEE International Conference on Acoustics, Speech, and Signal Proceedings, 2005, 3(3): 213-216.
[8]Thomas F. Quatieri 离散时间语音信号处理:原理与应用[M].赵胜辉, 刘家康,译.北京:电子工业出版社, 2004: 540-550.
[9]Shaughnessy D O. Speech Communication: Human and Machine[M].[s.n.]: Universities Press (India) Pvt Limited, 1987:23-45.
[10]Davies S B , Mermelstein P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences[J].IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(4): 357-366.
[11]Nadeu C , Hemando J , Gorricho M. On the Decorrelation of Filter-Bank Energies in Speech Recognition[J].Proc Eurospeech, 1995: 1381-1384.
[12]Xu J F , Wei G. Noise-Robust Speech Recognition Based on Difference of Power Spectrum[J]. IEEE Electronics Letters, 2000, 36(14): 1247-1248.
[13]Varga A , Steeneken H J M. Assessment for Automatic Speech Recognition: II. NOISE-92: A Database. An Experiment to Study the Effect of Additive Noise on Speech Recognition Systems[J]. Speech Communication, 1993, 12: 247-251.