混响环境中突发声源定向方法及性能

2015-10-14闫青丽陈建峰郭瑾常跃跃

声学技术 2015年6期

闫青丽，陈建峰，郭瑾，常跃跃

混响环境中突发声源定向方法及性能

闫青丽，陈建峰，郭瑾，常跃跃

(西北工业大学航海学院，陕西西安710072)

针对突发性声源在混响条件下的定向技术进行了研究。基于传统广义互相关时延估计的定向方法，通过对互相关函数计算结果进行判别与约束、对数据帧采用滑动方式、对时延估计结果进行能量加权选举等措施，有效提高了声源定向结果的稳定性。实验结果表明，改进的算法在混响条件下能有效地对突发性声源进行可靠定向，可用于对枪声、爆炸声等突发性信号进行精确定向和定位。

声源定向；时延估计；混响

0 引言

随着国家安防、反恐形势的日益严峻，利用声音和振动进行异常事件监测的技术不断发展，声源目标定向技术也得到越来越多的关注，部分成果已经得到应用，如直升机探测、枪声定向系统等[1-2]。

目前常见的声源定向方法主要有波束形成法[3]、高分辨率谱估计法[4]、到达时间差(Time Difference of Arrival, TDOA)法[5]等。在上述三种声源定向方法中，TDOA法运算量最小，具有较好的实时性和较高的估计精度[6]，实现成本低较，得到了广泛应用。

TDOA定向法分为两个步骤：第一步是时延估计，第二步是基于时延估计的声源定向。其中，时延估计方法中常用的主要是广义互相关法(Generalized Cross Correlation, GCC)[7]。该方法根据不同的背景环境，可对输入信号进行加权处理，锐化了互相关函数的峰值。这种对信号的预白化处理的方法具有较强的抑制噪声的能力，在无混响和弱混响条件下均有较好的定向性能[7-8]。

TDOA定向法假设声源为平稳随机信号，对目标进行时延估计时，若目标静止，可以通过增加时间积累来抑制噪声，提高估计性能。若目标运动，可通过对估计结果的二次处理(如滤波)来排除奇异点。这在对飞机、车辆等连续性声源目标的探测应用中获得了较好的实践。可是对于突发性声源，比如枪声、爆炸声等，事先没有先验知识、没有参考历史数据；在大部分情况下，声音只发生一次，短暂且唯一；因此在环境比较复杂、反射体较多的情况下，上述传统的估计方法往往不易获得准确结果。

本文研究基于广义互相关的TDOA定向算法对突发性声源信号在不同条件下的定向性能。通过对不同的参数选择、实验数据的分析，给出其性能结果以及其差异产生的原因。针对差异和面临的问题，提出相应的改进方法，并得到实测数据的验证。本文的研究结果，可用于对枪声、爆炸声等突发性信号在高混响条件下的精确定向和定位。

1 基于GCC的TDOA定向算法

下面介绍常用的基于广义互相关算法的时延估计过程。该方法是以基本互相关为理论基础，通过计算两信号之间的互功率谱，并在功率谱域内给予一定的加权来对信号和噪声进行白化处理，增强信号中信噪比较高的频率成分，抑制噪声的功率，再反变换到时域得到广义互相关函数，从而可以在一定程度上锐化互相关函数的峰值，提高时延估计精度。

在实际计算时，我们对采集到的数据分帧处理，设帧长为。

图2中，FFT和IFFT分别表示傅里叶变换和傅里叶逆变换，( )*表示共轭运算，是频域加权函数，框图中的频域插值是为了提高定向分辨率[10]，|•|表示取实部运算。我们采用GCC-PHAT (General Cross Correlation with the Phase Transform)的加权函数[8]

其中

(3)

(5)

2 混响对突发声源定向性能的影响

混响是指声音被界面不断反射而积累的结果。混响会降低声音的清晰度。对声源定向技术而言，混响是影响定向精度的重要因素。通常用混响时间描述环境的混响效果，它是指声源停止发声后，声压级衰减60 dB所经历的时间[11]，单位为s。混响时间越长，混响越严重。混响时间与周围环境反射体的环境参数有如下关系[11]：

若环境为一个封闭的房间，则是房间体积，是房间墙面的总表面积，是房间表面的平均反射系数。可见房间体积越大混响时间越长。考虑混响时，麦克风接收到的信号与声源信号的关系为

， (7)

在环境比较复杂、反射体较多的情况下，声源信号与环境混响参杂。由式(7)可以看出，在混响条件下，麦克风将接收到的不同的原始声源的复本进行叠加，文献[10]针对平稳连续声源研究了不同的混响时间对TDOA定向方法的性能影响。仿真结果表明，混响时间越长，定向性能越差。本文重点讨论混响对突发声源定向性能的影响。正如前文所述，该类声源比较特殊，为非平稳信号，诸多特点造成传统的定向方法不能满足应用需要，有必要进行针对性的改进。

3 改进算法描述

针对传统的TDOA算法中时延估计环节受混响的影响问题，对第1节所述的方法提出以下改进措施。

(1) 滑动使用原始数据，充分展示直达波部分估计结果的可重复性。

对于突发性声源，其持续时间较短。若各帧没有重叠，则经常仅有一两个帧对应着直达波，正确结果极少。为此，对采集到的数据采取分帧滑动处理，即每个帧处理完后，在使用新数据时，仍重复利用本帧的一定比例。这样做可以充分利用短暂的直达波信号连续获得多次的正确估计结果，为后处理提供依据。

(2) 利用对互相关函数的判别来抑制混响造成的异常估计结果。

在文献[12]中显示，混响条件下的信号获得的互相关函数呈现不同的特点，有必要根据互相关函数的特征做适当的约束。这样可以大大减少混响信号出现异常结果的可能性。采用以下约束措施：

④传统方法一般采用平均功率作为检测门限。对于突发信号，因声音短暂而峰值又高，平均功率方式易造成漏报。在使用时采用平均能量和峰值检测相结合的方法。

(3) 提升直达波对应时延估计结果的权重。

直达波能量比反射波大，针对声源固定不变的已知条件，可将估计所得的时延结果按照所对应帧的信号能量加权，然后再通过选举的方式进行后处理，选举出的结果为本次的估计结果。

由于采用的是数字处理系统，因此每次估计所得结果均为确定的离散值。假设有种时延估计的结果，每种结果出现的次数分别为，每个结果对应的数据帧的信号的最大值组成的数组分别为，定义选举参数为

通过以上措施，可以有效提升传统算法对突发信号在混响条件下的性能。

4 算法结果及分析

本文的实验环境是一个8 m×3.3 m×3.5 m的普通实验室，室内墙壁平均反射系数为0.6，按照式(6)计算的混响时间约为228 ms。两个麦克风组成阵列，间距为1 m。距离麦克风阵4 m处架设一个扬声器，播放声源信号。信号为一个人的击掌声，信号宽度大约为52 ms。各个点的位置的测量使用激光测距仪，精度为0.01 m。背景噪声主要来自日光灯、个人电脑、远处马路汽车噪声，信号采样频率为16 kHz，AD采样精度为24 bit。声源的真实角度为78.9°。

混响环境下两个麦克风采集到的信号如图3所示。可以看到，信号初期能量大，后面逐渐衰减，直达波以后的波形拖尾主要是室内混响造成的。两路信号波形幅度有差异，这来自于两路麦克风自身的不一致性和它们与声源距离的差异。

下面对传统的算法和改进后的算法的计算结果分别进行分析。

4.1 传统的算法计算结果及分析

采用传统的TDOA法对上述信号进行处理。对比不同帧长()条件下的结果如图4(a)~4(d)所示。同时，统计了参与计算的帧数、可获得有效结果的帧数(0°~180°范围内)以及正确结果的帧数，如表1所示。

由图4及表1可以看到，(1) 对于在混响较强环境中获得的信号，不同帧长条件下，有效帧数仅占总数据帧数的平均为48.21%，能够计算出正确结果的帧数又仅占有效帧数的33%~50%，正确结果比例很低；(2) 较大的帧长并没有显著提高定向结果的正确率和稳定性。

Fig 4 MATLAB simulation results of the traditional TDOA algorithm (Dash line indicates the right direction)

表1 传统算法不同帧长结果

4.2 改进算法结果分析

按照第3节给出的改进方法，对同样的信号进行计算，具体计算参数为：滑动步长32，0.6，0.5。仿真结果如图5和表2所示。

表2 改进算法不同帧长计算结果

经过对数据结果进行分析，有如下现象：

首先，对比表1和表2可以看出，虽然因滑动造成总帧数显著增加，但有效帧数并没有同比例增加。那些因混响而造成的异常结果被互相关函数的判决条件有效地抑制了。这项措施使得正确帧数占有效帧数的比例大幅度增加。

其次，从图5可以看到，在直达波部分，由于采用了滑动的方法，可以在短暂的直达波信号段连续获得许多正确的估计方向。充分展示了估计结果的可重复性。

按照第3节的计算流程进行处理，再经加权选举后，不同帧长的定向结果均为78.9°。表明帧长不同的情况下，均可以很好地获得准确结果。而若对图4所示的传统方法计算结果进行平均处理，则距离正确值偏差很大。

对于帧长，应根据具体的声源及环境特征合理选择。若声源持续时间短、周围反射强，则应选择较短的帧长；相反则可选择稍长的帧长。另外，帧长越长则计算量越大，因此还需要在实际中结合硬件计算能力综合确定。

5 结论

本文针对突发性声源的特点，提出了平滑处理、能量加权选举、互相关函数判决等改进措施。实验结果表明，改进后的算法可以有效地抑制混响的影响，使得该算法对帧长不再敏感，提高了定向结果的精度和稳定性，对突发性声源有很强的适用性。

后期将进一步开展混响条件下的算法统计性能分析、不同信噪比条件下的性能分析，以及各类环境(如风、温度等)对估计性能影响等方面的研究。

[1] Valenzise G, Gerosa L, Tagliasacchi M, et al. Scream and gunshot detection and localization for audio-surveillance systems[C]// IEEE Conference on Advanced Video and Signal Based Surveillance, 2007: 21-26.

[2] Ali P, Seyed M A. Real time high accuracy 3-D-PHAT-based source localization using a simple 4-microphone arrangement[J]. IEEE Systems Journal, 2012, 6(3): 455-468.

[3] Van veen B D, Buckley K M. Beamforming: A versatile approach to spatial filtering[J]. IEEE Trans. On Audio Speech, and Signal Processing, 1988, 5(2): 4-42.

[4] Pillai S U, Kwon B H. Forward/backward spatial smoothing techniques for coherent signal identification[J]. IEEE Trans. on Audio Speech, and Signal Processing, 1989, 37(1): 8-15.

[5] Chan Y T, HO K C. A simple and efficient estimator for hyperbolic location[J]. IEEE Transaction on Signal Processing, 1994, 42(8): 1905-1915.

[6] Brandnstein M, Ward D. Microphone Arrays: Signal Processing Techniques and Applications[M]. New York: Springer, 2001.

[7] Knapp C. Carter G.. The generalized correlation method for estimation of time delay[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1976, 24(4): 320-327.

[8] 严素青, 黄冰. 基于广义互相关的时延估计算法研究[J]. 信息技术, 2005, 12(9): 26-28.

YAN Suqing, HUANG Bing. Research on time delay estimation algorithm based on generalized cross correlation[J]. Information Technology, 2005, 12(9): 26-28.

[9] 崔玮玮, 曹志刚, 魏建强. 声源定位中的延时估计技术[J]. 数据采集及处理, 2007, 22(1): 90-99.

CUI Weiwei, CAO Zhigang, WEI Jianqiang. Time delay estimation techniques in source location[J]. Journal of Data Acquisition & Processing, 2007, 22(1): 90-99.

[10] Bedard S, Champagne B, Stephenne A. Effects of room reverberation on time-delay estimation performance[C]// Proc. IEEE Int. Conf. Acoust, Speech, Signal Processing, Adelaide, Australia, pp.II: 261-264, April 1994.

[11] 张丽艳, 殷福亮. 一种适用于混响环境的麦克风阵列语音增强方法[J]. 信号处理, 2009, 25(5): 720-723.

ZHANG Liyan, YIN Fuliang. A microphone array speech enhancement method for dereverberation[J]. Signal Processing. 2009, 25(5): 720-723.

[12] 程萍, 陈建峰, 马驰, 等. 十字阵短时宽带声源实时定向算法[J].应用声学, 2012, 31(2): 123-129.

CHENG Ping, CHEN Jianfeng, MA Chi, et al. A fast short-time broadband acoustic source diretion estimation algorithm using cross array[J]. Applied Acoustics, 2013, 31(2): 123-129.

Impulsive source localization technique and its performance in reverberation environment

YAN Qing-li, CHEN Jian-feng, GUO Jin, CHANG Yue-yue

(School of Marine Science and Technology,Northwestern Polytechnical University, Xi’an 710072,Shaanxi, China)

In this paper the performances of the conventional TDOA acoustic source localization method in reverberant environments are studied when the sound source is an impulsive signal. Based on the Generalized Cross-Correlation and Time Difference of Arrival estimation method (GCC-TDOA), three measures are put into use to enhance the robustness of the original method. The overlapping windowing for data batch processing is first used, and then a series of constraints on the cross-correlation function are defined to exclude the abnormal time-delay estimates. The energy-weighted voting is used as a post processing step to further increase the stability. As a result, the direction estimation performance is significantly improved in reverberation. This algorithm can be used to localize the unstationary signals like gunfire, explosions and so on.

source localization;time delay estimation; reverberation

TN92

1000-3630(2015)-06-0479-05

10.16300/j.cnki.1000-3630.2015.06.001

2015-01-02;

2015-04-18

闫青丽(1990－), 女, 河南安阳人, 硕士研究生, 研究方向为信号与信息处理。

闫青丽, E-mail: gongchyy@163.com