多通道连续头相关传输函数的测量

2015-06-05付中华林武雄周少丽任鹏钰

天津大学学报(自然科学与工程技术版) 2015年8期

关键词：失配麦克风频域

付中华，林武雄，周少丽，任鹏钰

(西北工业大学计算机学院，西安 710072)

多通道连续头相关传输函数的测量

付中华，林武雄，周少丽，任鹏钰

(西北工业大学计算机学院，西安 710072)

头相关传输函数(HRTF)是虚拟声研究的重要参数，在沉浸式语音交互中有广泛的应用．在很多应用中常常需要高密度HRTF数据，而高密度HRTF的测量是一件十分费时繁琐的工作．采用自适应滤波器和连续转动方式测量高密度HRTF是一个有效途径．本文提出了基于广义多通道频域自适应滤波器的多通道连续HRTF测量方法，该方法适用于快速多通道系统辨识．实验表明，在不同的系统噪声、环境噪声以及不同转速情况下，本文方法比传统的归一化最小均方测量方法效果更好，测量误差显著降低．

广义多通道频域自适应滤波；连续HRTF测量；自适应滤波器；头相关传输函数

头相关传输函数(head-related transfer function，HRTF)描述了在自由场下，空间一点到人双耳的传输过程．HRTF包含有人耳对空间方位感知的重要信息，在沉浸式语音交互中有广泛的应用．然而许多应用都需要高空间方位密度的HRTF数据，其测量过程十分麻烦，对实验条件和受试人员都有十分苛刻的要求．而采用传统的实验室测量方法来获得高密度HRTF，是一件十分费时、复杂的事情．若利用计算方法获得高密度HRTF，也需要很长的计算时间．因此研究高密度的HRTF测量方法十分必要．

当人工头连续转动时，其内耳处的麦克风接收到扬声器的播放信号，然后采用在线解卷双耳信号的方法来获取当前方位的HRTF，这样就可以获得高密度的HRTF. 这里的解卷双耳信号，可以看成是对HRTF的一个逼近过程，这样就可以采用广义频域自适应滤波的方法进行高密度HRTF的测量．本文在一个建立好的HRTF数据库的基础上对广义频域的方法进行了性能验证，其中利用时变卷积得到了双耳信号，同时加入了麦克风噪声和测量噪声以求真实仿真，并且对不同的噪声级别和不同的转速做了误差评价．

1 高密度HRTF测量

通常，HRTF可以通过声学测量[1]和数值计算得到[2-3]．然而由于HRTF是连续函数且随方位和人耳的生理结构变化，直接采用测量方法获取高密度HRTF成为一件极其耗时、复杂的工作．一种获取高密度HRTF的方法是采用插值方法[4-5]．该方法假设HRTF函数是空间光滑的，那么空间任意方位的HRTF可以由相邻方位的HRTF插值得到．采用这种方法时，原始HRTF数据的空间采样数据必须小于5°以避免空间混叠[6]，同时插值前必须去除HRTF的初始延迟．然而利用这种方法在仿真运动声源时[1]，难免会引入人工误差．

最近，一些文章提出了关于连续HRTF测量的方法[7-9]．测量中，受试者坐于1个连续旋转平台，耳朵插入入耳式麦克风．1个或者多个扬声器播放激励信号(如最长序列(maximum length sequence，MLS)信号、扫频(sweep)信号)，然后1个在线系统辨识方法(如归一化最小均方(normalized least mean square，NLMS))处理接收到的双耳信号，从而估计出HRTF，以此在连续转动下获取高密度HRTF．一些文中已表明在高密度HRTF测量中，采用自适应滤波技术可得到较为理想的结果．在自适应滤波技术[10]中，通常NLMS的收敛速度较慢．因此，对于在一定速度旋转下的连续HRTF测量，NLMS很难收敛到一个稳定的理想结果．相比于NLMS方法，递推最小二乘(recursive least square，RLS)法在收敛性能上有明显的提高，但巨大的计算量是其缺点，限制了其在解决在线问题上的应用．广义多通道频域自适应滤波[11](generalized multichannel frequency-domain adaptive filtering，GMFDAF)方法，是一种基于RLS的新型自适应滤波器技术，其在快速、准确系统辨识问题上拥有出色的性能．前期的研究工作表明[12]，GMFDAF在单通道高密度HRTF测量中性能出色，具有收敛速度快、计算误差小的优点，本文将其推广至多通道高密度HRTF测量问题．首先，通过仿真实验来获取双耳接收到的信号，然后用GMFDAF在线解卷双耳信号的方法来获取当前方位的HRTF，这样就可以获得高密度的HRTF．

2 基于自适应滤波器的高密度HRTF测量系统

图1所示为HRTF测量的原理．

测量时，受试者坐于连续转台上，且内耳处置有入耳式麦克风，用于拾取声音．受试者头部固定有头动方位传感器，并将扬声器固放于受试者一定距离处，正对受试者头部中心．在HRTF测量中，计算机产生MLS信号()x n送于扬声器用于播放．同时位于内耳处的麦克风接收到双耳信号1()y n和2()yn，此时头动传感器采集头动信息．然后采用在线系统辨识方法，利用()x n、1()y n和2()yn估计当前方位的头相关脉冲响应(head-related impulse response，HRIR)．

图1 连续HRTF测量示意Fig.1 Sketch of continuous HRTF measurement

上述HRTF测量系统是一个典型的单输入双输出系统，可被分解为两个单输入单输出系统．为叙述简洁，只需考虑1个单输入单输出系统，()x n为输入信号，()y n(1()y n或2()yn)为输出信号．

为描述方便，首先定义

为包含当前时刻前N点的矢量信号．

为包含mL时刻前2N点的矢量信号．其中m为帧数，L为帧移，上标T为转置运算符．yN(m)的定义与x2N(m)类似，但其长度为N．假设待估计的HRIR(为表述简洁，只取左耳)为

阶数为N，则输出信号可表示为

误差信号定义为e( n)=y( n)-yˆ( n)．块误差矢量信号eN(m)定义类似于yN(m)．

2.1 GMFDAF方法

GMFDAF算法是基于RLS准则的频域算法，通过递归计算和快速傅里叶变换(fast Fourier transformation，FFT)可大大减少计算量．它通过块误差矢量信号eN(m)定义目标函数为

式中λ为指数权重因子，其取值范围在0～1之间．将上式中的eN(i)变换到频域，然后对目标函数求导，可得到迭代方程如下：

块误差矢量信号更新方程为

其中相应时域变量的频域表示形式为

系数矩阵为

2.2 性能评价

为了评价算法在时域和频域的性能，分别定义时域失配准则函数和频域失配准则函数，以衡量算法逼近效果．时域失配准则函数定义为

同理，频域失配准则函数定义为

频域失配准则函数表明了在所有时刻下，第k个频点的相对能量比，可表示在所有时刻该频点处的收敛性能．

2.3 HRTF数据库及实验条件

实验中采用基于边界元方法计算得到的中国人工头BHead210,HRTF数据库[3]．该数据库包含俯仰角90-°～90°的1°分辨力和方位角0°～360°的1°分辨力HRTF数据．实验中，仿真受试者头部连续转动，双耳信号由白噪声信号与随方位连续变化的HRIR卷积得到

3 广义多通道频域算法下的连续HRTF测量

3.1 不同声道下性能比较

表1显示了在不同通道下，GMFDAF与NLMS方法的比较结果．为详细比较这2个方法的收敛性能，根据人耳的频域特性，指定评价指标为低频段最大误差和高频段最大误差．实验分别从两通道、三通道、四通道、五通道4种情况比较了它们在两种自适应方法下得到的结果误差．其中两通道表示仰角为-30°和30°分别放置扬声器，在转台连续转动下，顺时针旋转1周，双耳内置麦克风拾取扬声器播放信号．在得到麦克风信号后，采用GMFDAF和NLMS分别实时解卷扬声器信号和麦克风信号，从而估计当前方位的HRTF．

在不同通道的性能比较中，设置的转动速度为10°/s．产生扬声器信号所采用的HRIR加入信噪比为30,dB的白噪声，用来模拟HRIR测量时位置等因素的不确定性．同时麦克风所接收的信号加入信噪比为40,dB的白噪声，用来模拟环境噪声和麦克风位置不准确性带来的影响．为了更多地反映2种方法在连续HRTF测量中的不同点，采用了平均失配率、最大失配率、低频最大误差和高频最大误差4个评价指标．其中，平均失配率表示在旋转1周的过程中，待估计的HRTF和实际的HRTF的失配率的平均情况．这个指标从相对能量的角度显示了算法在估计的过程中失配残差与原始HRTF的能量比．最大失配率表示在旋转过程中失配率的最差情况．前2个指标是为了从客观的角度来评价算法的好坏．但是对于HRTF，频域的变化对方位感知也十分重要．谢菠荪[13]研究发现，对于2次测量得到的HRTF来说，它们的低频误差和高频误差只有在一定的范围内，这样的测量才算正确，即不影响人耳判断空间方位．为了从频域的角度考虑算法的性能，第3个指标为低频最大误差，表明在6,kHz以下，在旋转1周的过程中，所得到的最大误差．同理，高频最大误差表明在6～16,kHz范围，旋转1周的过程中，所得到的最大误差．

表1 不同通道下性能比较Tab.1 Performance comparison under different channels

从表中可以看出，在两通道(－30°，30°)的比较中，GMFDAF方法的平均失配率比NLMS方法的平均失配率低5.057,7,dB．在通道增加之后，GMFDAF方法的平均失配率相对NLMS方法的平均失配率有所下降，如三通道相对差值为5.625,6,dB，四通道为5.662,7,dB．这表明从平均失配的角度来讲，GMFDAF方法要优于NLMS方法．从各自方法的平均失配率来比较，GMFDAF方法在平均失配率上，从两通道增到三通道下降了2.707,2,dB，再从三通道增到四通道下降了2.099,3,dB．而NLMS方法在平均失配率上，从两通道增到三通道下降了3.275,1,dB，再从三通道增到四通道下降了2.136,4,dB．这表明在通道数增加的情况下，GMFDAF方法在性能下降上比NLMS方法慢．

在最大失配率的比较上，两通道的GMFDAF方法比NLMS低5.982,6,dB，三通道时低6.071,9,dB，四通道时低5.034,3,dB．同样在两、三、四通道时这2种方法在低频和高频最大误差的比较中，GMFDAF方法的低频结果分别比NLMS方法低2.458,3,dB、2.409,0,dB和1.690,1,dB，高频分别低2.530,5,dB、2.644,9,dB和2.970,0,dB．这些指标均显示GMFDAF方法要优于NLMS方法．

3.2 不同HRIR信噪比下性能比较

以两通道为代表，考虑不同HRIR噪声下2种方法的比较．之所以加入HRIR噪声在于HRTF的定义为自由场下的传输函数．而实际测量往往在消声室中进行，这样会导致实测HRTF受到房间内反射、散射以及房间体积和温度的影响．为使仿真更为真实，加入了HRIR噪声，以仿真这些系统本身存在的误差影响．通常消声室内的反射和散射都比较微弱，同时房间的体积和温度影响一般也较小，这时考虑不同噪声情况下2种方法的比较．

表2显示了转速10°/s、麦克风信噪比40,dB情况下，GMFDAF方法和NLMS方法的比较结果．实验中，HRIR信噪比从20,dB增大到40,dB，分别比较了2种算法的平均失配率、最大失配率、低频最大误差和高频最大误差．在HRIR信噪比为20,dB的时候，GMFDAF方法和NLMS方法的平均失配率相差不大，这说明如果在实际测量中环境条件比较差的情况下，2种方法性能相当．平均失配率的比较中，在HRIR信噪比增大到30,dB时，二者相差5.057,7,dB，增大到40,dB时，二者相差7.173,7,dB，表明在较好的实际测量条件下，GMFDAF方法会得到更好的测量结果．在最大失配率的比较上，与平均失配率比较的结果相似．在不同HRIR信噪比的条件下，低频最大误差和高频最大误差也是随着噪声的降低而降低．但是较NLMS方法来说，GMFDAF方法下降得更为迅速．不过当HRIR信噪比从30,dB增大到40,dB时，所有指标的下降趋于放缓，表明系统噪声在一定级别之下时，对结果的影响程度逐渐减弱．

表2 不同HRIR信噪比下性能比较Tab.2Performance comparison under different HRIR SNRs

3.3 不同麦克风信噪比下性能比较

本实验主要考察在不同麦克风信噪比下，二者方法性能的比较．加入麦克风噪声用于仿真2个影响因素，一是环境噪声，二是扬声器和麦克风的位置噪声．前者很好理解，就是仿真测量环境中存在的一些背景噪声，比如电脑、风扇等的噪声，这些噪声通常均为白噪声．后者则是仿真扬声器和麦克风位置偏差引起的噪声，这种噪声一般也是白噪声．

表3中显示了不同麦克风信噪比下，NLMS方法和GMFDAF方法的比较结果．

表3 不同麦克风信噪比下性能的比较Tab.3 Performance comparison under different MIC SNRs

实验条件是：两通道，转速为10°/s，HRIR信噪比为30,dB，麦克风信噪比从20,dB增大到50,dB．在麦克风信噪比为20,dB时，NLMS方法在平均失配率上略优于GMFDAF方法，这是因为GMFDAF方法是基于RLS方法的，这使得GMFDAF方法存在RLS方法的缺点(如不稳定)．虽然采用频域的算法可以去除时域的相关性，但是由于麦克风噪声过大，在一定程度上影响了方法的性能．当麦克风噪声继续减小时，GMFDAF方法平均失配率迅速提升，而NLMS方法的提升效果却较慢．但同时，当麦克风信噪比从40,dB增大到50,dB时，2种方法的结果提升均较慢，这意味着此时麦克风噪声对方法性能的影响变小．麦克风噪声影响最大的指标是最大失配率．从表3中可以看出，在麦克风信噪比为20,dB时，GMFDAF方法最大失配率结果高于NLMS方法3.355,4,dB．在信噪比为30,dB时，GMFDAF方法最大失配率结果低于NLMS方法0.168,2,dB．在麦克风信噪比分别为30,dB和40,dB时，在最大失配率的对比上，GMFDAF方法结果分别低于NLMS方法5.982,6,dB和6.612,4,dB，相比麦克风信噪比20、30,dB的结果有显著提升．从二者的低频最大误差和高频最大误差来看，麦克风噪声降低可使GMFDAF方法的结果有较为明显提升，而对于NLMS方法的提升却较小．在实际的测量环境中，可通过隔声吸声等手段尽量降低环境噪声，这就使得GMFDAF方法更适合连续HRTF的测量．

3.4 不同转速下性能比较

GMFDAF方法相比于NLMS方法的最大优点之一，就在于其快速的收敛性能．采用自适应滤波算法进行连续HRTF的测量，对算法的收敛性能有着极高的要求．这个实验用以比较不同转速下，2种方法的性能差异．实验条件设置为两通道，HRIR信噪比30,dB，麦克风信噪比40,dB，转速选取了3～30°/s 内的5种速度．从表4中可以看出，在转速为3°/s时，GMFDAF方法和NLMS方法的性能相当，因为此时转动速度较低，HRTF变化较慢，算法的跟踪性能都较好．然后当速度增大到5°/s时，GMFDAF方法性能指标只有较小下降变化，而NLMS方法的性能指标却下降明显．之后，当转速增大到10°/s时，对于二者平均失配率来讲，GMFDAF方法只下降了1.723,5,dB，而NLMS方法却下降了4.802,1,dB．从表4中还可以看出，当转速进一步增大时，对比各项性能指标，GMFDAF方法的结果相比于NLMS方法的变化更加缓慢．

表4 不同转速下性能的比较Tab.4Performance comparison under different rotational speeds

在实际的HRTF测量中，采用自适应滤波方法获取HRIR时，需要转速更快的方法来减小测量时间，同时保证同样的测听效果．通过两种方法的转速对比结果，说明GMFDAF方法更适合做连续HRTF的测量．

4 结语

在获取高密度HRTF时，传统方法十分费时．本文利用GMFDAF方法来测量连续HRTF，对实验的条件设置作了详细的描述，并通过仿真方法与NLMS方法进行了对比．在对比实验中，对不同的通道数、不同的系统噪声、不同的麦克风噪声和不同的转速下，进行了2种方法的性能对比．平均失配率、最大失配率、低频最大误差、高频最大误差4个评价指标的实验结果显示GMFDAF方法要优于NLMS方法．

［1］ Blauert Jens. Spatial Hearing：The Psychophysics of Human Sound Localization [M]. Massachusetts：MIT Press，1997.

［2］ Kahana Yuvi，Nelson Philip A，Petyt Maurice，et al. Numerical modelling of the transfer functions of a dummy-head and of the external ear [C]// 16th International Conference on Spatial Sound Reproduction. Audio Engineering Society，1999：330-345.

［3］ Tang Ling，Fu Zhonghua，Xie Lei. Numerical calculation of the head-related transfer functions with Chinese dummy head [C]// 2013,Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Kaohsiung，China，2013：1-4.

［4］ Matsumoto Mitsuo，Yamanaka Susumu，Toyama Mikio，

et al. Effect of arrival time correction on the accuracy of binaural impulse response interpolation-interpolation methods of binaural response[J]. Journal of the Audio Engineering Society，2004，52(1/2)：56-61.

［5］ Nishimura Ryouichi，Kato Hiroaki，Inoue Naomi. Interpolation of head-related transfer functions by spatial linear prediction [C]// Proceedings of IEEE International Conference on Acoustics，Speech，and Signal Processing，2009(ICASSP 2009). Taipei，China，2009：1901-1904.

［6］ Ajdlee T，Sbaiz Luciano，Vetterli Martin. Plenacoustic function on the circle with application to HRTF interpolation [C]// Proceedings of IEEE International Conference on Acoustics，Speech，and Signal Processing，2005(ICASSP 2005). Philadelphia，Pennsylvania，USA，2005：273-276.

［7］ Ajdler Thibaut，Sbaiz Luciano，Vetterli Martin. Dynamic measurement of room impulse responses using a moving microphone [J]. The Journal of the Acoustical Society of America，2007，122(3)：1636-1645.

［8］ Duraiswaini R，Zotkin Dmitry N，Gumerov Nail A. Interpolation and range extrapolation of HRTFs [head related transfer functions][C]// Proceedings of IEEE International Conference on Acoustics，Speech，and Signal Processing，2004(ICASSP 2004). Montreal，Quebec，Canada，2004：45-48.

［9］ Enzner Gerald. Analysis and optimal control of LMS-type adaptive filtering for continuous-azimuth acquisition of head related impulse responses [C]// Proceedings of IEEE International Conference on Acoustics，Speech，and Signal Processing，2008(ICASSP 2008). Las Vegas，Nevada，USA，2008：393-396.

［10］ Haykin Simon S. Adaptive Filter Theory [M]. India：Pearson Education，2005.

［11］ Buchner Herbert，Benesty Jacob，Kellermann Walter. Generalized multichannel frequency-domain adaptive filtering：Efficient realization and application to hands-free speech communication [J]. Signal Processing，2005，85(3)：549-570.

［12］ Ren Pengyu，Fu Zhonghua. Fast and accurate highdensity HRTF measurements using generalized frequency-domain adaptive filter [C]// The 21st International Congress on Sound and Vibration. Beijing，China，2014：4915-4922.

［13］谢菠荪. 头相关传输函数与虚拟听觉[M]. 北京：国防工业出版社，2008.

Xie Bosun. Head Related Transfer Fuction and Virtual Auditory[M]. Beijing：National Defence Industry Press，2008(in Chinese).

（责任编辑：赵艳静）

Measurement of Multi-Channel Continuous Head-Related Transfer Function

Fu Zhonghua，Lin Wuxiong，Zhou Shaoli，Ren Pengyu
(School of Computer Science，Northwestern Polytechnical University，Xi’an 710072，China)

Head-related transfer function(HRTF)is an important parameter for virtual sound research，which has been widely applied in immersive voice interaction．High density HRTF data are often required in many applications，but the measurement of high density HRTF is time-consuming and tedious．The adaptive filter and continuous rotation method is effective in measuring high density HRTF．This paper presents a multi-channel continuous HRTF measurement method based on generalized multi-channel frequency-domain adaptive filter，and the method is suitable for fast multi-channel system identification．Experiments show that compared with traditional normalized least mean square measurement method，the proposed method can achieve better effects and significantly reduce measurement errors under different system and environmental noises and at different rotating speeds.

generalized multi-channel frequency-domain adaptive filtering；continuous HRTF measurement；adaptive filter；HRTF

TN713

0493-2137(2015)08-0675-06

10.11784/tdxbz201507025

2015-03-15；

2015-07-09.

西北工业大学基础研究基金资助项目(3102014JSJ0007).

付中华（1977— ），男，副教授.

付中华，mailfzh@nwpu.edu.cn.