不同距离定位谱特征的研究
2021-05-17钟小丽赖焯威宋昊杨小飞
钟小丽 赖焯威 宋昊 杨小飞
(1.华南理工大学 物理与光电学院,广东 广州 510640;2.广东工业大学 管理学院,广东 广州 510520)
人类通过双耳感知外界声源的空间位置(包括方位角和距离),实现声源定位[1]。作为人类听觉系统的一项重要功能,声源定位有助于人类更好地适应外界环境,并做出适当的反应。声波从声源传输到双耳的物理过程中,生理结构(如头部、耳廓、躯干等)和声波的相互作用将导致声波频率特征的变化。这种变化称为定位谱特征[1- 2]。不同空间位置的声源对应不同的定位谱特征,因此定位谱特征是声源定位的主要线索之一,特别是对于仰角以及前后镜像方位[2]。另一方面,从信号与系统研究的角度,声波从声源到双耳的物理过程可以视为一个线性时不变系统,相应的系统函数通常称为头相关传输函数HRTF。HRTF的频谱特征就是定位谱特征。例如,现有研究经常将HRTF频谱中的第一个谷点称为定位特征谷[2- 3]。
目前,定位谱特征随声源方位角(包括水平角和仰角)变化的研究已比较成熟[4- 10]。大量研究表明,特征谷是由声波和耳廓相互作用而形成;特征谷的出现频率随着仰角的增大而逐渐向高频移动[4- 6]。Takemoto等[8]采用时域有限差分法计算了不同声源方向的HRTF,发现HRTF频谱中的峰谷结构(包括第1个峰和第1、2个谷)由耳廓形态决定。彭聪聪[9]采用主成分分析PCA研究了4个HRTF数据库(共计295名受试者)中垂面的定位谱特征,分析了定位谱特征的空间分布和个体差异。
相对而言,定位谱特征随声源距离变化的研究尚不多见。这和HRTF的距离特性有关。在双耳听觉以及HRTF的研究中,通常采用人头中心为坐标原点的球坐标系,定义声源到人头中心的几何距离为声源距离d。当距离d不小于1.0 m时,HRTF基本与距离无关,被称为远场HRTF;反之,当距离d小于1.0 m时,HRTF随距离变化明显,被称为近场HRTF。早期的研究和应用集中在远场,所以无需考虑距离的影响。然而,相对于远场,近场HRTF的测量和计算更为耗时和不易,因此定位谱特征随声源距离变化的研究长期缺乏数据的支持。在为数不多的研究中,Brungart等[11]经图像比对认为HRTF的峰谷特征几乎不随距离而变化;而Spagnol[12]采用客观参数计算发现 HRTF的特征谷随距离将发生一定的偏移。为全面、系统地研究定位谱特征随声源距离变化,本文采用谱偏离度和相关系数两种指标研究了4种不同声源距离下定位谱特征的水平变化规律,最后采用主观听音实验进行了验证。
1 原理与方法
文中重点研究定位谱特征整体上随距离的变化,因此采用谱偏离度和相关系数两种指标。谱偏离度SD定义为对数意义下两种HRTF谱差异的均方根,即:
(1)
式中,f表示频率,下标k表示频率点序号;H表示HRTF;θ表示水平方位角;下标r表示参考对象,下标c表示研究对象。由式(1)可知,SD越接近0 dB,说明不同距离下定位谱的偏离越小。
此外,常用相关系数R度量两个变量之间相关程度,即:
(2)
式中,Cov表示协方差运算,Var表示方差运算。由式(2)可知,相关系数R越接近1,说明不同距离下定位谱的相关度越高。
文中采用最新公布的近场水平面HRTF数据库[13]。该数据库包含4个声源距离(d=0.25、0.50、0.75、1.00 m)的HRTF数据。对于每个距离,HRTF保存为均匀间隔Δθ=1°,48 kHz采样频率,128点长度的HRIR(HRTF的时域形式)。为了提高频率分辨率,首先通过补零的方式将128点HRIR扩展为512点;然后,截取3~15 kHz的频段进行后续分析。相应的,式(1)中N=128。
利用式(1)或式(2)可逐个计算特定的参考方位HRTF和研究方位HRTF的关联。假设以(d=1.00 m,θr=0°)为特定的参考方位,依次计算它和研究距离d=0.25 m每个方位的关联;从中可以挑选出关联性最强的研究方位,作为该距离的最匹配角度θm。
图1是挑选算法的伪代码。由于文中分别采用谱偏离度SD和相关系数R挑选不同距离最匹配角度,因此图1中的函数为式(1)或式(2);计算为数据代入式(1)或式(2)进行运算的过程;对于基于谱偏离度SD的挑选,挑选原则是SD值最小,而基于相关系数R的挑选原则是R值最大。通过不同距离匹配角度的分析,可以了解HRTF定位谱随距离的空间变化轨迹。
图1 不同声源距离最匹配角度挑选过程的伪代码
2 计算结果
图2是不同距离的最匹配角度θm的计算结果。这里选取d=1.00 m为参考对象,如果同时将它作为研究对象的话,相应的最匹配角度在图中呈现为一条对角线,如图2所示。
由图2可知:
(1)无论是SD算法还是R算法,最匹配角度都随着声源距离的变化而偏离对角线。这表明,在近场区域HRTF定位谱特征的空间分布出现了畸变,即在头中心坐标系中,同一个方位角所对应的不同距离的HRTF定位谱存在差异。
(2)不同距离最匹配角度相对于对角线的偏离程度随着距离的减少而逐渐增大。例如,对于SD算法,(d=1.00 m,θr=10°)对应的不同距离的最匹配角度分别为:(d=0.75 m,θm=12°),(d=0.50 m,θm=15°),(d=0.25 m,θm=30°)。可见,随着声源距离变小,偏离程度由2°变为5°甚至20°。
(3)不同距离最匹配角度相对于对角线的偏离程度随着声源偏离侧向90°而逐渐增大,在前后方区域达到最大。例如,对于R算法,当d=0.50 m时,方位角0°、45°和90°的偏离程度分别为15°、7°和0°。
图2 不同声源距离的最匹配角度
上述随着距离和方位角的偏离在很大程度上归因于声学视差效应[14]。通常,HRTF采用头中坐标系定义,而其定位谱的物理根源是声波和耳的相互作用,可以理解为耳坐标系。从几何上看,这种坐标系的偏差在远场并不明显,但是在近场,特别是在近距离和前/后方位,表现异常明显,从而引起HRTF定位谱的空间畸变[15]。
谱偏离度SD和相关系数R分别从每个频率点的平均偏离以及谱线整体相关性的角度,评估HRTF定位谱特征在不同声源距离的空间分布变化,表现为不同声源距离的最匹配角度的变化。虽然在大部分情况下,上述两种方法得到的最匹配角度比较一致,但是在某些情况下,特别是在近距离处(d=0.25 m),R算法的最匹配角出现不规律性。然而,在双耳听觉定位的研究中,定位效果是最终的判定依据。因此,文中进一步采用主观定位实验研究谱偏离度SD算法和相关系数R算法挑选出的最匹配角度的主观感知效果。
3 定位实验
3.1 实验过程
以声源距离d=1.00 m的6个参考角度θr为目标方位;采用3个声源距离(d=0.25,0.50,0.75 m)时,对应上述6个参考角度值的最匹配角度θm作为测试方位,具体见表1。采用时长1 s的白噪声作为单通路信号,将其和最匹配角度对应的HRTF进行卷积,得到双耳虚拟声实验信号。共有7名受试者参与定位实验。他们都是大学在读学生,年龄介于20~25岁之间,具有正常听力。
表1 定位实验的目标方位和测试方位
1)为d,m。
图3是实验场景。实验采用森海塞尔HD380Pro专业耳机播放虚拟声实验信号;采用美国Polhemus Patriot位置跟踪器记录受试者的判断方位。每个受试者进行216次感知声像方位的判断,即2种最匹配角度×6个目标方位×3种距离×6次重复。
图3 定位实验场景图
3.2 定位结果
在基于耳机的虚拟声定位实验中,镜像方位的声像混淆是一种常见的定位错误,例如前方30°的参考角度被感知出现在后方150°的镜像方位。图4是定位实验混乱率的统计图,其中图4(a)是SD算法的结果,图4(b)是R算法的结果。
图4 定位实验的混乱率
预实验发现,正前方0°的前后混乱率非常高,且伴随一定的头中效应,因此正式实验中没有选取正前方0°,而是选取了其镜像方位180°;同时,由于在实验指导中已明确告知受试者没有正前方0°的信号,因此受试者在参考角度180°的前后混乱率为0。此外,考虑到人类听觉的侧向定位精度偏低,只有当感知声像方位和参考角度90°的绝对偏差大于30°时才认为发生了前后声像混淆,计入混乱率。
图4表明,前方区域的混乱率明显高于后方区域,即受试者更倾向于将前方参考角度错误地定位于后方镜像位置。这和现有文献的结果是一致的[16]。平均而言,R算法挑选出的最匹配角度的听觉前后混乱率为29.4%,略高于SD算法的26.9%。特别是在参考角度30°,R算法挑选出的距离d=0.25 m的最匹配角度的混乱率达到100%。
图5(a)、(b)、(c)分别是d=0.25,0.50,0.75 m的定位结果,包括感知声像角度和方差。在侧向附近(60°~150°),两种算法的感知声像角度和参考角度都比较接近,说明两种算法挑选的最匹配角度在听觉上都可以反映参考方位(即实验的目标方位,见3.1小节)。然而,在前后方向附近(30°和180°),两种算法的感知声像角度都明显偏离参考角度,且这种偏离程度随着距离的减少而增大。虽然两种算法的定位效果有着上述一致的变化趋势,但是相对参考角度而言,R算法的偏离程度略大于SD算法,见图5(a)(d=0.25 m,θr=30°)。
图5 感知声像角度和方差
对上述听觉定位结果进一步进行统计t检验(p=0.05)。结果显示,在d=0.25 m时,除了参考角度θr=30°和180°,两种算法最匹配角度的听觉定位效果没有显著差异;在d=0.50 m时,除了参考角度θr=180°,两种算法最匹配角度的听觉定位效果没有显著差异;在d=0.75 m时,对于全部的参考角度,两种算法最匹配角度的听觉定位效果没有统计差异。对图5(a)和(b)进行观察可以发现,两种算法在图5(a)的θr=30°和180°以及图5(b)的θr=180°具有明显的均值偏离,这和t检验的结果是一致的。
4 结语
HRTF定位谱特征是声源定位的一个主要线索。本文采用谱偏离算法和相关算法,研究了不同声源距离情况下定位谱特征的空间分布。结果发现:
(1)不同声源距离情况下定位谱特征出现空间畸变,表征为同一水平方向的不同距离HRTF定位谱的关联性并非最强;
(2)客观计算和主观实验都发现,定位谱特征的空间畸变随着声源距离的减小和声源偏离侧向方位而逐渐增大;
(3)采用谱偏离算法和相关算法得到的结果基本一致;然而相关算法的定位混乱率以及对参考角度的偏离程度都略大于谱偏离算法。
本工作有助于深入理解不同距离下的双耳定位机制;同时,不同距离情况下最匹配角度的两种挑选算法(谱偏离算法和相关算法)的比较,为不同距离HRTF的互推提供了算法建议。