同步视觉刺激对听觉滞后掩蔽的影响*

2010-03-14谢凌云

电视技术 2010年1期

凌聪，谢凌云

（中国传媒大学传播声学研究所，北京 100024）

1 引言

对于视听交互现象及其机理的研究，国外已有大量的心理声学研究和实验表明，视觉刺激对听觉感受是有影响的，例如在Kato M.和Kashino M.的实验中发现[1]，视觉空间信息不但可以帮助声音感知处理，而且可以提高人耳对声音空间分辨的敏感度。而听觉掩蔽效应作为人类听觉感知机理的一个重要效应，是现代音频压缩编码理论的技术基础，并广泛运用于电视技术、多媒体技术领域。目前国内外在视听交互领域具体到视觉刺激对于听觉掩蔽效应影响的研究还很少，一些有关视觉刺激下的听觉频域掩蔽实验[2-3]证明视觉刺激对于听觉频域掩蔽效应存在一定的影响。而听觉掩蔽效应包括听觉频域掩蔽与时域掩蔽[4]，笔者将从听觉的时域掩蔽效应入手，设计实验来观察视听同时呈现情况下的听觉滞后掩蔽效应与无视觉刺激下的听觉滞后掩蔽效应的变化情况。

2 实验设计

在时间上相邻的声音之间也有掩蔽现象，即掩蔽声与被掩蔽声不是同时发生，这种掩蔽现象称为时域掩蔽。时域掩蔽分为超前掩蔽（pre-masking）和滞后掩蔽（post-masking）[5]（一些文献中也称滞后掩蔽为前掩蔽）。滞后掩蔽效应的非线性特性[6]对设计掩蔽实验造成一定难度，因此，实验将固定掩蔽声声压级和掩蔽声与被掩蔽声之间的延迟时间，且基于本文实验方法的考虑，还需固定掩蔽声与被掩蔽声的时长。

2.1 实验信号设计

本文实验音频信号的选择具体如表1所示。

表1 时域掩蔽实验音频信号

其中，掩蔽声与被掩蔽声之间无延时，粉红噪声是自然界最常见的噪声，也是噪声掩蔽纯音实验中常用的掩蔽声；选取250 Hz，1 170 Hz，4 000 Hz这3种纯音作为代表观察低、中、高频纯音的滞后掩蔽效果。根据前人的经验[6]，200ms的噪声对于30ms的纯音，在无延迟时间的情况下，会出现明显的滞后掩蔽现象。

视觉刺激材料选取画面具有短时冲击感的一类视频，视频时长均为2 s，画面内容分别为完全黑暗、小爆炸、大爆炸。视频冲击感由小到大分为3个等级，如图1所示。

图1 视频信号截图

每组刺激信号都包括音频信号和视频信号，视频信号与音频信号同时发生。一个视频刺激的长度为2 s，掩蔽声为200ms，被掩蔽声为30ms，掩蔽声与被掩蔽声之间无延时。一组音视频刺激信号结束之后，有2 s的静音，然后继续进行下一组信号。音视频刺激时域构成示意图如图2所示。

图2 音视频刺激时域构成示意图

2.2 实验方法

实验中采用恒定刺激法[7]测量听觉滞后掩蔽阈值。恒定刺激法是心理物理学中最准确、应用最广的方法，可用于很多心理值的测定。实验中被掩蔽声声压级以2 dB为步长进行改变，共为5种不同声压级掩蔽声。为了使被试对于被掩蔽信号声压级最大值与最小值的判断符合恒定刺激实验的要求，首先通过两段音频信号随机选择结合三上一下适应调整程序的方法[6]，测得各个纯音在无视觉情况下滞后掩蔽的大概阈值，具体数据见表3。

表3 粗测各被试的滞后掩蔽大概阈值

由表3可知，不同被试的掩蔽阈值是不同的，因此根据粗测得到的各被试的大概阈值来设计被掩蔽声的5个恒定刺激值，并且通过微调，来确定最终用于实验的5个刺激值声压级，使被试对于被掩蔽声最大值与最小值的判断符合恒定刺激实验的要求。

实验开始时让每名被试判断在无掩蔽声存在的情况下，判断被掩蔽声的最大值和最小值是否都能听见，结果所有被试均能做出听见的判断，证明听觉闻阈在滞后掩蔽阈值之下。

总体实验设计采用“对照组—实验组”模式，均采用恒定刺激法测量50 dB时长200 ms的粉红噪声在无延迟下掩蔽30ms纯音的滞后掩蔽阈值。对照组为无视频刺激下听觉掩蔽实验，共两组，记为A1组和A2组。实验中不同声压级的被掩蔽声的恒定刺激次数为5，这样A1和A2组的刺激次数均为3×5×5=75，两组实验共计2×75=150；实验组为加入同步视频刺激下的听觉掩蔽实验，记为AV组，在AV组中，3种视觉刺激随机出现，且保证每种视觉刺激下的听觉信号数量相等（以便计算每种视频刺激下的听觉滞后掩蔽阈值），数据统计时，将完全黑暗视频刺激组记为AV1组，小爆炸视频刺激组记为AV2组，大爆炸视频刺激组记为AV3组，AV1，AV2，AV3组的刺激次数均为3×5×5=75，共计刺激225次。

实验顺序依次为：A1 组、A2 组、AV 组（包含 AV1，AV2，AV3 组），其中 A1，A2 组间隔 5min，A2，AV 组间隔 10min。实验有效性和稳定性的检测设计，是通过两个对照组A1和A2的重复实验对比来检验的。实验在中国传媒大学传播声学研究所内的消声室进行。实验中的7名被试均来自中国传媒大学传播声学研究所，男生3名，女生4名，年龄为22～25岁，有较好的心理声学实验经验。

3 实验结果与分析

实验中7名被试数据均通过信度检验。图3为有、无视觉刺激下测得的50 dB时长200 ms粉红噪声无延迟掩蔽30 ms纯音的滞后掩蔽平均阈值。

图3 测得的各组滞后掩蔽的平均阈值

由图3a可知，两次无视频下测得的平均阈值极为接近，各对应频率点的差别仅在0.1～0.8 dB；由图3b可知，有视觉刺激组AV1，AV2，AV3及AV组与无视觉刺激对照组A1组的平均阈值差别也不明显，各对应频率点的差别在 0～2.4 dB。

通过计算每名被试有无视觉刺激下的掩蔽阈值发现，被试之间在有视频刺激的情况下对听觉掩蔽实验的影响有个体差异性，为了体现这种差异性，将对照组A1中的21个数据作为参考（被掩蔽声共3个，7名被试，所以每组实验均得到了21个阈值数据），在相同的被试、相同的测试音点位置处，其他掩蔽实验组的数据与A1组相对应位置的数据求差并取绝对值，用这个绝对差值来表现其他掩蔽实验组相对于对照组A1阈值的绝对改变量。无视觉刺激下的A2组与加入视觉刺激后的AV组相对于A1组阈值的绝对改变量分布情况如图4所示。

图4 A2组和AV组相对于A1组的阈值改变量分布图比较

图4a中可以看到两次无视频情况下听觉掩蔽效应实验差别很小，7名被试在3个测试点上数据的改变量均在2 dB以下，被试在无视频刺激下，对各测试点掩蔽阈值的判断保持较好的稳定性。而在图4b中可以明显看出，当加入视觉刺激后，被试在相同的测试点的掩蔽阈值绝对改变量出现了较大的波动性（AV组阈值数据通过AV1，AV2，AV3这3组数据采用恒定刺激阈值计算方法计算得出）。这种阈值变化的波动性还可以从数据样本组的标准差的大小反映出来，经过计算，|A2-A1|（注：该表达式仅用来说明A2组数据与A1组数据间的关系，其他表达式与此类似）组数据样本的标准差为0.6，|AV-A1|组数据样本的标准差为1.7。在加入视觉刺激后，50 dB时长200ms粉红噪声在无延迟下掩蔽30ms纯音的滞后掩蔽阈值绝对改变量出现了明显的差异。

AV组中的完全黑暗、小爆炸、大爆炸视频刺激下对应的数据组AV1，AV2，AV3与A1组阈值绝对改变量分布情况如图5。

图5 不同视觉刺激 AV1，AV2，AV3组相对于A1组阈值的绝对变化情况

由图5可知，不同视频刺激的阈值改变量都有较大的波动性，且经过计算，|AV1-A1|数据样本的标准差为2.2，|AV2-A1|的标准差为 1.7，|AV3-A3|的标准差为2.1，3种不同视频对于阈值改变量的影响相互之间差别不大。

将7名被试各组阈值改变量数据进行平均，比较有视觉刺激下的AV组与无视觉刺激下的A2组相对于A1组阈值的平均绝对改变量，如图6。

图6 有无视觉刺激下的阈值绝对改变量比较

由图6可知，加入视觉刺激后，7名被试在3个频率上阈值改变量的平均值均大于对应频率上的无视觉刺激下的阈值改变量，AV组与对照组A1的差值最大为2.6dB，A2组与A1的差值最大为1.4 dB，视频组的差值要大于无视频组的差值。

图7为不同视频刺激下的7名被试阈值平均改变量与无视觉刺激的阈值改变量比较。

图7 不同视觉刺激下的阈值绝对改变量比较

由图7可知，3种不同画面冲击强度的视觉刺激（完全黑暗、小爆炸、大爆炸）对比无视觉刺激下的阈值改变量相差不大，它们在不同频率上的差别仅在0.1～1.1 dB。以上实验结果分析表明，在加入具有短时冲击感的同步视频之后，对于50 dB时长200ms的粉红噪声在无延迟下掩蔽30 ms纯音的滞后掩蔽阈值会产生影响，具体体现在被试个体阈值改变的波动性上。被试在有视觉刺激下阈值改变的波动性要明显高于无视觉刺激下的改变量。而本实验中使用的不同冲击感强度视频之间对于阈值影响的差别不大。

实验证明，听觉滞后掩蔽实验的被试个体阈值会受到视觉刺激的影响。这种影响不一定从平均阈值的统计值改变量上体现出来，因为被试阈值的波动方向不一致，导致平均阈值在统计时抹平了这种个体差异。在加入视觉刺激后滞后掩蔽阈值受到影响，这种现象符合心理学经典理论——注意力有限理论[8]。本实验中，不同冲击强度的爆炸视频对于阈值波动性的影响无显著性差异，特别是当呈现完全黑暗视频时，阈值的波动性大小与另外两类爆炸视频效果也无明显差异，阈值的波动性并没有在不同冲击强度等级视频刺激下呈现某种一致趋势。这种情况可以解释为，被试在接受不断随机播放的各类视频时，注意力已经做好了分配，因此即使此时播放的是完全黑暗视频，被试对于视觉通道的注意力分配也不会出现太大改变，仍然会对注意力在听觉通道的分配造成影响。

另外，滞后掩蔽可能与周边神经的适应有关[9]，当听神经对掩蔽声反应后，对紧随其后的信号的反应度将降低，并认为滞后掩蔽可能与中枢神经系统相关。当听觉系统的滞后掩蔽效应的作用机理主要由中枢神经系统控制时，同时进入中枢神经系统的视觉刺激信号就有了影响听觉信号的空间和可能。

4 小结

虽然实验中所使用的同步视觉刺激对于50 dB时长200 ms的粉红噪声在无延迟下掩蔽30 ms纯音的滞后掩蔽效应平均阈值的影响不明显，但被试在有视觉刺激下的阈值改变的波动性要明显高于无视觉刺激下的改变量。这个现象可以从注意力理论和滞后掩蔽听神经机理两个角度进行解释。本实验对于视觉刺激下的听觉滞后掩蔽实验只是针对固定掩蔽声与被掩蔽声时长、以及固定掩蔽声声压级和掩蔽声与被掩蔽声之间延迟时间来进行的。可进一步针对实验中固定量的改变深入考察视觉刺激对于听觉滞后掩蔽效应的影响情况。此外，视觉刺激对于被试阈值影响的差异性变化也是下一步研究的切入点。

[1]KATOM，KASHINOM.Audio-visuallink inauditoryspatialdiscrimination[J].Acoust.Sci.&Tech.，2001，22：382.

[2]潘杨，陈瑜，谢凌云.颜色喜好对纯音听觉掩蔽效应影响的实验[C]//2007年声频工程学术交流年会论文集.北京：中国电子学会/中国声学学会声频工程分会，2007.

[3]陈瑜，谢凌云.视觉提示对窄带噪声掩蔽影响的实验研究[C]//2009年度全国物理声学会议论文集.西安：中国声学学会物理声学分会，2009：135-136.

[4]谢志文，尹俊勋.音频掩蔽效应的研究及发展方向[J].电声技术，2002（12）：4-7.

[5]ZWICKER E，FASTL H.Psychoacoustics：facts and models[M].New York:Springer,1990：61-109.

[6]谢志文.心理声学掩蔽效应的研究[D].广州：华南理工大学，2005：73-84.

[7]孟子厚.音质主观评价的实验心理学方法[M].北京：国防工业出版社，2008：43-47.

[8]王甦，汪安圣.认知心理学.北京：北京大学出版社，1992.

[9]王坚，蒋涛，曾凡钢.听觉科学概论[M].北京：中国科学技术出版社，2005：394-395.