听觉的声学现象和原理(1)

2018-03-23莫福源

听力学及言语疾病杂志 2018年2期

莫福源

1 序言

近一个世纪以来，科技迅猛发展，极大影响了人们的生活。语音和音频信号处理是声信号处理的一个重要分支，其最终结果要用人耳去听，因而，基于听觉的声学现象和原理被深入研究并广泛应用于日常生活中，其中最值得一提的是“人耳掩蔽效应”。人们现在能够以极低廉的价格进行全球通讯，也能以极小的体积和成本享受随身携带的高品质音乐，除了信号处理理论和技术的发展外，还精确地测量了人耳的掩蔽特性，将数字量化噪声尽可能被语音或音乐信号所掩蔽，使语音或音频信号的数码率压缩40倍甚至更多，而人们感觉不出语音或音乐信号有什么畸变。可见人类听觉器官是多么的精细和奇妙，它的听觉生理原理和心理现象完全可以为我们所用而造福人类。

听觉的生理和心理现象内容较广，包括人耳结构及声学特性，人耳对声信号分析和感知的机理，对语音感知和理解的一些有用的特点，如“掩蔽效应”、“声强度和听觉主观响度关系”、“双耳效应”、“听觉心理声学”等。语音信号处理和音频信号处理是两个专门学科分支，内容很多；人耳和人体的其他器官一样，是一个十分复杂而又精妙的器官，且有别于其他器官，因为人耳的听觉感知还涉及大脑对耳部接收信号的分析、理解等更为深层次的机理；这些研究工作因为需要人体实验，目前报道的研究结果很少。以下仅介绍听觉的声学现象和原理，由此得到的重要成果将作为例子叙述，即着重介绍听觉声学的物理概念和现象，舍去信号处理数学公式等十分复杂的理论和方法。

2 人耳结构及其声学特性

声信号从外耳经中耳传入，在内耳基底膜(basilar membrane)上进行频率分析；图1是人耳的纵剖面图。

2.1外耳外耳由耳廓和声道(外耳道)组成，耳廓是一个喇叭形的声音收集器，其功能随人类进化而逐步退化，人类的该功能较一些动物而言相对较弱。外耳道终端为鼓膜封闭，形成一个一端开口一端封闭的共鸣器，长约一英寸；它使3 000 Hz到4 000 Hz的信号因共鸣而放大二到四倍，传入的语音信号的能量在此频段已下降许多，在此因共鸣而得到提升，提高了语音的清晰度。

图1 人耳结构图

2.2中耳中耳的功能是放大声信号。在鼓膜和内耳前庭窗(也称卵形窗)之间有锤骨、砧骨和镫骨，三块骨头形成杠杆，将鼓膜上的位移放大1.5倍，即将声信号放大了1.5倍；此外鼓膜面积是前庭窗的25倍，根据声传输理论，声信号聚焦在前庭窗上，放大了25倍；这两个放大作用结合起来，使声压放大35倍，声能量放大达到1 000倍以上。因此人耳可在安静环境下，捕捉到极为微弱的声信号，有研究认为人耳可以感觉出鼓膜上分子级大小的位移信号，因此人耳能听到一根纤细绣花针掉到地上的声音就不足为奇了。中耳的肌肉和骨头联合起来，在有强声信号时，和镫骨相联的肌肉使镫骨离开卵圆窗，同时改变镫骨的振动方向，将纵向振动改变为横向振动，降低声传输效率，使传到内耳的声强减弱，起到保护内耳的作用；但对突如其来的强声信号，耳部来不及做好保护准备，就会使耳部受损伤。正常听力的人在最敏感的频段(1 000～6 000 Hz)，从能感知的最小声信号到不使耳疼痛的最大声信号能量比达到1012(120 dB)[1]。

2.3内耳内耳是颅骨内一个小而复杂的结构(图2)，其主要部分是一个盘成蜗牛壳状的腔体，称为耳蜗(cochlea)。耳蜗的生理机理较为复杂，其主要功能是对接收到的声信号进行频谱分析，在神经纤维上产生电脉冲，传入大脑产生听觉。

内耳简化后，可以看作一个卷起的膜片，称为基底膜。基底膜约长1.5厘米，靠近前庭窗处最宽，约0.5毫米，薄而绷紧；其最远端最窄，约0.04毫米，肥厚而松弛。基底膜上布满了神经纤维，称为毛细胞，一排内毛细胞，约3 500条，三排外毛细胞，共有约20 000条；当不同频率的声音经卵圆窗以行波形式传到基底膜上时，在基底膜的不同位置产生振动，最高频率(约20 000 Hz)在基底膜轻薄的顶端产生振动；最低频率(200 Hz)以下，在基底膜肥厚的远端产生振动；频率和基底膜位置的关系见图3；振动引起神经纤维(毛细胞)生成电脉冲，传入大脑而感知声音。实验证明，只有振动幅度达到一定程度才有电脉冲产生[2]。

图2 内耳结构图

图3 不同频率信号在基底膜上产生振动位置示意图

3 人耳主观感知和客观声信号之间基本关系

3.1人耳感知声强和声频率范围人耳的灵敏度是十分惊人的，实验证明，在3 000 Hz可听见1 pW/m2(10-12W/m2)，此时鼓膜位移小于10 pm(10-12m)，比氢分子直径还小10倍；鼓膜面积是厘米级，即在听域上能感知的最小声功率为10-16，是人讲话声功率的10-10倍，而在不损伤耳(未到达人耳的痛域)时，人耳能感知的声能量和最小感知声能量之比达1012；这是目前人造仪器难以达到的动态范围，因为动态范围如此大，只能用对数刻度来表示，用公式表示：

10*log(E/Emin)。

(1)

E表示声能量，Emin表示最小参考声能量，即听觉安静域值的声能量，其单位是分贝(dB)，E=Emin时为0 dB，E=1012Emin时为120 dB[1]。

人耳感知声音的频率范围是20～20 000 Hz，20 Hz以下为次声波，人耳听不到，次声波对研究地震信号和大气声信号的传播、接收有很大用处；20 000 Hz以上为超声，人耳也听不到。在可听的20～20 000 Hz的频率范围内，语音信号所要求的频宽不大，通常300～3 400 Hz就够了；但语音信号的第四和第五共振峰达4 000～5 000 Hz，如果保留这些共振峰对提高语音的清晰度有好处，也使语音听起来更豁亮。听音乐对频宽的要求很高，高保真的HiFi系统要求达到20 000 Hz，有些音乐发烧友，甚至能感知20 000 Hz以上的频率成分。

3.2响度

3.2.1等响曲线人耳对声强度的感知不是一个简单的线性比例关系，声强增加一倍，人耳感知的响度不会增加一倍。声强是一个物理量，完全可以用仪器测出来；响度是人主观感觉的心理量，两者之间的关系很复杂，不但和频率有关，而且因人而异。如何确定这两者的关系，科学家做了很多细致的测试实验，选择了大量听力正常、无耳疾的青年人(18～30岁)作为测试对象，用1 000 Hz纯音信号的响度作为基准，响度级的单位为phon(方)，40 dB强度时的响度级为40 phon，依次类推，从0 dB到120 dB；其他频率的响度级靠调节强度，使听者主观感觉和1 000 Hz时的响度一样；例如，1 000 Hz时40 phon的响度，在500 Hz时强度要提高4.2 dB，才感到和1 000 Hz的响度一样；在250 Hz时要提高8.6 dB，125 Hz时要提高提高16.1 dB，20 Hz时要提高50.5 dB……，这样对不同测听者测得的数值取平均值，得到了如图4所示的国际标准等响曲线[1]。

不同年龄段正常听力的听觉域会随年龄增大而改变，图5是听觉感知的安静(最小感知)域值变化图，可以看出主要是高频域值提高[3]。

3.2.2响度的数字标度响度级的方(phon)标度是心理学家渐强标度的一个例子，它只说明了一种相对的关系，如：响度60方的纯音比40方的纯音响，它们又都比10方的纯音响等等，但没表明究竟响多少倍。为此心理学家设计了一种数字标度，其单位是宋(song)，现在人为规定1 000 Hz强度级40 dB的纯音响度为一宋，然后让某个听音人交替听两个纯音，一个为一宋的纯音，调节另一个强度使它的响度为一宋的两倍，即两宋，如一宋的响度是它的两倍，则为0.5宋，依次类推，测出响度宋和响度级方的关系。通常人们会想象不同测听者得到的结果会有较大差别，但令人惊奇的是不同的听音人居然得出了稳定可靠的结果，于是就有了图6纯音响度(宋为单位)和它的响度级(以方为单位)的关系[1]。

图4 国际标准等响曲线

图5 不同年龄段听觉域值的变化

图6 响度和响度级实验曲线

3.2.3响度和信号波形的关系响度和能量不是正比关系的另一个有趣现象是同样能量的信号，甚至它们的频谱分量都一样，其中峰值因子高的听起来更响；例如：用计算机产生两个数字序列的周期信号，第一个序列为10，-10，10，-10，10，-10，10，-10，10，-10；第二个序列为0，0，0，0，31.6，0，0，0，0，0；两者能量完全相同，但后者要比前者响得多。也可以用一个周期信号经过一个全通(all-pass)滤波器，调节全通滤波器增益，使两者能量相同，前者峰值因子高，听起来响一些；后者响度低些，但刺耳的感觉有改善。在语音编码和合成中，常采用全通滤波器改善音质的策略[4]。

3.3音高和频率音高和频率也有类似响度和声强的关系，通常频率高的声音听起来音高要高些，反之音高会低些。然而音高是心理感知的主观量，它和频率的关系是很复杂的。纯音的音高和强度还有关系，特别在低频时，例如，打击一个150 Hz的音叉，并将其逐步靠近耳部，越接近耳部音高越低。复合音强度对音高的影响很微小，这对音乐家来说是好事，否则，他们弹一支响度很响的曲目，要用“D”调，轻弹此曲时必须改为“C”调，岂不麻烦[2]。

3.3.1音高的数字标度音高尽管是心理量，也应该测量和客观频率的关系。因为音高和强度有关，在强度不变的情况下，纯音频率越高，音高感觉也越高。有实验[2]用两个40方的纯音，一个音的频率固定，调节另一个音的频率，使听者感到音高为固定音音高的一半；实验用了10个固定音和5个听音人，这样“半个音高”的测量方法，比想象的要容易，5个人判断的结果高度一致，由此得到了音高和频率的关系图(图7)。

图7 纯音音高和频率关系

音高的单位为“美(mel)”，音高和频率是不成比例的，500美对应400 Hz，2 000美对应4 000 Hz…。

这样的测量有何实际意义？在语音信号处理和音频信号处理中，很多参数都不是在线性频率域或对数频率域提取和运算的。例如：在当前成熟语音识别方案中，不管用隐马尔科夫模型或人工神经网络作为识别的方法，它们的参数都是在mel刻度提取的，文献中最为大家公认的参数是“梅尔倒谱系数MFCC(mel frequency cepstrum coefficients)”。实验证明在这种刻度提取的参数比其他刻度提取的参数有更好的识别率，因而几乎所有的语音识别系统都采用MFCC参数，且已成共识[5]。

主观音高和频率的非线性关系在语音信号处理和音频信号处理中还有一种表示方法，称为Bark刻度，也称临界带刻度。从人耳基底膜分析声音的原理图(图3)可见，不同频率声音在基底膜的不同位置引起振动，如果用基底膜的位置来划分，可以将基底膜分为24份，编号0～23，分别对应不同的频率。每个Bark刻度大致对应100 Mel，从生理解剖分析可看到每个Bark刻度的基底膜包含了大致相等数目的毛细胞。临界带划分的原理和方法，将在“掩蔽效应”一节作较为详细介绍。

3.3.2复合音的音高复合音的音高十分复杂，涉及听觉机理、心理感知等复杂因素，是至今仍不能很好解释的难题。人说话的语音、乐器的曲调，甚至机器的轰鸣声都会让人耳感到有一定的音高。不同声音的音高有几个规律可寻：语音和音乐声的频谱较复杂，它们是由不同分量(一个分量可以看作一个纯音)组成，其音高由它的最低分量确定；一个由相近频率成分组成的窄带信号，音高接近其中心频率；当一个复合音由等差频率成分组成时，音高为其差值。例如一个由400、600、800和1 000 Hz纯音组成的复合音，音高为200 Hz纯音的音高，同理，由700、800、900和1 000 Hz纯音组成的复合音，音高是100 Hz纯音的音高；如果将这两个复合音混合起来，音高仍为100 Hz纯音的音高[1，2]。