声源定位研究的基石<br/>——声学基础和神经机制

声源定位研究的基石
——声学基础和神经机制

2022-11-22张娟

中国听力语言康复科学杂志 2022年2期

张娟

空间听觉（spatial hearing）是指听者能够在听觉环境中进行声源定位（sound localization）和听觉场景分析（auditory scene analysis，ASA）等，是人和动物感知外界环境的基本方法，它与听敏度构成了完整的听觉系统，对日常生活场景下躲避危险、寻找目标及噪声环境下的言语识别等具有重要意义。空间听觉涉及的主要内容之一是声源定位，后者是指听觉系统在一定程度上能够确定物体声像空间位置的心理现象，包括对声源水平方位、垂直方位的识别，对声源距离的识别，对运动声源的察觉和辨别，在复杂声环境下的听觉感知，以及对空间属性的感知等[1]。

21世纪以来，空间听觉尤其是声源定位研究越来越多地走上台前，所涉学科既包括医学、声学、信号处理、计算机技术等，也得益于人机交互、人工智能、神经网络和机器学习等新技术，其最大特点是多学科交叉，即信号处理、计算机技术、压缩感知、模式识别、神经网络、人工智能等专业相互交叉、相互渗透。以人机语音交互为例，只有借助于声源定位，在定位和追踪声源的基础上，通过神经网络和机器学习使人机建立联系，才能最终达到人机交互的目的。未来随着元宇宙（metaverse）的迅猛发展，在实现与现实世界映射及交互的虚拟世界中，基于数字孪生技术的声源定位技术将异军突起，渗透到生活中的点点滴滴，促进社会进步，提升人们的幸福感。

目前，声源定位技术主要应用于民用、商用和军用3大领域，包括医学、教育、移动通信、机器人、智能音响、车载系统、交通监控、军事等领域等。在医学领域，最为关注声源定位的是耳科学者、听力学者及听觉言语康复学者，其前沿热点问题是声源定位的声学机制、神经机制、临床测试方法、设备研发和临床应用。而掌握声源定位的声学机制和神经机制是开展声源定位各项研究的基础。

1 声源定位的声学机制

ASA是听觉系统根据声源位置进行听觉流（auditory stream）分离以及听觉融合[2]，前者将听感知觉集合分解成相对稳健的声学特征元素，后者进一步将其与模式场景的时空特性进行动态分类匹配。

空间听觉的研究始于对声源定位的探索，直至今日，声源定位仍然是空间听觉的主要研究内容之一。Lord Rayleigh的双工理论（the duplex theory）是解释声源定位线索的经典理论[3]，人类对低频信号的声源定位主要依赖耳间时间差（interaural time difference，ITD），高频主要依赖耳间强度差（interaural level difference，ILD）。耳间时间差又可以根据声源频率延伸出耳间相位差(interaural phase difference，IPD)，频谱线索（spectral cues，SC）则为前后辨别和垂直定位提供信息。

当声波遇到躯干、头颅和耳廓时，会在耳廓处发生折射、散射和衍射，产生滤波效应，该滤波可以用头相关传输函数(head related transfer function，HRTF)表示。在复杂的声环境下，不同声源发出的声波之间，以及直达声和反射声之间会在空气介质中相互叠加，形成新的复杂的混合声波，当其抵达鼓膜时，与之前不同原声源发出的原声波不相同。健听者能够从该混合声波中分离、听懂目标声源，这种神奇的效应就是“鸡尾酒会”现象，其原理是中枢听觉系统利用双耳效应、头影效应、较优耳效应等对双耳互相关的冗余信息进行听觉流分离[3，4]。格式塔理论认为[4]，当两个听觉流特征类似时，可发生双耳融合（binaural fusion）。当两个处于不同空间位置的相关声源延迟达到1～10 ms时，听者只能感知到一个位于领先声附近的融合声像，即优先效应（precedence effect），优先效应被认为是健听者能在嘈杂环境中精准定位声源的原因之一；当分离具有不同时频特征的听觉流时，听觉中枢通过对空间信息进行感知和分析，利用空间掩蔽释放（spatial release from masking，SRM）提高信噪比，从而提高复杂声环境下的言语识别能力。空间听觉损失者不能选择性注意特定听觉流，因此出现言语识别率下降，这是当前研究的重点和难点，也是笔者团队专注研究20年的体会。研究声源定位的声学机制，通过临床检测和干预，提高听障人群在复杂环境中的言语识别率，具有重要的临床意义。

2 声源定位的神经机制

对听觉声源定位的研究主要分为宏观和微观两个方面，微观研究主要通过电生理、分子生物学、转基因小鼠、信息逆向示踪病毒等技术手段进行动物实验，以期解释人类声源定位的产生机制。

2.1 声源定位的中枢听觉传导道路

中枢听觉系统能够整合和分析双耳空间线索，进而定位声源，主要依赖于从低位脑干核团、外侧丘系、下丘、内侧膝状体的逐级处理，最终通过“最大似然估计”模型，以听中枢中不同的神经元群体反应模式进行编码和解码[5]。双侧听神经发出的神经冲动通过耳蜗核（cochlear nucleus，CN）接替，将声信息中的时间、速率、部位编码信息投射到双侧特定核团。首先，上橄榄复合体（superior olivary complex，SOC）是听觉中枢中第一级接受和处理双耳信息的核团，包含上橄榄内侧核（medial superior olive，MSO）、上橄榄外侧核（lateral superior olive，LSO）、斜方体外侧核（lateral nucleus of the trapezoid body，LNTB）和斜方体内侧核（medial nucleus of the trapezoid body，MNTB）。从功能上看，MSO主要负责编码ITD，LSO主要负责编码ILD[6]，而LNTB和MNTB负责中继MSO和LSO的上行投射。人类主要通过Jeffress延迟线模型（Jeffress’ delay-line model）处理ITD信息[7]，即在对侧的上橄榄内侧核（medial superior olive,MSO）的重合探测器（coincidence detector）可对双侧神经冲动的时间延迟进行分析。然而，对于低频定位信号的感知可能更依赖于时间抑制（timed inhibition）机制[8]，MSO同时接受来自MNTB的抑制性投射，进一步增加了低频ITD调谐曲线范围。其次，外侧丘系核（nucleus of the lateral lemniscus，NLL）接受双侧CN、SOC及对侧NLL的投射，其显著的音频拓扑特征在复杂声环境下定位声源以及回声定位中发挥特殊作用[9，10]。下丘（inferior colliculus，IC）是重要的双耳信息整合中枢[11]，其多种反应特性的神经元将ITD、ILD和SC等信息在此结合。应用7T功能核磁进行的研究[12]显示，在IC水平也可能存在与“音频地图”类似的“空间地图”。

IC是一个在各物种间高度保守的中枢核团，根据高尔基染色显示的细胞形态，按照免疫荧光染色、细胞色素氧化酶显示的分子性质不同，可将下丘分为两个区域，分别为中间丘系下丘（lemniscal part）及两侧非丘系下丘（non-lemniscal part）。丘系和非丘系部分神经元形态显著不同，在信息处理中可能发挥不同功能，因此以丘系和非丘系为单位，分别对两个区域的解剖和功能进行探究是解开声源定位神经机制的途径之一。脑区的解剖研究和功能研究同等重要，只有明确一个脑区接收哪些输入，又将信息输出到了哪里，才能解释其在动物行为中是如何发挥作用的。动物实验中常用的麻醉剂戊巴比妥钠会影响神经元对滞后声的电位发放，继而证明优先效应中丘系下丘对滞后声的响应降低是由于GABA递质的释放[13]。以往对非丘系下丘的神经解剖环路研究采用传统示踪染料，如辣根过氧化物酶和荧光金等，染料示踪有明显局限性，有脑区选择性，不能进行特异神经元类型示踪，染料可能被穿行的纤维吸收，从而影响对脑区精准连接的解析等。

近年来，笔者团队对神经环路展开研究，用转基因小鼠结合信息逆向示踪病毒对非丘系下丘脑区进行上游环路示踪，尝试解析同一脑区不同神经元类型的精准连接，用改造的病毒工具对一个脑区的一级或多级上游进行探究，通过对两个脑区分别注射标记轴突末梢和稀疏标记病毒，并结合脑片透明化和共聚焦显微镜成像技术，希望能够明确不同脑区间的神经元如何进行连接。

2.2 声源定位与多模态整合

听觉系统并非独立存在，各感官之间相互协调，声源定位有视觉和体感神经机制参与其中。来自哺乳动物和人类空间听觉的神经生理学、神经影像学和计算模型的研究表明，声源位置的皮层表征可能来自初级听皮层与较高阶的听觉区域（如背外侧前额叶等）共同参与的动态自适应循环神经网络[14]，并且涉及与视觉、本体感觉等多模态整合（multimodal integration）[15～17]，这种皮层网络可适应不断变化的行为需求，尤其与处理真实生活场景的声源位置、复杂听觉场景识别等密切相关。

3 声源定位的临床问题及未来展望

在临床中笔者发现一部分植入人工耳蜗的患者，在嘈杂环境中的声源定位能力远低于健听人群，其原因不明，仍是临床辅听治疗的难题。

空间听觉依赖于声源定位，如果利用空间声学线索进行感知的能力下降，就会造成空间听觉损失（spatial hearing loss），导致儿童听处理障碍（auditory processing disorder，APD）[4]。空间听觉能力还会随着衰老逐渐下降，70岁以上人群大多伴有不同程度的空间听力损失，该损失可能独立于年龄相关性听力损失，并与痴呆患病风险有关[18]。即使患者配戴了双侧辅听装置，一旦处于复杂声环境中，其声源定位能力会急剧下降[19]。

研究声源定位对于人们生活和工作有着重要意义。随着社会的发展，人们对声源定位的需求必将越来越高，因此，对相关技术的研究是一项长久的事业。医学工作者，特别是耳科学者、听力学者和听力语言康复学从业者是这片沃土的辛勤耕耘者，理应踏准时代的脉络，为人类奉献智慧和成果。