APP下载

3D声音,另一场视听革命

2018-08-12

厦门科技 2018年3期
关键词:双耳声源声波

数字化革命到来以后,本来只存在于科幻小说中的技术进入了日常生活,并且迅速普及开来。3D可视化,或者说呈现景深的视效技术也实现了。不过10年,首先是电影,紧接着电视和游戏都纷纷被3D可视化技术攻城略地。我们也见证了虚拟现实头盔的辉煌崛起。戴着这种头盔,佩戴着就沉浸在逼真的视觉场景中,而且还能在这个虚拟世界中四处走动。

这些技术在娱乐以外的应用,如电脑辅助设计、医疗诊断铺助、外科医生训练,还在研发之中,但毫无疑问这些系统的前景一片光明。

对我们的视觉系统来说,沉浸式的可视化头盔提供的视觉图像已经开始令人难辨真伪。但是,对于我们的听觉系统来说,相关技术还远不够理想。

为什么会这样呢?如同我们的双眼能够看见三维物体一样,我们的耳朵也在无意识地为我们持续提供着声音的空间信息,尤其是声源的位置和动作。

我们的认知系统难以忍受没有声音,或是声音和视觉相悖的情况,有时还会因此拒绝接受虚拟现实设备营造的视觉图像。这会让用户体验变差,甚至引发用户恶心、呕吐。所以,在设计虚拟现实头盔时,必须考虑用户的声音体验。

如果不了解声音空间定位的物理和生理机制,我们就无法营造出使人信服并令人沉醉的虚拟现实体验。人的双眼看到的事物略有不同,这件事比较容易理解。但是,在一个声学场景中,弄清楚人的双耳到底听到了什么信息却不是一件简单的事情。

在所有相关研究中,有一类研究采用数学模型,对声波从声源到耳道的传播过程进行计算机模拟。

模拟得到的结果,其准确程度可以与实验测量相媲美,并且有着更大的灵活性和可重复性,成本也更低。这些“数字实验”可用来比较不同的假说,证实或证伪相关的理论模型,还能为面向大众的应用提供实用的数据。

为了更好地理解立体声研究,以及数字模拟方法的意义,我们来了解一下市面上已出现的一些立体声装置。这些装置借助一组不同声道的扬声器来产生立体声,家底影院5.1或7.1声道的套装音箱,以及杜比全景声(Dolby Atmos)的64声道系统都在此列。这些装置通过不同场声器的音强差,或是通过延时或混响效果,让听众对虚拟声源进行定位。

“双耳信号合成”

近期出现的其他声音技术,如高阶环绕声(High Order Ambisonics,HOA)或波场合成(Wave Field Synthesis)也利用了相同的原理,只不过它们的数学表达形式更为复杂而已。

不过,所有这些系统都面对一个共同的限制:立体声的效果和扬声器的数量成正比。尽管工程技术人员在音箱微型化上已付出了诸多努力,但这些立体声系统还是太笨重了。另外,虽然这些装置完全适用于大型场地(影院、阶梯教室、剧院等),但它们和可以随身携带的虚拟现实头盔并不匹配。因此、必须研发针对耳机的立体声技术,即“双耳信号合成”技术。

双耳听力是指声波刺激双耳形成的声音感知,双耳信号合成就是为每只耳朵各自合成声音。

当声音在空间中传播时,由于两只耳朵与声源间的距离存在细微的差异,一般有一只耳朵接收到的信号更早、强度更大。双耳的差异为人的认知系统提供了确定声源方位的两个指标,分别叫做“双耳时间延时”(Interaural Time Difference,ITD)和“双耳声强差”(Interaural Level Difference,ILD)。

但是,当声源在人体的正中矢状面上,和双耳的距离相等,声音同时抵达两只耳朵,双耳接收到的声强也无差异,只有这两个指标并不能判断声源方位。不过,在这种情况下,我们还是可以有效地分辨声音来自于上方、下方、前方还是后方。大脑是怎么做到的呢?

要解释这一点,首先要认识到,所有的声音都可以看作是正弦声波叠加而成的复合波。复合波在介质中的传播,会受到传播路径上障碍物的几何特征的干扰,这就是声波的衍射。声波的衍射取决于波长(正弦波中两个连续波峰间的距离)∶如果跟波长相比,障碍物较小,那么声波的传播就不会受到太大影响,也就是说声波对这个障碍物不敏感。反过来,如果障碍物的大小与波长接近,甚至大于波长,那么声波的传播就会发生改变,声波的声学性质也会受到影响。如果障碍物的形状复杂多变(如人的外耳廓),那么声波受到的影响就更大了。

形状影响声音

当声音从声源传播到鼓膜时,听众的头和耳朵的形状会使复合波中波长小于1米的成分波发生衍射。在频率上,声波频谱中高于几百赫兹的部分将发生改变,即某些频率的波的振幅和相位会发生变化。

因此,在听众听到的声音中,某些成分波的强度和初始声音信号已经不相同了。从两个声源发出的两个声音信号不会遇到一模一样的障碍物,同时障碍物的几何特征也不会一模一样,因此它们会发生不同的变化,这就是我们聪明的大脑采用的第三个指标。这个指标武装了我们的感官,极大地提升了我们定位声源的能力。

图片来自网络

此外,两个有着不同外观形态(尤其是耳朵)的人听到的声音也不一样,尤其是在高频部分。可以说,每个人都生活在各自的声学世界里。

HRTF函数

双耳信号合成技术就是,利用ITD、ILD和上述频率变化携带的定位信息,人工合成立体声。这三个指标可以用 “头相关传输函数”(Head-Related Transfer Functions,HRTF)编码。

具体地说,就是在听众头部所在的空间里,基于每个声音的频率和入射角,HRTF函数将听众耳道开口处的声压和该处没有听众时的声压联系起来。HRTF函数就像是“滤波器”,将听众脑袋形态引起的声学变化通过数学方式表现出来。HRTF函数是双耳信号合成的基石,通过它,我们可以为听众的每只耳朵单独合成立体声,与真实的声音并无差异。

在进一步解释双耳信号合成之前,我们先简略地回顾一下它的前世今生。历史上第一个立体声实验,可追溯至19世纪克雷芒·阿德尔 (CIément Ader)发明的剧场电话(theatrophone,1881年)。剧场电话结合了电话和立体声技术是人类历史上首次对舞台表演进行实况转播。

在20世纪30年代,英国工程师艾伦·布莱姆林(Alan Blum lein)发明了立体声录音技术,而美国物理学家哈维·福莱柴尔(Harvey Fletcher)则发明了一项双耳电话系统的专利。

福莱柴尔的立体声电话系统的原理是,在一个人体头部模型的双耳耳廓里各埋设一个话筒,然后利用这两个话筒记录双耳听到的声音。这个方法较好地模拟了人体的形态学特征。声波受到人体模型形态的影响发生了衍射,变化后的声音被两个话筒记录下来。任何耳机都可以播放这种立体声录音,而且它的声音效果非常精彩。你可以在网上搜索Virtual Barber Shop收听。

要强调的是,福莱柴尔的装置营造的立体声效仅仅存在于知觉层面,它并没有重建声场(sound field)的物理学性质。在原理上,它和前文提到的用扬声器组产生环绕声不同。虽然从音色和立体声效而言,福莱柴尔的方法具有无与伦比的高保真度,但它要求必须提前录音,只能重现固定不变的情景。从这点上看,这一技术并不具有交互性,因此无法在虚拟现实场景中使用。在虚拟现实场景中,音响系统必须是动态的,能够对声源和用户的位置实时响应。

从2000年左右开始,随着计算机计算能力的飞跃,我们对声音的处理方式也发生了改变。不少机构,如法国音乐声学研究中心(IRCAM).法国电信、Bili项目(http∶//www.bili-project.org)、德国弗劳恩霍夫应用研究促进协会(Fraunhofer-Gesellschaft)、美国加利福尼亚大学戴维斯分校、奥菲斯计划(project O rpheus)相继研发出了第二种立体声技术,这就是双耳信号合成。

双耳信号合成技术的首要步骤,就是为某个听众(或形态相似的人体模型)定制HRTF滤波器。在操作时,需要让所众位于一个圆球的中心。圆球的直径大概有几米,在球体上分布着一些扬声器。听众(或模型)耳朵里的话筒,会记录下圆球上每个扬声器发出的声音。对这些录音整合之后,就可以推导出HRTF函数。

接下来,就要进行严格意义上的双耳信号合成了。想要让听众感到声音来自某个方向,只需要用这个方向上相应的HRTF滤波器对声音进行处理。对于数字声音,只需用HRTF函数进行计算,然后将输出的声音传递给听众的耳机可以了。

漫长的实验测量

通过这种方法,任何声音都可以变成立体声,只不过计算过程比较费劲。但是,这个计算量也不是大得离谱,一台标准电脑,基至一个手机就能进行处理。

另外,除了实时进行上述计算以外,双耳信号合成技术还能够同时考虑听众的位置、声源的位置和声音相对于听众的朝向。有了这些功能,双耳信号合成技术就能完美对接虚拟现实系统。

虽然双耳信号合成技术看起来很诱人,但它至今还没有走出实验室。原因是多方面的。首先,因为不能在听众所在的球体的每个点都安装一个扬声器,也就不可能测量出完整的HRTF滤波器数值。HRTF滤波器在本质上是离散的,局部的,不能覆盖所有的空间。因此,需要为HRTF滤波器插值(内插或外插),而这会影响最终的立体声效果。此外,由于测量声音所用的装置本身非常复杂,上述测量方法会产生很大的误差。

另外,测量一般是在受到严格控制的声学环境中进行,如四壁能够吸收声音的消音室。在这种环境中,只有声源的信号得到了测量,而环境本身则被忽略了。但是正因为声音在房间的墙壁和物体上来回反射,我们的大脑才能获得更多线索,提高我们的定位能力,从而实观更快、更准的定位。因此,环境也是需要考虑的因素之一。

图片来自网络

数字模拟

为了摆脱双耳信号模拟在实验测量方面的诸多限制,我们选择用数字技术模拟声音的传播。声音传播的物理性质可用数学公式表达,其中最著名的、也是最简洁的当属达朗贝尔方程(d'Alembert equation)和亥姆霍兹方程(Helmholtzequation,)。向头部传播的声波也可以进行数字建模。通过求解上述方程的数值解,就能得到合适的HRTF滤波器。用这种方法,我们就不再需要在实验室进行“模拟测量”了,“数字测量”就能帮助我们得到HRTF滤波器并直接应用。阻碍双耳信号合成的前两个限制,离散、非连续的实验室测量和测量误差也就迎刃而解了。

数字模拟的魅力还在于,它既不需要复杂的测量器材,也不需要性能强大的计算机。另外,我们根据用户的头部模型为他量身定制算法,得到的声效足够细腻,从而不需要对HRTF进行内插值。

双耳信号合成的第三个限制是混响(reverberation),即声波的反射。通过对声波在室内的传播进行建模和求解,这个问题也可以解决。根据选择的模型以及对声学场景的物理特征进行简化,我们甚至可以进行实时计算让听众听到的声音更具互动性。

求解声波方程

在实际作中,声波传播方程的解的精度决定了HRTF虑波器的精度。混响的计算可以稍微粗略一些,因为建模物体的几何特征不同:耳廓比较小,构造更为精巧,墙壁则更大、更粗旷。

为了得到精确、可靠的数值解,就必须先了解我们使用的建模方法和它的缺陷,这就需要对我们采用的数学模型(声波的传播),以及模型代表的物理现象 (如衍射和反射等)有深刻的理解。

一般来说,我们无法找到波传播公式的解析解 (严格的数学表达式)。 所以,我们需要用合适的方法求解数值解。具体的操作方法就是,用计算机运行软件,找到精确理论解的近似解。很多科学领域都采用这种方法,这正是应用数学的特色。

声波传播的数字模拟技术得到了大量研究,因为它有着广阔的应用前景,包括在建筑声学、军事隐形车设计、风电场对雷达的影响、噪声污染等领域的应用。另外,和声波或电磁波传播有关的研究课题多不胜数。数字模拟技术提供的有价值的信息,可以帮助研究人员省去难以实现或成本高昂的实验。

如何求解波的传播方程呢?波的传播方程实际上是一种偏微分方程,偏微分方程描述的是待求解的未知函数(包含多个自变量)及其偏导数的关系。

构造传播空间的网格

从1950年开始,一种叫做有限元分析的方法为求解偏微分方程的近似解提供了一套坚实的数学框架。

有限元分析的原理是,首先将空间分割成小块,也就是让区域离散化。这样一来,偏微分方程就被定义在一个有足够精度,并且和原研究区域形状近似的离散几何空间中。在这样的网格节点上,我们可以求解待求函数的近似解。然后,根据待求函数的近似解是一系列来自某个集合的简单连续函数的和这一假定,我们就能找到待求函数的近似解。同时,对于有限元分析方法,我们可以在数学上证明存在唯一的近似解。现在,有限元分析已经成为工业界基本的数字计算工具了。

举例来说,在我们用频域(frequency domain)描述声学问题时,假设某个正弦声波在空间中传播,而它的频率可以用亥姆霍兹方程描述。有限元分析要求先定义声传播空间的网格,这些网格就是声压近似解的计算基础。

由于待求的解具有振荡性,如果要追求一定的精度,那么网格棱边的边长应该位于λ/6和λ/12之间,这里的λ是波长。

这样一来,对于高频波(波长短)来说,网格顶点的数量就非常巨大了。如果用边长为0.5厘米的小立方体将一个大小为3米×4米×2.5米的房间划分成很多网格,那么,这些网格将包含约2.4亿个顶点,产生一个包含2.4亿个未知数的方程组!

好在有办法化繁为简。实际上,可以用一些数学方法将波的偏微分方程转化为积分方程,这样的话,只有待求的未知函数在传播区域边界的取值会影响方程。对于在开放介质中传播的声波而言,能够影响积分方程的,仅仅是未知函数在听众体表的取值。

有限曲面的计算

跟体积法相比,求解表面积分方程的数值解需要更加复杂的数学表达和计算。但是,这种方法的优点在于,只要求对接触声波的物体表面进行离散化,并不需要切割整个传播空间。

在上文提到的房间中。表面积分方程可以将未知数的数量从2.4亿个减少到几百万个。一般情況下,由于积分方程将一个无限空间问题转化为了有限曲面间题,因此它的数值解将比偏微分方程精确得多。

早在20世纪末,数学家对积分方程的数值解的探索就开始了。直到现在,它仍然是一个活跃的研究领域。我们在此罗列3种适用于波的传播问题的方程快速解法,目前产业界和学术界都在使用它们∶快速多极法(fas tmultipole method),1988年由耶鲁大学的莱斯利·格林加德 (Leslie Greengard)和弗拉基米尔·罗克林(Vladimir Rokhlin)发明;递阶矩阵法(hierarchical matrix method),1999年由德国莱比锡马普数学研究所的沃尔夫冈·哈克布施(Wolfgang Hackbusch)发明;最后一个方法是本文作者于2013年发明的,叫做稀疏基数正弦分解法(sparse cardinal sine decomposition)。所有这些方法都能显著减少波传播积分方程的计算时间和内存需求,使得在普通计算机上求解HRTF的数值解成为可能。不过,要计算出所有具有足够精度的HRTF滤波器,计算机得运行十几个小时。

HRTF函数的数值解让我们能够更好地理解,听众的形态特征(尤其是耳朵和头的形状)和他听到的声音之间的关系。利用数字模型,我们可以轻而易举地改变虚拟模特的耳朵和头部的形状,从而构造出一个包罗万象的形态数据库。接着,我们可以为每个虚拟听众定制一套HRTF滤波器组。这些数字计算不仅能够改善虚拟现实头盔的立体声效果,甚至还能改良助听器或视障人士的导航装置。

另一方面,在立体声研究中开发的数学工具具有普适性,可以应用到其他的波传播问题中去。HRTF的软件和算法也可以用来有效地模拟剧场内的声波、水下声纳发出的声波、隐形飞机想要躲避的雷达波(电磁波)的传播等。

立体声技术的应用前景十分光明。

(摘自《环球科技》2018年3月号总第147期)

猜你喜欢

双耳声源声波
虚拟声源定位的等效源近场声全息算法
轻叩双耳好处多
轻叩双耳好处多
哥窑青釉双耳彝炉
基于GCC-nearest时延估计的室内声源定位
爱的声波 将爱留在她身边
声波杀手
声波实验
轻叩双耳好处多
运用内积相关性结合迭代相减识别两点声源