APP下载

参量化Ambisonics解码技术浅析

2022-06-23徐子凡

现代电影技术 2022年6期
关键词:声源声场解码

徐子凡

(北京电影学院声音学院,北京 100088)

1 前言

上世纪七十年代,在对环绕声系统的研究浪潮中,Gerzon等人开发了利用球谐函数记录三维声场的Ambisonics技术,并设计了相关的录音、传输和还放设备,以期能够将Ambisonics应用到环绕声格式广播电视节目的制作中。但是,在5.1系统成为占据绝对主导地位的环绕声格式后,Ambisonics便淡出了商业市场的视野,在很长一段时间里只有少数从事理论研究的工程师对这一领域进行了研究,取得的进展也较为有限,直到虚拟现实 (Virtual Reality,VR)技术的发展与成熟打破了这种状况。VR 技术所提供的三维视觉空间吸引了许多电影、游戏等领域的艺术家利用这种全新的画面形式进行创作,而为电影银幕等“画框”设计的5.1环绕声系统不再能与灵活度空前巨大的VR 画面相匹配。于是创作者和工程师们再度将目光投向了Ambisonics技术,因为它最大的特点正是能够无差别地编码空间中所有方向上的声音,并且能够轻松对整个声场进行三维旋转而不使信号失真,这与VR画面的特点不谋而合。另外,Ambisonic信号的编码、中间运算和解码重放这三个过程在数学上互相独立,使得Ambisonics具有能够适应多种不同的工作流程、多种重放场地的潜能,这也契合了在使用VR 头显时通常需要佩戴耳机聆听声场的需求。

然而,Ambisonics系统的一个关键难点在于其音质极大地受制于编码阶数的高低,而提高编码阶数又使得需要的信号通道数量呈几何式增长。主观听觉测试表明,在低阶编码时,Ambisonic信号会有较为明显的染色、定位模糊、缺乏包围感等问题;当阶数超过三阶后,这些问题会得到较明显的改观,但是此时所需要的信号通道数也达到了至少16个通道。与此相比,杜比Atmos系统在消费领域采取的5.1 with JOC (Joint Object Coding)编码格式能够在少量增加传统5.1信号码率的基础上实现对声床以及16个对象的编码,这种带宽上的巨大劣势使Ambisonics纵然有许多优点但在应用与消费领域中前进的脚步依然倍受限制。在这样的背景下,参量化Ambisonics解码技术应运而生。传统的线性解码算法作用在将Ambisonic谐波信号转变为物理音箱上的信号或是耳机信号的过程中,这类解码器的设计根据是谐波信号的数学性质,而与被编码的具体声音信号的特性无关,因此不会改变已编码信号的特性;而参量化解码算法则建立在对空间音频信号特性的建模和分析上,在解码过程中利用Ambisonic谐波信号提取对应的特征参数,并尝试利用这些特征来一定程度上恢复在编码时丢失的空间细节,以达到超越编码阶数的解码效果。利用这种方式便可通过低阶编码传输信号,随后在解码端恢复一定的空间精度,以达到减少带宽需求的效果。与杜比Atmos系统类似,由于使用了一些信号处理技巧来大幅压缩原始信号所占据带宽,处理器并不能保证最终的效果与原始母带的一致性,创作者必须在对处理方式有足够了解的情况下才能正确地使用这些算法,因此在下文中将介绍这些算法的核心思想与实现原理。

2 Ambisonic信号与基本解码方法

式(1)中g=[g,g,g,...,g]为各个音箱的增益大小。这个过程实际上是将各个谐波信号按一定系数线性叠加来计算音箱信号,整个过程与信号具体内容无关,因此可以统称为线性解码。解码矩阵D的计算则有多种不同方式,并且在实践中通常会根据频率段不同使用不同的解码矩阵。有较大应用价值的几种算法有模式匹配解码 (Mode Matching Decoding,MMD)、能量保持解码(Energy Preserving Ambisonic Decoding,EPAD)以及全方向解码 (All-Round Ambisonic Decoding,AllRAD)。这些算法有各自的优缺点,根据不同场合和需求可以选择对应的解码算法。尽管求解解码矩阵需要一定的计算量,然而对于一个特定的重放设施,一旦解码矩阵计算完毕,就可以通过一个简单的线性运算来还原记录下来的声场。

线性解码虽然过程简单,但极大受限于信号阶数。在阶数较低(小于三阶)时,谐波信号的空间精度较差,此时回放的信号定位能力较差,且在信号为混响声场时难以复现原声场的空间感。这主要是由于在一个扩散声场中各个方向上传来的不相干的声音信号在低精度的空间编码分辨率下变得相关度(Correlation)较高,从而丧失了扩散声场应有的听觉特性。虽然将编码阶数提高能够大大改善这个问题,但是随之而来的是呈几何规律增长的声道数量,这在实际应用中是难以接受的。而下文将要介绍的参量化解码,正是为了在较低编码阶数的情况下以更高分辨率重建声场应有的特性而设计的。

3 Ambisonics的参量化解码

3.1 参量化声场模型(Parametrized Sound Field Model)

为了从编码的声场中重建高分辨率的扬声器(或双耳立体声)信号,解码过程就需要提取被编码声场的空间特性,进而利用这些特性进行后续声场重建。这就需要提前选择一些对于听者感知声场来说最为重要的特征作为被提取的参数。大部分的参量解码算法都对被编码声场做了如下的假设:声场中存在一个或多个主要声源,例如声场中的直达声以及具有较大能量的初次反射声;除了较为明确的主要声源外,剩余的能量则组成了扩散声场,这部分能量在各个方向上呈现高度不相关的特点。在这个假设下,解码算法会尝试识别出主要声源的波达方向(Direction of Arrival,Do A),并将这些声源从整个信号中分离出来,形成直达信号流 (Direct Stream)以及扩散信号流(Diffuse Stream)这两部分信号流。随后,在声场重建的过程中根据Do A 信息直接合成直达信号部分,而扩散声场部分则会通过一定的去相关(Decorrelation)处理后再被还原。

尽管大多数算法都是基于上述的基本假设,然而要准确地识别并分离直达声源和扩散声场并不是一个简单的工作,且这样的信号处理也极易在最终结果中引入可闻瑕疵。在早期的研究中,算法仅能从一阶Ambisonic信号中识别出一个主要声源,并假设剩下的扩散声场是各向同性的 (Isotropic)。这些算法仅能在声场较为简单的情况下才能比较好地还原原声场,并不能在更加复杂的场景中运用。随着数字技术的快速发展,在实际情景中传输并处理二阶甚至三阶信号成为可能,因此在后续研究中参量化解码通过将高于一阶的Ambisonic信号作为输入,实现了从信号中识别出多个声源以及一个各向异性的扩散声场的效果。下文将介绍两种高阶参量化解码算法。

3.2 高阶方向性音频编码 (High Order Directional Audio Coding,HO-Dir AC)

HO-Dir AC是在其一阶版本Dir AC的基础上改进的,这里首先介绍Dir AC 的工作原理。Dir AC使用一阶Ambisonic信号,即B-format信号来进行声场分析。在进行分析前,算法先将信号通过一组滤波器分成多个时间窗口和多个频段,例如64段或128段分频,使得每个频段的带宽近似于人耳能分辨的最小带宽。随后每个时间窗内的频段都将被单独分析。在B-format中,全指向的W 信号代表了原点上总体声压值,而通过X、Y 和Z信号可以计算出原点上质点振动速度向量u:

式(2)中c为声速,ρ为空气密度。通过总声压p以及振速u,可以计算出以下几个声场特征:

式(3)中R[]代表取实部操作,上标H 代表共轭转置,i为原点处有功声强向量,所指向的相反方向即为直达声源波达方向Do A,E 为原点处能量密度,ψ 为直达信号与扩散信号的比例。当ψ取1时,代表声场完全扩散,取0时则代表声场中只有一列平面波。这时,利用B-format信号合成一指向入射方向的“虚拟话筒”,并根据ψ 值提取虚拟话筒所拾取的直达声源信号,W 作为整体声压则被看为扩散声场信号。直达部分随后利用基于向量的幅值声像器 (Vector-Based Amplitude Panning,VBAP)直接在扬声器上进行还放,而扩散信号则经过解相关处理后在所有的扬声器上进行还原。

随后可以用类似一阶版本的方式对区域内的能量、声源波达方向以及扩散度进行计算。通过这样的区域分割,HO-Dir AC 实现了对多个直达声源的识别并一定程度上保留了扩散声场的在各个方向上的不均匀性。

在合成阶段,不同于一阶版本中使用的“虚拟麦克风”,HO-Dir AC 采用了一种较为复杂方式来更自然地合成声场。通过之前分析步骤中计算出的各个区域内特征参数u、E和ψ,可以构造出一个理想的最终扬声器信号之间的协方差矩阵 (Covariance Matrix)C,其定义为:

另外,算法的开发者考虑到如果被处理的Ambisonic信号是由实际麦克风阵列 (如Eigen Mike)捕捉再被编码而成的情况下,存在一个空间混叠极限频率,超过这个频率的声音信号的空间特性不再能被麦克风阵列正确捕捉。此时一个特殊的高频分析算法被用于计算声场特性参数,有关的内容本文限于篇幅不进行介绍,有兴趣的读者可以自行查阅原文献。

3.3 多方向参量化Ambisonic声场编码 (COding and Multidirectional Parameterization of Ambisonic Sound Scenes,COMPASS)

COMPASS算法在目标上与HO-Dir AC 类似,都可以从高阶Ambisonic信号中识别多个声源,然而它不再像HO-Dir AC那样对声场进行空间分割,而是基于近年来在信号处理领域非常重要的阵列信号处理、波束形成等理论设计的,因此比HO-Dir AC 具有更广泛的适应性。COMPASS算法也假设被编码的Ambisonic信号中包含了直达声源部分和一个各向异性的环境声部分,但是不同点在于环境声部分包括了没有明确方向性的环境背景声音、一些分散在各个方向上的具有不相干信号的杂散声源,以及晚期混响能量,而非一个简单的扩散声场。另外,COMPASS在时间窗与频率段之间也加入了可以调节的平滑处理,因此使用时可以根据信号特点做出一定的调整。下面对COMPASS的核心理念进行简单介绍。

在阵列信号处理中,信号的空间特征信息与阵列信号协方差矩阵的特征值分解 (Eigenvalue Decomposition)紧密相关,这被称为子空间理论(Subspace Principle),COMPASS就是根据这一理论来探测声源的方向以及能量。对于某一时间窗、某一频段的Ambisonic信号a(t,f),可以假设这是由直达声源部分a(t,f)以及环境声部分a(t,f)叠加而成的。若假设两部分信号之间完全不相关,则整体信号的协方差矩阵也是由两个部分各自的协方差矩阵叠加而成:

式(10)中E· []为统计期望值。对于有M个谐波信号的Ambisonics系统来说,对其协方差矩阵进行特征值分解后将得到M 个从大到小排列的特征值λ以及M 个特征向量v:

式(11)中,前K 个较大的特征值对应的是K个直达信号的子空间,而后M-K 个较小的特征值则对应了环境信号的子空间。对于直达声源数量K的判断,COMPASS使用了特征值二阶统计量方法(Second Order Statistic of Eigenvalues,SORTE),这一方法通过对相邻特征值的差值进行统计学分析来划分对应声源的特征值,从而避免了使用人为设定的阈值。下一步是确定直达声源的波达方向Do A,这里使用的是子空间理论中的经典方法,多声源分类算法(Multiple Signal Classification,MUSIC)。其大致原理是构造一个覆盖整个球面的密集的方向向量集=[γ,γ,...,γ]以及其在谐波域相应的采样Y=[y(γ),y(γ),...,y(γ)],以及由M-K 个最小特征值对应的特征向量构成的环境声子空间V。在该子空间内,每个方向上的能量为:

由于这是环境声子空间,因此取得K 个最小值的方向即为直达信号的入射方向。于是,只需构造出指向这K 个方向的波束即可从Ambisonic信号中提取出直达信号,再从原信号中去除这些信号 (或者说构造指向环境声的波束)就得到了环境声部分。最后在重建声场时,虽然可以通过直接将直达信号利用VBAP等方法送到对应的空间位置上,但是为了减少瑕疵的产生,通常采取将线性解码结果与直接VBAP的结果之差最小化的方法来实现更加平滑的重建效果。环境声部分则可以直接通过线性解码重建,或是在需要加强扩散听感的情况下,对线性解码后每路扬声器信号进行一定的去相关处理。上述过程便完成了从声源识别到声场重建的全过程。

4 参量化解码的应用场景

如文章开头所述,参量化解码算法的初衷是为了提升低阶编码的Ambisonic信号的回放质量以达到减少带宽需求的目的而设计的,但是这一功能必须建立在对整个Ambisonics系统的信号格式、编解码算法的统一上。由于Ambisonics本身是一种开放的音频技术,真正统一的标准尚未确立,因此在研究的过程中参量化解码的功能定位就逐步由原先的信号还放后处理算法转移到在制作过程中为Ambisonic信号提供更多处理的可能性上。目前,阿尔托大学 (Aalto University)的研究人员根据HODir AC算法和COMPASS 算法理论编写了相应的VST 插件,包括在一套完整的高阶Ambisonics处理插件包SPARTA (Spatial Audio Real-Time Applications)中,而这套插件中所提供给创作者的功能也超出了仅仅提高低阶信号空间分辨率的范畴。

4.1 一阶Ambisonic录音的参量化解码

在电影制作中,环境声素材的录制一直都是一个重要的环节,由于近年来沉浸声概念的快速发展,5.1等环绕声格式已经成为数字电影的基本要求,而许多商业电影都在向沉浸声格式上发展,这使得越来越多的录音师开始探索Ambisonic录音的可能性。尽管获取环绕声格式的声音素材有多种方式,但是这些录音方法需要的器材比较复杂,并且录音时就已经将听众的朝向固定下来,在使用时不免带来一定的局限性。而Ambisonics录音既能够捕捉完整的空间声场,又可以在后期方便地解码为立体声、5.1乃至7.1.4等电影常用的通道制式,这就极大地方便了素材的采集工作,尤其是对于制作时间紧张的项目或是个人工作者来说更是一种非常便捷的选择。而对于VR 电影来说,在需要真正沉浸式的声音素材时,Ambisonic录音就是唯一的选择。然而,受限于Ambisonics理论的复杂性,Ambisonic录音的获取,尤其是高阶Ambisonic录音的获取是十分复杂的,不仅需要诸如Eigen Mike等特殊的录音设备,在编码过程中也需要对一些参数进行调整才能获得可靠的结果。相反,一阶Ambisonics信号可以轻松地使用基于A-format格式设计的话筒获取,其体积较为便携,且可以提供相当良好的音质,因此目前运用最为广泛的就是一阶Ambisonic话筒。

然而,由于Ambisonics是强度差录音技术,一阶话筒受限于较低的空间分辨率无法提供AB 式或ORTF这样的录音技术所具有的宽阔听感,同时也难以直接融合到高阶Ambisonics制作流程中。此时就可以通过参量化解码算法将一阶录音经处理后再解码到目标声道格式上,或是在提升了空间精度后重新用高阶谐波对信号进行编码,从而获得更高质量的听感。同时,为了适应目前VR 视频制作等项目中普遍使用耳机进行双耳 (Binaural)回放的情形,本文介绍的两个算法都针对双耳立体声回放推出了专门优化的算法及插件,降低了处理延迟并增加了对头部运动的追踪功能。本文作者对双耳回放插件的效果进行了简单试听,材料包括使用Calrec Soundfield Mk IV麦克风录制的交响乐、室内乐等音乐以及使用Soundfield ST250 录制的一些环境、音效。结果发现在音乐材料的回放上,相比于直接进行双耳解码,通过参量化处理的录音的音色更加均衡,同时录制环境的混响也更加丰满,空间感有非常显著的提升。在声源定位上,虽然使用一阶信号作为输入时,理论上不能同时追踪多个声源,但在分频处理的帮助下,实际变化很明显,区别主要在于各个声源的分离感有较大增强,定位变得更加尖锐,当然这个变化是否等同于音质的提升则要看具体情况。在环境音的解码测试中,由于声场中缺乏明显占主导地位的声源,在完全参量化解码的情形下还是产生了处理的痕迹,推测这应该是由于过强的解相关处理造成的。通过调整解相关强度以及参量化解码和线性解码信号之间的比例,就可以将瑕疵减小到基本不可闻的水平。听感上的变化则没有音乐录音那么巨大,但是在烟花表演等空间感较强的场景中,还是能感受到周围回声带来的包围感有所增强。通过对声场能量的可视化可以看出,原本集中在某个方向上的能量被分散到了整个声场中,这也印证了包围感增强的听感。总体来说,参量化解码对一阶Ambisonics录音的空间质量提升是非常显著的。

4.2 参量化声源分离

将单声道或立体声录音中的声源分离,或是去除录音中包含的混响场是一件非常困难的工作,传统算法对混响的识别和抑制能力比较有限且当混响很强时容易产生处理瑕疵,近几年在音频领域兴起的神经网络类算法则需要很大的计算开销,因此还没有成为主流算法。而对于Ambisonic录音来说,由于录音中包含了声场的完整空间信息,对这种空间信息加以利用就可以实现对不同声音元素的辨别与分离。参量化解码正是在这种机制下工作的,因此稍作改动,就可以用于声源的分离重组这样的工作。例如,如果我们对录音中混响成分的比例不满意,那么在进行参量化解码时只需调整扩散信号流与直达信号流的比例,就可以更改混响量的大小,获得更干的录音,或是加大空间距离感。由于这种调整是建立在对整个空间信息的理解上实现的,产生的听感变化相较传统算法实现的去混响效果听起来更加自然。

对于声源分离的问题,神经网络算法目前更多是用在分离音乐中特定的乐器,并不能直接分离未知特征的声源,这就带来了比较大局限性。而由于COMPASS算法是建立在波束形成技术上的,因此具有利用波束分离各个声源的潜力。在SPARTA套件中Tracker插件就实现了对静态或者移动声源的实时跟踪,并将追踪到的声源从整体声场中分离出来的功能。而另一个插件Spat Edit则更进一步,允许用户在将声源分离出来之后分别对单声道的声源和剩余的Ambisonic环境声场分别进行任意的效果处理,随后再将两者利用COMPASS算法重新合并。这种分离空间元素的能力使得创作者在面对Ambisonic素材时拥有了巨大的处理空间,甚至可以利用Ambisonic录音完成一些传统录音技术无法做到的工作。例如在目前电影声音领域非常流行的声景 (Soundscape)采集工作中,Ambisonic录音已经有较多的应用,但是录制下来的素材是一个无法分割的整体,如果对其中个别元素的响度、动态等特性不满意,或是想要将录音中一个极具特点的声源单独作为一个素材,传统的处理方法是束手无策的。而通过COMPASS的分离声源算法,创作者就能将声场拆散,对感兴趣的元素进行分离、调整、再重组,充分利用Ambisonics技术的空间记录能力为创作需求服务。

5 总结

参量化Ambisonics解码算法起源于对降低信号传输带宽的需求,但是在Ambisonics格式尚未成为沉浸式音频解决方案标准的今天,对这项技术的应用侧重于为音频制作阶段提供更多灵活的选择。随着虚拟现实技术与增强现实技术的发展与成熟,参量化Ambisonics解码技术为Ambisonics音频格式在或将兴起的VR 电影中的应用提供了音质上的保证;而在当下仍占主流的传统电影电视制作领域,参量化Ambisonics解码技术所带来的高度灵活性也使得利用Ambisonics录音获取素材成为了一种具有独特优势的方式。参量化解码技术通过解决Ambisonics音频空间质量受编码阶数高低影响这个关键性问题,使得Ambisonics音频技术获得了更加广泛的应用价值。

猜你喜欢

声源声场解码
一种基于麦克风阵列用于分离单极子和偶极子声源的方法
解码 四十五度仰望天空
文化解码
文化 解码
文明 解码
室内声音导航系统
美国非裔团体缘何“声场”强大
某型高速导弹气动噪声研究
《夺宝奇兵》音乐音响技巧分析
什么是双耳效应