VR音频技术在沉浸式广播节目制作中的应用
2018-03-26秦梓元
秦梓元
【摘 要】 通过采用Ambisonics及双耳录音等VR音频技术对沉浸式音频节目的制作进行尝试,使听众能够在传统的立体声耳机上聆听虚拟的三维环绕声节目,从而助力传统广播媒体探寻技术创新之路。
【关键词】 VR音频;虚拟三维音频;双耳录音技术;Ambisonics技术
文章编号: 10.3969/j.issn.1674-8239.2018.02.005
【Abstract】The author tries to make an immersive audio program production by using VR audio technology such as Ambisonics and binaural recording, so that listeners can listen to the virtual 3D surround sound program on the traditional stereophonic headphones, thereby helping the traditional broadcasting media to explore the way of technological innovation.
【Key Words】VR audio; virtual three-dimensional audio; binaural recording technology; ambisonics technology
目前,VR(虚拟现实)技术已经成为行业内无人不知无人不晓的热词。自2014年3月美国Facebook公司以20亿美元收购VR头戴设备生产商Oculus,并于2016年初发布了首款面向大众的商用VR头戴式眼镜Oculus Rift以来,Google、Samsung、Sony、HTC等行业巨头先后加入对这一市场的争夺,并发布了多款VR头显设备。因此,2016年也被称为VR产业元年。
VR技术重在打造一种虚拟的沉浸式感官体验,通过佩戴VR头显设备,用户能够自由地晃动头部,且头显设备中的画面也能够伴随头部的晃动实时地变换视角,从而使用户看到360°的虚拟全景画面。在当前技术条件下,该技术能够提供较为逼真的视觉沉浸感。
伴随着VR视频技术的发展,VR音频制作也需要相应地采用三维环绕声格式。与当前电影行业广泛采用的杜比全景声技术相类似,VR音频也是在水平面声场的基础上加入了高度信息,它是通过与视频一样的头部追踪技术,使用户在做转动头部等动作时能够听到声音变化的实时反馈,从而使其最大限度地还原用户在现实生活中的听觉体验。因此,耳机还放也成为VR声音还放的基本模式。
对于广播领域来说,当下听众采用移动设备和耳机收听广播节目已成为一种较为主流的收听方式。在此契机下,如何运用VR音频技术及相应的制作方式,为听众创造沉浸式的声音体验便成为广播工作者的一项重要课题。笔者作为一名广播电台的录音师,希望通过VR音频技术使听众能够在传统立体声耳机上聆听虚拟的三维环绕声节目,感受沉浸式声音的魅力。
1 VR音频技术的相关概念
1.1 双耳录音技术(Binaural Recording)
双耳录音,通常也叫做人工头录音,是一种与常规立体声录音不同的录音方式。与物体本身发出的声音相比,人们真正感知的声音受到很多因素的影响,如头部、耳廓和耳道等身体结构就是一个很重要的影响因素,也是辨别声源方向的生理基础。人工头录音技术模拟人耳听觉的外部模型,在人工头模型的仿真耳道外部入口处或耳道内部末端放置传声器音头,以这样的方式录制得到模拟左/右耳听到的声音,并最终通过耳机重放获得与人耳听觉类似的拾音效果。
当然,双耳录音技术在拾取较为自然的人耳听觉感受外,也存在一定的局限,这种方式录制下来的声音是“固定”的,即只记录了当时特定地点、特定方向的声音信号,无法满足VR内容中根据用户头部运动而产生声音变化实时反馈的需求。然而,这对于当前广播沉浸式音频节目的录制是一种简便易行的方式,因为广播作为一种纯声音的媒体,现在几乎没有听众会在耳机收听节目的同时佩戴专门的头显或头部定位设备。在实际的节目制作过程中,笔者认为这种沉浸式节目制作方式最大的问题,体现在声音高度信息定位不明,听音者很难分辨出声音来自于听音者头部上方还是下方。
1.2 头部相关传输函数(HRTF,Head Related Transfer Functions)
人们对声音方位感的判断主要来自于四个因素:时间差、声级差、人体滤波效应和头部晃动。HRTF是声源到达鼓膜的传输路径所产生的频率响应的集合,是综合了时间差、声级差和人体滤波效应等因素的声源定位模型。它可以简单地理解为“原始声音与人耳实际接收到的声音之间的差异”,而在实际运用中,HRTF 可以想象成是一个滤波器,对原始声音进行频段上的调整,使其接近人耳接收到的听感效果。
用双声道立体声耳机来获得三维环绕声效果的基本原理,是将制作完成的三维音频进行HRTF编码,将其转换成携带有HRTF的双声道虚拟环绕声信号,并通过耳机听音恢复原始的三维声音空间信息,获得三维沉浸式环绕声效果。
1.3 Ambisonics技術(FOA、HOA、A-Format、B-Format、AmbiX、FuMa)
Ambisonics技术是一种球形(Full-Sphere)的三维环绕声技术,研发于20世纪70年代。从录音方式来看,该技术可以理解为是 M/S 立体声录音制式的三维扩展,采用以一定方式组合的多个传声器音头阵列来记录具有高度和深度信息的多轨声音信号,并最终通过若干个声道的信息运算去形成一个三维的全景声场。这项技术运用最为广泛及成熟的是使用四个声道的一阶Ambisonics(First Order Ambisonic,FOA)。
一阶Ambisonics传声器包含4个心形指向的传声器音头,分别指向左前(LF)、左后(LB)、右前(RF)、右后(RB),所拾取的原始信号叫做A-Format,通过4个声道的叠加或反相叠加,可以得到B-Format(见图1)。B-Format格式包含4个通道的信息,即全方向的W信号、前后深度的X信号、左右宽度的Y信号和上下高度的Z信号,从而可形成一个包括水平面和垂直面三维信息的完整三维声场。
同时,由于一阶Ambisonics技术的缺点是空间解析度不够好,为此也出现了更高阶的版本(Higher Order Ambisonics,HOA),可以使用更多通道的声音信息来计算声场。通道数和阶数的关系用公式(1)来描述。
通道数=(阶数+1) (1)
因此,二阶Ambisonics包含9个通道,三阶Ambisonics包含16个通道,四阶Ambisonics包含25个通道等,依次递增,这会使系统输出的数据量显著增加,运算的复杂程度也大为提高。
此外,B-Format格式有两种标准,分别为AmbiX和FuMa(Furse Malham),以一阶Ambisonics为例,两者在四轨音频通道的排列及参数方面存在差异,AmbiX的排布为WYZX,而FuMa的排布为WXYZ,不同的设备或平台可能会采用不同的格式,因此,在制作和导出Ambisonics音频文件时需要针对不同设备或平台做出相应的调整。
Ambisonics 技术目前在VR领域直接能够作为一种音频文件格式用于音频保存和流通,并且有些平台已支持超过一阶的Ambisonics文件,例如:Youtube支持一阶AmbiX B-Format音频,Facebook 360°支持二阶AmbiX B-Format音频等。与双耳录音技术相比,Ambisonics 技术在三维空间的表现以及声音元素的定位方面有着明显的优势,尤其由于高度信号的拾取使其在高度定位上也有了更好的分辨度。
2 VR音频制作的软硬件工具
2.1 双耳人工头传声器
有关双耳录音的研究早在20世纪60/70年代就已开始,Neumann 公司在当时也推出过成熟的人工头录音产品(如 Neumann KU 80/81)。目前,市场上的主流产品包括Neumann KU-100(见图2)、3Dio Free Space(见图3)等。
2.2 Ambisonics传声器
目前市场上比较成熟的Ambisonics传声器有:Sennheiser的Ambeo VR Mic(见图4)、TSL SoundField ST450 MKii,以及可支持高达四阶录音的MH Acoustics EigenMike em32传声器等。
2.3 声像定位、格式转换、双耳渲染监听插件
随着VR产业的发展,越来越多的插件开发商投入到VR音频插件的研发队伍中来,笔者在此无法一一列举,仅选择几款笔者常用的插件进行简要介绍。
2.3.1 声像定位插件
(1)Wave Arts Panorama
Wave Arts Panorama(见图5)能够便于用户使用普通的立体声文件来制作逼真的三维音频场景,用户可在三维空间中移动声音左右、上下、前后、以及远近的位置,并将HRTF技术与声学环境建模相结合,为音频增加墙壁反射、混响、距离以及多普勒效果。其优点是包括一个串音消除器模块,可以将输出的音频转换成可在传统立体声扬声器播放的声音;缺点是仅能输出立体声格式音频(双耳渲染监听)。
(2)Plugin Alliance dearVR Pro
dearVR Pro(见图6)在功能上与Panorama有些类似,其优点在于声学空间的塑造,在混响模块中加入了45种虚拟声学环境预置,并且能够实时地在反射声模块中建立一个声场空间模型。此外,输出格式也能够选择Binaural(双耳渲染)、一阶至三阶AmbiX、一阶至三阶FuMa以及正常的立体声等多种格式,从而满足完整的VR音频制作需求。缺点是在声像定位方面仅支持单声道和立体声音频。
(3)Noise Makers Binaural
Noise Makers Binaural(见图7)是一款双耳音频声像定位插件,它能够调整单声道、立体声,以及5.1和7.1环绕声音频的声像并最终转换为双耳音频输出。
(4)Noise Makers Ambi Pan HD
Noise Makers Ambi Pan HD(见图8)是一款在三维声场中调整单声道、立体声,以及5.1和7.1环绕声音频声像的插件,支持最高为三阶Ambisonics的AmbiX B-Format格式输出。缺点是声像的设置和调整选项较少。
(5)Waves B360 Ambisonics Encoder
Waves B360 Ambisonics Encoder(见图9)在操作上与Ambi Pan HD类似,但是B360能够根据声源的声道格式灵活地调整各声道间的声道关系(如5.1声道中能够调整左前/右前立体聲声场的宽度以及左后/右后立体声声场的宽度,7.1声道以此类推);缺点是仅支持一阶Ambisonics格式输出。
2.3.2 格式转换插件
(1)Sennheiser Ambeo A-B
Sennheiser Ambeo A-B(见图10)是专为Sennheiser的Ambeo VR Mic传声器提供的,Ambeo VR Mic能够输出A-Format格式的声音信号,通过Ambeo A-B插件将原始的来自传声器四个传声器头的信号转换为Ambisonics的B-Format声音信号。
(2)Waves FuMa及AmbiX转换插件
Waves FuMa及AmbiX转换插件(见图11)能够实现B-Format两种标准之间的相互转换。
2.3.3 双耳渲染监听插件
(1)Noise Makers Ambi Head HD
Noise Makers Ambi Head HD(见图12)可支持将最高为三阶的Ambisonics AmbiX B-Format音频渲染为双耳立体声音频进行监听,内置有专为耳机声音精准还放设计的HRTF滤波器。
(2)Waves Nx-Virtual Mix Room
Waves Nx-Virtual Mix Room(见图13)除了具备采用立体声耳机监听Ambisonics音频的能力外,还能够直接监听7.1、5.1及5.0环绕声音频。此外,在配套使用Waves出品的Nx Head Tracker头部定位追踪设备后,还能够实现完整的VR音频监听功能。
3 沉浸式广播节目制作流程
笔者在尝试制作三维沉浸式广播节目时,总结了一套常规的流程,包括前期录音(双耳人工头、Ambisonics)、素材格式转换、后期声音处理(EQ、压缩)、空间塑造以及音频导出等环节(见图14)。
3.1 前期录音
在广播节目制作中,为了满足听众通过耳机还音获得良好沉浸感的需求,通常采用两种录音方式来直接记录现场三维声场空间信息:一种是采用双耳录音技术的人工头或类人工头录音,另一种是采用声场合成技术的Ambisonics传声器录音。两种录音方式拾取的声音主要用来塑造一个完整的声场,类似于主辅拾音制式中的主传声器,或者是杜比全景声中声床的概念。这里需要注意的是,双耳音频制作存在着以下几个方面的问题:
(1)录音方式十分有限。录制只能使用人工头传声器,或者在人的外耳道口放置微型全指向传声器去录音。
(2)后期制作手段也受到极大限制。通常使用的诸多效果器(如EQ)会对录音中的原始HRTF信息造成破坏,影响三维空间定位,因此无法应用。
3.2 声像定位
由于人工头录音加双耳声像定位插件的制作流程相对简单,因此下面笔者主要谈Ambisonics的制作流程。
对于现有的单声道、立体声、5.1/7.1环绕声等格式声音素材,需要在工作站中使用插件将其转换为Ambisonics B-Format格式。这里笔者主要使用的是Plugin Alliance dearVR Pro(单声道、立体声)和Waves B360 Ambisonics Encoder插件(环绕声),这使得现有的声音素材可作为主辅拾音制式中的点声源(辅助传声器)信号,或者是杜比全景声中的对象来使用,通过三维声像插件在整个球形声场中灵活地调整其声像位置(当然也能够用来塑造声场,与传声器拾取的声场结合使用或独立使用)。需要注意的是,B360插件默认的最终编码B-Format格式为WYZX即AmbiX标准,因此需要将Ambisonics传声器拾取的聲场信号及Plugin Alliance dearVR Pro转换的信号标准统一为一阶AmbiX。
随着VR产业崛起,技术手段的不断进步,传统双耳音频中存在的种种弊端在Ambisonics中得到解决,在后期制作时能够在一个普通的音频文件中加入HRTF信息,使其获得三维的空间定位。因此,在引入HRTF信息之前,可对音频文件进行EQ、压缩等处理,进而通过Ambisonics编码器插件将其转换为B-Format格式,这里需要说明,Ambisonics声像定位及编码器插件需要插入在EQ和压缩等效果器之后,在Waves B360 Ambisonics Encoder的用户手册中专门强调称该插件要插入在整个处理链路的最后一环。
3.3 三维空间感的处理
声音的空间感体现出声音与空间的关系,在沉浸式广播节目中,这种关系需要进一步强化并力求精确。所谓空间感,来自声音到达人耳的直达声和声音经过周围环境里各个障碍物反射后到达人耳的反射声的组合。在现实空间里,反射声的来源十分复杂,空间结构、材料构成、界面形状等都对反射声有影响。在同一个空间内,随着声源或听音者位置的改变,直达声与反射声的组合也在发生变化,从而让人耳对声源所处空间以及听音者与声源的位置关系有直观的认识。在三维广播节目中,声音的空间感要和制作者所塑造的场景空间特征相匹配,包括各个障碍物所带来的反射细节,人物所处位置变化带来的反射声变化等。只有当这些细节和听众的生活经验相符,才能获得最佳的沉浸感。
Ambisonics技术通常采用的空间处理方式是房间仿真,利用点声源激励预先设定好的房间模型的空间响应,来模拟出声音在房间里的空间感,获得三维空间效果。但是这类房间仿真软件对空间的设定往往较为简化,主要基于长、宽、高的房间尺寸和房间活跃度模型,离复杂的三维现实空间还存在一定距离。但其优势在于可以根据声源的位置变化来激励空间响应,获得与位置相关的空间效果,从而加强了真实感,如Wigware的Ambisonics Reverb混响插件。
总之,沉浸式广播节目的空间感建立在三维空间的基础上,置身于声场中的听众需要感受到来自四面八方的反射声,包括来自水平维度和垂直维度的反射声,才能获得身处其中的幻觉。
3.4 实时监听和音频导出
在制作三维音频时,耳机作为还放工具通常也是监听工具,为了在双声道立体声耳机中实现沉浸式的声音感受,便需要进行实时双耳渲染处理,这类插件能够把Ambisonics格式的音频转换为双耳音频进行还音,笔者使用的是Waves Nx Virtual Mix Room插件中的Nx Ambisonics模块。
4 制作经验分享
(1)在尝试制作三维沉浸式广播节目时,笔者考虑了两种方案,一种是建立在固定HRTF基础上,以双耳音频为最终成品的方案,目前头部追踪设备并未得到广泛的推广,听众基本上还是单纯通过耳机获取声音位置相对固定的沉浸式音频。由于双耳录音传声器拾音对于高度的拾取往往无法实现理想的效果,因此,笔者采用Ambisonics拾音加上将现有素材转换为Ambisonics B-Format格式后,再渲染为双耳音频以得到高度定位更加明确的声音。在目前的实际条件下,这种方案应该是笔者进行沉浸式广播节目音频制作的首选方案。第二种方案则是面向未来听众可以通过佩戴头部定位追踪设备及耳机来获取全方位的听觉体验,在收听终端设备上实时解码Ambisonics音频,并配合头部定位信息在声场中自由摆动头部,从而感受声音随着头部摆动而产生的变化。该方案通过将声音编码为Ambisonics格式,并在用户收听终端进行解码,因此除了在制作时可根据需要进行耳机双耳音频监听,导出成品文件时无需再进行双耳渲染处理。
(2)在使用三维声像插件之前的效果处理,实际上都是在处理声源的原始声音而不是最终听到的声音,只有当这个声音从声像插件输出后,才算是成为了最后听到的声音。三维声像插件实际上是一个滤波器,对声音频率均衡方面的影响较大,且这种影响还会随方位而变化,所以,建议做所有调整的时候都去监听三维声像插件之后的信号。
(3)可以分开考虑早期反射声和混响。对于声音的三维空间感这个属性,最重要的是来自早期反射声的作用。使用上述的房间模型来获得三维早期反射声效果,但是混响是没有方向性的,因此,可以将房间模型与传统的混响效果器配合使用,这样便可以使用任意类型的混响效果器了。但需要注意的是,在混响效果器中必须把早期反射声设置模块关闭,而且需要给混响加上一定量的预延时。
(4)由于采用立体声耳机虚拟环绕声声场的方式,声音元素在环绕声场中的定位无法像采用扬声器所塑造的环绕声场那样稳定,因此,固定位置的声音元素在人耳定位时无法做到特别明确,只有当元素处于运动中时,通过感受声音之间的相互关系可以较为理想地确定声音的位置。因此,需要实现对一个声音元素的明确定位时,可以尝试采用自动化功能使其在声场中运动起来。
5 技术发展趋势
5.1 Pro Tools HD加入Ambisonics支持
在最近刚刚发布的Pro Tools HD 12.8.2版本软件中,直接内置了Facebook的Spatial Workstation插件,可以直接对VR音频进行编辑、处理和编码。
Pro Tools HD 12.8.2直接加入了一个新的音轨种类:Ambisonics,可以选择一阶Ambisonics、二阶Ambisonics和三阶Ambisonics三种。然后利用内置的Facebook的Spatial Workstation插件就可以创建和操作Ambisonics音频混音。
5.2 Zoom F8多轨录音机支持Ambeo VR Mic增益统一调整
2017年IBC 展会上Sennehiser和Zoom宣布进行VR音频合作,Zoom的F4和F8录音机可以跟Ambeo VR Mic深度整合,实现直接控制。
Zoom的F4和F8多轨便携录音机可以搭配Sennheiser Ambeo VR Mic 传声器进行VR创作。F8和F4将在进行固件升级之后支持增益关联功能,即在F4和F8上调节一个旋钮可以同时控制Ambeo VR Mic的全部4个传声器音头的增益,同时Ambeo VR Mic还支持在F8上进行A-B格式转换。
5.3 MPEG-H技术
MPEG-H 电视音频系统(下一代音频编解码器)基于音频编码标准化组织MPEG 最新开发的MPEG-H 3D 音頻标准,能够为家庭端带来沉浸式声音体验,增强电视节目的真实感和沉浸感,并通过音频对象为观众呈现个性化的音频内容。
过去几年间,媒体消费已更多转向移动设备,而用户也主要通过耳机收听音频内容。因此,MPEG-H 电视音频系统解码器中集成了双耳渲染组件,专门应用于将沉浸声和环绕声内容还放到耳机端。
6 结语
笔者认为,Ambisonics 技术将成为未来沉浸式广播节目制作的主要方式。尽管目前受到收听播放终端解码的限制, Ambisonics三维音频最终需要在制作端先渲染为双耳音频格式,以便于直接通过立体声耳机实现收听。考虑到当下广播节目收听的发展现状,笔者对于使用头部追踪设备进行真正意义上的VR音频制作没有进行过多尝试,希望今后随着智能设备硬件及客户端的发展,未来广播APP也能像Youtube等平台一样直接支持即时Ambisonics解码收听,从而将双耳渲染这一步骤集成在用户端,听众通过配置更轻便、易于佩戴的头部定位设备,也能够完全感受VR音频的魅力,摆脱对整个声场某一个固定剖面的聆听,像VR视频一样自主地选择在球形声场中听音的方向,实现360°广播节目声音的收听。
参考文献:
[1]王珏. VR(虚拟现实)电影声音制作流程探析[J]. 现代电影技术,2017(1):22-28.
[2]王珏. 虚拟现实电影声音的特征与创作要点初探[J]. 北京电影学院学报,2017(2):136-140.
[3]张莹,沈希辰. 浅谈VR电影的声音设计思维[J]. 复旦学报(自然科学版),2017(4):211-214.
[4]张莹,沈希辰. 从Ambisonics到双耳听觉——VR电影声音制作方案研究[J].复旦学报(自然科学版),2017(4):215-221.
[5]许津玮. VR 音频探秘之一:什么是 VR 音频 [OL]? https://www.midifan.com/modulearticle-detailview-5490.htm.
[6]许津玮. VR 音频探秘之二:Spatial Audio(VR音频)的基本原理[OL]. https://www.midifan.com/modulearticle-detailview-5491.htm.
[7]许津玮. VR 音频探秘之三:Spatial Audio 的实现方式[OL]. https://www.midifan.com/modulearticle-detailview-5492.htm.
[8]Fraunhofer Institute for Integrated Circuits (IIS),MPEG-H电视音频系统及国际标准化发展[J]. 信息技术与标准化,2017(6):54-47.
[9]Waves. Ambisonics Explained:A Guide for Sound Engineers[OL]. https://www.waves.com/ambisonics-explained-guide-for-sound-engineers.
[10]Waves. B360 Ambisonics Encoder User Guide[M]. 2017.