基于姿态感知的声场还原算法研究
2022-05-20王薇娜董强国
王薇娜 董强国
(中国电影科学技术研究所(中央宣传部电影技术质量检测所),北京 100086)
1 引言
技术让电影艺术的表现媒介从最初的黑白画面到后来的高位深彩色画面、从无声到现在的沉浸式环绕声体验,使得电影艺术愈加散发出迷人的魅力,也使得电影这门最年轻的艺术形式在艺术长廊中获得了无限的生命力和创造力。
沉浸式音频技术在数字电影领域应用愈发广泛,沉浸式声音体验获得广泛的观众认可。《“十四五”中国电影发展规划》中明确提出“开发多层次多元化电影市场”。在多元化放映模式中,声场空间各异,且放映场所为非专业影院空间,受制于隔音条件、低噪音等限制,部分场所无法利用扬声器还音,耳机凭借高度便捷性及私密性,成为个性化放映场景的常用模式,也是人们日常最普遍的还音工具。但电影音频目前的制作环境主要针对影厅声场环境制作,无法通过耳机两声道还原环绕沉浸音效,并且普通耳机声场效果会随人头部运动而改变,不符合自然声场效果,极大地影响多元化电影观影的沉浸感临场感,无法满足高品质观影需求。
在既往项目研究中,我们开展了虚拟环绕声技术应用研究。在实现过程中,我们发现,虚拟环绕声的重点在于还原空间声场的效果,但由于耳机的佩戴方式,还原的声场效果会随人头的运动一同改变,最终是相对静止的声场效果。而在自然声场中,声源并不会随我们的运动变化而改变,从而有利于我们更好地对声像定位。本文探讨的核心算法目标便是在利用耳机的沉浸音还音基础之上,增加对头部姿态的实时感知,动态调整还音效果,带来智能交互的体验感受。
2 整体方案设计
在用耳机观影时,音源位置会随人头姿态改变而变化,这与真实环境下的听觉效果不同。在利用耳机作为还音单元的观影模式下,为了使用户获得更好的沉浸感与交互感,本课题通过将人体姿态变化转化为虚拟音源的位置变化,利用头相关传递函数(Head Related Transfer Function,HRTF)函数重建音频的虚拟声像,实现对耳机姿态感知的音频反馈。另一方面结合空间声场的特点对音频进行特定空间声场渲染,最终实现空间音频的头部追踪效果。
在还音单元中添加陀螺仪传感器,追踪人的头部运动,根据传感器接口数据,获得头部运动路径,从而调整空间音频的渲染参数,使得无论头部如何移动,虚拟声源总是保持在原有的、类似影厅的声场位置上,实现对头部姿态的交互感知,真正带给观众融入影厅的感觉。在姿态感知算法中,HRTF是一项非常有效的技术,其非常适用于耳机还音单元。因为HRTF的重建区域针对的是双耳,并且具有很高的声场还原度和定位感。应用HRTF对音频信号进行处理务必要涉及到HRTF数据库,但是无论多高精度的数据库都不可能拥有所有角度的HRTF数据,因此为了更接近全覆盖,我们需要使用HRTF插值技术来近似计算出数据库中没有的HRTF数据。
空间混响重点在于模拟空间还音的特性,这包括还原两点基础信息:空间大小尺寸以及音源位置与监听位置的差别。本项目利用基于Moorer混响模型的混响算法。需要测试设定的参数有:房间大小(房间的体积与混响时间、预延迟参数相关);混响时间(模拟影厅空间时,应满足标准GY/T 311-2017《电影院视听环境技术要求和测量方法》)。
调整后的音频效果有以下几点评判标准:
(1)清晰度:混音中的每个声音都应该干净,声场不能模糊不清,噪声量或其他异常现象必须受到控制。
(2)独立性:每种音源都应能轻易分辨。
(3)平衡:混音需要有良好的频率平衡。
3 姿态感知算法
3.1 角度获取
姿态感知最直接的方式就是通过传感器捕捉动作信号。主流的陀螺仪传感器可以提供我们需要的姿态变化参数。人耳对声音的定位由三个维度确定:水平方位角、垂直方位角、距离。在模拟影厅的放映环境时,考虑收听者与扬声器的距离不变,所以我们可以将距离设置为定值,需要跟踪的是音源相对水平方位角θ和垂直方位角Φ的变化。如图1所示:人头俯仰运动表示为以X轴为轴心的转动,带来垂直方位角Φ的改变;人头左右转动可以表示为以Y轴为轴心转动,影响的是水平方位角θ的改变;人头左右摆动可以表示为以Z轴为轴心的垂直方位角Φ的变化。
图1 人头转动角度示意图
我们实验中选用的是一款JY-61系列的姿态陀螺仪模块,该陀螺仪在X、Y两轴的角度精度,静态可达到0.05°,动态达到0.1°,Z轴的角度精度为1°,可以满足我们的需求。当芯片水平正向放置时,右手方向为X轴,水平向前为Y轴,垂直芯片向上为Z轴。测量的旋转角方向是以各轴为轴心,满足右手法则,如图2所示。
图2 陀螺仪姿态信号方向图
因此,当芯片水平放置时,以X轴为轴心的旋转角度表示俯仰角,以Z轴为核心的角度表示水平旋转角度。实验中,为了选取精度更高的轴向,我们选择将芯片立放,即将上图的坐标系,以X轴为轴心逆时针旋转90°,这样X轴的旋转角α依然表示俯仰角,Y轴的旋转角β为水平旋转角。相对的,如果以人头为球心固定不动,声源的位置变化为(-α,-β),通过这种变换。将人头的转动,转化为声场空间中的声源位置变化,方便使用头相关函数库(HRTF)。
3.2 HRTF数据库
在虚拟声中,HRTF是一项非常有效的技术,其适用于耳机还音单元。因为HRTF的重建区域针对的是双耳,并且具有很高的声场还原度、空间感和定位感。应用HRTF对音频信号进行处理务必要涉及到HRTF数据库。项目组调研了来自两个机构的头相关函数数据库,一是加州大学戴维斯实验室V.R.Algazi等人建立的CIPIC数据库,二是英国约克大学SADIE(Spatial Audio for Domestic Interactive Entertainment)项目建立的数据库。
CIPIC的头相关传递函数的公共数据库,测试了45名受试者在25个水平方位角和50个俯仰角的头部相关脉冲响应,共计1250个方向,测量点在三维空间坐标系如图3所示。此外,该数据库还包括每个受试者的人体测量数据,以及人体测量数据与HRTF时间和频谱特征之间的相关性。
图3 CIPIC HRTF测试点方位图
方位角集合(单位:度):
α=[-80-65-55-45:5:5 55 65 80](0度表示人脸正前方的测试点,顺时针为正)
俯仰角集合(单位:度):
β=-45+5.625×(0:49)(0度表示人脸正前方的测试点,向下为负)
约克大学的HRTF数据库受试者分为两类,一类是人工头,其测试点共有8802个方向,真人受试者的测试点有2114或2818个。俯仰角从[-90°,90°](0°表示人脸正前方的测试点,上正下负),水平方位角从[0°,359°](0°表示人脸正前方的测试点,逆时针为正)。
图4 约克大学不同HRTF测试点方位图(左:人工头,右:真人)
可以看出约克大学的HRTF数据库样本中,人工头的测试数据点集最多,因此我们选择采用该函数数据库。
3.3 插值法
由于HRTF测试数据库是离散的,无论多高精度的数据库都不可能拥有所有角度的HRTF数据,因此总会有需要的数据点在测试点集之外。因此当目标位置未被测试点集覆盖时,需要插值法获得响应函数。为了找到最恰当的位置,通常的算法是使用德劳内(Delaunay)三角法算法,找到需求点附近最近的以测试点为顶点的三角形,以HRTF测量点(方位角、俯仰角)生成一个三角形网格。
对任一点X(θ,Φ)估计相应的HRTF。在测试点集中找到包围点X的最小三角形,该三角形顶点标记为A、B和C,如图5所示,则点X可以表示为顶点的线性组合:
图5 三角形插值法几何图例
其中g_i是标量权重。如果权重之和等于1,[g_1,g_2,g_3]就是X点的重心坐标。给定一个期望的源位置X,重心插值权重的计算公式如下:
其中:T=[[A-C],[B-C]]
重心坐标被用作计算插值权重,用于估计X点的左右耳HRTF,在A、B和C测量的HRTF的加权和作为X点HRTF函数值,如式(4)和式(5)所示。这种插值方法的主要优点之一是它不会导致插值的HRTF不连续:对于一个从一个三角形平滑移动到另一个三角形的声源,HRTF估计值会平滑变化,甚至在交叉点也是如此。
3.4 姿态跟踪渲染算法
算法流程如图6所示,具体实现时有以下几点需要注意:
图6 姿态跟踪渲染算法流程图
(1)对音频信号在进行FFT变换时,采用汉宁短窗;
(2)由于人耳对高频信号的方向较为敏感,低频信号通常不提供方位信息,因此在卷积渲染之前要通过高通滤波器对信号进行处理。
在算法具体实现时,采用callback()异步调用程序结构,不断读取陀螺仪信号并估计目标点HRTF。主程序的播放进程持续进行渲染。
4 空间声场还原
声音在一定的反射环境下到达人耳的过程,营造声音在特定环境下的三维混响效果。声源信号首先到达人耳的声音称为直达声(Direct Sound) ;随后的几个比较明显分开的声音称为早期反射声(Early Reflected Sounds) ,其声压较大,能够反映空间中声源、人耳以及反射物体之间的距离关系;其后的一段连绵不断的尾音称为混响(Reverberation)。
从影片制版开始,数字电影的放映规范都是针对室内空间的放映环境,从建筑声学到电声环境都给出了相关技术指标。针对扬声器的影厅技术规范也非常详细,这些规范要求较好地统一了放映端的电声环境。而使用耳机还音的放映方式,缺失了在影院中从音箱到人耳的这一段物理路径,影厅的空间混响在耳机还音中无法体现。因此添加一部分空间声场效果,能有效改善耳机播放的头中效应,更好地模拟影院的还音效果。
从信号处理的角度,声音在一个有限空间后的变化,可以看做是经过了一个滤波器,而这个滤波器的响应函数,我们就定义为房间脉冲响应(RIRs)。通常得到脉冲响应的方式有两种:实地测量和镜像源模型估算。由于实地测量在实施时有局限性,我们主要研究了镜像源模型估算法。
4.1 镜像源模型
镜像源模型可以用来模拟给定声源和传声器位置的房间内的混响,使用镜像方法,Allen和Berkley开发了一种有效的方法来计算有限脉冲响应(FIR),该方法可以模拟矩形房间内声源和接收器之间的声场。
图7显示了一个位于刚性反射墙附近的声源S。在接收处D,有两个信号到达,一个是直达声,另一个是自反射声。直达声的路径长度可以从已知的声源和接收地的位置计算出来。利用镜像法,声源S的镜像S’位于墙后,距离等于源与墙的距离。根据对称性,三角形SRS'是等腰的,因此反射声路径长度SR+RD与镜像源S'到达接收处的路径S'D相同。因此,为了计算反射路径的长度,我们可以构建一个源的镜像并计算目的地和镜像之间的距离。一次反射我们用一个镜像来计算距离。图8显示了一条涉及两次反射的路径。这条路径的长度可以从SD的长度得到。镜像也可以扩展到其他方向的墙面,如天花板和地板的反射。一般来说,反射的路径长度(以及因此的延迟)可以通过计算多个源镜像和目标之间的距离得到。反射的强度可以从路径长度和路径中涉及的反射次数中得到。路径中涉及的反射次数等于用于计算的镜像个数。
图7 单镜像声源一次反射路径
图8 二次反射镜像源
4.2 算法应用
作者Emanuel将该算法用C++实现,并建立一个DLL动态链接库供调用。函数定义为:
function [h,beta_hat]=rir_generator(c,fs,r,s,L,beta,nsample,mtype,order,dim,orientation,hp_filter);
其中,输入的参数定义如下:
?
其余输入参数为可选项。输出h,表示M组采样数的响应值;当输入混响时间时,输出相对应的反射系数。
在生成房间响应函数时,是以影厅的长、宽、高作为影厅大小参数L(x,y,z)、影厅六面的反射系数作为参数β、每个扬声器(声源)的位置坐标作为参数s(x,y,z)、麦克风(拾音)位置作为参数r(x,y,z)输入镜像声源模型算法程序,镜像声源模型算法程序涉及的参数还包括提前设定好的声音传播速度c和采样频率fs。在确定模拟影厅空间大小后,麦克风(拾音)位置是设置在相应影厅的观影皇帝位,也就是设计在(L_x/2,(2L_y)/3,1.5)的位置,其中L_x是影厅大小参数L(x,y,z)的x的值,L_y是L(x,y,z)的y的值,1.5表示拾音位置在Z方向上固定为1.5m,将该坐标作为参数r(x,y,z)代入镜像声源模型算法程序。
输入参数还需要空间墙体的反射系数或是空间的混响时间(单位:秒)。通过在一些实地影厅的测量,我们获取了一组影厅的混响时间数据,经过筛选,表中的数据都符合标准GY/T 311-2017《电影院视听环境技术要求和测量方法》中规定的0.032808V0.333333≤RT60≤0.07653V0.287353要求,(V是设定的空间大小体积m)。
表1中数据根据体积可以分为三类影厅:一类影厅体积在1500m左右,代表中大型影厅;一类影厅体积在700m,代表中型影厅;还有一类代表巨型影厅,体积在6000m以上。根据这些测算数据可以推算出相应的房间声场响应RIR。
表1 影厅混响时间测试数据
5 应用与展望
还原声场空间及姿态追踪的装置中的各个算法模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌或独立于计算机设备的处理器中,也可以软件形式存储于计算机设备的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在具体产品应用中,可将其设计为含陀螺仪的耳机单元或VR头戴设备,也可拆分为独立姿态感知器件配合普通耳机使用。算法可内置在设备硬件芯片中,也可加载在软件中配合相关硬件使用。对于智能穿戴设备,普遍对算法要求较高,需要移植的算法应具备低功耗、算力资源占用低、RAM占用少、低延迟。因此还需要对算法优化,尽可能少地占用资源。
本文提出的技术方案可应用于家庭影院、点播影院、社区影院、酒店影院、移动影院等多层次多元化耳机应用场景,提高观影沉浸感临场感,实现高品质电影放映,不仅拓宽电影发行放映渠道,促进多元化电影纵深发展,培育新型电影消费模式,还有助于探索VR/AR等虚拟技术与电影的融合发展,持续拓展电影多层次多元化放映,为观众提供更加丰富、多样、高品质的电影体验,满足人民群众多元化高品质观影需求。❖
①GY/T 311-2017《电影院视听环境技术要求和测量方法》。