基于球谐域三维音频直播系统的实现

2020-07-16刘华平

电声技术 2020年4期

刘华平，方勇，陶浩

(上海大学上海先进通信与数据科学研究院特种光纤与光接入网重点实验室特种光纤与先进通信国际合作联合实验室，上海 200444)

1 引言

随着互联网技术发展和满足人群的细分领域的需求，音频直播形式也越来越多样，从传统的电台广播模拟语音直播到以移动互联网为基础面向终端用户的数字音频直播业务，例如国外Apple Music、Spotify流媒体平台，国内喜马拉雅、荔枝FM、蜻蜓FM都是专注于数字音频内容传播平台，数字音频直播业务版块是他们非常重要的业务版块。

数字音频直播系统主要包括声音采集、编码、网络传输、解码和渲染这五大环节。早期的数字音频直播主要是在解决高音质的问题，就是如何让直播系统的声音保留更多的声音频率成分细节，例如声音采集时用电容式麦克风而不是动圈式麦克风，因电容式麦克风的灵敏度比较高，能捕获到听众所需要的足够多的声音细节。数字音频编码器由MP3、AAC到最新MPEG-H，目的都是在尽量保留声音细节的情况下以最小的码率便于网络传输。4G移动网络的当下，保留覆盖人类可听频率数字音频直播系统已全面的推广和应用中。

数字音频直播中声音本身的细节满足后，用户就提出更高的需求，就是在听众侧能完全重放开播侧的声场，让听众对声音更有沉浸感。声场空间信息的捡拾与重放是一项横跨声学(物理学)、信号处理和双耳听觉等若干科学领域的跨学科研究课题。在近几十年来，许多研究对声场空间信息的捡拾与重放做了大量的工作。建立了三种声音空间捡拾与重放系统:波前合成(WFS)[1]，矢量基幅度相移[2]和Ambisonics系统[3-6]。WFS最大的缺点：如果要产生一个较为理想的声场，就需要一定数量的扬声器，一般是上百个以上。除此之外WFS算法相当复杂，无法在移动设备上进行重放。VBAP是把每个扬声器输出的信号当做一个矢量，其大小为信号幅度、方向为扬声器指向听音者位置的方向，根据矢量重放方法在指定位置重放虚拟声像。VBAP仅仅是涉及到重放部分，且是通过虚拟声场来产生声场空间信息，这样往往很难产生准确的主观听觉上的空间声场，且后期制作时要充分考虑到现场扬声器的排布。

WFS、VBAP和高阶Ambisonics系统三维音频系统有一个共同的问题就是实现成本高，声音拾取和重放都是依赖于超多通道，在移动互联网应用场景无法推广。在VR技术推动下，基于球谐域分解理论一阶Ambisonics系统声音采集设备、编码格式都得到企业和科研人员广泛的关注。本文以球谐域理论为基础将三维音频直播系统从声音采集、编码、传输和解码进行硬件选型和软件系统设计，实现了一套成本低、易操作且声音空间感和沉浸感高保真的三维音频直播系统，为移动互联网三维音频直播场景中应用提出了一种新的解决方案。

2 球谐域分解

球形声学描述了球形几何形状上的声学处理方法，“球面声源”或“点声源”在自由条件下，产生的声场是以点状声源为球心的球面上呈均匀分布并延半径方向向外扩展。声音是“纵波”，其传播方向和振动方向相同，是机械振动状态在介质的传播并能被人或动物听觉器官所感知的波动现象。波动方程可以在笛卡尔坐标系、圆柱坐标系或球极坐标系中进行表示。对于点声源来说，球极坐标系是一个最佳的坐标系选择，并且可以使用球面谐波或球面小波以非常优雅的方式对声场进行描述。在本文中将都是球极坐标系中对声场进行相关分析和处理。有关球形声学的更全面描述，可以参考E.G. Williams相关书籍[7]。

声波在三维空间中传播时的波动方程为[8]：

(1)

(2)

对于声场中某个内部没有声源的有限空间Ω内，可根据声波的三维波动方程得到声压关于Fourier-Bessel级数形式的解[8]:

(3)

(4)

(5)

其中，Nm,n为归一化因子[10]：

(6)

Pm为第m阶勒让德多项式，其定义如下[10]：

(7)

B-Format介绍：B-Format是Ambisonic一阶的形式，是目前VR最主要格式，主要原来是硬件上好实现且能兼容于当前主流的音频采集、编码和传输系统。B-Format 会以WXYZ来表示：W：全指向X：前后的双指向Y：左右的双指向Z：上下的双指向。单通道信号s(t)与B-formatW,X,Y,Z转换关系式：

W(t)=kws(t)

(8)

X(t)=kxs(t)

(9)

Y(t)=kys(t)

(10)

Z(t)=kzs(t)

(11)

式中：kw、kx、ky、kz表示四自由度的系数，与增益g,方位角φ,仰角θ和指向性相关系数γ有关，关系表达式(12)-式(15)：

(12)

(13)

(14)

(15)

逆向转换公式(16)～(19)：

φ=atan2(ky,kx)

(16)

(17)

(18)

(19)

球谐域分解方位示意图1所示，本系统只考虑1阶的情况(FOA)。

本文后面的三维音频直播系统都是基于上述理论基础。

3 三维音频直播系统设计

以往重放三维空间声音的系统都是通过增加声道数和其排布位置，本文研究内容都是针对双耳重放这一场景便于移动端应用，本节进行了端到端双耳重放三维空间声场系统搭建和实现，图2是三维空间声场获取和分析编码功能框架图，图3是解码渲染与重放功能框架图。

基本过程：通过球形麦克阵列进行声音信号采集，通过球谐域对信号进行分析获得声音信号一阶Ambisonic形式B-Format 表示和点声源的方位信息，将这些信息进行AAC编码和传输。在移动端重放，通过对流进行解码可以得到B-Format格式的四路声音信号和声音源的主方位信息，通过移动设备陀螺仪获取设置当前的方位信息，利用这两个方位信息来准确算法当前视角完全配合的空间音源方位角度值,在对声音信号进行最后渲染前，还在对合成的声音信号进行音色的处理，主要是提升重放声音的听感。

目前基于球谐域分解理论直接采集一阶Ambisonic声场的麦克风硬件已面世，本文的三维音频直播系统直接采用Sennheiser Ambeo microphone 并配置Edirol R-44外置声卡，直接获取四声道B-Format音频信号,设备与接线如图4所示。

本系统主要是通过耳机实现三维声音的重放，最后一步要做向下采样，在本系统中，对一单一点声源，在重放前都会有五路信号，四路是B-Format格式信号，另一路是点声源方向的重建信号，多一个声源就会多出一路重建信号。下采样会通过一个5×2的变换矩阵，等到二路声音信号输出。因HRTF数据都是消音室采集的，为了使声音还要更加接近真实情况，在声音耳机输出前进行了双耳混响效果处理，图5展示了双声道声音渲染流程。

基于球形麦克风阵列三维空间声场获取和重放环节中，为了简单研究或者易实现，往往是为了高度还原空间信息，对某些环节参数进行特殊设定，例如HRTF数据的获取一般都是消声室里，在双耳重放时，因为这一条件的限制导致产生的有空间感的声音但听感差，主要表现有声音单薄、缺少厚度。本系统在实现时在最后重放渲染重放时增加了一个音效处理部分，通过多个参数调节在不损失声音空间感的情况下有效地提升了听感，因此部分不是本文的主要工作，只是做了个尝试实验，没有做过多的理论分析。音效部分的算法组成框如图6所示。

本节是介绍了基于球谐域理论的三维音频直播系统的组成部分，主要是开播端和收听端，开播端直接利用一阶Ambisonic B-Format麦克风，通过4通道的外置声卡可以做到便端的移动端开播。在收听端完全做到通过普通的耳机就能听到完整的声场回放的效果。

4 系统测试与分析

三维音频直播系统主要的应用场景是让用户用耳机就能收听场景，系统性能主要关注两个方面:一个是整体系统运行效率，另一方面重点关注音频重放空间方位重现的准确度，本文主要通过主观听觉测评来评估。

性能主要是通过xCode软件开发IDE中的Profile工具，可以看到整体带有双耳虚拟播放功能的播放器在 iPhone XR手机上的CPU占用，如图7所示。

从图7可以看出本系统对应播放器进程GokuSimplePlayer CPU占在11%左右，这种低CPU占用的基本上可以跑在Android5.0和iOS 8.0以上的所有手机。

声音重放空间方位重现的准确度，主要通过人主观试听打分和利用本文第五章的客户端评测的方法。主观试听主要从45名志愿者参与的测评结果后，整体个系统能很好地覆盖水平面不同方位角和中垂面不同仰角，在48个测评点上进行相关主观听觉方位辨识测试，表1为水平面前方13方位点的测试数据：

表2展示45名参与主观方位测试的准确率，分别对中垂面13个方位点进行测试。从表格中可以出端到端声音空间信息高还原，即使对前后容易混淆的点辨识率都很高。

5 结语

针对移动三维音频直播应用场景，本文以球谐域理论为基础将三维音频直播系统从声音采集、编码、传输和解码进行硬件选型和软件系统设计，实现了一套成本低、易操作且声音空间感和沉浸感高保真的三维音频直播系统。实验结果表明，该系统在观众端能较好地重现开播端空间声场，且实现所需设备便捷、同时能兼容现有的网络基础设置，能较快地实用场景中落地。

致谢：本文得到上海市科委重点支撑项目(16010500100)资助。