声道扩展中去相关方法的听感效果分析
2020-03-24刘鹏超
刘鹏超
(中国传媒大学传播声学研究所,北京 100024)
0 引言
相干声源是指频率相同、振动方向相同且步调一致的声源。相干声源在多声道扩展时直接重放存在干涉现象,会造成重放声场不自然,听感效果不佳,因此,可以通过去相关技术来降低通道间的相关性来改善这些问题。对声频信号进行去相关处理的同时,需要注意保留原信号的功率谱特性,避免音色发生较大改变而影响听感。
在实际的多通路环绕声重放应用中,可以通过各种传声器捡拾技术获得相关性低的多通路信号。此外,经常利用去相关算法获得相关性较低的音频信号。常用的去相关方法有时域去相关法[1]、频域去相关法[2]及基于子带的去相关法[3]。本文通过听音实验对比直接通过平面环绕声重放相干声源和去相关处理后声源在平面环绕声重放的听感,分析子带延时法[3]、随机相位法[2]、MLS 滤波器去相关法[4]、DTS Neural Mono2Stereo 去相关法、PS22 StereoMaker 去相关法的听感效果以及几种去相关方法之间的听感差异。
1 去相关算法原理
1.1 子带延时去相关法
将单通路声频信号按照临界频带[5]分为24 个子带。根据各个临界频带的上下限频率,设计24个带通滤波器,对不同的子带在一周期(-π,π)内根据频率进行不同程度的延时,其中对低频信号延时较长,对高频信号延时较短,最后将延时后的子带信号混合。滤波器均采用长度为1 024 阶的FIR 滤波器。24 个滤波器叠加相当于一个全通滤波器,因此不会对信号总功率产生影响。子带延时去相关法的原理如图1 所示。
1.2 随机相位去相关法
随机相位法的实现方法为:设计5 个全通的FIR 滤波器,将全通滤波器的频域传输函数幅度设定为常数1;滤波器的全通特性使声频信号经过后功率谱不变,因此音色不会发生改变。传输函数的相位各自设定为(-π,π)范围内的一组随机数,随机相位特性将改变信号的相关性,因此经过傅里叶反变换后的时域脉冲响应是不相关的(相关系数近似为0),与原始音频信号卷积后就可以得到多路不相关的声频信号。随机相位法的原理如图2所示。
1.3 MLS 滤波器去相关法
最大长度序列(The Maximum Length Sequence,MLS)简记为MLS 序列,本质是由一系列整数0 和1 组成的二进制脉冲序列。L阶MLS 信号的周期是N=2L-1。MLS 序列具有循环自相关性和时间反演序列循环自相关性。L阶MLS 序列与其时间反演序列的归一化N点循环自相关函数[6]的最大值为:
可见,L值越大,N点循环自相关函数的值就越小。因此,当L取值较大时,MLS 序列与其时间反演序列可以近似看作是一对不相关的序列。
由于MLS 具有周期性,因此截取其一个周期并做时间反演,就能得到相关系数近似为0 的N=2L-1 点MLS 序列。根据这个原理,可以设计多个不同脉冲响应长度N的滤波器对单路声频信号进行去相关,且由于MLS 序列具有平直的功率谱特性和类似随机的相位特性,因此卷积后的信号会保留原信号的功率谱特性,从而达到去相关的目的。
1.4 DTS Neural Mono2Stereo
DTS Neural Mono2Stereo 立体声生成插件由DTS 授权研发,是一种将单声道音频源转换为立体声音频的制作工具。通过建立非线性相位差的方法实现通道间信号的去相关,以达到声像的展宽效果。调节高通滤波器的频率可以控制低频的集中,通过改变声道间0°~90°的相位差范围以控制扩宽程度。此外,可通过自动修正技术修复如梳状滤波、音色失真等问题。
1.5 PS22 StereoMaker
PS22 StereoMaker 通过对单声道信号进行一定次数往复扫描式结构的滤波,将源信号各频段能量均匀分配给多个声道,对原信号相位进行非线性调制处理,以达到立体声效果。区别于一般的伪立体声效果,它具有保留原始音色、低相位差和延时等特点。
2 实验设计
2.1 实验素材及评价指标
实验素材选取5 个单声道电影片段,其中片段1 以背景声为主,片段2 以角色声为主,片段3 以事件声为主,片段4 以信号声为主,片段5 以自然声为主。背景声是指能够营造场景气氛的声音或者是某特定场景下一直持续的声音;角色声是与画面角色相关的声音,多由画面场景的人物引起;事件声是指一些突发性、爆发性的具有毁坏作用的声音;信号声是具有警示、提醒、警告以及通信作用的声音;自然声是自然界的动植物和正常气象引起的声音。本次实验选取自然度、空间感、扩展性以及分离度4 个评价指标。各指标的解释如表1 所示。
表1 去相关效果评价指标及其解释
2.2 实验环境及设备
实验在全消声室进行,根据ITU-R BS.775-1国际推荐的5 声道环绕声系统标准放置音箱,以听音者所处位置为圆心,音箱与听音者距离2 m,音箱高度120 cm,以保证高音单元与人耳齐平。具体摆放如图3 所示。
正式实验前,需要按照GY/T 183—2002《数字立体声电影院的技术标准》[7]进行校准。此外,个人电脑进行放音并连接一个声卡和DM20 数字调音台进行控制。
2.3 实验方法与过程
本次实验利用音质主观评价的实验心理学方法中的系列范畴法[8]。每个评价指标包含5 级尺度,评分对应1~5 分,具体指标及其划分的范畴如表2 所示。
实验共有15 名被试,年龄在20~26 岁,听力正常且受过听力训练,有相关主观评价实验的经验,符合《演出用专业音响设备音质主观评价方法》WH/T 82—2019 中对听音员的要求[9]。
3 实验结果及分析
按照系列范畴法的数据处理方法,获得在4个评价指标下每个实验信号的心理尺度值和范畴。将5 个片段的自然度、空间感、扩展性、分离度在5 种算法下的尺度值汇总在一起,如图4~图7所示。
与相干声源相比,这5 种去相关算法处理后的声场自然度都有明显提升,其中MLS 滤波器去相关法的自然度提升效果最佳。
表2 评价指标及评分范畴
与相干声源相比,5 种去相关算法处理后的空间感都有明显提升,其中角色声为主的片段用子带延时法处理后的声像更分散,空间感更强,而其他类型的片段则用MLS 滤波器去相关后的空间感效果更佳。
自然声为主的片段用子带延时法去相关后听感的声像向外扩展效果最明显,其他类型的片段则用MLS 滤波器去相关后的声像扩展效果更明显。
以事件声、信号声为主的片段用随机相位法去相关的5 声道听感可辨的程度更高,以背景声、角色声、自然声为主的片段用MLS 滤波器法的5 声道听感的可辨程度最高,分离度最佳。
4 结语
相干声源在多通道扩展重放时的听感体验较差,去相关后声场自然度和空间感有明显提升,整体而言MLS 滤波器去相关法在自然度、空间感以及扩展性指标方面的效果更佳。
影视片段涉及诸多声音类型,去相关处理时要考虑不同去相关方法的效果。事件声和信号声这类短时而能量集中的信号,用随机相位法后的分离度效果更好;背景声、自然声这类氛围声用MLS 滤波器法的分离度效果较佳。
随机相位法和子带延时法的滤波器设计不具有重复性,很难根据主观听感效果来调整滤波器的特性,而MLS 去相关法的滤波器可重复设计,也可以根据主观听觉效果来调整滤波器的参数。无论是从听感效果方面还是滤波器设计方面来看,MLS滤波器法都是一种更稳定的去相关方法。