APP下载

单声部乐音信号的动态谐波调制方法

2022-04-27郭天艺孟子厚

电声技术 2022年2期
关键词:基频瞬态正弦

郭天艺,孟子厚

(中国传媒大学传播声学研究所,北京 100024)

0 引言

对于民族乐器音色的听感谐和性问题,传统改善方法一般是针对民乐器的音色特点,对乐器本身的物理结构或配器规则进行一定的改良。随着信息技术的发展,运用数字信号处理方式对输入信号进行谐波成分分析和修改重建,能够有目的性地对乐音信号进行谐和性调制和优化[1]。目前,“谐 波+剩余成分”分析/合成模型的谐波调制方法应用于乐器单音的调制听感探究[2],基于动态基频检测和倍频调制的乐音谐和性处理方法能够实现乐段的谐波调制[3]。

单声部乐音信号指单个乐器独奏的一条旋律线的音乐信号,相对于复调乐音信号的基频和谐波结构更加简洁、规律。谐波调制需要针对乐音信号时变的谐波信息进行动态参数提取,并进一步重构合成。本文结合乐音的频谱合成模型,提出适用于单声部乐音信号动态谐波调制的方法,并针对几种合成模型进行合成效果的对比和评估。

1 现有谐和性调制方法

1.1 加法合成调制

由乐器产生的声音通常可以通过弦波组以及剩余噪声叠加来进行建模表征。正弦波作为谐波部分,是由系统的主要振动模式引起,而剩余部分则为噪声成分,属于乐器在发声过程中非正弦波成分的噪声能量以及未转化为正弦波成分的剩余部分能量。在拉弦或吹管乐器中,琴弦有规律的振动发声或乐器吹孔内自激荡产生的部分即为正弦成分,而琴弓的摩擦声以及吹孔处的气流声这一非线性系统产生的部分则为噪声成分。此外,对噪声成分进行进一步分析,则可将噪声部分分为稳态噪声和非稳态噪声。不同类型噪声的产生机制存在差异,如打击乐器、拨弦、音孔开合、踏板的短时触击声等噪声在时域上较不稳定,可以看作是一系列的瞬态信号,而类似吹奏乐器产生的稳定的气流噪声,弦乐器中弓弦间的摩擦声在时域上更倾向于能量平稳的噪声,根据此物理意义,可以对乐器声进行几种不同模型的分离和合成。

加法合成方法是对输入信号进行参数模型化分析,重建得到多个成分后进行相加,最终得到输出合成信号。对于输入的乐音信号,将一组谐波信号作为信号中的确定性分量,在确定了声音的谐波分量后,可以从原始信号中减去得到剩余分量[4],即为“谐波+剩余残差”模型(Harmonic plus residual model)。由于在正弦减法过程中会存在正弦成分的残余,听感上对于剩余成分仍旧存在音高感,对后续的剩余成分建模过程有一定影响。在HPR 模型的基础上,剩余信号可以进一步地建模分析,通过时变参数滤波器对随机噪声滤波来表征剩余成分,并将谐波和随机噪声进行合成[5],即为“谐波+随机残差”模型(Harmonic plus stocastic residual model)。剩余部分在建模为随机相位的噪声时会丢失瞬态信号,因此需要将起始时间较短、听感较尖锐的瞬态信号从剩余部分中分离[6],将原始信号建模为“正弦+瞬态+噪声”模型(Sines+transients+noise model)。

1.2 减法合成调制

基于动态基频检测的倍频调制算法属于减法合成方法。算法通过对输入信号进行基频检测,设计一组以基频整数倍为中心频率的一定带宽的窄带滤波器组,并根据基频的时变轨迹进行动态滤波,以达到对谐波成分进行调制的效果。该方法与均衡器的工作原理相似,区别在于其以输入信号的谐波列频率作为滤波器的中心频率,滤波的频率及幅值参数动态可变。

1.3 现有算法问题分析

目前所使用的加法合成方法是独立于正弦参数估计的假设基础上的,但是大多数真实乐器所产生的噪声与周期性调制相关,并非是完全独立的附加噪声,因此重建噪声在叠加时会存在听感上融合不充分的问题。瞬态模型一般通过对能量及变化率设定阈值从而进行多次的瞬态判定,检测合成效率相对较低,不利于实时的合成处理,参数化重建的瞬态成分在合成信号时的听感融合度也较差。而减法合成只能对原谐波列进行幅值的提升或衰减,对于分谐波以及非正弦成分难以实现修改,在非线性成分的调制功能方面存在一定的局限性。

2 改进的“谐波+瞬态+噪声”模型

2.1 改进算法整体框架

改进算法的实现流程如图1 所示。算法的基本结构框架采用加法合成的思路,以“谐波+瞬态+噪声”模型为基本架构。将信号解构成非稳态噪声、谐波组以及稳态噪声三个部分,并分别进行建模合成。

图1 单声部乐音调制的改进合成算法

对于原始输入信号x(t),按照步骤可以将其顺次分离为如下三部分之和:

式中:p(t)为类似瞬态的非稳态噪声成分,h(t)为谐波组成分,r(t)为剩余的稳态噪声成分。

对h(t)和r(t)分别进行建模合成,将谐波组成分h(t)用一组正弦分量进行表示,将剩余稳态噪声成分r(t)用经过时变滤波的白噪声表示,加法合成发生器的输出信号y(t)可以表示为:

式中:R为信号分量个数,Ar(t)为第r个正弦分量的瞬时幅值,θr(t)为第r个正弦分量的瞬时相位,μ(τ)为白噪声,h(t,τ)是时变滤波器在时间t处的脉冲响应。由于瞬态的分析合成过程更注重时域分辨率,而在稳定正弦和稳定噪声成分的分析过程中对频域分辨率要求更高,因此整个算法过程中的两次短时傅里叶变换和反变换的时频分辨参数存在差异,并分步实施操作。

2.2 瞬态信息的提取

谐波结构和瞬态结构在时频谱图中会表现出显著的特征差异,冲击信号沿频率轴向有明显的垂直能量集中区域,而谐波信号在时间轴上会有明显稳定且连续的水平能量集中区域[7]。优化模型中的瞬态提取使用了中值滤波的方法,利用谱图中的轴向差异实现谐波信号和冲击信号的分离。通过该方法所提取出的冲击分量不仅包含乐器起振部分,也包括了乐器摩擦以及气流声中时间上不稳定的成分。过滤掉这些成分后,得到的信号更近似于正弦和稳定随机噪声的叠加,有利于进一步的噪声合成。

设A(A1,A2,…,AL) 为 长 度L∈N的实数列表,对A中的元素进行升序排序,产生有序列表a(a1,a2,…,aL),中位数μ1/2(A)定义为:

对长度为n的实数序列进行长度为L∈n的中值滤波器的中值滤波,即对给定位置元素进行领域范围内的中值替换[8]得到序列[A]如下:

对于声音信号的幅度谱,沿着时间轴进行中值滤波可以抑制冲击分量、加强谐波分量,而沿着频率轴进行中值滤波,可以抑制谐波分量、加强冲击分量,谐波频谱图和瞬态频谱图定义为:

计算得到加强的瞬态频谱图和谐波频谱图后,需要通过掩膜计算的方式得到瞬态成分。瞬态频谱图的二进制掩膜定义为:

掩膜计算本质上是对频谱分量对是否为瞬态成分进行二元分类,通过瞬态频谱图所计算得到的掩码M p对应原始频谱图Y做逐点相乘:

得到最终的瞬态成分频谱Y p。在时频域将原信号减去瞬态信号得到剩余部分信号,并将瞬态成分频谱通过反变换得到瞬态成分重建的时域信号。

2.3 谐波解析与合成

剩余部分信号可以看作谐波组与稳态噪声的叠加,对除去瞬态的信号进行逐帧的基频检测,并根据基频检测结果辅助谐波跟踪,通过得到的峰值频率和幅度信息合成谐波信号。谐波信号的基频提取使用阴阳相生法[9],该方法在平均幅度差函数的基础上,进一步定义了累积均值归一化差函数:

式中dt(τ)为平均幅度差函数的平方,定义为:

通过取归一化差函数的谷值点得到每帧数据的基频周期值,并通过抛物线差值和最佳局部估计提高了估计精度和基频轨迹平滑度。谐波跟踪首先对原始信号的帧数据进行频谱峰值检测,由音高检测得到优选的基频值,通过延续规则将各帧的峰值点组织到一系列时变的轨迹中,并返回参数估计值。延续规则使用向导轨迹约束方法[10],通过基频谐波列建立初始向导序列,并通过检测的峰值实时更新向导序列,并将峰值和向导进行允许偏差范围内的匹配。通过插值填补缺口,并删除较短的跟踪轨迹。

通过提取的频率和幅值参数生成正弦分量,每个合成帧中正弦分量的瞬时幅度通过对周围幅度估计的线性插值得到,其中瞬时相位取瞬时频率的积分,确定性谐波成分h(t)表示为

式中:R为信号分量个数,Ar(t)为第r个正弦分量的瞬时幅值。在幅频特性平稳的正弦约束规则下,瞬时相位θr(t)可以看作瞬时频率的积分:

式中:w(t)其中是角频率,r是谐波的次数。

2.4 噪声分析和合成

合成谐波后,将谐波组成分从瞬态提取后的信号中从频域中减去,得到剩余的近似稳态的噪声信号。对剩余噪声采用源滤波器模型,将其建模为时变幅值滤波的随机相位噪声信号,得到合成噪声信号。将稳态噪声成分t(t)通过白噪声信号μ(t)经过滤波器h(t,τ)的输出进行表征:

采用线性预测编码(Linear Predictive Coding,LPC)对时变幅值滤波器的频率包络进行拟合[11]。噪声合成后,还需对原始剩余信号和合成噪声信号进行交叉合成,对合成噪声信号进行低通滤波,并与经过高通滤波的原始剩余信号进行叠加。该步骤目的是为针对低次谐波进行处理时保证剩余成分的原始音质,在一定频率范围以上的高频部分可以作为剩余部分忽略合成噪声建模处理。最后将经过调制合成以及反变换的非稳态噪声、谐波组及稳态噪声三个成分在时域进行相加,得到最终的合成信号。

3 改进算法的实现和评估

3.1 单声部乐音信号合成

通过使用Kong Audio 音源采样在数字音频工作站中制作原始素材音频。音色选择二胡和笙两种“线形”音色乐器,以及筝和琵琶两种“点状”音色的弹拨乐器。旋律采用小字一组内的C 宫调式五声音阶,每个音均使用单音连奏的演奏方法和音源采样的3/4 力度大小。此外选用时长约10 s 的二胡实际演奏录音素材进行对比。对原始素材音频分别进行如表1 所示的3 种模型的重建合成。

表1 实验所用的3 种合成模型

首先对信号进行模型A 的合成。正弦成分分析的窗长为2 048 个采样点,帧移为512 个采样点,输入需要检测的频谱峰值个数最大值为80,输入合成时的正弦波数目为24,提取得到的谐波成分。将谐波成分从原始信号的时频谱中减去得到剩余信号,在时域上进行两部分的相加得到合成信号。对剩余信号幅值进行逐帧的LPC 预测,LPC 阶数为25,剩余信号分析的窗长为1 024 个采样点,帧移为128 个采样点,分析得到的预测系数,控制随机噪声的逐帧幅值,得到剩余噪声成分,最后进行两部分的相加得到模型B 的合成信号。对原始信号进行窗长为1 024 个采样点、帧移为128 个采样点的短时傅里叶变换后中值滤波取得瞬态部分,中值滤波核长宽相等,均为30 个样本点。进行同上的谐波和噪声分析合成,并将生成的噪声和原始稳态剩余部分进行交叉合成,高通和低通滤波的截止频率均为5 kHz。最后进行三个部分时域相加,得到模型C 的合成信号。

3.2 客观参数评估

采用信噪比(Signal-Noise Ratio,SNR)评估标准对合成信号进行合成效果评估,对合成信号ssynth与原始信号进行掩膜计算,作为在合成中引入的噪声enoise,合成信噪比SNR定义为:

通过计算合成信号和噪声信号的能量比,得到各乐器和各合成模型的信噪比结果,如图2 所示。由于掩模计算得到的噪声成分均经过了等量衰减,因此计算得到的信噪比只作为相对参考量。

图2 三种合成模型的信噪比结果对比

由图中数据可以看到,与模型B 相比,模型C的合成信噪比显著提高,接近于模型B。由此可见,瞬态成分的引入大大降低了合成噪声,提高了合成建模的还原度。

3.3 主观听感评估

主观听感实验的方法采用系列范畴法[12]对3种调制算法进行合成音色主观听感的对比。实验共有16 名被试,男女人数各半,年龄在23~26 岁,均为声学专业的在校研究生,有丰富的听觉主观评价实验经验。实验评价指标为原始信号和合成信号对比的音色差异度,评价结果划分为5 级尺度,对应1~5 分,详细划分范畴对应为:差异感很小、差异感较小、差异感一般、差异感较大以及差异感很大共5 个主观范畴。被试需在封闭式监听耳机重放的环境下进行指标听感的对比,并相应打分。根据计算得到每种合成方法下各种乐器的音色差异度结果,如图3 所示。

图3 三种模型下各乐器的合成音色差异度范畴得分

根据实验结果,模型A 和模型C 的合成结果听感基本落在差异较小的范围内,合成效果都比较好,前者模型的听感差异整体最小;模型B 对于线形乐器合成效果一般,对弹拨乐器合成效果比较差。通过显著性检验分析得到,模型B 合成结果与另外两种模型存在显著性差异,即优化方法中瞬态成分的分析重建显著提升了非谐波成分的合成音质。

4 结语

通过对单声部乐音信号的动态谐波调制相关方法进行问题的总结分析,提出一种基于“正弦+瞬态+噪声”模型的改进算法。该模型将单声部乐音乐音信号分为非稳态噪声成分、谐波成分以及稳态随机噪声成分,通过中值滤波实现瞬态信号的分离,并通过基频检测和谐波轨迹跟踪技术实现谐波成分的时变参数提取,最后通过源-滤波器模型和交叉合成实现随机噪声成分的合成。合成的评估结果表明,通过引入瞬态分离及交叉合成技术,提高了非谐波部分的合成信噪比以及合成音质听感,在弹拨乐器音色中效果更为显著。

猜你喜欢

基频瞬态正弦
语音同一认定中音段长度对基频分析的影响
正弦、余弦定理的应用
基于时域的基频感知语音分离方法∗
激发态和瞬态中间体的光谱探测与调控
高压感应电动机断电重启时的瞬态仿真
桥面铺装层对中小跨径桥梁基频影响分析
“美”在二倍角正弦公式中的应用
基于改进HHT的非高斯噪声中瞬态通信信号检测
带旋转孔容腔瞬态演化与建模方法研究
利用正弦定理解决拓展问题