APP下载

基于联合损失函数的语音增强深度学习算法

2023-07-10杨玲玲

电子产品世界 2023年6期
关键词:听觉

杨玲玲

关键词:语音增强;联合损失函数;听觉;语音失真

DNN 根据获取的语音特征对学习目标参数进行准确估计,目前已被广泛应用于语音增强的研究中[1-2]。各类声学特征也对语音增强方面存在差异。根据传统语音特征进行分析并不能充分反馈语音内部信息,也不能获得音帧和帧快速转换的结果,因此该模型并不能准确预测时频掩蔽结果,导致实际语音增强性能较差[3-4]。在背景噪声滤除方面,时频掩模值发挥着关键作用,以常规时频掩模值进行处理时并未针对语音相位进行分析,语音相位谱则对改善语音可懂性具有关键作用[5]。

根据上述研究结果,本文优化了以语音增强实现的网络模型与损失函数[6]。为确保代价函数能够根据人耳感知特点开展分析过程,在上述基础上设计了一种联合损失函数。针对损失函数计算过程加入关于人耳听觉的数据。

1 联合损失函数

进行深度学习时,需要利用均方误差损失函数(MSE)对神经网络实施优化处理,而MSE 只对增强语音与纯净语音误差进行简单数据分析,并未考虑误差正负因素的影响,也未加入人耳感知的信号。此时只以MSE 构建损失函数不能确保增强语音达到理想的算法处理效果[7]。

采用频域加权分段的信噪分析方法可以对语音可懂度进行预测。以下为频域加权分段信噪比表达式:

上述系数与时频单元信噪比存在直接关联,SNR(l,k) 表示第l 帧第k 个频带对应的信噪比数据,同时根据各时频单元信噪比获得相应的动态系数,处于较高信噪比条件下时,动态系数接近1。

在联合代价函数中融合了人耳心理声学感知的内容[8],以此训练网络来实现性能优化的目标,在确保提升话音質量的前提下使增强话音具备更高可懂度。

2基于联合损失函数的语音增强算法

以联合损失函数建立语音增强算法经多次重复训练后,能够从含噪语音幅度谱内获得估计增强语音幅度谱。图1给出了系统框图。

时频掩蔽因素是对神经网络产生影响而引起语音增强性能差异的重要条件,采用传统学习方法进行处理时只需对语音幅度进行分析。确定混合特征参数与学习目标后,再对神经网络开展输入、输出训练,同时利用最小均方误差优化网络算法。再以BP算法反向传递方式完成网络参数的修正。从每次训练的结果中选择最优性能的网络模型进行记录后建立测试网络模型。

本文选择联合损失函数对两者差异进行评价,记录最优性能的网络模型参数。进行测试时,先将含噪语音幅度谱加入经过训练的模型内,之后通过模型对增强语音幅度谱进行预测,最后以语音相位参数完成信号重构。

3实验结果分析

3.1实验数据的选取

以上语音数据都是由IEEE语音数据库提供,之后从NOISEX-92噪声库内提取Pink、Factory与White三种噪声信号,这些信号保持一致频率。按照同样信噪比把剩余50条纯净语音与噪声后半段进行混合后建立测试集。

本文设定语音频率为16 kHz,并以语音幅度谱作为输入语音特征。各项网络参数见表1。

3.2对比实验分析

为了对本文建立的联合损失函数与自注意力机制进行有效性验证,构建得到表2的对比算法。

从表3~5中可以看到各噪声条件下的PESQ值。其中,表3显示,信噪比等于-5dB的情况下,根据算法1与2测试结果可以发现,在各类噪声条件下,PESQ值提升均值达到0.13,同时STOI值提升了0.01的均值水平。比较算法2与3可以发现,PESQ值提升了0.07,STOI提升了0.01。

表4显示,带噪语音信噪比等于0 dB的条件下,根据算法1 与2 可以发现,各噪声下的PESQ 值都提升了0.11,此时STOI 值提升0.02。比较算法2 与3 可以发现,PESQ 值提升0.09,STOI 提升0.01。

表5 显示,带噪语音信噪比等于5 dB 的情况下,比较算法1 与2 可以发现,各噪声下的PESQ 值提升达到0.13 的均值,STOI 值提升了0.01。根据算法2 与3的比较结果可知,PESQ 值提升0.07,STOI 提升0.01。

综合分析表3~5 得到下述结果:

1)通过对比算法1 与2 测试结果得到:当噪声与信噪比都不同的情况下,以联合损失函数实现的增强语音PESQ 值提高0.12,STOI 提高0.01。根据算法1 与2 可知,本文设计的混合损失函数实现增强语音质量的明显优化。

2)对比算法2 与3 结果可以发现,为神经网络模型设置注意力机制后,可以使增强语音PESQ 值提高0.08,STOI 提高0.01。同时根据算法2 与3 结果可以推断,加入注意力机制后能够促进背景噪音的进一步减弱,从而获得更高可懂度。

3)比较算法1 与3 结果可知:以联合损失函数对神经网络开展训练时,同时加入自注意力机制来分析理神经网络特征的情况下能够实现增强语音质量的显著改善,此时PESQ 值提升0.2,STOI 提升0.03。

4 结束语

1)本文设计的混合损失函数实现增强语音质量的明显优化。加入注意力机制后能够促进背景噪音的进一步减弱,从而获得更高可懂度。

2)综合运用联合损失函数并融合注意力机制后,可以使神经网络获得更优质量增强语音。利用注意力机制提取特征参数以及结合联合损失函数进行神经网络优化能够促进增强语音质量的提升并达到更高的可懂度。

猜你喜欢

听觉
准确的心理节奏带来听觉美感
汽车A柱盲区消除系统设计
如何让农村中学生有“听觉”