基于深度学习的单音源语音分离方法研究

2022-06-15陈瑶

电声技术 2022年4期

陈瑶

（西京学院，陕西西安 710123）

0 引言

在日常交流生活环境中，语音传递多数伴随着多方面的噪声，但人耳可利用听到的混合语音，经过大脑皮层筛选，得到所需信息，即从噪声中分离得到目标语音信息，这种现象称为“鸡尾酒会效应”[1]。早间，学术界对语音交互的方法研究不深，实验结果在相位、语音的质量以及计算频谱图时间等方面都存在着较大的误差，因此有必要提高语音分离的质量，促进交互技术的发展，为生活带来便利。

1 算法框架

语音分离技术通常使用频域网络进行处理，时域分离网络近几年才被提出并实验。时域分离网络可以有效地减小相位差，用特征提取替代短时傅里叶变换，满足时间与频率局部化的变化，直接对源波形处理。基于前期对方法的调研，本文选择使用一种全卷积时域分离网络。这是一种端到端的深度学习方法，由时频分解、特征提取、目标分离、模型训练及波形合成五个模块组成[2]。

全卷积时域分离网络主要包括编码、分离及解码三个处理阶段。首先，使用编码器将两段波形片段混合；其次将混合后的波形片段转换为特征空间中的相应片段[3]，并估量每个时间步长中源的乘法函数；最后用解码器对被掩码的编码器特征进行变换从而重构波形。整个流程如图1 所示。

图1 全卷积分离图

全卷积分离网络由多个一维卷积块组成。在建模中，使用时序卷积网络（Temporal Convolutional Network，TCN）替代循环神经网络（Rerrent Neural Network，RNN），使训练、验证的速度加快。TCN中的每一层都包含呈指数增长的一维卷积的扩展因子。时域分离方法的性能与编码器窗口大小有关，窗口越小，得到的精度越高，分离模块需要处理向量的长度也就越长。

1.1 卷积分离模块

本次实验使用两段纯净语音合成作为混合语音。假设有2 位说话人的语音为x1(t)，x2(t)，y(t)为混合语音，x1(t)为目标语音，x2(t)为噪声。定义如下：

混合后，将语音分成n段长度为1 的重叠长度语音，sk=1,2,…,n∈D1×1，k为分段索引。经一维卷积运算将sk转化为M维，再通矩阵乘法重构：

式中：U∈Dn×X包含n个向量（编码器基函数），每个向量的长度为X，H是一个可选的非线性函数（非负数）。第一个转化模块后，加入非线性激活函数和归一化运算。

1.2 编/解码器

卷积神经网络包含了编码器和解码器。在编码时，输入一段语音信号y(t)，通过多层卷积处理并且在每一层中输入一个带有参数的线性整流函数（PReLU）。

式中：c为输入特征，fE(*)是输入特征中带向量c的映射函数。

解码时，解码器即是卷积运算的逆操作。其中，xd(t)是说话人的分离信号fD(*)的解码器的映射函数。z是噪声向量，服从正态分布。计算如下：

并用一维转置卷积重构波形，并表示为一个矩阵乘法：

1.3 端到端网络

基于端到端的语音分离，将输入的语音信号直接使用时域上的原始波形点作为输入特征，进行特征提取[4]。

2 实验结果与分析

2.1 参数设置

从语料库中分别提取两种人的50 个纯净语音，信噪比在-5～5 dB，以最小值生成30 h 的训练集、10 h 的验证集以及5 h 的评估集。再将每个数据集裁剪成10 小段。波形均以8 kHz 重新采样。

初始学习率设置为10-3，训练后设为10-8。优化器使用Adam。N（自动编码器中过滤器数量）=256，L（过滤器长度）=20，B（通道数和剩余路径的1×1 转换块）=256，H（卷积块中通道数）=512，P（卷积块中内核大小）=3。

2.2 实验分析

为了准确地评估算法的性能，取信噪比都为5 dB 的音频并生成频谱图，如图2 所示。图2（a）表示混合声音的频谱，图2（b）表示分离后目标语音频谱，图2（c）表示分离后噪声频谱。从图2 可以看出，图2（a）在1—2 区域内，频谱变换多曲折，而在图2（b）相同区域中频谱变化则有一小段趋于0；图2（a）的最高频谱值在0.5～0.6，图2（c）的最高频谱值则在0.9～1.0；图2（b）频谱的最低值出现在2—3 区域内，图2（c）最低值则在1—2区域内。后面两个子图与图2（a）变化明显，显然分离的效果较好。

图2 spk1 分离前后的频谱图

2.3 对比实验

频域分离作为语音处理中的重要部分，主要是输入一段时域语音信号，通过一、二维变换成二维频域信号[5]。在分解时，把卷积后的时域语音信号输入到短时傅里叶变换内，变成瞬时语音信号。代替编/解码器，重构波形，以此得到更加稀疏和结构化的声学特征表征。spk2 分离前后的时频如图3所示。

经过对比，从图3 可以明显看出，用时频方法分离后的音频谱图3（b）和原语音频谱图3（a）的波形大体相同，只有小部分波形有变化。图3（a）最高频谱值在0.5～0.75，与图3（b）极其相似，只有图3（c）中才有较小的变化，其频谱最高在0.5～0.6。说明分离语音质量不好，无法完全分离。因此用时域方法分离后音频的质量要比频域方法更优。