APP下载

跨域注意力特征融合的说话人确认方法

2023-09-19杨震王天朗郭海燕王婷婷

通信学报 2023年8期
关键词:集上频域特征提取

杨震,王天朗,郭海燕,王婷婷

(1.南京邮电大学通信与信息工程学院,江苏 南京 210003;2.南京邮电大学通信与网络技术国家地方联合工程研究中心,江苏 南京 210003)

0 引言

随着深度学习的兴起,涌现了大量基于深度神经网络的说话人确认模型,这些模型的说话人特征提取过程主要分为两部分:前端声学特征提取与话语级说话人嵌入特征提取。目前,主流的说话人识别模型的前端声学特征使用梅尔频率倒谱系数(MFCC,mel-frequency cepstral coefficient)或对数梅尔滤波器组能量(FBank,log-mel filter bank energy)等声学特征[1]。这些特征都是在短时傅里叶变换的幅度谱的基础上得到的,因此只利用了语音信号的时频信息,而忽略了反映样点间相关性的信号结构信息[2]。然而,前端声学特征中结构信息的丢失,会导致后续话语级说话人嵌入特征提取网络获得的信息不完整,进而制约了说话人确认方法的性能。

针对上述说话人身份特征提取中信号结构信息的缺失问题,文献[3]通过在一条语音中提取多个片段级说话人嵌入特征,在后端判别模型中将每个说话人嵌入作为一个图节点,利用图注意力网络(GAN,graph attention network)提取特征的结构信息进行判别。文献[4]将神经网络提取的帧级别特征作为图的节点,利用GAN 与图池化替代原始的统计池化层,提取帧级别特征的结构信息,得到话语级说话人特征。上述这些工作利用的是高维特征间的关联性等结构信息,并未关注反映原始语音信号样点间关联性的结构信息。

同时,为了获得更多的说话人身份信息,一些研究者提出了特征融合方法。文献[5]在残差网络的基础上提出了通道注意力模块(CAM,channel attention module)以及并行注意力(CA,coordinate attention)来融合恒等映射特征与残差特征,在提取高维特征的同时,保留了低维特征。文献[6]提出一种多特征融合的说话人确认方法,分别将MFCC特征、频率域线性预测(FDLP,frequency domain linear prediction)特征以及原始语音信号输入各分支网络,在各分支经过池化层之后,通过一个共同的话语级特征提取网络,之后计算多种输入特征的交叉熵损失函数的和,将其作为最终的损失函数来更新网络参数。然而,上述方法主要针对同一个域的特征进行融合,并没有额外增加信号的结构信息。此外,在其他研究领域,也有通过融合多领域特征进行各种任务的方法。文献[7]将对数梅尔谱图和测度向量经过卷积神经网络后的输出进行拼接,得到了融合特征,用于后续的干扰语音评估;文献[8]通过U-Net 提取4 个不同尺度的视觉特征后,将归一化的特征进行拼接,得到了融合视觉特征。此外,其他融合方法通过各种算法赋予不同特征不同的权重后进行特征叠加[9]。然而,无论是特征的拼接还是叠加,都是线性操作,无法充分利用多领域特征之间的相关性。

为了克服说话人识别中前端特征提取的结构信息缺失问题,本文使用图信号处理(GSP,graph signal processing)技术[10]提取语音样点之间的图结构信息。相比于传统的数字信号处理方法,GSP可以通过边和边权重充分利用信号点之间的关系。同时,理论上已经证明,离散傅里叶变换(DFT,discrete Fourier transform)是图傅里叶变换(GFT,graph Fourier transform)在有向周期循环图下的一个特例[10]。此外,已有研究表明,在语音增强以及语音分离等语音信号处理任务中,采用GSP 技术提取语音信号的结构信息,有利于提升语音信号处理任务的性能[11-15]。因此,本文使用GSP 技术,对语音信号在帧内构建图结构,通过图傅里叶变换得到语音的图频谱,进而通过滤波器组得到图对数梅尔滤波器组能量(GFBank,graph log-mel filter bank energy)特征,以此来表征语音信号样点之间的结构信息。在此基础上,本文对传统频域特征与图频域特征进行了特征融合。与其他传统常用的特征拼接或叠加方法不同,本文引入了残差网络(ResNet,residual network)[16]和挤压-激励网络(SE,squeeze-and-excitation network)[17]进行特征融合,其中ResNet 将FBank 特征和GFBank特征映射为多通道特征,增强特征的表示能力,并通过残差连接防止梯度消失,而SE 在ResNet的基础上提供了注意力机制,根据不同特征通道的重要性赋予不同权重。

本文通过提取图频域特征,并与时频域特征融合,得到跨域信息融合特征,用于基线模型ECAPATDNN(emphasized channel attention,propagation and aggregation in time delay neural network)[18]。本文工作主要包括以下几个方面。

1) 提出了一种基于GSP 的新型图频域特征,能够提取传统时频特征无法包含的信号样点间的结构信息。

2) 引入了ResNet[16]和SE[17]对提出的图频域特征以及传统时频域特征进行跨域注意力特征融合,提升了特征提取的效果。

3) 在VoxCeleb1&2[19-20]、SITW(speaker in the wild)[21]和CN-Celeb[22]数据集上的实验结果表明,本文提出的图频率特征以及特征融合网络在ECAPA-TDNN 模型[18]上的等错误率(EER,equal error rate)与最小检测代价函数(minDCF,minimum detection cost function)均优于使用传统时频域特征的基线模型。

1 相关工作

1.1 语音图信号处理

在GSP 中,图信号可以定义为G=(V,E,W),其中,V、E和W分别表示图信号的顶点集、边集和边权重矩阵。对于一帧语音s=[s0,s1,…,sN-1]T∈RN,通过将其每个样点si视为图的顶点vi,可以将其从时域映射到图域,即

此外,GFT 可以将信号从图域变换到图频域,其中的GFT 基可以通过对边权重矩阵进行特征分解或奇异值分解得到[10]。由于GFT 是对反映语音图信号结构的边权重矩阵进行分解得到的,因此由GFT 得到的图频域特征一定程度上蕴含了语音信号的结构信息。

1.2 SE 模块

SE 模块[17]通过显式地构建不同特征通道间的相互关系,自适应地调整通道间的特征响应,从而提升模型的建模能力,共分为挤压与激励两步。挤压时,对输入Y∈RH×W×C的前2 个维度进行全局池化,其中C为通道数,则第c个通道的输入Yc∈RH×W的输出为zc,表示为

对于激励操作,其输出h=[h1,h2,…,hC]∈RC为

其中,σ(·)为sigmoid 激活函数,δ(·)为ReLU 函数,W1和W2为2 个全连接层的权重矩阵,b1和b2为2 个全连接层的偏置,z=[z1,z2,…,zC]T∈RC。h中的元素的取值范围为0~1,将其作用于最初的输入,可得SE 模块的输出Y*∈RH×W×C,其第c个通道的输出Yc*∈RH×W为

2 本文方法

2.1 模型结构

本文提出了一种跨域注意力特征融合的说话人确认方法,其模型结构如图1 所示。模型由图结构特征提取、时频域特征提取、注意力特征融合、说话人嵌入特征提取以及损失函数五部分组成。其中,灰色为本文创新部分。在图结构特征提取模块,本文提出了一种新的基于GSP 的图频域特征,即GFBank特征。在注意力特征融合模块,本文提出了使用ResNet 和SE 模块进行注意力特征融合的方法。说话人特征嵌入提取模块使用ECAPA-TDNN 模型[18]。

图1 模型结构

2.2 图对数梅尔滤波器组能量特征

如图2 所示,GFBank 特征的提取包括预加重、分帧、构建图信号、以及滤波器组五部分。其中,灰色为本文创新部分。预加重通过增加语音信号的高频分量,可以有效补偿声音传输过程中高频分量的损失。鉴于语音信号的时变非平稳性,对语音进行分帧的短时处理,以有效减少语音非平稳性的影响。预加重与分帧过程与传统FBank 特征提取[1]相同,这里省略。

图2 GFBank 特征提取过程

语音分帧之后,一段长语音被分成多段有重叠的短语音,此时,语音信号帧内与帧间均存在相关性[13],因此在语音信号的帧内和帧间均可构建图结构。考虑到说话人嵌入提取的TDNN 通过计算帧间特征的卷积,可以获得语音信号帧间的相关性。因此,本文仅考虑语音信号帧内的相关性,具体而言,本文考虑语音信号帧内相邻k个样点之间的相关性,使用k阶移位(k-shift)图[11]Ψk∈RN×N作为图邻接矩阵,构建语音图信号,其图拓扑结构如图3所示,当前节点仅与本节点以及其后的k-1个节点存在直接的边相连,且具有循环移位特性,图邻接矩阵Ψk第i行第j列元素为

图3 k 阶移位图结构

设预加重和分帧后的语音信号S∈RN×T,其中,N为帧长,T为帧数。根据式(1),通过k-shift 图将其映射到图域,得到语音图信号SG∈RN×T。时域语音信号映射到图域后,图节点的值与原语音信号样点值相同,但增加了节点之间的边连接。因此,需要对语音图信号进行图滤波或变换到图频域进一步处理。对于时域的语音信号,可以使用DFT 得到其频谱;对于图信号,可以使用GFT 得到其图频谱;对于有向图信号,通过对邻接矩阵Ψk进行奇异值分解,可以得到其图傅里叶变换基,即

其中,Σ=[σ0,σ1,…,σN-1]∈RN×N为奇异值矩阵,奇异值σn(n=0,1,…,N-1)∈RN为图频率,左奇异矩阵U=[u0,u1,…,uN-1]∈RN×N,un∈RN(n=0,1,…,N-1)为图频率σn对应的图频率分量,且UT=U-1=VT为图傅里叶变换基。由于一帧语音信号的点数过多,在图中难以观察,因此以包含15 个顶点的3-shift 图信号为例,其第1 个~第4 个图频率分量如图4 所示,每个图频率分量k个顶点(即信号样点)之间有边连接,图频率越高,表示顶点的值沿着边的振荡越快,因此图频率特征表示了信号样点间的结构信息。

图4 k-shift 图信号的图频率分量

借助图傅里叶变换基,可以得到语音图信号SG经GFT 后的图频谱为

在FBank 特征提取过程中,利用人耳对低频信号敏感、高频信号不敏感的特点,设计了梅尔滤波器组,得到了符合人耳特性的声学特征。在图频率域处理时,为了实现与FBank 特征对齐,同时减小特征参数,使用滤波器组 FB ∈RN×F对图能量谱进行滤波,即

图5 给出了VoxCeleb2 数据集中id00012/21 Uxsk56VDQ/00001.wav 语音中提取的 FBank 与GFBank 特征对比。从图5 可以看出,FBank 特征谱的频率分布范围为-15~0 dB,GFBank 特征谱的频率分布范围为-15~-5 dB,GFBank 特征谱能量更加集中。

图5 FBank 与GFBank 特征对比

此外,本文分析了VoxCeleb1&2 数据集中每个语音的FBank 特征与GFBank 特征的最大频率差的分布,如图6 所示。从图6 可以看出,GFBank 特征的最大幅度差主要分布在5~17 dB,FBank 特征的最大幅度差主要分布在10~22 dB。由图5 与图6可知,相比FBank 特征,语音信号的GFBank 特征由于考虑了信号样点间的图结构,频谱的能量更加集中,也验证了图频率特征能够反映信号样点间的结构信息。因此,传统时频域的FBank 特征与图域的GFBank 特征存在较大差异,这使简单的线性叠加或者是拼接的特征融合方法都无法充分融合两者特征,需要一种非线性的自适应的融合方法来动态调整2 种特征的权重分配。

图6 VoxCeleb1&2 数据集中FBank 与GFBank 最大频率差的分布

2.3 注意力特征融合

原始的ECAPA-TDNN模型中仅使用了FBank特征,未利用语音信号的结构信息,为此本文加入了图域特征GFBank。由于FBank 与GFBank 是属于不同域的2 种特征,关注语音的不同方面,因此不能通过简单的特征叠加或拼接来融合。无论是特征叠加还是拼接,都是线性操作,无法充分利用多领域特征之间的相关性,并且特征的拼接会改变输入特征维度,对后续网络的性能产生影响。

本文提出的注意力特征融合方法主要由ResNet[16]和SE[17]组成。具体而言,由ResNet 组成的卷积层通过不同卷积核和非线性激活函数可以将FBank 特征和GFBank 特征映射为多通道特征,进一步提升特征的表示能力。然后,利用SE 模块的挤压操作聚合每个特征通道,计算注意力系数,再经过激励操作,得到注意力权重分配后的特征,并与原始特征进行残差连接,以避免产生梯度消失问题。最后,经过一层卷积层将多通道特征聚合为单通道特征,得到最终的跨域融合特征。通过这种方式,不仅实现了注意力融合,同时还保持了输入特征维度的不变性,避免了由特征维度变化引起的影响。注意力特征融合网络结构如图7 所示。

图7 注意力特征融合网络结构

对于注意力特征融合网络,首先,将2 种前端特征XFBank与XGFBank构成双通道特征,即注意力特征融合网络的输入

然后,通过三层的二维卷积神经网络(2D CNN,two-dimension convolution neural network)将特征通道数扩大到C,以获取更多的通道信息,再借助SE模块的注意力机制,自适应调整特征通道的特征响应,最后通过一个2D CNN 聚合多通道特征信息,将特征通道数降为1。此外,在第一层网络与最后一层网络之间加入了残差连接,其过程如下

其中,Conv1 和Conv2 为不同卷积核的2D CNN,SE 为SE 模块,每层网络都省略了批标准化(BN,batch normalization)和ReLU 激活函数。注意力特征融合网络中每层网络的详细参数如表1 所示。

表1 注意力融合网络参数

2.4 融合特征应用

目前,说话人确认的主流模型包括基于TDNN的ECAPA-TDNN 模型[18]、基于ResNet 的ResNet34模型[23],以及基于Transformer 的模型[24-25]等。主流的说话人识别数据集包括VoxCeleb1&2[19-20]、SITW[21]和CN-Celeb[22]等数据集,其中VoxCeleb数据集的说话人数量最多,是大多数研究者使用的。而本文选取的ECAPA-TDNN 模型在VoxCeleb数据集上的结果优于其他主流模型。因此,本文选择ECAPA-TDNN 作为基线模型。为了验证所提出的融合特征的有效性,本文在ECAPA-TDNN 模型上进行实验,模型结构如图1 所示。将模型中的单一FBank 特征替换为融合特征,作为网络的输入。

3 实验及结果

3.1 实验数据与评估指标

本文分别在VoxCeleb1&2、SITW 和CN-Celeb1数据集上进行实验,以验证所提方法。实验使用VoxCeleb2 的开发集作为训练集,其中包含5 994 个说话人的1 092 009 条语音。此外,模型训练过程中,使用了MUSAN 数据集[26]、RIR 数据集[27]以及SpecAugment[28]进行数据增强。实验使用VoxCe-leb1、SITW 以及CN-Celeb1 作为测试集,包括Vox1-E cl.、Vox1-H cl.、SITW-dev、SITW-eval 以及CN-Celeb1-eval。考虑到VoxCeleb 和SITW 包含重叠的说话人,本文在SITW 中去除了重复的说话人语音数据。实验结果使用等错误率和先验目标概率为0.01的最小检测代价函数作为评估指标。

3.2 实验设置

实验语音使用32 ms 窗函数分帧,帧移为12.5 ms,每段语音截取200 帧,得到80 维的F-Bank特征和GFBank 特征。损失函数使用边缘(margin)为0.2、尺度因子(scale)为30 的AAM-softmax[29]损失。初始学习率设置为0.001,每次epoch 学习率下降3%,数据批大小设置为400。使用Adam 优化器对网络参数进行优化。

在训练模型的基础上,将AAM-softmax 损失函数的边缘和尺度因子分别设置为0.4 与60,每条语音的持续时间加长到300 帧,对模型参数进行微调。其中,ET-FBank 模型为原始的使用FBank 特征作为输入的ECAPA-TDNN 模型,ET-AFF-CSx为本文提出的基于跨域注意力的通道数为x的特征融合网络,融合FBank 和GFBank 后的特征作为输入的ECAPA-TDNN 模型。

3.3 实验结果及分析

表2~表4 分别列出了本文提出的ET-AFF-CSx模型与基线模型ET-FBank 在VoxCeleb、SITW 和CN-Celeb 数据集上的实验结果。值得注意的是,基线模型ECAPA-TDNN 使用FBank 特征作为输入,在表2~表4 中,本文用基线模型ET-FBank 来表示原始的ECAPA-TDNN 模型,以和本文提出的ET-AFF-CSx 模型区分。

表2 不同模型在VoxCeleb1 数据集上的结果对比

如表2所示,本文提出的ET-AFF-CSx模型的EER和minDCF 均低于ET-FBank 模型与ResNet34 模型。其中,ET-AFF-CS128 模型取得了最低的EER 与minDCF,在Vox1-E cl.上的EER 与minDCF 分别为1.121%和0.070,相比基线模型的EER 与minDCF 分别降低了12.53%和17.65%;在Vox1-H cl.上的EER和minDCF分别为2.010%和0.124,与基线模型的EER和minDCF 相比,分别降低了16.63%和16.78%。此外,从表2 还可以发现,随着注意力特征融合网络的通道数增加,模型的性能也在不断提升。

如表3 所示,本文提出的ET-AFF-CSx模型在SITW 数据集上的EER 与minDCF 均优于其余模型。其中,ET-AFF-CS32 模型在SITW-dev 上取得了最低的EER,为1.617%,相比基线模型降低了16.09%;ET-AFF-CS128 模型在 SITW-dev 上的minDCF 为0.098,相比基线模型降低了23.44%;在SITW-eval 上的EER 和minDCF 分别为1.725%和 0.108,相比基线模型分别降低了 15.85%和18.80%。

表3 不同模型在SITW 数据集上的结果对比

如表4 所示,本文模型在CN-Celeb1 数据集上的各项评价指标均优于基线模型,其中ET-AFF-CS64 模型取得了最低的EER,相比基线模型降低了9.87%;ET-AFF-CS32 与ET-AFF-CS128的minDCF 最低,相比基线模型降低了13.20%。

表4 不同模型在CN-Celeb1 数据集上的结果对比

总体而言,本文提出的基于不同通道数的注意力融合特征模型的性能在VoxCeleb、SITW 以及CN-Celeb 这3 个数据集上均优于基线模型,同时,ET-AFF-CS128 模型在大多数数据集上实现了最好的性能。

3.3.1不同特征融合方法对比

为了验证本文提出的注意力特征融合网络方法的有效性,实验比较了特征叠加、特征拼接与本文方法在VoxCeleb1 数据集上的性能,如表5 所示。其中,ET-CAT 为将FBank 和GFBank 沿频率维拼接作为输入特征的ECAPA-TDNN 模型;ET-ADD为使用FBank 和GFBank 的线性叠加特征作为输入特征的ECAPA-TDNN 模型。从表5 可以看出,拼接或线性叠加等融合方法无法充分利用FBank 与GFBank 特征,反而会造成模型性能的下降,而本文提出的注意力特征融合方法通过自适应分配特征权重,充分利用了FBank 与GFBank 特征,实现了模型性能的提升。

表5 不同特征融合方法在VoxCeleb1 数据集上的结果对比

3.3.2与其他模型实验结果对比

表6 列出了本文方法与当前的主流模型ResNet34[23]、ECAPA-TDNN[18]以及其他新模型ReaNet34-GAT[4]、ResNet34-ft-CBAM[30]、MFCC+FDLP+wav2vec[6]、SAEP[24]、GCSA[25]和MLP-SVNet[31]在VoxCeleb1 数据集上EER 的实验结果对比。

表6 不同模型在VoxCeleb1 数据集上的EER 对比

如表6 所示,相比其他模型,本文方法的EER在Vox1-O cl.测试集上提升了9.52%~67.35%,在Vox1-E cl.测试集上提升了12.5%~60.98%,在Vox1-H cl.测试集上提升了16.60%~57.68%。

3.3.3消融实验

本节设计消融实验,以验证本文提出的基于图信号处理的GFBank 特征提取,以及FBank 与GFBank 的注意力特征融合网络的有效性,实验结果如表7 所示。其中,FBank 和GFBank 均为单一特征,未使用注意力特征融合网络。FBank+LFCC为使用FBank 与线性频率倒谱系数(LFCC,linear frequency cepstral coefficient)的融合特征,FBank +FBank 为使用 FBank 与自身融合的特征,ET-R-CS64 为仅使用ResNet 进行特征融合的模型,ET-SE-CS64 为仅使用SE 进行特征融合的模型(保留图7 中第一层与最后一层卷积层)。从表7可以看出,单一的GFBank 特征的模型性能略差于单一的FBank 特征,但两者的融合特征的模型性能优于单一的FBank 特征,这证实了跨域融合FBank 和GFBank 特征能有效地提升说话人确认的性能。因此基于图信号处理的GFBank 特征为模型提供了信号之间的结构信息,从而实现了模型识别性能的提升。此外,从表7 还可以看出,采用FBank 与LFCC 的融合特征,或FBank 与自身融合的特征,相比于采用单一的FBank 特征,模型的性能更差,这说明采用本文提出的跨域融合特征能够提升模型的性能并不是因为网络参数的增加,而是因为GFBank 特征提供了FBank特征以外的信息,这进一步证实了GFBank 特征的有效性。最后,在单独使用ResNet 或SE 进行特征融合的消融实验中,ET-R-CS64 性能优于前4 种方法,而ET-SE-CS64 由于缺少残差连接而导致模型性能下降。通过对比 ET-R-CS64 和ET-AFF-CS64 的结果可以发现,SE 网络提升了仅使用ResNet 进行融合的方法。因此验证了本文方法的有效性。

表7 消融实验

3.3.4特征泛化性实验

表8 给出了使用ResNet34 作为后端说话人特征提取网络的EER 结果,其中ResNet34 使用FBank特征,ResNet-AFF-CS64 使用融合特征。如表8 所示,对于ResNet34 模型,本文方法使EER 在Vox1-E cl.上降低了5.69%,在Vox1-H cl.上降低了10.16%。由此可见,本文提出的特征融合方法不仅适用于ECAPA-TDNN 模型,也适用于ResNet34 模型,因此本文方法具有较好的泛用性。

表8 特征泛化性实验

3.3.5说话人特征表示可视化图像对比

为了进一步验证本文方法的有效性,本文从Vox1-O cl.数据集中随机选取了23 个说话人的2 500 条语音,分别使用ECAPA-TDNN 和本文提出的ET-AFF-CS128 模型提取了说话人特征表示,并采用t 分布随机邻居嵌入(t-SNE,t-distributed stochastic neighbor embedding)[32]方法进行了可视化图像的对比,结果如图8 所示,其中相同的线框表示同一说话人的特征。

图8 说话人特征表示的可视化对比

从图 8 可以看出,与采用基线模型ECAPA-TDNN 提取的说话人特征表示相比,采用ET-AFF-CS128 模型提取的说话人特征表示对于相同说话人特征通常更加集中,有利于说话人确认任务,验证了本文提出的ET-AFF-CS128 模型的有效性。

4 结束语

本文提出了一种基于图信号处理的GFBank 特征,为说话人信息提取提供图结构信息,并使用注意力特征融合网络融合FBank 与GFBank 特征,得到跨域特征,应用于 ECAPA-TDNN 模型。在VoxCeleb、SITW 和CN-Celeb 数据集上的实验结果表明,与传统的单一特征相比,跨域融合特征提升了说话人识别模型的性能。此外,本文还研究了不同的特征融合方式以及不同的特征对最终的说话人识别模型性能的影响,并在ResNet34 模型上进行了特征泛化性实验。

猜你喜欢

集上频域特征提取
大型起重船在规则波中的频域响应分析
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
基于Daubechies(dbN)的飞行器音频特征提取
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
复扇形指标集上的分布混沌
Bagging RCSP脑电特征提取算法
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离
基于频域伸缩的改进DFT算法
基于MED和循环域解调的多故障特征提取