一种基于梯度的语音识别主动学习询问策略
2021-06-16李诗铭陈昌勇
杨 媛,李诗铭,陈昌勇,叶 舟,李 杰
(上海航天电子技术研究所,上海201109)
0 引言
随着互联网和大数据的发展,深度学习在许多研究和工业领域发展迅速,例如图像处理、自然语言处理和语音信号处理。然而网络采集的数据由于未标注并不能直接用于深度学习神经网络的训练,特别是在语音识别中,手工为上百小时的野生语音数据标注音标音素冗长且成本较高。
因此,为了解决标签训练数据规模大的问题,可以筛选出高价值数据的主动学习应运而生。一般来说,未经训练的数据在深度神经网络训练阶段的反向传播中会得到更大的梯度,从而产生更好的训练效果。而当这些数据的标签存在时,这种方法称为真实梯度长度(True Gradient Length,TGL)[1]。
尽管TGL是最理想的主动学习询问方法,但在实际中并不能直接使用,仍然需要标签数据集。目前,比较常用的2种主动学习查询策略是信息不确定度[1-2]和模型改变量[3-4]。其中不确定度表示当前深度学习模型判定目标类别时的不确定程度,这一策略又细分为Least confidence[5]、Margin sampling[6]和基于熵(Entropy-based)的方法[7]。另一种选择策略是在给定新输入数据的情况下模型的变化。例如,期望梯度长度(Expected Gradient Length,EGL)[8]是计算反向传播过程中梯度的变化,且该过程不需要真实数据标签。此外,基于模型变化的方法还有Query-by-committee[9-10]和Density_weighted[11-12]。但常规的主动学习方法在衡量信息度方面相较于TGL仍有不足。
本文提出了一种新的主动学习询问策略,即使用深度学习框架来估计TGL。经过分析,因为EGL和熵可以从不同角度评估数据信息量,将这2个方法作为深度神经网络的输入,经训练后得到预测的TGL。本文将新提出算法与传统主动学习策略在Connectionist Temporal Classification(CTC)[13]的音素识别系统中的性能进行对比,结果显示,在干净和含噪声的语音环境中,使用估计TGL算法筛选数据得到的识别结果均优于仅使用传统的单一方法。
1 主动学习
1.1 基于不确定度的主动学习
基于不确定度的方法是最简单的主动学习查询策略,它直接计算学习模型的后验概率。而其中最广泛使用的是如式(1)所示的基于熵的方法:
(1)
它考虑了输出yi和其所有可能标签J之间对输入xi和参数θ的熵。经过良好训练的数据在模型稳定后有较小的熵值,即系统的不确定性小,反之熵值大的一般为“Unseen”或未经训练的数据。因为其他如Least Confidence和Margin Sampling方法只考虑一个或2个标签的影响,它们并不适用于多类别问题,比如目标类别较多的语音识别和图像分类。而熵的方法通过考虑所有可能的类别标签来弥补其他方法的不足。
1.2 基于模型改变量的主动学习
最大模型改变量表示当输入一个新样本时会导致现有模型产生最大的变化。而改变量可以由梯度长度‖∇θL(xi,yi:θ)‖体现。在实际应用中神经网络学习算法并不会预知y的真值标签,所以需要计算所有可能标签的梯度期望值,然后选择EGL最大的样本实例,如式(2)所示:
(2)
2 基于多种询问策略和神经网络的主动学习算法
2.1 联合询问策略
文献[14]提出上节中介绍的2种方法倾向于选择不同类型的数据。图1展现了EGL和熵的不相关性。因为它们的值在不同量级,所以图中x,y轴表示的是归一化等级。图中的点越聚集在对角线附近,表明2种方法的相关性越高,即它们从非常相似的角度衡量信息度。反之,由图中EGL和熵的点分散在各处,表示它们不相关,推断出EGL能够体现熵无法捕获的信息度的独特方面。因此,联合使用EGL和熵可以获得样本更全面的信息量展现。
图1 EGL和熵的不相关性Fig.1 Uncorrelation between EGL and entropy
为了结合2个不同的标准,应该分析每种策略的强度,或者通过强化学习或元学习处理[15-16]。由于这些方法需要非常复杂的训练过程且具有巨大的计算复杂性,因此实际使用时是非常不便的。本文将使用神经网络来结合2个策略的特征以逼近TGL真值。因为每个标准具有不同的动态范围,所以首先应将所有标准(EGL、熵和TGL)都转换至百分比维度,再馈入神经网络以求得估计TGL值,如图2所示。
图2 通过神经网络联合EGL和熵逼近TGL真值Fig.2 Combining EGL and entropy to estimate TGL through DNN
2.2 在CTC-ASR中的应用
所提的主动学习询问策略适用于任何基于深度学习的系统,本文将其应用于基于CTC的语音识别。使用CTC是因为它不需要准确的强制对齐过程即可确定语音标签。要注意的是,CTC有一个额外的“空白”标签来区分时间上的标签变化,且其概率远高于其他标签,因此在计算熵总和之前应删除“空白”,以免造成可能由标签引起的偏差。另外为了降低EGL的计算成本,仅计算概率最高的前K个标签,这些标签可以通过波束搜索解码(Beam Search Decoding,BSD)过程获得,修正后的EGL计算如下:
(3)
上式表明,路径概率首先与解码结果相乘,再计算该加权CTC损失函数的梯度。
图3展示了提出的方法应用于语音识别时主动学习的整体过程。首先ASR模型由标记过的小规模数据集进行预训练,ASR使用的是Bidirectional Long Short-term Memory(BLSTM)循环神经网络结构。接着将未标记的大型原始语音数据池输入到预训练模型中,通过诸如不确定性、EGL和提出算法之类的主动学习标准,选出最有价值的语音样本,交给专家进行人工注释。标注后,将这些实例合并到现有数据集中并重新训练现有识别模型。重复此过程,直到获得理想的ASR性能。
图3 基于联合主动学习策略的语音识别全过程Fig.3 Overall speech recognition process based on the combined active learning strategy
3 仿真校验
本节主要通过Python软件仿真验证前文理论推导的准确性,将提出算法应用于语音识别后的性能和其他传统主动学习方法进行比较分析。
3.1 实验设定
语音识别实验设定在安静和噪声2种环境中。对于无噪声的安静环境实验,使用TIMIT语料库,将其划分为5个集合分别包含1 200,2 000,200,200和192个语音句子,用于预训练、主动学习的无标签数据池、TGL估计训练、ASR训练的验证集和ASR的测试集。为了在含噪声的环境中进行实验,每个数据集都包含纯语音实验中使用的相同语音,再混合CHiME3语料库的4种噪声类型:巴士、咖啡厅、街道和行人。预训练的语音以均匀、随机的方式混合-5,0,5,10 dB信噪比的巴士,咖啡馆和行人3种噪声,其他数据集则混合所有噪声种类,而测试集使用同种但不同环境下录制的噪声。综上,在取整后,如表1所示,每组分别产生了3 000,10 000,600,1 000,1 000个语音样本。
表1 数据集架构Tab.1 Dataset configuration
对于深度神经网络ASR系统的特征提取,使用25 ms窗函数和10 ms帧偏移的40维Mel-filterbank。根据文献[17],本文使用折叠的39个音素标签,而不是完整的64个。ASR性能的评判准则采用音素错误率(Phoneme Error Rate,PER)。ASR神经网络在安静环境实验中由3层具有256个单元的隐藏层组成,在嘈杂环境中由4层包含512个单元的隐藏层组成。模型权重经过Xavier初始化后,由Adam优化器训练。经CTC BSD过程确定,仅使用前50条可能路径来计算EGL,从而减少计算量。
对于TGL估计神经网络,由于训练数据集容量小且特征维度不大,仅使用含有2层隐藏层(每层10个单元)的浅层结构,其具有ReLU激活函数和Sigmoid输出函数,且使用均方误差准则对其进行训练。
3.2 实验结果
为了阐明TGL如何优于其他查询策略并证明所提方法与TGL具有相似的性能,实验中将TGL和估计TGL、EGL、熵和随机选择方法进行了比较。
3.2.1 纯语音(安静环境)实验
在实验中,比较了纯语音识别任务中的5种筛选策略。在每个选择阶段,选择固定数量的样本(来自未标记数据池的400个句子)。
图4展示了每种方法的PER。实验结果表明,4种主动学习查询策略均优于随机选择方法,并且与其他3种方法相比,TGL的错误率显著降低并具有更快的收敛速度。从图中还可以看出,所提方法的训练趋势与TGL相似,都有最低的PER且所需的训练时间更少。因此可以确认EGL和熵相结合能够较为准确地近似TGL,并且可以用作主动学习的查询策略。
图4 纯语音ASR PER结果Fig.4 PER results of clean speech ASR
3.2.2 噪声语音实验
为了验证所提主动学习策略的泛化性能,将其应用于含噪声ASR系统并分别评估每种噪声类型下的性能。每个噪声的选择数据集包含2 500个语句,每个测试集包含250个语句,在每次选择迭代中挑选1 000个样本。
图5显示了整个测试集的PER曲线。与干净语音条件下的实验结果类似,4种主动学习策略均优于随机选择方法。TGL和估计TGL也显示出更快的训练速度和更大的PER降低。图6描绘了当使用提出算法在主动学习过程中筛选数据时,每种噪声类型的选择率和PER降低率。可以看出,在前几次迭代中,与街道噪声混合的语句被选择的频率要比其他噪声类型更频繁,这是因为街道噪声未包含在预训练集中,它是“Unseen”的。但是,随着混合街道的样本数量增加,模型逐渐适应了街道噪声的特征,挑选出的样本中含有此噪声类型的语句也随之逐渐减少。同时,与前一迭代相比的PER减少量具有与选择数量相似的变化趋势,即初始比较陡峭,而后趋于平缓。
图5 噪声环境ASR PER结果Fig.5 PER results of noisy speech ASR
(a) 每一种噪声类型的选择比例
4 结束语
本文提出了一种新颖的主动学习询问策略,可以从大量未标记的数据中有效选择价值高的样本,以减少人工标注的成本。相比于传统方法,TGL可以更准确地展现信息量,新算法的主要思路是通过神经网络结合EGL和基于熵的不确定性方法来估算TGL。通过音素语音识别的仿真结果也证实了所提出的估计TGL方法的有效性,该方法以更少的标注数据提高了性能,且减少了神经网络的训练时间。