APP下载

基于反向卷积的Bi—LSTM语音识别

2018-09-26居治华刘罡陈琦岚吕微阮佳慧武业皓

软件导刊 2018年7期
关键词:语音识别深度学习

居治华 刘罡 陈琦岚 吕微 阮佳慧 武业皓

摘要:语音本身具有一定的上下文相关性,而传统语音识别系统中的语言模型对历史信息记忆能力不足,无法充分学习语音序列的相关性。为解决该问题,提出一种基于反向卷积的双向长短时记忆(Bi-LSTM)网络的语音识别方法,该模型在反向长短时记忆单元通路末端增加了一个卷积层,再经过两个全连接层,最后通过分类器输出识别结果。将该模型与目前主流的深度学习模型进行实验对比,结果表明该模型能有效提高语音识别正确率。

关键词:语音识别;双向长短时记忆神经网络;深度学习

DOI:10.11907/rjdk.173082

中图分类号:TP301

文献标识码:A文章编号:1672-7800(2018)007-0027-04

Abstract:Thespeechitselfhasacertaindegreeofcontextualrelevance.However,thelanguagemodelinthetraditionalspeechrecognitionsystemisnotcapableofrememberinghistoricalinformationandcannotsufficientlylearntherelevanceofthespeechsequence.Tosolvethisproblem,thispaperproposesaspeechrecognitionmethodbasedonreverseconvolutionaryBidirectionalLongShortTermMemory(Bi-LSTM)network.Themodeladdsaconvolutionlayertotheendofthememorycellpathinthereversedirection,andthenpassesthroughtwofullyconnectedlayers.Finally,therecognitionresultisoutputtedthroughtheclassifier.Comparedwiththecurrentmainstreamdepthlearningmodel,thismodelcaneffectivelyimprovethespeechrecognitionaccuracy.

KeyWords:speechrecognition;bidirectionallongshort-termmemoryneuralnetwork;depthlearning

0引言

语音识别是将一段语音信号转换成对应的文本信息或命令的技术。传统的语音识别由信号处理及特征提取模块、声学模型、发音词典、语言模型、解码器所构成,常用方法有:动态时间规整(DynamicalTimeWarping,DTW)[1]、矢量量化(VectorQuantizization,VQ)[2]、隐马尔科夫模型(HiddenMarkovModel,HMM)[3]等。

随后发展的人工神经网络也被应用于语音识别,但它与传统语音识别方法不同,其本质上是一个自适应非线性动力学系统,一般由神经元、训练算法及网络结构3大要素构成。人工神经网络模型有反向传播算法(BackPropagation,BP)[4]、最大熵法(LogisticsRegression,LR)[5]、Boosting算法[6]等。但这些都属于浅层学习模型,例如,Boosting模型只有一层隐含层节点,LR没有隐含层节点。浅层人工神经网络模型存在着一些问题,例如,不能很好地解释语音信号的时间动态特性;在训练学习网络模型时容易过拟合;调整模型参数较难,需要不少技巧和经验。随着深度学习概念[7]的提出,不少深度学习模型也被应用于语音识别中。深度学习是用多层非线性结构将低层特征变换成更加抽象的高层特征,通过逐层学习和特征变换,保留本质特征,从而提升分类或预测准确性[8]。目前主流的深度学习模型有循环神经网络(RecurrentNeuralNetworks,RNN),其被應用于语音识别的声学建模[9],但简单的RNN存在梯度消失问题,历史信息记忆能力不强。为解决该问题,研究人员提出基于长短时记忆单元(LongShort-TermMemory,LSTM)的递归结构[10],在此基础上又提出双向长短时记忆(BidirectionalLongShort-TermMemory,Bi-LSTM)网络[11]。相比于LSTM模型,应用Bi-LSTM模型的语音识别正确率更高。

针对以上问题,本文提出一种基于反向卷积的Bi-LSTM模型用于英文数字语音识别,该神经网络包含Bi-LSTM结构、卷积层、全连接层与分类器。该模型不仅继承了Bi-LSTM结构可获取语音特征序列上下文所含隐藏信息的能力,增加的卷积层还能提取出更抽象的语音特征向量,加速网络计算过程。经过本文实验验证,与常见的深度学习模型相比,基于反向卷积的Bi-LSTM模型语音识别正确率与之相当或者更高。

1相关模型

1.1长短时记忆单元

循环神经网络(RecurrentNeuralNetworks,RNN)不仅具有前向反馈神经网络神经元信号,能向上一层传播,还能够有效利用上一时刻隐含层单元输出的数据[12]。但RNN网络在梯度后向传播过程中会产生“梯度消失”问题,使网络参数学习过程极为缓慢,即在实际中能获取利用的历史信息非常少。

为有效解决上述问题,Hochreiter等提出长短时记忆单元结构(LongShort-TermMemory,LSTM)。LSTM是一种时间递归神经网络,能选择性地记忆历史信息。研究人员在RNN模型基础上对其作进一步改进,即用如图1所示的LSTM单元替换RNN网络中的隐含层节点,则形成LSTM网络。

LSTM单元的记忆单元(MemoryCell,Cell)状态受到3个门控制,即输入门(inputgate)、遗忘门(forgetgate)、输出门(outputgate)。输入门将当前数据选择性地输入到记忆单元;遗忘门调控历史信息对当前记忆单元状态值的影响;输出门用于选择性输出记忆单元状态值。3个门和独立记忆单元的设计,使LSTM单元具有保存、读取、重置及更新长距离历史信息作用。在时刻t,Cell的状态通过以下步骤进行更新:

1.2双向长短时记忆

LSTM缺点是只能利用出现在当前节点之前的信息,而无法充分利用未来的信息。Bi-LSTM神经网络能解决上述问题,如图2所示,Bi-LSTM包括输入层、前向传递层、后向传递层、输出层。输入层对应于序列向量,其主要构建了一个对齐的双层模型,一层从右向左传播,一层从左往右传播;前向传递层节点连接输入层节点和上一输入的历史状态;后向传递层节点同样连接输入层节点和同一层次上一时刻输入的历史状态。其基本思想是利用两个独立的隐含层分别向前和向后捕获上下文所含的隐藏特征信息,最后将两个隐含层结果组成最终输出。

2反向卷积Bi-LSTM模型

Bi-LSTM模型的结构和性能优异,但语音识别正确率有待进一步提高。因此,本文对Bi-LSTM网络模型进行改进,整体结构如图3所示。第一部分是输入层,输入Mel频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)特征向量;第二部分是特征提取层,包含正向和反向LSTM结构,反向LSTM通路包含一个卷积层;第三部分是分类层,包含两个全连接层、Softmax分类器。

Bi-LSTM层中包含一个正向LSTM和一个反向LSTM,正向LSTM用于捕获语音特征向量上文信息,而反向LSTM捕获语音特征向量下文信息,最后通过组合捕获的语音上下文特征信息向量,获取全局的上下文信息。一般以正向LSTM获取的语音特征上文信息构成的输出为准,在反向LSTM末端加卷积层是为了避免反向LSTM单元获取的语音特征下文信息对输出过多干扰,因为卷积层能提取出参数更少的特征向量。

反向卷积的Bi-LSTM模型语音识别整体流程如下:①首先通过语音预处理、特征提取模块,从语音中提取出MFCC特征向量,将MFCC特征向量同时输入到正向LSTM层和反向LSTM层;②MFCC特征向量经反向LSTM提取出与语音特征下文信息相关的参数向量,将其送入卷积层进行卷积运算;③将卷积层输出的更为抽象的参数向量和正向LSTM层输出的与语音特征上文相关的参数向量拼接成一个新的特征参数向量;④将新的特征参数向量送入两个全连接层,达到参数优化的效果;⑤将优化后的特征向量送入Softmax分类器,分类识别后输出分类标签和识别正确率。

3实验相关及结果分析

3.1实验环境、数据集及评价指标

本实验所有模型全部使用NVIDIAGeForceGTX1080显卡进行训练。实验采用深度学习框架TensorFlow,其能对函数进行自动求导以及分布式计算,还用到一个名为tensorboard的可视化工具,启动后可通过网页观察模型结构与训练过程中各参数的变化。

实验采用名为Spoken_Numbers的英文数字数据集,该数据集分为训练集、测试集两部分,分别由2400、450个wav格式的音频文件组成,大小为470MB。音频是由15人录制的0~9英文数字语音。两者统计信息如表1所示。

语音识别效果的评价指标采用词识别错误率WER,为使识别出的词序列与标准词序列保持一致,需要进行替换、删除或者插入某些词,插入词(Insertions)、替换词(Substitutions)和删除词(Deletions)3者个数总和除以标准的词序列中词个数(TotalWordinCorrectTranscript)的百分比,即为WER,其计算公式如下:

3.2参数设置

在Bi-LSTM层,将正向和反向LSTM的隱含层节点数都设置为128。经过语音预处理并提取出80维MFCC特征向量后,将该特征向量同时送入正向和反向LSTM单元神经网络通路中。其中Bi-LSTM层能将语音的MFCC特征向量序列化,并提取出语音前后相关的特征信息;而卷积层中采用的卷积核进行卷积运算能在输入信号的每个位置叠加单位响应,得到输出信号,即能使原语音信号特征增强,降低噪音。训练中梯度下降函数采用批量梯度下降法,它使交叉熵损失函数的输出值loss向当前点对应梯度的反方向不断移动,从而降低loss。一次移动距离是由学习速率控制的,设置为0.0015。实验对10个英文数字进行分类识别,因此式(8)中的类别k值设置为10。

3.3结果分析

图4-图6分别为LSTM模型、Bi-LSTM模型和反向卷积的Bi-LSTM模型在tensorboard中产生的loss图,其中横坐标step是训练代数,纵坐标loss是损失函数的输出值。loss越高,表示预测值和目标值差异性越大。三者对比来看,0~2000代阶段,反向卷积的Bi-LSTM模型loss下降速率最大,即lossfunction收敛速度最快;到5000代时,反向卷积Bi-LSTM模型的loss值最趋近0,即收敛效果最好。

3种模型的词识别错误率如表2所示,WER越小,表示语音识别系统识别率越高。训练时,反向卷积Bi-LSTM模型的WER相较于单向LSTM降低了4.96%,相较于Bi-LSTM模型降低了0.37%;测试时,反向卷积Bi-LSTM模型的WER相较于单向LSTM降低了612%,相较于Bi-LSTM模型降低了0.57%。实验结果表明,基于反向卷积的Bi-LSTM模型词识别错误率最低,有效提高了英文数字识别正确率。

4结语

本文通过对主流深度神经网络模型的研究,发现传统模型都存在一些问题,比如RNN模型存在梯度消失问题,不能保留长距离的历史信息;LSTM模型仅在时序上处理序列,忽略了未来信息;应用于英文语音识别系统的Bi-LSTM模型能解决上述问题,其可以捕获历史信息,并充分获取语音序列向量上下文相关性信息,但存在词识别正确率不高、训练时间较长的问题。因此,本文提出一种基于反向卷积的Bi-LSTM模型,即在反向LSTM通路末端加入卷积层,从而优化并减少语音特征参数,缩短训练时间。实验结果表明,基于反向卷积的Bi-LSTM模型能相对提高英文数字语音识别正确率。

然而,本文针对反向卷积的Bi-LSTM模型仅经过较小数据量的训练和测试,其中还有许多理论和应用问题需要继续深入探讨。实验中训练使用的语音数据集仅为英文数字,要想取得更好的识别效果,应收集更多不同类型数据集作进一步探索。

参考文献:

[1]吕钊.噪声环境下的语音识别算法研究[D].合肥:安徽大学,2011.

[2]魏艳娜.语音识别的矢量量化技术研究[D].邯郸:河北工程大学,2007.

[3]陈程.基于HMM的语音识别系统研究[D].长沙:中南大學,2008.

[4]陈硕.深度学习神经网络在语音识别中的应用研究[D].广州:华南理工大学,2013.

[5]周雅倩.最大熵方法及其在自然语言处理中的应用[D].上海:复旦大学,2005.

[6]SCHAPIRE,ROBERTE.Thestrengthofweaklearnability[J].Machinelearning,1990,5(2):197-227.

[7]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.

[8]DENGL.Anoverviewofdeep-structuredlearningforinformationprocessing[C].Xi′an:APSIPAASC,2011.

[9]GRAVESA,MOHAMEDA,HINTONG.Speechrecognitionwithdeeprecurrentneuralnetworks[C].InAcoustics,SpeechandSignalProcessing,2013IEEEInternationalConference,2013:6645-6649.

[10]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.

[11]GRAVESA,SCHMIDHUBERJ.FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[J].NeuralNetworks,2005,18(5):602-610.

[12]LEVYO,ZESCHT,DAGANI,etal.UKP-BIU:similarityandentailmentmetricsforstudentresponseanalysis[C].InSecondJointConferenceonLexicalandComputationalSemantics,2013:285-289.

(责任编辑:黄健)

猜你喜欢

语音识别深度学习
通话中的语音识别技术
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于LD3320的非特定人识别声控灯系统设计