APP下载

基于PReLU的DNN-LSTM混合神经网络在语音识别中的研究

2018-12-14徐海青吴立刚浦正国

福建茶叶 2018年12期
关键词:准确率语音神经网络

李 明,徐海青,吴立刚,浦正国

(1.国网安徽省电力有限公司信息通信分公司,安徽合肥 230000;2.安徽继远软件有限公司,安徽 合肥 230000)

1 引言

传统的语音识别技术是基于混合高斯模型和隐马尔科夫模型(GMM-HMM),随着深度学习的兴起,一些深度学习神经网络开始被应用到语音识别中,在声学模型和语言模型的训练中不断地引入DNN、CNN、RNN不同网络结构以及不同的激活函数,2015年DNN-HMM研究中发现将DNN神经网络中的激活函数换成修正的线性单元(ReLU)函数可以获得更好的效果[1-2]。随后,2015年基于ReLU函数的DNN神经网络研究中发现,可以通过合理的参数设置,采用大批量的随机梯度下降算法,然后利用多GPU同时训练,大大缩减了训练的时间[3-4]。

除了DNN和CNN神经网络外,人们还引入了循环神经网络(RNN)来解决长时时序相关性的建模问题,同时研究报道基于双向LSTM语音声学模型系统可以获得比基于DNN系统超过20%的性能提高[5]。

本文提出一种将基于PReLU激活函数的DNN神经网络和LSTM神经网络结合的混合神经网络,并通过训练和识别的实验证明新型的混合神经网络不仅在训练时间上表现的很好,在识别准确率方面也有很大的提升。

2 基于PReLU的DNN-LSTM混合神经网络

针对DNN神经网络和LSTM神经网络的特性,设计一种基于DNN神经网络和LSTM神经网络的混合神经网络,并将该混合神经网络应用在语音识别方向上。通过混合神经网络和单一DNN神经网络以及LSTM神经网络在训练时间和识别准确率方面的对比来验证改进的混合神经网络的性能。

图1 混合神经网络结构

如图1所示,混合神经网络是由3层的LSTM神经网络做底层,每层神经网络包含512个节点;在高层上用了包含3层的DNN神经网络,每层的神经网络都包含1024个节点。对于DNN神经网络,可以选取多种激活函数,但是对于LSTM神经网络,激活函数只能选择tanh函数和Sigmoid函数,因为LSTM中存在逻辑门,所以ReLU系列函数不能满足要求。这里设计的LSTM神经网络用的激活函数为Sigmoid函数,DNN神经网络中的激活函数取PReLU函数,与之对比的是用了Sigmoid函数的DNN和LSTM混合神经网络以及单独用了3层深度神经网络的DNNHMM模型和单独用了3层的LSTM神经网络。LSTM神经网络中有记忆单元,可以记录很长的历史信息;而DNN神经网络可以很有效提取数据中的高层次信息的特征,从而提高分类精度。

3 实验

本文基于THCHS30数据库进行测试,THCHS30数据库是2015年清华大学语音语言技术中心发布的,数据库中有超过1000条句录音文本,包括50个说话人的35小时的语音数据,数据库内容大部分来自新闻语料,涵盖了各种语音。实验采用的操作系统是Windows7专业版,CPU为Intel i7-6700,主频为 3.4GHz,内存为 16GB。

图2 五种神经网络的训练时间和准确率

图中D1表示基于Sigmoid激活函数的DNN神经网络,D2表示基于PReLU激活函数的DNN神经网络,LH表示的是LSTM神经网络。M1表示基于Sigmoid激活函数的DNN和LSTM混合神经网络,M2表示基于PReLU激活函数的DNN和LSTM混合神经网络。发现采用的混合型神经网络结合并发扬了两种神经网络的优点,拥有更快的训练速度和更高的准确率,两种混合神经网络都比单一的神经网络有更好的训练效果,其中效果最好的DNN(PReLU)-LSTM神经网络训练速度比单一的LSTM神经网络快47.8%,同时准确率比单一的LSTM神经网络高8.6%。

图3 五种神经网络的识别准确率

图3是识别的结果,可以看出识别准确率最高的是两种混合神经网络,混合神经网络中DNN神经网络用的PReLU激活函数的要比DNN神经网络用Sigmoid激活函数的准确率高,和两种单一的DNN神经网络对比结果类似。五种混合神经网络中基于PReLU激活函数的DNN和LSTM混合神经网络DNN(PReLU)-LSTM识别准确率较单一基于Sig-moid激活函数的DNN神经网络提高10.8%。

具体的实验数据见表1。

表1 五种神经网络实验的结果

4 结论

本文通过对DNN、LSTM等神经网络和激活函数的研究,提出一种基于PReLU激活函数的DNN-LSTM混合神经网络。语音识别的训练和识别实验表明混合神经网络继承并发扬了两种神经网络的优点,具有更快的训练速度和更高的识别准确率,这为以后语音识别的研究提供了一种新思路。

猜你喜欢

准确率语音神经网络
基于递归模糊神经网络的风电平滑控制策略
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
基于神经网络的中小学生情感分析
对方正在输入……