深度学习在语音识别声学建模中的应用
2018-11-01杨洋汪毓铎
杨洋 汪毓铎
摘要:目前人工智能时代已经到来,自动语音识别技术无疑是最好的人机交互方式之一。深度学习凭借其强大的建模能力在语音识别领域得到广泛使用。首先对深度学习进行简介;其次重点介绍了几种主流深度学习声学模型的研究现状;最后总结了语音识别领域直到现在仍存在的问题以及未来的可能研究方向。
关键词:人机交互;深度学习;声学建模;语音识别
中图分类号:TN912 文献标识码:A 文章编号:1009-3044(2018)18-0190-03
Application of Deep Learning in Acoustic Modeling of Speech Recognition
YANG Yang,WANG Yu-duo
(School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract: At present, the era of artificial intelligence has come. Automatic speech recognition technology is undoubtedly one of the best human-computer interaction methods. Deep learning is widely used in the field of speech recognition for its powerful modeling capabilities. Firstly, this article introduces the deep learning. Secondly, it mainly introduces the research status of several mainstream deep learning acoustic models. Finally, it summarizes the problems that still exist in the field of speech recognition and the possible research directions in the future.
Key words:Human–Computer Interaction;Deep learning;Acoustic modeling;Speech Recognition
1 引言
人与机器之间最理想的交流方式就是语音,语音识别是实现机器智能化的关键技术。语音信号具有复杂性、随机性以及非平稳的性质。由于语音识别的某些理论一直存在一定的假设,导致很长一段时间语音识别的研究都停滞不前,不能很好地适用于复杂多变的场景。为了解决语音识别的瓶颈问题需要引入一些新的方法。2006年,深度学习理论成功应用在机器学习中,由此研究人员开始将深度学习用于语音识别。深度网络能提取语音信号中更高层次的抽象特征,能对语音数据进行有效的建模。基于深度学习的声学模型相比于传统的基于高斯混合模型—隐马尔可夫模型(Gaussian Mixture Model – Hidden Markov Model, GMM-HMM)语音识别系统,在性能上有很大的提高,语音识别率有质的飞跃,其逐渐成为语音识别主流的声学模型。
2 深度学习简介
深度学习是人工神经网络(Artificial neural networks,ANN)的延伸和拓展,截至目前,其已经成为机器学习的一个重要分支。从本质上来说深度学习就是训练深层次神经网络模型的一种机器学习算法。普遍认为,深层结构学习算法正式发端于2006年,以Hinton 等人提出的深度信念网络( deep belief network,DBN) 为标志。一般来说,其基本过程包括两个阶段:
1) 预训练( pre-training)阶段,即特征学习阶段,就是利用受限波尔兹曼机进行自底向上的逐层非监督学习,非监督学习一般都是采用无标签数据去训练每一层,然后将每一层的训练输出作为其高一层的输入。
2) 微调阶段,按照误差反向传播算法(back propagation,BP)利用有标签的数据自顶向下对所有层的权值和偏置进行微小的调整。
由于深度学习在进行特征学习时是通过学习无标签的数据来对网络进行初始化的,而不是随机初始化,因此,深度神经网络的权值以及偏置初值更接近全局最優值,与传统的人工神经网络相比,其学习算法效果更好。深度学习方法发展至今,已经形成了一系列的有监督和无监督的特征学习算法、层次概率模型以及神经网络[1]。一般来说,我们把深层结构学习算法模型分为两类:
(1)无监督学习的生成式模型,这种深度模型可以在数据没有目标类标签信息的情况下学习到数据更具有表征能力的抽象特征,这类神经网络一般包括受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)、深度置信网络、自编码器(Automatic Encoder,AE)等。RBM具有两层结构,包括一层可视层和一层隐含层,其中层间节点可以相互连接,层内节点无连接。由多个RBM堆叠就可以构造出一个深度置信网络。自动编码器只包含一个隐层,它的显著特点就是输出与输入接近相同,一般需要RBM进行预训练。
(2)有监督学习的判别式模型,这种深度模型一般针对的是有目标类标签的数据,它具有对数据进行模式分类的判别能力。这类模型主要有循环神经网络(Recurrent Neural Network,RNN),卷积神经网络(Convolutional Neural Network,CNN),以及长短时记忆网络(Long Short-Term Memory,LSTM)和双向长短时记忆网络。RNN能够利用信号中的时间依赖性提取数据特征,是一种具有记忆性的模型,它在传统的前馈神经网络中加入了反馈连接。CNN是根据猫视觉系统的感受野神经机制提出来的,具有局部连接、共享权值的特点。就神经网络的结构来说,它与其他神经网络的不同之处在于隐层包含卷积层和池化层,并在图像识别与分类、目标定位等领域得到广泛使用。LSTM和双向长短时记忆网络是基于RNN提出来的一种改进深度学习模型,能够克服传统RNN在经过较多的时间步骤以后出现的梯度消失问题,其已成功应用在了语音识别、文字识别等领域。
3 深度學习在声学建模中的研究现状
语音识别流程如图1所示。语音识别过程首先需要对语音数据进行分帧、预加重、端点检测等预处理操作,接着提取语音数据的声学特征,然后用提取到的声学特征参数去训练声学模型;语言模型通常是利用文本形式的语料(如人民日报)训练而得,从语料中学习当前词序列出现的可能性,简单来说语言模型的作用就是把一个词序列组合为一句符合人们使用规范的语句;解码搜索是构建一个状态空间,利用声学模型得分和语言模型得分,采用维特比算法将总体分数最高的词序列作为最终的识别结果。
目前深度学习已经成功应用在了音素识别、声韵母识别、孤立词识别以及大词汇量语音识别中。具体到语音识别的流程中,深度学习主要应用在提取更加抽象的高层声学特征以及对现有隐马尔可夫声学模型的构建进行加强。下文主要对深度学习在声学建模中的发展现状进行阐述。
2009年,文献[2]基于TIMIT数据库将深度神经网络(Deep Neural Network,DNN)首次用于声学建模进行语音识别,系统性能有很大提升。文献[3]基于RM语音库进行DNN-HMM声学建模,识别正确率要比GMM-HMM声学模型提高了30%。文献[4]提出了一种基于DAE-HMM的声学模型构建方法,实验结果表明,对于具有不同信噪比的小词汇孤立词语音识别系统,DAE具有良好的抗噪声性能。
对于RNN,文献[5]最早提出将声学模型中的GMM用RNN来代替,并且在TIMIT语音数据库中取得了较好的结果。采用双向LSTM做语音识别相比于DNN能获得了20%的性能提升。为了进一步简化语音识别的流程,从语音数据的输入到最后的文字串识别结果的输出,只有一个深度神经网络模型,不再需要其他的模型,实现端到端的语音识别, Graves等提出一种新的声学模型将连接时序分类技术(Connectionist Temporal Classification,CTC)和LSTM结合[6],将语音识别问题表述成语音特征序列与其对应的音素序列之间的序列转换问题。文献[7]研究藏语的语音识别时将CTC与双向LSTM结合,语音识别率提升了2.93%。
CNN在时域和频域上能够实现卷积运算的平移不变性,因此在用于声学建模时能够克服语音信号的多样性。CNN,LSTM和DNN在建模能力上是互补的,因为CNN在减少频率变化方面很出色,LSTM擅长时间建模,而DNN适合将特征映射到更加可分离的空间。文献[8]利用CNN,LSTM和DNN的互补性将它们组合成一个统一的CLDNN体系结构,与单类型的深度学习声学模型相比,语音识别系统性能有很大改善。文献[9]提出的非常深的CNN体系结构可以显著降低噪声鲁棒语音识别的词错率。目前,微软、百度、科大讯飞等公司提出自己的Deep CNN模型,语音识别取得巨大突破。百度公司采用VGGNET以及包括Residual的Deep CNN等模型,结合LSTM和CTC的端到端语音识别技术,使得系统有10%的相对性能改善。
大量的研究工作表明,为了获得语音识别中较低的词错率,以及能够较好地适用于各种复杂的实际应用场景,用深层次的神经网络替换传统声学模型中的GMM部分是非常可取的,也是非常成功的。
4 结束语
目前基于深度学习的语音识别器在发音规范且相对安静的环境下,识别率已经很高了,而且已经可以实用化了,比如阿里巴巴的天猫精灵产品、苹果的Siri系统等。但是在复杂噪声干扰、发音不规范、方言、说话不连贯存在较长时间的停顿时以及远场情况下,基于深度学习的语音识别技术的识别率会急剧下降。目前还没有一个系统的语音识别技术去解决这些复杂条件下语音识别存在的问题。而且语音识别领域仍然存在的一个严峻问题是缺少大规模的语音数据(比如几十万小时的语音)去进行深度学习声学模型的训练,以得到足够的鲁棒性。
对于未来的语音识别研究方向,研究者应该关注于如何让机器去尽可能地模仿人脑机制去识别语音,以应对复杂环境下识别正确率的迅速降低。而且由于目前基于深度学习成熟的识别语音技术在整个识别过程中需要较多烦琐的步骤,例如要独立训练声学模型和声学模型,然后送到解码网络中进行解码,所以基于深度学习的端到端的语音识别技术在未来是一个值得研究的方向。
参考文献:
[1] 邓力, 俞栋. 深度学习: 方法及应用[M]. 机械工业出版社, 2016.
[2] Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips Workshop on Deep Learning for Speech Recognition and Related Application.Whistler, BC, Canda:MIT Press, 2009:39.
[3] 李晋徽, 杨俊安, 王一. 一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J]. 计算机科学, 2014, 41(3):263-266.
[4] 黄丽霞, 王亚楠, 张雪英,等. 基于深度自编码网络语音识别噪声鲁棒性研究[J]. 计算机工程与应用, 2017, 53(13):49-54.
[5] Graves A, Mohamed A R, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[J]. 2013, 38(2003):6645-6649.
[6] Graves A, Jaitly N. Towards end-to-end speech recognition with recurrent neural networks[C]// International Conference on Machine Learning. 2014:1764-1772.
[7] 王庆楠, 郭武, 解传栋. 基于端到端技术的藏语语音识别[J]. 模式识别与人工智能, 2017, 30(4):359-364.
[8] Sainath T N, Vinyals O, Senior A, et al. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015:4580-4584.
[9] Qian Y, Bi M, Tan T, et al. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016, 24(12):2263-2276.