基于区块链技术的语音识别
2019-01-11杨雪梅
杨雪梅
摘要:由于具有去中心化、抗腐蚀以及加密算法等先进性质,区块链技术给科学技术领域带来了一场前所未有的变革。本文探索了将区块链技术中的去中心化的思想与深度学习相结合并应用于语音识别领域的可行性,提出了一种适用于处理大规模的声学数据的融合分布式的深度学习模型,分析了该模型良好的学习潜能,它将成为语音识别领域的崭新技术。
Abstract: Blockchain is changing science and technology in a revolutionary way for its decentralized, incorruptible computing mechanism. This work explores blockchain applications in speech recognition via investigating decentralized deep learning models. The decentralized deep learning models demonstrate a good potential to handle large scale acoustic data by fusing distributed deep learning models to achieve better learning results. To the best of our knowledge, it is a pioneering work to explore blockchain technologies in speech recognition.
關键词:区块链;语音识别;深度学习
Key words: blockchain;speech recognition;deep learning
中图分类号:TP391.4 文献标识码:A 文章编号:1006-4311(2019)36-0281-03
0 引言
语音识别的任务是通过计算机程序将语音转换成一系列单词,包括编码和解码过程。首先将输入的音频波形转换为固定大小的声学矢量序列,这个过程本质上是进行特征提取的编码过程;然后,解码器使用声学和语言模型来找到使得输入序列的后验概率最大的单词序列。传统的语音识别系统采用隐马尔可夫模型(HMMs)来描述,HMMs具有直观性和计算可行性。然而,它在对输入空间中非线性流形上的数据进行建模时具有局限性[2]。
自20世纪80年代以来,研究者引入了由反向传播算法或其变体训练的神经网络进行语音识别,与HMMs相比,神经网络对特征统计特性不需要任何假设。然而,尽管神经网络在识别短期单元方面很有效,但在连续识别任务中却很少成功,这是因为它们缺乏建模时间依赖性的能力[3]。
为了克服这些缺陷,学者们又引入了深度神经网络模型(如DBN)[4-7]。由受限玻尔兹曼机(RBM)组成的深度信任网络(DBN)以其强大的特征提取能力在语音识别的某些子领域取得了非常成功的应用[8-10]。另一个典型例子是卷积神经网络(CNN)[11-12],CNN包含一对或多对卷积层(C层)、最大池化层(S层)和完全连接层,它同样展示了强大的特征提取功能。
尽管如此,目前主流的语音识别系统仍严重依赖于训练数据的数量,在数据有限的情况下,识别性能急剧下降。因此,语言资源不足的语音识别成为一个备受关注的难题。对于低资源语音识别,典型的特征提取方法包括凸非负矩阵分解(CNMF)和瓶颈特征提取[13]。一些科学家还提出了一种在卷积神经网络(CNN)中包含多分支特征的声学模型,其中多分支特征包括滤波器组特征、谱图、Mel频率倒谱系数和基音特征[14]。
近年来有很多研究工作致力于通过在机器学习中集成区块链技术来开发分布式的人工智能系统[1]。语音识别 作为深度学习的重要应用领域,必将也成为区块链技术发挥关键作用的重要场所。然而,在现有的文献中,尚未发现相关的研究。在本研究中,我们将探讨区块链在语音识别中的可能应用,包括:区块链能给现代语音识别带来哪些优势?如何在语音识别中实现区块链?我们可能面临哪些理论和实践上的挑战,如何应对这些挑战?
我们将通过介绍区块链及分布式机器学习,并讨论语音识别中可能的区块链模型,来回答这些问题。据我们所知,这是首次探索语音识别中的区块链技术,它将激励未来该领域更多的工作。
1 区块链及协作分布式深度学习
1.1 区块链
区块链的应用起源于数字货币,是分布式的数据结构,能够实现节点间的一致性协议和密码学算法,以其去中心化、抗腐蚀性以及加密算法的计算机制越来越受到各个领域的关注[15-16]。例如,IBM区块链提供分布式的金融服务,将交易时间从几小时缩短到几秒[17],同时,由于它的分布式和抗腐蚀的计算能力,增强了金融安全性。区块链技术正在以革命性的方式改变着数据的处理和存储方式。
1.2 去中心化的深度学习模型
为了将区块链的分布式思想应用到语音识别中,首先必须提到分布式深度学习。分布式深度学习是一种基于数据隐私保护的机器学习方法,通常应用于金融服务领域。如图1所示,分布式深度学习体系结构由多个共享模型(贡献者)和一个中央控制代理(其任务是融合共享深度学习模型)组成。分布式深度学习过程不是在中心服务器中处理数据,而是由各个贡献者独立处理。在实现分布式学习时,各计算贡献者利用本地数据独立地训练自己的深度学习模型,然后将模型参数分享给中央控制代理。中央控制代理将每个贡献者共享的参数进行融合,形成一个综合模型。由于深度学习模型是在具有较小数据集的分布式单元中进行训练的,因此与中央服务器相比,单个计算贡献者所需的计算能力要低得多。然而,在这个解决方案中,深度学习体系结构完全由一个集中式代理控制。因此,融合模型易受单点失效的影响[18-21]。为了克服这一缺点,提出了一种协作分布式的深度学习体系结构。
1.3 协作分布式深度学习
如图2所示,协作分布式的深度学习构架由一个应用程序发起者、几个计算贡献者和验证贡献者组成。在这个构架中,每个单元都有自己的决策界面,可以独立做决策。应用程序发起者负责定义计算任务,例如输入数据的属性和预期的输出。它们还为验证贡献者提供了一组样本数据(包括培训和验证数据),定义了预期的准确率。计算贡献者负责构建和训练深度学习模型;每个计算贡献者可以根据其性能参与或离开整个计算架构。根据发起者给出的任务,计算贡献者将使用本地数据设计和训练适当的机器学习模型,并将其发布给验证贡献者。在接收到计算模型之后,验证贡献者负责评估计算贡献者的性能,并将结果报告给发起者。发起者决定要融合哪些计算贡献者以及如何融合[22-25]。
2 语音识别中的区块链技术
语音识别的最大挑战是通过模型识别来处理大量的数据并达到最佳的识别精度。识别的准确性取决于模型对各种变化的适应性。基于区块链技术的协作分布机器学习可以很好地解决这些问题。
如引言所述,语音识别的系统架构,一个重要的步骤是使用声学和语言模型尝试解码。然而,在声学模型中存在着许多不确定因素,如说话人特征、语音风格和速率、噪声干扰、口音、麦克风和环境变异、性别和方言等,受到协作学习和分布学习的启发,可以设计一个语音识别的融合模型,将不同速率、不同噪声、不同麦克风、不同性别、不同方言的数据作为每个共享模型的训练数据。
如图3所示,我们有五个卷积神经网络(CNN)模型作为计算贡献者;它们分别使用具有不同速率、噪声、麦克风、性别和方言特征的数据进行训练。对五个共享模型进行充分训练后,得到五个特征向量fi(i=1、2、3、4、5)。从训练好的模型中移除输出层,并融合每个共享模型的特征。考虑用两层策略来连接,每一层通过计算前一层的相应值的加权和来实现。假设fi是第i个模型的上层特征向量,它们被连接起来形成连接的特征fc。隐藏层h和输出层y是基于完全连接层的权矩阵A和B计算的,权矩阵A和B随机初始化,由反向传播算法的变体(例如Adam)计算权重矩阵A和B的最佳值[26]。我们还可以考虑梯度融合策略,该策略通过一种特殊的方法初始化权重矩阵A和B,从而学习不同计算模型之间的相关性,同时保持每个计算模型的唯一性。由于融合模型考虑了声学模型中的各种不确定因素,因此协作分布式深度学习模型的整体性能有望提高。
3 結论与展望
通过对分布式深度学习模型的研究,探讨了区块链在语音识别中的应用。它不仅能够处理复杂的语音识别分析,维护数据隐私,还显示了强大的大规模数据处理能力。然而,一些重要问题仍有待解决。如,融合模型中的权值矩阵可能会使得从单个深度学习模型中提取的一些关键隐藏特征变得模糊;由于在区块链节点中提取的某些特征是重叠或重复的,从而造成连接特征的冗余;如何通过融合保证在这种分布式学习系统下的鲁棒特征提取?
此外,分布式深度学习系统中存在大量的参数。如何避免过拟合也是一个具有挑战性的问题。由于不同的节点可能具有不同的dropout率,因此不确定dropout在该系统下是否仍能正常工作。此外,在这种分布式深度学习系统下,该系统是否能实现实时语音识别,尚不清楚。
尽管存在挑战,但由于将人工智能和区块链技术整合到语音识别及其密切相关的领域,我们已经看到了区块链技术应用于语音识别领域的潜在优势。一些区块链初创公司正在开发具体的区块链语音识别系统。我们未来的工作将致力于改进分布式深度学习模型中的鲁棒特征提取、学习泛化以及潜在的安全问题。
参考文献:
[1]Gihan J. Mendis, Moein Sabounchi, Jin Wei(2018) Blockchain as a Service: An Autonomous, Privacy Preserving, Decentralized Architecture for Deep Learning. https://arxiv.org/abs/1807.02515.
[2]Bengio Y(2009) Learning deep architectures for AI, in Foundations and Trends in Machine Learning. Vol. 2, No. 1, pp. 1-127.
[3]Bengio Y(2013) Deep learning of representations: looking forward. Statistical Language and Speech Processing, pp. 1-37, Springer.
[4]Bengio Y., Courville, A., and Vincent, P(2013) Representation learning: A review and new perspectives. IEEE Trans. PAMI.
[5]Li Deng(2014) “A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning” to appear in APSIPA Transactions on Signal and Information Processing, Cambridge University Press.
[6]Mohamed, A., Dahl, G., and Hinton, G(2009) Deep belief networks for phone recognition. Proc. NIPS Workshop Deep Learning for Speech Recognition and Related Applications, 2009.
[7]L. Deng, M. Seltzer, D. Yu, et al(2010) Binary coding of speech spectrograms using a deep auto-encoder. Interspeech.
[8]G. Dahl, D. Yu, L. Deng, and A. Acero(2011) Large vocabulary continuous speech recognition with context-dependent DBN-HMMs. ICASSP.
[9]G. Dahl, D. Yu, L. Deng, and A. Acero(2012) Context-dependent pre-trained deep neural networks for large vocabulary speech recognition. IEEE Trans. Audio, Speech, Lang Proc. Vol. 20, pp. 30-42.
[10]Mohamed, A., Dahl, G. and Hinton, G(2012) Acoustic modeling using deep belief networks. IEEE Trans. Audio, Speech, & Language Proc. Vol. 20 (1).
[11]I. Goodfellow, Y. Bengio, and A. Courville(2016) Deep Learning. MIT Press, http://www.deeplearningbook.org.
[12]Li Deng, Jinyu Li, Jui-Ting Huang, et al(2013) Recent Advances in Deep Learning for Speech Research at Microsoft, in Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP).
[13]Wu Weilan, Cai Meng, et al(2015) Bottleneck features and supspace Gaussian mixture models for low-resource speech recognition. Journal of University of Chinese Academy of Sciences, 32(1): 97-102.
[14]A. Graves, A.-r. Mohamed, and G. Hinton(2013) “Speech recognition with deep recurrent neural networks,” in Acoustics, speech and signal processing (icassp), 2013 ieee international conference on. IEEE, pp. 6645-6649.
[15]Nitin Indurkhya, Fred J. Damerau(2010) Handbook of natural Language Processing (2nd Edition). Chapman and Hall/CRC Press, pp339-365.
[16]Yan Zhang(2013) Speech Recognition Using Deep Learning Algorithms. http://cs229.stanford.edu/proj2013.
[17]I. Konstantinidis(2018) Blockchain for Business applications: a systematic literature review, LNBIP, Vol. 320.
[18]Y. Zhang, M. Pezeshki, P. Brakel, et al(2017) Towards end-to-end speech recognition with deep convolutional neural networks, arXiv preprint arXiv:1701.02720.
[19]O. Abdel-Hamid, A. r. Mohamed, H. Jiang, et al(2014) Convolutional eural networks for speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(10): 1533-1545.
[20]T. Young, D. Hazarika, S. Poria, and E. Cambria(2017) Recent trends in deep learning based natural language processing, arXiv preprint arXiv:1708.02709.
[21]J. Schmidhuber(2015) Deep learning in neural networks: An overview. Neural networks, Vol. 61, pp. 85-117.
[22]X. Xu, C. Pautasso, L. Zhu, et a(2016). The blockchain as a software connector, 13th Working IEEE/IFIP Conference on Software Architecture (WICSA), pp. 182-191.
[23]R. Dennis and G. Owen(2015) Rep on the block: A next generation reputation system based on the blockchain. Internet Technology and Secured Transactions (ICITST), International Conference for. IEEE, pp. 131–138.
[24]H. Watanabe, S. Fujimura, A. Nakadaira, et al(2015) Blockchain contract: A complete consensus using blockchain, IEEE 4th Global Conference on Consumer Electronics (GCCE), pp. 577-578.
[25]R. Shokri and V. Shmatikov(2015) Privacy-preserving deep learning, Proceedings of the 22nd ACM SIGSAC conference on computer and communications security. pp. 1310-1321.