基于神经网络的智能语音识别研究*

2016-10-27杨景花王双喜周思方

网络安全与数据管理 2016年17期

关键词：商丘模式识别神经元

杨景花，王双喜，周思方

(1.商丘学院计算机工程学院，河南商丘 476000；2. 商丘师范学院计算机与信息技术学院，河南商丘 476000；3.商丘职业技术学院，河南商丘 476000)

基于神经网络的智能语音识别研究*

杨景花1，王双喜1，周思方2,3

(1.商丘学院计算机工程学院，河南商丘 476000；2. 商丘师范学院计算机与信息技术学院，河南商丘 476000；3.商丘职业技术学院，河南商丘 476000)

语音识别或语言转化成文本的过程包括捕获声波，数字化声波，转换成基本的语言单位或者音素，根据音位和语境构建词语，分析词语，保证拼写正确，并且保证与听到的词语保持一致。该文把人工智能和神经网络技术应用到语音识别系统中，通过学习获得固定权重并应用到模型，最后模型快速给出与输入相匹配的输出。文中涉及到的神经网络模型主要用来进行语音识别。

语音识别；神经网络；人工智能；信号处理

引用格式：杨景花，王双喜，周思方. 基于神经网络的智能语音识别研究[J].微型机与应用，2016,35(17)：52-54.

0　引言

人工智能的应用在最近几年迅速发展，特别是神经网络的应用，神经网络系统是解决许多突出问题的一个工具，如模式识别和模式分类。1943年,神经生物学家MCCULLOCH W S和青年数学家PITTS W合作，提出了第一个人工神经元模型，并抽象出神经元的数理模型，开创了人工神经网络的研究[1]。Hopfield模型是于1982年提出的，它是神经网络存储和提取信息进行非线性数学运算的概括，使人工神经网络的构造和学习有了理论指导[2]。随后又有脉冲耦合神经网络等模型不断被提出[3-5]。经过多年的发展，更多经过优化、性能更强的神经网络模型被提出。

语音识别的研究工作开始于Bell实验室开发的第一个可识别10个英文数字的语音识别系统。20世纪60年代，计算机的应用推动了语音识别的发展。出现了动态规划和线性预测分析技术，较好地解决了语音信号产生模型的问题。隐马尔可夫(HMM)模型和人工神经网络(ANN)在语音识别中的应用加快了语音识别模型的发展，随后又有许多的模型出现[6-9]。随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。我国语音识别研究工作起步较晚，但近年来发展也很快，尤其实验室系统到市场化商品的发展[10-12]。

1　模式识别

自动识别、分类和分组模式作为重要的参数广泛应用于各种工程和科学学科，如生物学、心理学、医学、市场营销、计算机视觉、人工智能、遥感等。模式可以是指纹图像、手写草书、人脸或语音信号。从处理问题的性质和解决问题的方法等角度，模式识别可分为：

(1)有监督的分类，辨别分析、实验样本所属的类别是预先已知的；

(2)无监督的分类，实验样本所属的类别是预先未知的。

文中的模式识别问题是如何分类或者说是分类问题，其中类的定义是系统设计者设计的约束分类或者是无监督分类下相似模型的学习。

模式识别的应用包括特定数据的挖掘等。例如，数以百万计的相关或独立的多维模型中，文档分类能有效搜索文本文档、金融预测、多媒体数据库和生物特征的组织与检索。由于大型数据库对速度、精度和成本要求很严格，所以自动模式识别的需求正在迅速增长。

图1　语音信号处理流程图

识别系统模式的设计基本上包括以下三个方面：(1)收集、预处理和数据报告；(2)决策过程；(3)问题规模决定了预处理技术的选择。

从一组例子中学习是大多数识别系统的一个重要性质。人们在观察事物或现象时，通常会寻找它与其他事物或现象的不同之处，并根据一定的目的把各个相似的但又不完全相同的事物或现象组成一类[13-17]。常见的模式识别方法有：模式匹配、统计分类、句法方法等。

2　神经网络

神经网络是一种模仿动物神经网络行为特征、进行分布式并行信息处理的算法数学模型。通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。一些学者给出了节点之间交互定义：利用数学模型仿真生物学系统特征，并行处理信息；简单的实体类的算法，算法形成于数学模型(模型将这些策略分组成大量的算法，这些算法能解决大量复杂的问题)。

神经网络的活跃性体现在分类、编码的过程和神经网络的特性方面。神经网络特性有：(1)抗噪声。(2)灵活处理扭曲图像。(3)并行协同处理信息。神经网络中的每个神经元都可以根据接收到的信息进行独立的运算和处理，并输出结果，同一层中的各个神经元的输出结果可被同时计算下来，然后传输给下一层做进一步处理，体现了神经网络并行运算的特点。(4)对信息的处理具有自组织、自学习的特点，便于联想、综合和推广。神经网络的神经元之间的连接强度用权值大小表示，这种权值可以通过对训练样本的学习而不断变化。

神经网络常见类型有：(1)Hopfield网络，一种单层的自联想网络，无学习能力，多使用在联想记忆方法来识别ASCII字符等领域。(2)感知器主要用来模拟人脑的感知特征，采取阈值单元作为传递函数，所以只能输出两个值，适合简单模式分类问题。多用在文字识别、声音识别领域。(3)自组织映射常寻找最优参考矢量集合来对输入模式集合进行分类。(4)自适应谐振理论将竞争学习模型嵌入到一个自调节控制机构，使得当输入充分类似某一已存模式时系统才接受，不够类似时，只能作为新的类别来处理。

3　处理过程

神经网络处理语音识别问题的处理过程如图1所示。

3.1识别过程

(1)输入信号送入计算机，选择单词边界，去掉孤立词汇。

(2)听觉信号处理，对语音信号进行片段化(分帧)，LPC分析，将Durbin算法作用于每个片段得到LPC倒谱系数的矢量，并使用K均值算法进行量化。

(3)模式匹配和识别，利用人工神经网络对声学参数近似度进行计算。

(4)时间校正，模式序列识别。

语音信号作为神经网络的输入，对语音信号分段后，神经网络接收到一组信号片段。每个片段对应一组数字，表示信号的振幅范围。所有的数字为计算神经网络输出做准备。如表1所示，每行是一帧的数字集合。

表1　一组语音信号的表示

图2　反馈型神经网络结构

反馈型神经网络结构如图2所示。其中，I表示一组数字中的数目，N表示数字集合(分割之后的帧信号)的数目，输入神经元的数目已知，每个神经元对应一组数字，输出层只有一个神经元。输出神经元输出的信号对应识别所期望的输出值。

其中，xqi表示一组数字中第i个xq的输入值，yj为第j个神经元的输出值，wij为第i个神经元和第j个神经元的连接权值，βj为第j个神经元的权值反馈。

3.2利用模型进行语音识别

要计算神经网络的输出，须完成以下步骤：

(1)初始化所有隐藏层中的所有神经元的上下文；

(2)将第一组数字应用于神经网络，利用式(1)计算隐藏层的输出。

(1)

要识别一个数字需要建立相应的神经网络模型，这里建立10个相互有联系的模型单元模仿神经元。一个语音片段经过片段化后输入到神经网络模型中，经过权值的迭代计算出期望的输出。如训练神经网络识别一个数字时，理想的输出应当是对应的数字，而不应当是其他的数字或者字母。表2列出了神经网络模型对数字0～9测试的准确率。

表2　利用反馈性神经网络结构对数字测试的准确率

神经网络学习时按照量化均值调整规模，直到周围的各种配置错误到达一个可以接受的水平(由系统定义)。系统功能中的错误按式(2)进行计算。

(2)

N是神经网络例子中训练样本的数目。一个神经元的原型是生物学中的神经细胞，一个神经元由体细胞和两个树状的分支——轴突和树突组成。细胞体包含了细胞的必要元素，例如细胞核(内含DNA)、细胞质等。树突可以接受刺激并将兴奋传入细胞体。每个神经元只有一个轴突，传递兴奋给其他神经元。

图3　双层神经网络模型

神经元的功能特点以及它们如何结合成一个网络结构决定了神经网络的功能特点。多层神经网络和多层感知器能够满足苛刻的识别和管理要求。设计神经元时，每一个神经元都会从前一层处理矢量信号，并将处理结果传给下一层。最小实现是一个双层神经网络，由输入层、中间层(隐藏)、输出层组成。如图3所示。

4　结论

基于人工神经网络的语音识别模型的研究目的是研究开发学习型神经网络。利用学习型神经网络来实现语音识别的功能。本文把人工智能和神经网络技术应用到语音识别的系统中，通过学习获得固定权重并应用到模型，最后模型快速给出与输入相匹配的输出。在现有数据集实验的基础上，识别准确程度较好。

[1] MCCULLOCH W S,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biophysics,1943,10(5):115-133.

[2] HOSPFIELD J.Neural networks and physical systems with emergent collective computer abilities[J].Proc Natl Acad Sci,1982,79(6):2554-2558.

[3] RITTER G X, SUSSNER P. Morphological associative memories[J]. IEEE Transactions on Neural Networks, 1998,9(2):281-292.

[4] 冯乃勤,刘春红,张聪品,等.形态学联想记忆框架研究[J].计算机学报,2010,33(1): 31-40.

[5] SMADI A T A. Design and implementation of double base integer encoder of term metrical to direct binary[J].Journal of Signal and Information Processing,2015，4(4)：370-374.

[6] CHOUDHARY A， KSHIRSAGAR R.(2012) Process speech recognition system using artificial intelligence technique[J].International Journal of Soft Computing and Engineering(IJSCE), 2012，2(5)：239-242.

[7] CUI X, AFIFY M, GAO Y,et al.Stereo hidden Markov modeling for noise robust speech recognition[J].Computer Speech & Language,2013,27(2):407-419.

[8] BENGIO Y, YAO L,ALAIN G,et al.Generalized denoising autoencoders as generative models[J].Advances in Neural Information Processing Systems，2013:899-907.

[9] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.

[10] 邢铭生，朱浩，王宏斌．语音识别技术综述[J]．科协论坛，2010(3):62-63.

[11] 林锡海．召唤式捡球机器人的语音识别系统设计与实现[D]．广州：广东工业大学，2011.

[12] 史峰,王小川,郁磊,等.MATLAB 神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.

[15] 刘钰，马艳丽，董蓓蓓.语音识别技术概述[J].计算机光盘软件与应用,2010(5):98-99.

[16] 廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010(17):34-36.

[17] 贾晶．基于STM32的嵌入式语音识别模块设计[J]．数字技术与应用，2012(6)：152-153.

Research of intelligent speech recognition based on neural networks

Yang Jinghua1, Wang Shuangxi1, Zhou Sifang2,3

(1. College of Computer Science and Technology, Shangqiu University, Shangqiu 476000, China; 2. School of Computer and Information Technology, Shangqiu Normal University, Shangqiu 476000, China;3. Shangqiu Polytecnic, Shangqiu 476000, China)

Speech recognition or speech to text includes capturing and digitizing the sound waves, transformation of basic linguistic units or phonemes, constructing words from phonemes and contextually, analyzing the words to ensure the correct spelling of words that sounds the same. The paper proposed that the recognition of speech system using one of the techniques of artificial intelligence and neuron networks where this system is able to distinguish the sound signals. Fixed weights are trained first and then the system gives the output match for each of inputs with high speed. The proposed neural network model is mainly used to solve the speech recognition tasks.

speech recognition; neural networks; artificial intelligence; signal processing

河南省科技厅基础与前沿技术研究计划项目(132300410203)

TP183

ADOI： 10.19358/j.issn.1674- 7720.2016.17.016

2016-05-12)

杨景花(1981-)，通信作者，女，学士，讲师，主要研究方向：计算机应用技术。E-mail：yangjinghua81@126.com。

王双喜(1984-)男，硕士研究生，讲师，主要研究方向：模式识别、联想记忆等。

周思方(1973-)男，在读博士，主要研究方向：网络安全。