基于人机互动的语音识别技术综述

2018-04-18江苏旅游职业学院

电子世界 2018年21期

关键词：检索

江苏旅游职业学院

江苏大学电气信息工程学院李雪林

1 引言

语言是人类进行交往最基础的一种方式。伴随AI人工智能的突飞猛进，计算机已经能够具备与人进行言语沟通的能力，语音识别技术成为实现人机交往的核心技术。自动语音识别技术，本质就是利用计算机将语音信号自动转换为文本的一项技术。

语音识别是涉及多种类交叉学科的高新技术，应用到发声机理和听觉机理、人工智能、信号处理、模式识别、概率论和信息论等等。其应用领域广泛，在现代自动化解耦控制系统和第三产业都应用到语音识别系统，在信息化发展的大潮中，语音识别技术越来越凸显出重要作用。

2.语音识别技术的发展历史

语音识别技术的发展历史可以追溯到1952年，在美国的贝尔实验室，戴维斯等科研人员首创了能对10个英文字母发音的识别系统。英国科学家丹尼斯等人研制了基于计算机运用的语音识别系统。上世纪70年代以后由于电脑的普及，语音识别研究突飞猛进，并取得了在短语、单词的识别方面实质性的重大突破。到了1980年以后，多词汇、连续语句、非指定人连续语音的识别成为语音识别研究的重点领域。并且，语音识别技术在研究发展方向上也发生了重要转向，由匹配模式研究方向开始转为统计模型的研究方向。

上世纪末，语音识别系统在研究的宏观方面并没有什么实质性进展。不过，基于语音识别技术的而发明的产品已经开始应用。

语音识别系统技术研究在我国发展起始于1958年，中国科学院声学所利用电子管电路制造出能够识别10个元音的语音识别系统。中国科学院声学所在1973年正式开始基于计算机技术进行语音识别研究。上世纪改革开放以来，计算机应用技术和应用电子技术在我国不断发展，国内许多科研院所都开始了语音技术的研究。我国对语音识别技术高度重视，在1986年把语音识别作为“863”计划列为研究课题。并且以此为契机，每隔两年召开一次关于语音识别技术系统方面的专题国际交流会议。由此标志着，我国科研机构关于语音识别技术的研究进入了一个崭新的发展阶段。

3.语音识别系统的结构

语音识别系统主要组成包括语音信号采样模块、语音信号前期处理模块、语音信号特征参数提取模块、语音信号识别核心模块、语音信号识别后期处理模块。

模式识别匹配是语音识别的主要过程。首先对人的语音进行分析，提取特点建立针对性的语音模型，通过语音模型建立语音识别所需的模式。利用语音识别的整体模型，在语音识别过程中将得到的语音信号的特征与前期建立的语音模式进行匹配比较，通过预设的搜索策略和匹配策略，可以得出最好的且与输入的语音信号相匹配的模式。最后，根据定义，通过一系列查表就可以轻松得出计算机输出的识别结果。

4.语音识别系统的类别

语音识别的目标决定了语音识别系统的类别，语音识别系统的类别主要分为三大类，孤立词检索（isolated word recognition)，关键词检索（keyword spotting)和连续单词检索。

孤立词检索的方式是将知道的孤立的单词检索识别出来，如“人机”、“智能”等；关键词检索的目标是连续语音，但它并不识别所有的文字，只是检测已知的关键词有没有出现和在哪里出现，例如在一段语句中检索“电脑”、“应用”这两个词；连续单词检索的目标则是检索任意的连续的语音，检索整个句子或一大段话。

5.语音识别技术类型

目前应用最多的语音识别技术类型主要包括几种：

5.1 动态时间规整算法（DynamicTime Warping，DTW），在一定的时间序列中，目标要比较和检索的两段相似性的时间序列，由于随机性它们的长度不可能完全相等，表现在语音识别领域则是不同人的说的同一段语音但语速不同。并且可能相同的单词发音速度也会出现差别，比如有的人会把“A”这个音发音很短，有的人而把“B”发音很长。面对这些随机的复杂情况下，以往的欧几里得距离方法已经无法有效地算出两个随机时间序列之间的距离（即相似性），这时候利用DTW方法可以把时间序列根据需要进行动态的延伸或者缩短，这样就可以对两个时间序列性之间的相似性进行分析比较计算。

5.2 隐马尔可夫模型（HMM），通过观测向量序列可以间接的观察到HMM的状态，HMM的状态是由观测向量的概率密度分布决定的，任意一个观测向量对应着一个特定的概率密度分布所代表的状态序列。HMM模式库是反复训练样本形成的。HMM模型参数是由训练输出的吻合概率最大的信号建立，并非已经储存好的模型参数，在语音识别识别过程中将需要识别的语音序列与HMM模型参数之间进行分析计算，将相似概率比较后得到的最大值所对应的状态序列作为最佳语音识别然后输出，因此HMM是一种优秀可靠的算法。

5.3 矢量量化算法（VectorQuantization），矢量是由标量数据组构成的，通过整体量化，在不损失太多信息的前提下大幅度压缩数据。矢量量化应用在孤立词检索、短句的语音识别中。方法是将提取的特征参数或语音信号波形作为标量数据组成一个矢量然后进行整体量化。把矢量空间分割成一些小区域，每个小区域由一个矢量代表，量化时分到小区域的矢量就用这个指定矢量代替。科研人员还发明了其他降低复杂度的方法，包括无记忆的、有记忆的、模糊的矢量量化方法。

5.4 人工神经网络（ANN）是一种比较新的语音识别方法。人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统，ANN的特点是输入—输出映射能力和分类能力强大，非常适合在语音识别中应用。通过对人脑思维机制模仿，具有强大的分类决策能力和对不确定信息的描述能力。

5.5 支持向量机（Supportvector machine），结构风险最小原理和VC维理论是其理论基础，在有限的样本信息在复杂性和学习能力之间寻优，从而达到最好的寻优能力，有效克服了传统经验风险最小化方法的缺点。在非线性及高维模式、小样本识别领域展现了高超的技能，现已大规模的应用到模式识别系统领域。