连续语音识别技术及其应用前景分析

2016-04-21陈拥权李建中郑荣稳鲁加旺

数码世界 2016年1期

关键词：马尔可夫语音单词

陈拥权李建中郑荣稳鲁加旺

合肥寰景信息技术有限公司

连续语音识别技术及其应用前景分析

陈拥权李建中郑荣稳鲁加旺

合肥寰景信息技术有限公司

摘要：连续语音识别技术，是集语音处理、模式识别、句法和语义分析于一体的综合性语音处理技术，能够识别任意的连续语音，如一个句子或一段话，大大提高了语音交互的连续性和体验度，是语音识别技术的核心之一。本文介绍了连续语音识别技术的研究现状及几种常见的技术方法，并且分析探讨了连续语音识别技术的应用和发展前景。

1　引言

近期，语音识别在移动终端上的应用最为火热，语音对话机器人、语音助手、互动工具等层出不穷，许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用，目的是通过语音交互的新颖和便利模式迅速占领客户群。但是，面向个人用途的连续语音听写仍然面临极大的技术挑战，尤其是对自然语言的识别和理解，因此连续语音识别技术及其应用的研究迫在眉睫。本文介绍了连续语音识别技术的研究现状及几种常见的技术方法，并且分析探讨了连续语音识别技术的应用和发展前景。

2　连续语音识别技术的难点

（1）单词切分难点：连续语音句子中各单词的发音之间通常是没有停顿的，即各单词之间不存在明显的边界。

（2）发音变化难点：连续语音中各单词的发音通常都比较自然和随便，因而，各单词受协同发音的影响也更为严重。

（3）连续单词语音识别难点：单词序列的长度未知；单词序列中各单词之间的边界未知；当给定M个单词参考模式和L长的待识语音模式时，就可能有ML种组合的匹配序列。

3　连续语音识别的基本原理

3.1技术核心：声学模型 (HMM)和语言模型 (N-gramm)

声学模型是语音识别系统中最为重要的部分之一，目前的主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。

语言模型是一个单纯的、统一的、抽象的形式系统，语言客观事实经过语言模型的描述，比较适合于电子计算机进行自动处理，因而语言模型对于自然语言的信息处理具有重大的意义。

3.2基本思路

连续语音识别系统的参考模式由孤立单词的参考模式按时间顺序动态接续组合而成，识别系统把待识连续单词语音和被接续起来的单词模式序列进行匹配比较，距离最短的单词参考模式之序列就为识别结果。

图2　连续单词的语音识别过程

3.3典型技术解决方案

连续语音句子中每个单词发音没有明显的界限，分割比较困难。目前比较典型的技术解决方案是：基于隐马尔可夫模型（Hidden Markov Model，HMM）的连续语音识别系统。

3.1 术前心理护理的效果患者术前常易产生恐惧心理，紧张情绪增加患者心理压力，护士应与患者在泌尿外科微创术前进行心理疏导与沟通，讲解微创手术的优越性及各种导管的性能作用，取得患者积极配合，避免因情绪波动致血压升高等而影响手术。

该识别系统在训练过程中采用逐步细化的建模过程，先建立单音素的HMM，然后考虑音素上下文，扩展到三音素HMM，最后进行状态捆绑，还可逐步增加混合高斯变量数目，最终得到鲁棒性较高的连续语音识别HMM。

图3　基于HMM的连续语音识别系统架构图

4　连续语音识别的技术方法

4.1两级DP法 (Two-Level Dynamic Programming)

计算任意起始帧b和终止帧e之间的最佳累计距离D(b, e)

4.2分层构造法 (Level Building)

使用HMM的概率参数来对似然函数进行估计与判决，从而得到结果。

5　连续语音识别技术的发展方向

目前语音信号处理技术的发展方向及研究热点主要体现在以下几个方面。

5.1语音识别单元的选取

5.2特征参数提取技术

对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，应用了人耳听觉感知方面的研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

5.3模式匹配及模型训练技术

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。

DTW是较早的一种模式匹配和模型训练技术，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。其本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。

目前的研究热点是将 HMM 和 ANN 二者的优点有机结合起来，从而提高整个模型的鲁棒性。

6　连续语音识别技术的应用前景分析

连续语音识别技术的应用主要是大词汇量连续语音识别系统，可应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，而这些系统都是在计算机平台上实现的。

6.1个人数字助理

个人数字助理（Personal Digital Assistant，PDA）的语音交互界面。PDA的体积很小，人机界面一直是其应用和技术的瓶颈之一。现在业界一致认为，PDA的最佳人机交互界面是以语音作为传输介质的交互方法，并且已有少量应用。随着语音识别技术的提高，可以预见，在不久的将来，语音将成为PDA主要的人机交互界面。

6.2家电遥控

用语音可以控制电视机、VCD、空调、电扇、窗帘的操作，而且一个遥控器就可以把家中的电器皆用语音控起来，这样，可以让令人头疼的各种电器的操作变得简单易行。

6.3汽车的语音控制

在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。此外，对汽车的卫星导航定位系统（GPS）的操作，汽车空调、照明以及音响等设备的操作，同样也可以由语音来方便的控制。

6.4智能玩具

通过语音识别技术，我们可以与智能娃娃对话，可以用语音对玩具发出命令，让其完成一些简单的任务，甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力，而其关键在于降低语音芯片的价格。

除了上述应用以外，连续语音识别技术在其他方面的应用可以说是不胜枚举，将给人们的工作和生活带来极大的方便。

国家科技支撑计划，网络社区语音互动服务关键支撑技术研发，2012BAH95F01

参考文献

[1]黄浩,朱杰,哈力旦.汉语语音识别中的区分性声调建模方法[J].计算机工程与应用.2009(11)

[2]倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报.2009(01)

[3]李净,郑方,张继勇,吴文虎.汉语连续语音识别中上下文相关的声韵母建模[J].清华大学学报(自然科学版).2004(01)