智能语音识别技术的架构与设计

2018-11-01李刚

电脑知识与技术 2018年18期

李刚

摘要：随着全球语音识别相关技术突飞猛进的进步，各行各业的智能信息化与语音相关技术的融合越来越引起业界的关注。该文先介绍国内外的智能语音识别应用的战略规划及布局，给出开展智能语音平台建设的关键技术及架构实践，最后分析了学校应用智能语音识别系统的难点。

关键词：语音识别；语音录入；信息化

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2018）18-0175-03

1 背景

随着我国迈入高科技社会以及人民生活需求增多，人们对信息化技术的落地应用提出越来越高的要求，尤其是语音技术的发展，人们希望通过语音对话这样更加自然的方式去获取信息，达到对话交流的效果。因此，高校科研人员也应积极研究语音识别技术，要不断地探究该技术在教育领域的应用，从而提升了人们的生活水平和工作效率[1]。

2 智能语音识别技术的简介

2.1 智能语音相关技术的概念

语音识别技术是研发相应的硬件和软件，通过识别语音信号和信号处理等过程把各种各样的语音信号转成文本的技术体系，该技术的本质是研究出一种能听懂语言并能对话的软硬件[2]。该技术是一个系统工程，融合多学科多领域的技术，包括声学、计算机科学、信号处理技术、人工智能及硬件技术等，该成果具有广泛的应用领域。

2.2 智能语音的发展现状

2.2.1 国外智能语音相关技术的布局及现状

世界上第一个语音识别的体系化研究起源于20世纪50年代的贝尔实验室，该实验室研发的Audry系统，当时可识别十个英文字母，是初步具有语音识别功能的系统。20世纪90年代前期，许多有技术实力的公司都开始对语音识别系统的实用化应用，投入大量的人力物力[1]，到了90年代中后期，整个语音识别系统的准确率得到大幅提升，例如ViaVoice平台、Dragon平台、Naturally Speaking平台、Nuance Voice Platform语音平台等等。最近几年，巨头们开始加速语音识别行业的布局，苹果、Google、Facebook、微软等相继收购SayNow、Phonetic Arts、Skype、Cortana等技術公司，做强语音识别功能与应用[3]。

2.2.2 我国智能语音相关技术的布局及现状

我国语音识别研究工作也是开始于20世纪50年代，随着我们科学技术实力的发展，语音识别技术发展很快，已逐步走向实用的阶段。目前，我国语音识别相关的技术基本上与国外的技术处在同一水平上，尤其在汉语识别方面已达到国际先进水平。清华大学研发的非特定人汉语数码串连续语音识别系统的识别精度，达到95%，中科院自动化所于2002年推出的PattekASR产品，结束了汉语语音识别技术一直由国外垄断的现状，具有划时代的意义[4]。除此之外，科大讯飞、百度语音、思必驰、出门问问等公司也成了国内智能语音的支柱企业。

3 语音识别的基本原理及系统架构

3.1 语音识别技术的基本原理

语音识别技术，其实质就是将人类的语音信号转变成可数字信号，并且被相关的软件所识别，从而正确的理解说话人或机器的意思，所包括的一系列技术体系[5]。语音识别的过程基本包括如下三个部分：特征提取、模型匹配、语言处理等，具体架构如图1所示。

3.2 语音识别的系统架构

常见的智能语音系统可同时输入多路语音信号，并行处理多个语音识别任务。如图2所示的智能语音系统采用分布式语音识别系统，该技术是分布式架构、利用云计算、大数据和机器学习等形成的系统架构，该架构可以将一个大的任务分解成多个小任务并行处理，提高了语音识别的整体性能，精简了语音服务流程，给用户更好的体验及服务。

语音识别系统主要包括操作系统层，引擎层、资源包和管理工具4个层次，这四个逻辑层共同构成了完整的语音识别系统产品系统架构。其中操作系统层是智能语音识别系统的开发接口，是底层的应用环境。引擎层提供大部分核心的语音处理模块，同时为便于后续的新的应用及需求，也提供一系列高效、易用的集成工具。资源包是针对特定行业特定领域的用户提供的专门的语音、语义资源包。开发接口是为了支持后续开发而预留的API接口。

4 智能语音关键技术研究

4.1 语音资料库的建立

该部分的目的是建立具有针对性的语音数据库。目前通过两种途径实现该数据库，一部分语音资源是结合现有的语音数据，包括其他机构的语音数据，相关数据库中的音频资源。另一部分是针对我校现有的文本数据，针对这一部分数据，专门请人将已有的文本信息录入成语音信息，形成语音资料库。为了方便后续更好的语音训练，提高识别率，同样的文本资源，使用多人在不通场景下录入语音信息。

4.2 语音识别处理的实现

4.2.1 语音信号数字化及数字编码

语音信号数字化包括取样和量化两个方面，实现将自然语言模拟信号转变成数字信号，便于下一步进行数据编码压缩。在实际应用中，通过对信号的编码压缩，达到高效率存储和传输，减少数据传输和存储压力。

4.2.2 语音检测技术

教学环境下的语音识别使用复杂多变，语音不可避免的包含了复杂背景环境噪声。例如在教室环境下，存在学生和老师之间无关紧要的对话，机房等环境下，存在机器设备噪声的干扰等，这些噪声对识别的准确性会造成很大的干扰。语音信号的端点检测主要是为了从连续采样得到的数字信号中检测出有效的信号段和无效的噪声段，从而判断有效信号的开始和结束点，把这段信号提取出来，从而获得真实有效的语音信息。

4.3 语音信号特征参数的提取

语音识别技术一般是采用特征提取模块，进行语音信号处理，目的是将语音信号转换成一组特征矢量序列。并且采用声学模型和大数据等相关技术，解决不同地区口音/噪声对语音识别的干扰，增强声学模型的鲁棒性。针对性结合教育领域的大量文本术语语义知识，构建统计语言模型，减少解码搜索范围，降低教育领域语言识别的错误率，得到最优的识别结果。

4.4 语言模型和声学模型

语音识别的模型通常由语言模型和声学模型两部分组成，它们分别对应两个概率，即：识别单元到字词的概率、语音到识别单元的概率。其中语言模型表示识别单元与语言的概率关系，声学模型则表示声学与识别单元的关系，目前市场上流行的语音识别技术一般都采用基于隐马尔可夫模型（Hidden Markov Models）的方法构建声学系统模型。该声学系统模型首先要对大量语音数据的做训练，形成的数学模型。实际中，不同的环境、地区、使用人群和使用习惯等等因素都直接影响到语音识别的准确度，因此我们在做语音系统的时候，要针对具体的使用场景和使用人群，专门做特殊化的训练，这样可以大大提升系统识别的准确度。

5 智能语音识别系统的应用总结

目前，我校智能语音应用建设正在蓬勃建设中，在系统开发及应用推广过程中，取的一定成果，还存在一些困难及不足，主要体现在以下几个方面。

5.1 教师的使用习惯

目前国内外部分高校已开始部署应用语音识别系统，已做了大量工作以减少教学、行政的工作量，如提供语音识别系统提供人员识别、借阅图书、录入信息等。通过语音识别技术来实现学校环境下的信息录入和信息识别及教学活动，相关人员都需要一个熟悉过程，尤其是一些年龄稍大的老教师，更需要一个培训和适应的过程。

5.2 方言识别准确率

国内教学的工作环境下口音和杂音的相互干扰等问题无法回避，如何保证系统识别的准确高效，让学校工作者用得更加流畅，也是这个智能语音识别系统真正落地使用面临的重要挑战之一。

5.3 满足移动办公的趋势

随着手机、pad的流行，基于移动端小屏幕的移动办公也逐步流行起来，可是在移动端由于屏幕小等原因，文本输入效率不高一直是困扰的难题，如何在教学复杂环境下，提升移动端的语音识别效果也是遇到的難题之一。

5.4 教学信息化系统多样

由于教育学科的专业性较强，每个学科都有自己特有的专用词汇，所使用的语音专业语料库也比较分散，因此教学环境下的智能语音识别系统需要同时支持多个多学科多场景下使用，并且要最大限度降低系统间的耦合性。

6 结束语

综上所述，智能语音识别技术在生活中得到了有效的应用，对我们的日常生活的发展产生了重大的影响，该文通过应用智能语音识别技术，给出建立智能语音系统的关键技术和系统架构，其在引导高校信息化向智能化、智慧化方向发展，提高工作速度、效率甚至准确性，提升降本增效能力等方面将表现出巨大的潜力。