浅析改进智能语音控制系统的方法

2018-03-21刘明辉

数字通信世界 2018年5期

刘明辉，徐莉

（天津三星通信技术研究有限公司，天津 300385）

传统的人机交互是通过触觉来实现对机器的操作和控制，但是这种操作方式有很大的弊端。操作不方便，费时，尤其是针对视觉障碍的人士来说更加困难。随着社会节奏的不断加快，人们希望使用一种更加便捷的方式来替代触觉对机器的操控。在这种大背景下智能语音系统的出现体现了其优势，越来越多的智能设备采用了这种智能语音的技术来实现操控。智能语音控制系统大体分为两个部分：语音合成系统和语音识别系统。

1 语音控制系统介绍

1.1 语音合成系统介绍

语音合成（Text To Speech）是通过机械的、电子的方法产生人造语音的技术。传统工业领域使用的语音控制方式是通过可编程控制器plc控制数码语音芯片，从而实现语音的分段录音，组合回放。通过软件的修改实现长段录音，循环播放等功能，从而实现在工业控制方面的语音合成与解析。这种语音系统，广泛应用于电脑语音中，语音型数字万用表，排队机，以及公共汽车报站等领域[1]。

传统的语音合成系统，存储空间较小，其合成词语受限，只能合成有限的词语句子，应用的场景非常有限；其次，由于语音控制芯片参差不齐，其语音合成效率不高，合成效果差。除此之外，还需要通过算法来优化语音合成效果。改进的以服务器为核心的语音合成系统，由于其拥有存储容量大，可实现cpu多核处理和处理速度快等优势，可直接录制真人语音样本用于语音播放，不需要算法合成，效率高，质量好。并且可以根据用途，提前录制语音反馈样本，极大的扩展了语音控制系统的应用范围。

1.2 语音识别系统介绍

语音识别，也被称为自动语音识别（Automatic Speech Recognition，ASR）技术，就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，也就是让机器听懂人类的语音。由于语音信号的多样性和复杂性，传统的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合[2]。比如目前的语音识别系统，仅对单一指令识别效果较好，对一条语音中包含两条以上指令的语句，系统无法准确解析并执行用户指令。改进的以服务器为核心的语音识别系统，可以对复杂的语音指令识别，通过RU标准语句，和RSU标准生成子语句，分别对系统进行训练，简单来说，RU语句就是非常准确的标准的精简的语句指令，要求用户精准发出指令，这种指令由于覆盖精准，语料集小，所以处理速度快，效率高，但是对用户发出指令的要求高，而RSU则是研究人员根据RU指令，对标准语句进行扩展，使服务器能够解析口语化的指令，由于语料集的扩大，从而更能提高理解用户指令的质量。通过这两种方法对模型进行训练，可以既保证识别速度，又可以对口语化的指令进行精准识别，达到正确识别用户语义的效果。

2 改进的语音控制系统

2.1 系统组成

该系统由终端设备模块，语音分析模块，服务器以及服务器数据库组成。用户通过手持设备和终端进行语音输入。手持设备和终端对用户输入的语音进行信号转换然后将解析的语音信号发送给服务器，服务器内预置了提前训练的匹配规则，这种匹配规则是研究人员通过大量的市场调查制定的规则，然后接收到的语音信号与预先预制规则进行匹配，当匹配准确度达到预先设定的一个阈值时。服务器即把此规则认为成用户发送的指令。然后在服务器中的数据库找到相应规则的实现指令。然后将这个实现指令逐条的发送给手持设备终端。手持设备终端根据发送的指令进行执行。执行完后，再将结果反馈给服务器，服务器根据反馈结果下发第二条指令或终止指令。

2.2 系统实现过程

终端设备可以是手机，笔记本电脑和其他手持终端设备。用户可以通过此终端设备进行语音控制。同时根据数据库下发的指令。实现用户语音控制的目的。

语音分析模块，此模块的功能主要是把输入的语音分解成一定的语音规则。此规则，我们根据词语的重要程度进行划分。增大有意义的实词的比例，删除没有意义的虚词。然后将解析好的语句上传给服务器。

服务器端，提前根据研究员制订的一系列常用的匹配规则进行训练。而数据库中存放的是这些规则对应的执行指令。一条规则会对应多条执行指令来完成这个功能。服务器接收到语音分析模块上传的语音。解析的结果和服务器中的规则进行匹配。当匹配到某一个规则后。服务器从数据库中找到相应的执行指令通过json文件下发给终端设备。

数据库将指令下发给终端设备。设备实行完指令后，如果成功执行，则将成功码反馈给服务器，然后服务器在进行第二条执行指令的下发，直到完成最终的指令。如果终端正确执行指令，则服务器收到完成指令后下发完成语音。终端将完成语音广播出去。如果终端没有正确执行，则将错误码反馈给服务器。服务器根据反馈的错误码下发预制的语音数据给终端设备。

3 结束语

综上所述，以服务器为核心的语音控制系统由于使用服务器进行语音的处理和合成，所以，可以有效的改善提高语音合成的效率和合成音质，避免了传统语音控制系统的合成词汇有限的弊端。此外，随着相关研究人员在这一方面的工作经验的不断丰富，手持终端设备的不断的多样化，这种语音控制系统语音识别和合成的效果会大大优化，语音控制的效率和准确度能够大幅度提高，并广泛的应用于工作和生活中。

[1] 范会敏，何鑫.中文语音合成系统的设计与实现[J].计算机系统应用，2017，（02）：73-77.

[2] 张仕良.基于深度神经网络的语音识别模型研究[D].中国科学技术大学，2017.