APP下载

基于语音识别技术的智能对话机器人的设计
——以广东岭南现代高级技工学校机器人制作项目为例

2018-09-18黄伟潜

数码设计 2018年2期
关键词:识别率语音机器人

黄伟潜

(广东岭南现代高级技工学校,广东广州,510663)

引言

社会的飞速发展,人类对机器人的需求越来越迫切,提高与机器人的交互性能需要不断地改进新技术。而各国政府对智能机器人的研究进行大力的支持和资金投入。语音识别技术的出现使得机器人能听懂人类的自然语言,给人类带来了极大的方便。因此研究并开发实用的机器人语音识别系统对于机器人的广泛应用具有重要的意义。

1 语音识别技术的基本技术

语音,是语言通过声学进行表现的一种形式。一直以来,人类运用语音来进行沟通交流是最自然和有效的方式。语音识别技术能让计算机理解人类语音,最终目标是实现人与机器进行自然语言通信,从而根据其信息执行人的某种意图,图1是语音识别的结构图。语音识别的关键技术主要包括以下四个方面:语音信号的预处理、特征参数提取、模型训练和模式匹配。

图1 语音识别结构图

在对语音信号进行分析和处理之前,必须对信号进行预处理。预处理包含了采样、去除噪音、端点检测、预加重、分帧、加窗等过程;语音信号完成端点检测和分帧处理后,再进行特征参数的提取工作,由于语音信号数据量比较大,为了压缩数据信息量,应当对其进行特征提取,也就是对语音信号进行分析处理,从语音波形中提取出比较有代表性的反映语音特征的相关信息,去掉那些相对不重要的信息,如信道失真的信息和现场环境的噪声等。对语音识别出次要的冗余信息,获得影响语音识别的重要信息。去除对于非特定人语音识别,希望特征参数尽可能多的反映语义信息。而从信息论的角度来说,这是实际就是信息压缩的过程;模型的训练是按照规定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配就是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

从图1.1可以发现,语音识别过程实际上就是模式匹配的全过程。我们应当首先创建一个较完美的数据模板,这就需要有较多的原始语音数据来训练这个语音模型,而语音识别是根据模式匹配的原则,计算未知语音模式与语音模板库中的每个模板的距离参数,从而得出了最合适的匹配模式。通常比较成熟的识别方式有隐马尔可夫模型、人工神经网络和动态时间规整技术等。

2 利用HMM算法建立语音模型

隐马尔可夫模型分析方法是运用了概率统计学理论来对语音信号进行分析与处理的方式。它一方面用隐含的状态对应声学层稳定的发音单位,通过状态转移和状态驻留来表示发音的变化状况,而另一方面引入概率的统计模型,用概率密度函数来统计语音参数对模型输出的概率,通过最佳路径的搜索获得最佳状态序列,最终通过识别准则找到识别的结果输出,这种模型归属于统计语音识别。

3 本校可对话机器人的硬件组成

2017年,作者参与了广东岭南现代高级技工学校的机器人制作项目,并负责语音对话系统的设计。本校制作的机器人身高有2.5米,如图3.1右部所示,躯体是指导学生采用废旧汽车材料焊接而成,包括了齿轮、气缸、轮轴及排气筒等材料。机器人的外观模仿了电影《变形金刚》中“大黄蜂”的形象,机器人的说话声音模仿度也相对较高。

该机器人能够对话,是因为在机器人的躯体嵌入了语音对话功能系统。该语音系统的硬件模块主要由拾音器、主机、可触电容屏、功放机和扬声器等部件组成。拾音器的功能是将人类的讲话内容转换为电波信号,再送入主机的语音识别模块;主机是核心部件,由拾音器送入的音频信号经过A/D 转换,传输给语音处理器;功放机的作用是把主机的结果信号通过放大电路变成功率较大的音频信号;扬声器作用是把电信号转换成声音,是输出部件。我校机器人制作项目的硬件构成和实物如图2所示。

图2 本校“大黄蜂”机器人的硬件组成和实物

4 语音识别系统的设计与实现

语音识别软件系统主要能使机器人准确识别语音命令,以数据字典的方式快速地对交流的内容进行调整,再根据识别到的数据进行对比,调用之前设计好了的结果进行输出,这样便能与人类进行简单的沟通。语音识别模块的前期准备工作是用语音样本训练,这一过程主要是用来建立语音模型,通过大量训练样本中提取特征参数建立样本数据库,可以进行实时识别。第二阶段是运用识别算法进行语音识别,在实时识别时,系统通过麦克风拾取外界语音,语音由话筒输入,以8KHZ频率采样,以16bit进行A/D转换,再经过高频预加重运算,然后对语音分帧,帧长为 20ms。经过同样的前端预处理后,提取出实时语音信号的特征矩阵,送入实时识别模块。通过训练后得到其参数存入模板库,将机器人预定工作噪声的模型参数也存入模板库中,从而提高抗噪声性能。

软件系统设计了一个迎宾介面程序,如图4.1所示。点击启动系统后进入语种选择,可选普通话、英文和广州话模式,本系统能够准确识别语音命令,调用设计好的结果进行回答,能和人进行简单的语音对话。系统运行后,通过语音指令“对话”进入该模块,模块运行时首先进行语音检测,直接调用语音识别模块,对检测结果进行分析,然后将分析结果作为文本信息,在数据字典中进行搜索,若能找到则将答案内容反馈给语音识别模块,朗读出来。但是没有找到对应的结果,则将该命令作为一条新的记录添加到数据字典中,同时提示输入相对应的答案内容。

实验结果表明,在噪声存在的环境下,系统识别率约为90%。识别率有一定的提高。由于语音信号经过同态变换,将声道激励分量和音源激励分量从中分离而出,滤除掉音源激励分量对语音系统识别率的负面影响,在频域内能更好地描述语音信号,因此系统识别率有较好的提升。但是如何更能改进这部分的功能,提高机器人的交互性,将是未来的重点工作。

图4.1 “大黄蜂”机器人的程序界面

5 结束语

本文以实现一个简单高效的、性能良好、应用性强的机器人语音识别控制系统为目的,对语音识别的关键技术与语音对话系统的设计进行了浅析。但由于作者的时间和水平有限,还有许多难点问题还需要进一步学习,比如对于非特定人识别率方面的提高,因为该系统的面向的使用者是大众,这样就需要支持非特定人识别的算法。需要拥有足够的训练数据,数据量较大,这也对系统的硬件提出了更高的要求。

[1]李翠, 罗小妮.基于语音识别技术的智能对话机器人的设计[J].济南职业学院学报, 2015, (01): 94-96.

[2]詹新明, 黄南山, 杨灿.语音识别技术研究进展[J].现代计算机(专业版),2013, (9): 43-45.

[3]杨世强, 梁丁洪, 傅卫平.智能机器人语音远程控制系统的设计[J].计算机工程与应用, 2012, (25): 71-73.

[4]万军, 吕值敏, 熊建国.基于语音识别的机器人控制技术综述[J].科技展望, 2016, 26(22): 9.

[5]和兴敏.基于HMM算法的仿人机器人语音识别技术的研究[D].哈尔滨工业大学, 2013.

猜你喜欢

识别率语音机器人
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
机器人来帮你
认识机器人