APP下载

水果采摘机器人控制系统研究—基于英语语音识别技术

2019-12-22戴增辉李光布

农机化研究 2019年2期
关键词:特征参数频谱调试

戴增辉,李光布

(1.上海立达职业技术学院 机电与信息工程学院,上海 201609;2.上海师范大学,上海 150300)

0 引言

20世纪50年代,语音识别技术主要由我国科学院声学所开始研究,在当时条件下,语音识别受制硬件设施,语音识别的发展一直都比较落后。随着计算机的快速发展和普及,许多人开始研究语音识别技术。国内中科院声学所、清华大学、哈尔滨工业大学、中国科技大学等机构和院校也增设语音识别研究课题,我国的“863计划”启动后,语音识别被专门列出来研究[1-3]。

语音识别控制系统的前处理就是把收集到的语音信号进行能量的放大、去噪和分割等,得到有效语音段;在有效语音段中提取语音识别分析时所需要的特征信号,排除对语音信号中多余的信息,达到提取语音识别需要信息的目的。在正常情况下,计算机采集的语音信号会有噪音,计算机无法识别语音指令,造成语音技术的推广应用受到很大的限制。本文的语音识别控制系统采集语音信号,经前处理并从中提取特征参数,与参考数据库参进行特征信号匹配,并指示正确的识别结果,完成语音指令[4-14]。

为此,设计了基于英语语音识别的水果采摘机器人控制系统,进行了语音信号的前端处理、特征参数提取和参数匹配及语音指令输出,并验证了语音识别控制的可操作性和实用性。

1 控制系统原理

基于英语语音识别的水果采摘机器人控制系统研究的是英语语音的识别,识别提取特征参数,是该控制系统可否实现重点。在语音识别控制系统工作程序(见图1)中,需要不断进行调试才能分析出正确的特征参数。语音识别系统作为一个模型识别系统,包括前处理、特征提取、匹配比较、识别决策及数据库等。语音识别有调试、识别两个阶段:首先进行是识别系统“调试”阶段,目的是建立语音识别特征参数的声学模型,完成参数数据库的建立;然后是识别阶段,按照设定的规则将提取的语音特征信号与数据库贮存的参数模式相比较,决策出语音识别结果,通过语音输出设备发送语音指令,完成作业。

采集到语音信号是非平稳信号,加上人在呼吸时产生的气流噪音、外界环境的噪音和计算机中的电流干扰噪音,造成采集的信号不能直接用于特征提取,需将语音信号进行前处理。前处理程序主要包括采样、预滤波、分帧和加窗等内容,经过前处理的英语语音信号便可以提取特征参数数据。在调试阶段,取得的特征参数进行处理后,每一个特征参数就可以获得一个模型,同一个特征参数需要进行多次调试,将得到的模型保存到数据库中。在识别阶段,采集的信号经过同一条的通道,得到的语音特征参数,与数据库贮存中的特征模板进行匹配比较,将匹配后得分最高的作为识别最终结果。

图1 语音识别控制系统流程图

2 语音识别控制系统

2.1 语音信号前处理

采摘机器人的语音采集设备将语音输送至语音识别控制系统。语音信号的前处理就是将采集到的初始语音信号通过能量的增大而放大,分辨出信号中的噪音并将噪音去除;将去除噪音的语音信号分割为小段后,便可以对经过处理的各小段语音信号进行特征信号提取;在提取时可以分辨出有效信号并提取出来,去除多余的冗余信息,获得的有效语音信号便是语音识别的重要信息。语言信号前处理程序主要包括采样、预滤波、分帧和加窗等。

2.1.1 语音信号采集

语音识别控制系统是以计算机来分析的,故需要将语音信号转换成数字信号。人类说话的频谱宽度范围是有一定限度的,试验分析表明:人类话语中浊音的频谱超过4kHz时就会下降,而话语中清音的频谱超过4kHz时仍然上升,超过8kHz都没有下降的趋势。因此,在所采集的语音信号中需要采集到10kHz以下所有的频谱才可以分析到全部信号,也利于后续语音特征信号的提取工作。由于需要采集到10kHz以下的所有频谱,为保证采集工作进行,实际采集频谱要大于10kHz,因此设计采集频率为15kHz以下所有频谱。

2.1.2 语音信号预滤波

将采集的语音信号预滤波化就是为了达到以下目的:①压制采集语音信号中个频谱分量中频率过大的分量,本系统设计为压制超过采集频率的1/2的频谱。②压制采摘机器人作业时使用的电源干扰。电源频谱的干扰在所有干扰中是最大的,压制电源频率的干扰可以更大程度上消除语音识别误差。

为了达到上面的目标,本控制系统采用的滤波器就需要使用带通滤波器。在滤波器中设置上下限,滤除上下限范围外的频率,设置上限为m,下限为n,采集n-m范围的频谱。语音信号由设备上的麦克风采集,以设置频率范围采集语音样本,将语音样本进行A/D转换。鉴于人类发声器官的特性,声音从嘴巴发出后会有一定程度的衰减,衰减会造成语音信号频谱的畸化,主要是语音信号中高频信号的损失,会为后期语音特征提取添加障碍,因此需要对衰减的频谱进行补偿措施,补偿程度可根据衰减情况而定,补偿后的语音信号会比较平坦,利于后期特征的提取。

2.1.3 语音信号分帧

试验发现:在比较短的时间内,语音信号的频谱比较平稳。因此,在语音识别分析中将一个语音信号划分为多个小的时间段,这种小的时间称之为“帧”。 “帧”是语音信号分析中最小单元,帧与帧之间会存在一些空白部分,这部分称之为帧移。帧移的范围在语音信号时间段是不确定的,分帧的内容就是将语音信号分成若干个帧。划分的帧越小,越能清楚地提取特征信号,但会导致计算量大;划分的帧大,计算量会比较少,但容易造成信号丢失,无法提取到有效特征信号。研究发现:帧划分为20ms时,帧与帧之间的帧移会比较大,最大可达到帧的1/2。帧移太大,就会丢失有效特征信号。本系统设计划分的帧取10ms,帧移的范围比较小,易于提取有效特征语音信号。

2.1.4 语音信号加窗

语音信号在分帧后,因为存在帧移,故帧与帧之间是不连续的,因此分帧后的语音信号会偏离原始信号。为了减少信号的偏离,需要采用窗函数来减少信号处理中出现的Gibbs效应。因此,语音信号的加窗处理的目的就是减少帧与帧之间信号断裂问题。

2.2 语音信号特征提取

语音信号通过前处理后,得到短时段的语音帧,从这些帧中提取语音识别有效特征。经典的特征提取方法主要有LPCC、MFCC(美尔频率倒谱系数)、HMM、DTW等。其中,用美尔频率倒谱系数提取有比较好的效果。MFCC提取过程如图2所示。

语音信号前处理后,得到有效分帧段就可以进行分析处理。从语音段中提取语音识别所需要的特征语音信号,去除语音信号中会干扰识别的多余信息。获得有效语音特征信号是语音能否识别的关键,语音信号特征提取的选择需满足以下条件:

1)语音信号特征是有效的代表,且可以很好地区分该特征,特征包括了声道和听觉两个方面;

2)特征参数应是独立的,可单独进行特征分析;

3) 计算应尽可能简单、方便,确保语音识别控制系统的实时性。

图2 MFCC提取过程

2.3 语音模板调试

对于英语语音控制的采摘机器人来说,根据水果采摘特点,需要识别的指令有采摘机器人的前进、后退、停止、左右移动,以及采摘机械臂的采摘指令等。这些都是独立的语音指令,不需要进行语义分析,故采摘机器人可以直接采用语音模板,不用做大量的特征检测分割工作。调试工作主要是为了确定数据库中模板样本是否能满足特征匹配分析,只有将模板样本调试到足够充分,得到的模板才能满足语音特征信号匹配分析要求,达到更明确的语音识别效果。

2.4 语音模板匹配

数据库中贮存的样本经过充足的调试后,就可进行语音特征信号与样本的匹配。两者的匹配就是将提前的未知信号与数据库中的已知特征参数进行匹配比较,比较的结果可以根据失真测度及失真测度程度判断。失真测度对语音特征信号具有较好的鲁棒性,目前各种特征参数匹配方法中DTW算法对于短时间的语音识别来说,语音的识别率相对比较高,适用本语音识别控制系统。在调试阶段,将英语指令中的每个单词依次说3遍,作为模板样本存入数据库中;在识别阶段,将提取得到的语音特征与贮存的所有样本进行比较,将匹配度最高的语音作为识别决策输出。

3 仿真实验与结果

在安静的环境录制30个英语语音数据,对其进行处理和提取,验证英语语音识别控制系统可行性和可靠性。30个英语语音数据进行5次实验,数据如表1所示。

表1 英语语音识别率

实验结果表明:英语语音识别控制系统的识别率在90%以上。这说明,基于英语语音识别的水果采摘机器人控制系统可以满足采摘要求。由于输入的各个单词的清浊音存在差异,语音频谱的大小也会不一样,故识别效果存在差异。调试的次数同样会影响识别率:调试次数少,后期语音识别的准确会比较低;调试次数多时,语音识别的正确率会提高。

4 结论

设计了基于英语语音识别的水果采摘机器人控制系统进行研究,对语音信号进行了分析处理及特征提取,并进行仿真实验验证。结果表明:本设计识别率在90%以上,可靠性较高。语音识别控制为农业生产中提供了一种更安全、更方便的机器控制方法,可提高农业生产的效率,节省农业采摘的时间,为农户争取更多的经济效益。

猜你喜欢

特征参数频谱调试
重载车辆轮胎模型参数辨识与灵敏度分析
基于视频图像序列的船用雷达目标检测和目标特征参数提取
一种用于深空探测的Chirp变换频谱分析仪设计与实现
电气仪表自动化安装与调试分析
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
调试机械臂
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于航拍无人机的设计与调试
动态频谱共享简述
无线通信中频线路窄带临界调试法及其应用