基于英语语音识别的水稻收割机控制系统设计
2019-12-22苏倩,杜堃
苏 倩,杜 堃
(河北能源职业技术学院,河北 唐山 063000)
0 引言
随着农业生产模式转变,我国的农田逐渐向大型生产主体集中,大规模专业化生产成为现代农业的发展趋势。在这种形势下,以人力为主的生产方式已无法满足生产的需求,提高农业机械化水平是必然的选择。农业机械远高于人工的生产效率,可以在较短时间内完成目标作业。我国农业机械的研制起步较晚,但是在近些年的普及应用非常迅速。与国外相比,我国的部分农业机械性能还需要改善,农业生产的整体机械化率有提升的空间和潜力。
水稻是亚洲国家的主要粮食作物,我国北至黑龙江、西至新疆等有灌溉条件的地区都有水稻种植。我国的水稻种植面积仅次于印度,产量居世界第一。水稻在农业中占有重要地位,其高产稳产是国家粮食安全的保障。作为最主要的粮食作物,水稻生产的机械化率相对较高,在部分稻区已经实现了全程机械化。在水稻生产环节中,收割是最后的步骤,对产量有着直接影响。水稻的收割时期较短,必须要把握最佳收割时机,才能获得最好的效益。水稻提前收割会损失日产量,推迟收割则会增加鸟鼠虫害、极端天气和自然落粒造成的损失。另外,在双季稻种植区,早稻及时收割也有利于晚稻种植的顺利开展。因此,研制水稻收割机械具有重要的意义,是水稻生产机械发展的一个重点[1]。
在水稻收割机的各项性能中,行走速度对作业质量的影响最大。合适的行走速度需要综合考虑作业效率和质量,速度太慢导致喂入量不足,作业效率相应地降低;速度太快导致喂入量过大,谷秆分离效果差,清选损失增加,还会损坏收割机的零部件[2]。为此,国内外学者开展了许多相关研究,设计出多种收割机行走速度自动控制方法,在一定程度上解决了上述问题[3-4]。另外,人们对收割机的切割部件结构进行了分析优化,并开发出新型喂入密度检测方法,为收割机性能改进提供了依据[5-6]。
我国主要稻区的水稻收割都采用联合收割机进行,但收割机的自动控制水平不高,限制了机械的适用性。精准农业是现代农业的发展方向,推动了农业生产的规模化和专业化,也对农业机械提出了更高要求[7]。因此,利用现代技术设计新型水稻收割机控制系统,具有重大的现实意义。
语音识别技术可以赋予机器识别和理解语音的能力,能将人类的语音信号转变成相应的文本或命令,其应用领域包括信息处理、教育商务、电子消费和机械控制等[8]。王登峰等和涂惠燕等分别设计了以汽车和手机为平台的语音识别系统,通过算法改进获得了较好的识别精度[9-10]。研究人员还根据语音识别设备的特点,将其与嵌入式技术结合,在简化硬件设备的前提下,提高了语音识别的实时性和准确性[11-13]。
在机械控制方面,赵海滨等和富钢等将语音识别电路与电机控制电路整合在一起,分别实现了对机械手和机床的准确控制[8,11]。上述的研究表明,语音识别在农业机械控制上有广阔的应用前景,但目前用来对水稻收割机进行控制的报导还较少。英语是世界上应用最广泛的语言,其语法简单、语感自然,这些特性使得英语在机械设计和控制方面具有优势。在农业机械的控制过程中引入英语语音,既能利用国外技术改善农业机械性能,又能增加我国成熟机械对国际市场的适应能力。本文基于英语语音识别技术设计了一种水稻收割机的控制系统,对机械的行驶速度、行驶方向和割台高度进行语音控制,并通过实例验证系统语音识别的准确性和实时性,用以降低收割机的操作难度,提高智能化水平。
1 系统的组成和识别流程
1.1 系统组成
收割机控制系统主要由语音识别模块和控制执行模块组成,语音识别模块包括麦克风,用于语音信号的实时采集, TLC1543CN型模数转换器将语音信号转换为可供处理的数码信号。语音解码芯片为Infineon公司的Unispeech 80D51专用型,集成了8B的CMU主控制器和16B的协处理器,前后端分别带有模拟和数字通道。语音识别模块的核心是ST公司的S3C2440型嵌入式微处理芯片作为中央处理器,集成了优化识别算法,进行语音的处理和识别,并形成控制指令。芯片内置64kB的高速存储器和增强型I/O端口,能够满足语音实时识别的要求。微处理芯片上还连接显示屏和存储器,用于对系统运行状态、过程参数和语音识别结果的显示和存储,如图1所示。
图1 收割机控制系统的组成部分Fig.1 Components of the rice combine control system
收割机控制执行模块接收语音识别模块输出的指令用于机械控制,包括行驶速度、行驶方向和割台高度。收割机是久保田4LZ-4型半喂入履带式联合收割机,采用无级变速,割幅为2m,蓄电池同时为语音识别模块提供电源。行驶速度的控制装置为步进电机、油门和刹车,步进电机按相应的方向和幅度转动,调节油门和刹车的位置实现对机械速度的控制。行驶方向的控制通过方向盘控制器完成,控制器与收割机的方向盘连接,由马达驱动转向。方向盘控制器安装方便,对机械具有很好的适应性。割台高度由弱电信号控制的液压阀进行调整,能够与S3C2440型嵌入式芯片兼容,接收其输出的电信号。
1.2 英语语音识别流程
收割机操作人员的英语语音指令通过麦克风录入,经过预处理去除环境中的背景噪音,然后转换为数字信号用于提取语音特征。鉴于嵌入式芯片的性能和运算速度,在保证准确识别的前提下,本文采用精简的特征维数减少计算量:第1识别阶段为22维MFCC特征的初步识别,第2识别阶段为26维MFCC特征的精确识别。首先按照训练模板进行初步识别,得到多个候选词条;然后输出选项,在新的模型框架中获得精确识别的结果。另外,可以基于隐马尔科夫(HMM)模型,直接进行精确识别;识别得到的语义与参考模型库做相似度比较,将相似性最高的特征矢量作为识别结果,以控制指令的形式输出,如图2所示。
图2 语音识别的流程Fig.2 Flow of speech recognition
2 软件和识别算法
英语语言识别模块中的软件采用C语言进行代码编程,编写的代码涉及语音输入至指令输出之间的各个环节,以及声音检测失败、重新训练、存在背景噪音和序号错误等突发状况下的处理程序。C语言编程的支持软件为微软语音应用软件开发工具包SASDK1.1,用于加载xml描述方法,保存输入的音频和序列分析结果。当出现错误的异常识别结果时,SASDK1.1工具包可以创建和部署纠错应用程序,并重新调试识别程序。嵌入式芯片中带有Sphinx语音识别引擎作为英语语音识别的基础,为连续语音识别、大词汇量和高识别率识别提供支持。Sphinx语音识别引擎的源代码为开放型,方便与其它相关技术兼容和整合。
识别算法主要集中在特征提取和精确识别两个环节。与理想环境相比,实际应用环境中的语音特征质量明显降低,归因于背景噪音、目标通道畸变和人为因素的影响。本文通过MFCC的一阶和二阶差分来消除噪音干扰,提高目标语音的可识别性。差分计算公式参考涂惠燕等(2011)的研究,采用22维的一阶差分MFCC和26维的二阶差分MFCC。
语音的精确识别基于HMM模型,利用马尔科夫链模拟语音的特征量变化,然后通过三元函数建立马尔科夫模型;计算得到初始状态的矢量分布概率后进行扫描,从而产生特征状态的序列,最后对序列进行预加重、分帧和FFT变换处理实现对语音的识别。在模板训练过程中,标准发音的特征值利用Baum-Welch算法计算获得,识别过程中输入的用户语音特征则利用Viterbi算法解码。
3 试验结果和分析
试验中,系统语音采集频率为15kHz,语音的特征提取分为有重叠的帧,每帧提取1次语音特征,帧长30ms,帧移15ms。将水稻收割机控制过程中使用的英语短语按照功能分类,组成短语的基本单词如表1所示。
表1 不同控制功能的应用单词Table 1 Words applied in different controlling function
针对实际应用需求,系统分别在20、40、60、80dB的4种噪音环境中进行测试。在每种噪音环境下,由建立训练模板的收割机特定驾驶员向语音识别系统发出50条英语短语形式的指令,记录系统准确识别的英语单词数、短语数和识别所用的平均时间,评价系统的准确性和实时性。
系统测试的结果如表2所示。理想环境下,系统对英语单词和短语的识别率分别达到98%和96%。随着环境噪音的增加,识别率有所下降;在噪音最严重的环境下,对英语单词和短语的识别率仍然达到91%和88%,具有较高的准确性和适应性。系统对英语指令的平均识别时间为43~47ms,没有受到环境噪音的影响,可以满足实时识别的要求。
表2 语音识别系统的准确性和实时性Table 2 Accuracy and real time of speech recognition system
4 结论
基于英语语音识别技术设计了一种水稻收割机的控制系统,由语音识别模块和控制执行模块组成。语音识别模块的核心是嵌入式微处理芯片,基于HMM模型算法识别英语语音,识别结果以指令的形式输出,对收割机的行驶速度、行驶方向和割台高度进行控制。试验表明:系统英语语音识别具有较好的准确性和实时性,可以用来降低收割机的操作难度,提高智能化水平。