音频分析在自动喷雾技术方面的应用

2016-12-07陈爱武郭丙琴

湖南科技学院学报 2016年10期

陈爱武　郭丙琴　李　荣

音频分析在自动喷雾技术方面的应用

陈爱武1郭丙琴2李荣1

（1.湖南科技学院电子与信息工程学院；2.湖南科技学院教学质量管理处；湖南永州 425199）

变量喷雾技术的机械设备和微流量精度控制已经取得长足的进展，精度高的机械设备装置如果脱了病虫害的实际情况和分布种类混药，还是会造成农药残余或不能杀除病虫害，文章因此提出了一种基于病虫害声学事件识别方法的在线混药技术，该方法是把混杂在复杂背景音下的不同病虫害的声音识别出来，并根据识别的病虫害种类及分布情况进行自动在线混药的技术，实验采集了四类不同病虫害的声音及背景音，通过深度神经网络学习新的DNN特征和分类，平均识别率达到预期效果，实验验证了该方法可行性。

音频分析；深度学习；自动喷雾

1　引　言

自上世纪70年代开始，我国的农业发展开始进入机器化年代[1]，农药的喷雾技术也随机从常量喷雾发展为变量喷雾，但我国变量喷雾技术主要还是停留在药水的精度的控制及机械化设备改进等方面，并没有或很少有针对病虫害的在线分析及在线混药的变量喷雾的技术。这种精度化虽高的机械设备如果没有病虫害作为依据还是达不到完全除去病虫害的目的，或者会造成农药残留。文章因此提出了基于病虫害声学事件识别方法的在线混药系统研究。随着信息化技术的发展，音频信号获取方便，性能稳定、且计算成本低，所以音频信号的应用非常广泛，如欧美国家通过对救护车、消防车等警报声进行识别，并将识别结果用来交通调控；对独居老年人或病残人进行安全监护的音频事件分析；野生动物的声音识别用来保护自然环境。在农业和生物领域，也开始出现音频的应用，如Abcouchacra等在2007年提出了识别30秒自然声音方法[2]；Valero等在2012年采用分层的方法对环境噪音进行识别[3]；Zhuang Xiaodan等人实现了环境声音识别[4]；齐晓旭提出的场景依赖的音频分析[5]。文章的方法是通过对农作物的病虫害及各种背景声进行识别和分析，识别出混叠在不同背景音中的不同种类的病虫害发出来的声音，这些声音包括虫害叽喳的叫声及飞动时翅胖摆动的声音，通过这些声音分析病虫害的种类及分布情况，为农业变量喷雾技术提供在线混药依据，达到智慧农业的目的。

自然环境中的病虫害发出来的叫声、飞动时翅膀所发出来的声音等往往是混叠在风声和雨声等不同背景音中，从背景音中识别出不同种类的病虫害所发出来的声音不是一件容易的事情，因为音频信号不同于语音信号有短暂的平稳性，且频谱相对平坦，这种类似噪声的平坦谱很难找到一种有效区分特征来进行区分，关于这方面的音频事件分析的文献较多，如：随机森林和随机回归[6]、深度神经网络[7]、稀疏字典，和通用的GMM模型、HMM模型等。文章将采用深度神经网络（DNN）的算法进行农作物音效事件识别算法。

2　自动混药装置实现

自动混药装置包括机械设备和电路系统以及控制算法等模块，机械设备主要包括流量计、喷油器等设备、电路系统包括模拟信号通道、数字信号通道，控制算法一般采用PID等常规的控制算法。自动混药装置的机械设备和电路系统目前有了较深入的研究，如流量控制系统研究[8]，自动喷雾系统[9]，微流量计设计等。文章提出的基于病虫害发出来的声音进行自动混药的在线技术主要目的就是寻找一种能有效区分不同病虫害及自然背景音的特征，目前文献中提出的常规特征如子带能量、子带谱通量、能量熵、谱滚降(Spectral Roll Off)、谱质心(Spectral Centroid)等，也包括语音识别常用的梅尔倒谱系数(Mel-frequency Cepstrum Coefficient，MFCC )、过零率和短时能量等音频特征，尽管这些特征在语音识别中有较好的性能，但对重叠在背景音的病虫害声音的识别会较差，因为这些音频事件较为平坦的谱特性。所以本文采用深度神经网络（Depth Neural Network,DNN）来学习一种新的特征，DNN深度学习到的新特征可以较大去掉特征冗余信息，系统框图如图1所示。

图1.自动混药系统框图

3　深度神经网络算法

Hinton等人在2006年提出了深度无监督训练的算法，并在2010年多伦多大学成功的应用到语音识别，取得了显著的性能提升，深度神经网络是一个包含多个隐层的多层感知器，包括输入层和输出层，中间层又称隐含层，一般隐含层层数越多，需要训练的数据量越大，但效果也越好，一般的音频事件处理可以选2-4个隐含层，输出层的层数就是需要分类的种类数，网络拓扑结构如图2所示。

图2. DNN网络拓扑结构

深度神经网络的基本模型是受限波尔兹曼机（Restricted Boltzmann Machine, RBM），RBM能量函数定义如式（1）所示。

其中，

–可见层状态矢量

v–可见层的第个节点的状态

–隐含层单元的状态矢量，

h–隐含层第个节点状态

w–第个可见层节点和第个隐含层节点的连接权重

–表示我们的模型参数

能量函数的联合概率分布的数学表达式如式（2）所示

因为音频事件相对语音有较难的区分性，本文采用的深度神经网络算法目的是对音频信号提供一个有力的特征转换和特征组合工具，通过深度学习，得到一种区分能力更强的新的特征。该方法的原理是将音频信号提取的Fbank特征（Fbank特征类似语音信号中的梅尔倒谱系数（Mel Freqeuncy Cepstal Coefficients, MFCCs）），通过两个不同的网络TANDEM网络和BOTTLENECK网络深挖输入特征中的潜在的信息，再组合成新的特征，即深度神经网络特征，算法原理如图3所示。

图3.多流程DNN架构

因为通常的Fbank 特征会含有较多的冗余信息，上面所描述的架构可以减少特征的冗余信息，Bottleneck 网络的作用可以解释为对特征进行非线性维度减少，Bottlenect网络是基于真正的多层感知器（Multi-Layer Perception, MLP），相对其他的隐含层，其内部有一个较小的隐层单元，这种结构可以限制从而达到对特征的压缩功能。图3所示多流程架构的工作流程首先是对Fbank特征前后各取31帧，然后通过一个离散余弦函数转换（DCT）后分别送到两个流程的网络，通过两个网络分别输出135帧和60帧，然后通过5帧的窗得到一个975帧输出层进行特征组合，即（135+60）*5=975。

4　实验数据及结果分析

4.1 实验数据

为了测试文章提出方法对病虫害等声学事件的区分能力，我们使用的实验数据分别为真实环境中录制、专业音效数据库和音效下载网站：BBC Sound Effects Library，音效下载网站。BBC Sound Effects Library Original Series 是由SoundIdeas 机构出品的英国广播公司（British Broadcasting Corporation，BBC）音效库合辑，总共有60 卷，每一卷是一个音效大类，所涉及的音效的录音环境包括不同国家、家庭室内、野外和学校等，录音内容包括自然界、动物和主题。样本采用16位量化误差，采样率为16kHz。实验平台使用Matlab R2016a，PC机为DELL台式电脑上，CPU为双核Intel i7-2600，主频为3.4G Hz，操作系统为64位Win7家庭版，PC机器内存为8G。

表1.实验数据

音频事件类型文件数最短样本(s)最长样本(s)总的持续时间（s）蚊子声5761.379.071135 飞蛾3012.537.68945 蝗虫2777.8134.183457 飞虫3669.6727.994421 风声89719.6795.9922365

4.2 实验结果分析

实验数据采用两种分帧法，一种是短时分帧法，帧长为50ms，帧移是25ms。另一种是超级帧(Superframes)法[10, 11]，超级帧定义为100ms长的分段音频信号，由多个30ms的短时帧组合而成，这种长度的的分帧技术可以提供音频信号更多的区分能力，文章采用Tmoke 建议的120维的特征法。

实验结果如表2所示。

表2.识别混淆矩阵

蚊子声3921050781 飞蛾191180631 蝗虫3027004 飞虫243403071 风声0050140

从混淆矩阵可以看出，平均识别率达到78.40%，这种识别结果是在目前文献所提供音频事件识别率的范围内。影响识别率的一个重要原因是深度神经网络的数据量，深度学习需要有较大的训练数据，训练数据越多，训练出的网络就越好。目前是我们采集到的数据有限，所以这是造成整体识别率不是很高的原因。另外从混淆矩阵可以看出，病虫害与背景音如风声区分性是很高的，识别率达到100%。

5　结束语

文章提出了基于病虫害声学事件识别的方法识别混杂在背景音的不同种类的病虫害发出来的音频事件，并根据识别的病虫害声音种类和分布情况为农药变量喷雾提供在线依据，该方法提取了4类不同病虫害声音及1类背景音的Fbank特征，并将提取到的Fbank特征输入两个神经网络中进行深度学习得到新的DNN特征，并通过GMM模型对新特征进行分类和识别，实验结果表明平均识别率为78.40%，和目前文献音频事件的识别率处于同等水平，该方法可以实现农药自动在线混药技术。

[1]刘俊展,王小梦,刘悦上,刘玉洪.植保机械发展现状及趋势[J].現代農業科技,2010,(17):255.

[2]Abouchacra K,ŁĘTOWSKI T,Gothie J.Detection and recognition of natural sounds[J].Archives of Acoustics,2007, (3):603-616.

[3]ValeroX,Alías F.Hierarchical classification of environment-al noise sources considering the acoustic signature of vehicle pass-bys[J].Archives of Acoustics,2012,(4):423-434.

[4]Zhuang X,Zhou X,Hasegawa-Johnson MA,Huang TS.Real- world acoustic event detection[J].Pattern Recognition Lett-ers.2010,(12):1543-1551.

[5]齐晓旭.场景依赖的关键音频件检测[D]:北京邮电大学, 2013.

[6]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,(4):1190-1197.

[7]Laffitte P,Sodoyer D,Tatkeu C,Girin L,editors.Deep neural networks for automatic detection of screams and shouted speech in subway trains[C].2016 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP);2016 20-25 March 2016.

[8]陈爱武,刘志壮,郭丙琴.基于LabVIEW 的微流量控制系统的研究[J].控制工程,2014,(2):168-171.

[9]陈爱武,刘志壮.基于LabVIEW农作物变量喷雾算法研究[J].农机化研究,2013,(9):44-47.

[10]Phan H,Mertins A.A voting-based technique for acoustic event-specific detection[C].Proc 40th Annual German Congr Acoust(DAGA),2014.

[11]Schuller B,Wimmer M,Mosenlechner L,Kern C,Arsic D, Rigoll G,editors.Brute-forcing hierarchical functionals for paralinguistics:A waste of feature space?[C],2008 IEEE International Conference on Acoustics,Speech and Signal Processing,2008:IEEE.

（责任编校：宫彦军）

2016－03－26

湖南科学技术厅科技计划项目(项目编号2014FJ3143) ，2015年永州市科技计划项目（永科发[2015]9号No.22）。

陈爱武（1976－），男，湖南邵阳人，副高职称，博士研究生，研究方向为音频事件识别及声场景分析。

S499

1673-2219（2016）10-0023-03