APP下载

基于深度学习的茶叶状态智能识别方法

2015-02-18刘大茂

重庆理工大学学报(自然科学) 2015年12期
关键词:嫩芽卷积茶叶

王 琨,刘大茂

(1.福州大学 阳光学院 电子信息工程系, 福州 350015;2.福州大学 物理与信息工程学院, 福州 350108)

基于深度学习的茶叶状态智能识别方法

王 琨1,刘大茂2

(1.福州大学 阳光学院 电子信息工程系, 福州 350015;2.福州大学 物理与信息工程学院, 福州 350108)

目前对茶叶状态的识别主要依赖人工完成,规模化、产业化生产制造较为困难。作为机器学习的一个新兴方向,深度学习以其准确性和高效性得到广泛关注。将深度学习中的卷积神经网络算法应用于茶叶状态识别中,根据实际的应用场合对经典的卷积神经网络算法进一步优化,利用提取到的茶叶图像集训练网络,最终使网络能够正确识别茶叶状态。实验结果表明:该算法能够对茶叶状态的判别标志——茶叶嫩芽进行有效的3D识别,且对于不同的影响因素具有一定的鲁棒性。

深度学习;卷积神经网络;图像分割;特征提取;3D识别

茶叶采摘方法与其他作物不同,其叶面展开的程度决定了茶叶质量的好坏。长期以来,农作物性状的测定一直是农技专家、管理人员迫切希望解决的难题。目前,茶叶的状态参量——嫩芽特征,主要靠人工观察获取,其考查速度慢,工作强度大,结果误差大,使茶树因苗、因时、因地的科学化管理和智能化栽培技术的推行受到限制。

随着信息技术与计算机技术的不断发展,一种基于深度学习的图像识别技术应运而生,为处理这一难题提供了有效的思路。由Hinton等于2006年提出的深度学习作为机器学习研究中的一个新范畴,其目的在于建立分析学习的神经网络,模仿人脑机制来解释数据。深度学习的本质是构建含有多隐层的机器学习模型,利用大量数据进行训练,得到丰富的更具代表性的特征信息,从而对样本进行分类和预测,提高分类和预测的精度[1]。深度学习在信号处理中的应用对象主要包括语音[2-3]、图像、 视频及文本等。运用深度学习模型不仅能大幅提高识别的精度,同时也能缩短人工特征提取工作耗费的时间,使在线运算效率极大提高。

实践表明:茶叶采摘的时间、位置等都决定了茶叶品质的好坏和茶树后期的质量。而以往通过经验或者人工局部的观察实现采摘易延误工期。近年来,随着信息技术的不断发展,一些新技术在农业领域的应用越来越深入。文献[4]采用改进的蚁群算法实现了茶叶种植土壤的优化分析;文献[5]采用BP人工神经网络算法构建小麦图像群体特征识别自学习体系,其识别准确率较高;文献[6]使用颜色识别和区域生长的思路,对茶叶图像进行分割,能将拍摄角度不同的茶叶嫩芽从茶叶中分离出来,茶叶嫩芽轮廓信息完整。但以上文献均未涉及茶叶形态的智能识别问题。因此,本文在深入研究深度学习相关算法的基础上,提出了一种基于深度学习的茶叶形态识别方法。该方法首先通过颜色、区域生长以及形状等手段有效提取茶叶图像中的嫩芽,利用基于卷积神经网络的深度学习方法学习大量茶叶嫩芽的实际样本,最终达到对茶叶形态及姿态的3D智能识别的目的。识别算法的主要流程如图1所示。最后,通过实验表明:本文算法在茶叶嫩芽识别方面实时性较好,识别率较高。同时,针对影响嫩芽识别的不同因素进行分类实验,给出了不同条件下的茶叶嫩芽识别率。结果表明:本文算法的鲁棒性较强,能够满足农业生产的需求。

图1 算法基本流程

1 基于颜色和形状的茶叶嫩芽检测

茶叶嫩芽的性状特征和成熟程度决定了鲜叶的采摘时间,而鲜叶的采摘时间又对成茶的品质有着重要的影响。目前,茶叶的采收依据主要由其嫩芽的生长情况即嫩芽开采面决定,实际中常用的规范有未开面、小开面、中开面、大开面4种情况,大批量、多层次地及时分析辨别出茶叶嫩芽的生长状态是茶叶智能化生产的根本。

1.1 基于颜色和区域生长的茶叶嫩芽图像分割

对自然场景中釆集的图像进行分割是茶叶嫩芽检测的重要步骤,采用颜色特征和区域特征作为主要参量,将茶叶图像中的多个嫩芽分割出来。主要过程分为以下步骤:

步骤1 将图像的RGB颜色模型转换为HSI颜色模型。RGB颜色模型中的颜色值由三基色所占的相对比例来确定,其优点是处理时不需要进行颜色模型的转换,适合做实时性处理;而缺点是三基色之间相关性较大,易受外界光线影响,不适合直接进行图像的分割和分析。HSI颜色模型由色调、饱和度和亮度3个颜色分量组成,3个分量相互独立,所以可直接进行相关运算,减小了处理和分析的工作量。因此,采用HSI颜色模型进行图像分割效果较好。

步骤2 区域选取、生长及合并。区域选取的基础是选取合适的种子区域。其具体原则是:1)量化后的颜色值相同;2)4邻域连通且像素面积达到一定值。种子区域的具体选取方法见文献[6]。区域生长是将种子区域周边与其性质相似的区域加入其中。在茶叶图像中两个颜色相近、空间相邻且邻域没有明显边界的区域称为可相连的区域。其颜色距离如公式(1)所示:

(1)

(2)

其中:Pij表示区域边缘上的像素个数;xm和xn分别表示边缘两侧的m和n点的位置值。

1.2 基于颜色和形状的茶叶嫩芽图像检测

在实际的茶叶采摘检测中,发现嫩芽颜色及形状与其他叶子不同。因此,采用这2项指标作为茶叶嫩芽提取的依据。主要步骤是:① 选取HSI颜色模型中与颜色相关的色调和饱和度分量作为特征参数,根据嫩芽实际颜色选择相关区域;② 茶叶嫩芽外形与其他叶片有差异。描述形状的特征有很多,通过实验,发现嫩芽的面积、中轴长度、平均宽度和弯曲度系数可用来较好地检测出嫩芽,具体过程见文献[8]。

2 深度学习模型

深度学习的概念起源于人工神经网络,由人工神经网络中含多隐层的多层感知器发展而来。深度学习将低层特征进行组合,以发现数据的分布式特征表示,形成更加抽象的高层表示属性类别[9]。深度学习方法分为有监督学习方法和无监督学习方法两类,在此方法下构建了不同的学习模型。典型的深度学习模型有卷积神经网络(convolutional neural network,CNN)、深度置信网络( deep belief network,DBN )和堆栈自编码网络(stacked auto-encoder network,SAN )等。卷积神经网络是一种在监督体制下进行的深度学习,其网络结构与实际的生物神经网络非常相近,一些实验证明其在语音识别和视觉图像识别方面独具优势,因此本文采用CNN来建模。

2.1 CNN的基本思想

卷积神经网络(CNN) 由猫视觉皮层的研究发展而来,是一种多层的监督学习神经网络。隐含层的卷积层和子釆样层是实现卷积神经网络特征提取功能的核心模块,采用误差梯度设计并训练卷积神经网络,通过频繁的迭代训练提高网络的精度[10]。CNN有3个核心架构:局部区域感知、权重共享和子采样。

1) 局部区域感知

在卷积神经网络中,将输入图像划分成局部区域(即局部接受域),从局部接受域中提取图像的初级视觉特征,如物体的特殊点、边界和转角等,后续各层通过组合这些初级特征得到更高层的特征。两层之间采用局部连接方式,即利用层间局部空间相关性将相邻每一层的神经元节点只与和它相近的上层神经元节点连接,从而极大地降低了神经网络架构的参数规模。

2) 权重共享

在卷积神经网络中,卷积层的每一个卷积滤波器重复地作用于整个感受野中,对输入图像进行卷积。卷积结果构成了输入图像的特征图,以达到进一步提取图像局部特征的目的。由于每个卷积滤波器共享相同的权重矩阵和偏置项,这使得输出的特征图和输入图像的平移变化相同。由于需要训练的权重参数数目通过权重共享大幅减少,因此对训练样本的需求也极大降低。

3) 子采样

在获取图像的卷积特征后,要通过子采样方法对卷积特征进行降维。将卷积特征划分为n×n个不相交区域,用这些区域的最大(或平均)特征来表示降维后的卷积特征。这些降维后的特征更容易分类。子采样有2个优点:① 减小了计算复杂度;② 采样单元具有平移不变性,即使图像有小的位移,提取到的特征依然保持不变。子采样因其对位移的鲁棒性成为一种高效的降低数据维度的采样方法。

2.2 CNN的整体网络结构

卷积神经网络由1~3个特征提取阶段和1层或2层的伞连接神经网络分类器构成。卷积神经网络的典型结构是LeNet-5[11],其最早用于银行手写数字识别,实际准确率高,具体结构如图2所示。

图2 CNN典型网络结构

由图2可知:CNN通过卷积层提取特征,通过子采样层降低维度,然后以相同的组合形成更加抽象的特征,最终通过全连接层形成对图象的描述特征。具体构造方法分为3步。

1) 卷积层的构建

卷积层是由多个特征平面组成,每个特征平面又由具有相同连接权重的多个神经元构成。卷积层上的每个神经元都定义了相应的感受野,这些神经元只接受其感受野传输的信号,在同一特征平面上的感受野大小相同。如图2所示,前一层的特征图与可训练的卷积核进行卷积,得到的卷积结果再通过激活函数后输出形成下一个卷积层的特征图。卷积形式如式(3)所示:

(3)

其中:oij表示第i层的第j个特征图;oij(x,y)是oij中的元素;tanh( )为双曲正切函数,bij是特征图oij的偏置;Kij是与oij相连的上一层的特征图符号集合;wijk是oij和o(i-1)j的卷积核;Ri是该层卷积核的行数;Ci是该层卷积核的列数。如果第(i-1)层的特征图大小为n1×n2,卷积核大小为l1×l2,经过卷积后,得到第i层特征图的大小为(n1-l1+1)×(n2-l2+1)。

2) 采样层的构造方法

采样层通过对上一层的相邻小区域进行聚合统计实现采样处理。设采样区域大小为l1×l2,具体采样方法如式(4)所示:

(4)

其中:gij表示oij增益系数。

3) 分类层的构建

在分类任务中,最后一层通常是一个全连接层,将每一个单像素图像和输出层的每一种可能的分类相连接。由于softmax回归是解决多分类问题的一种方法,是基于逻辑回归而来[12],因此,本文最后一层的激励函数使用softmax回归函数,其中每一个神经元的输出代表分类结果的可能性。

2.3 CNN的训练方法

卷积神经网络的训练分为2个阶段。

1) 前向传播阶段。从样本集中抽取一个样本(Xi,Yi),将Xi输入网络,经过逐级变换,信息从输入层传送到输出层,实际的输出如式(5)所示:

(5)

其中:w(n)表示第n层的权值;b(n)表示第n层的偏置;Fn()是第n层的激活函数,一般采用反正切函数或sigmoid函数,本文采用sigmoid函数。

2) 后向传播阶段,也称为误差传播阶段。CNN中误差的反向传播过程分为输出层的误差反向传播和隐层的误差反向传播2个过程。输出层的误差反向传播过程误差计算如式(6)、(7)所示:

(6)

(7)

其中:Ei是第i个样本的误差;Oik是第i个样本输出层第k个神经元的输出;Tik是第i个样本输出层第k个神经元的期望输出。

隐层的误差反向传播又包括子采样层的误差反向传播和卷积层的误差反向传播。子采样层的误差与和输出层的误差计算方式类似,即分别计算该层当前神经元的输出误差与该神经元的输出、增益和偏置的偏导,并以此调整相应的增益和偏置。而卷积层的误差反向传播过程比较复杂,一般采用文献[13]的方法解决。

3 实验结果与分析

实验中,选取了4种典型的嫩芽形态以5种不同的姿态(水平面上0~360°每90°为一个姿态类)进行实验,即共有20种分类结果。在晴天、阴雨天气及光照不均条件下,从茶叶嫩芽正侧面(0°角)、 45°角斜向下和垂直从上往下(90°角)3种不同的角度,以1株特写、2株特写以及群拍的方式采集了样本图像数据1 000个,具体范例见图3。其中,每类随机选取40个,共800个数据作为训练样本,剩余200个数据作为测试样本,其图像大小都归一化为48×48。本次实验在Intel Core i7-3770M3,频率为3.5 GHz,内存为8GB的CPU平台上,利用 Matlab 软件完成。

图3 不同拍摄因素下的茶叶图像

实验时,由于LeNet-5网络输出神经元数较少,仅有10个。因此,本文在此基础上做以下改进:①改进子采样层的采样方式。釆样方式由区域内4个神经元求平均值变为求最大值;②使用sigmoid函数来替代tanh()函数作为各层的激励函数;③增加了C5层的特征图数目和全连接层F6层的神经元个数。改进后的CNN结构参数如表1所示。按照表1所示的参数构建网络并进行训练,经过8次迭代训练后网络收敛,其误识别率和迭代次数见图4。

表1 卷积神经网络参数

图4 改进后的CNN网络模型的误识别曲线

200张图像中嫩芽总数为552个,实际识别率为91.3%,总耗时为99.3 s,平均每个嫩芽耗时0.18 s。分析其原因,主要有2个可能的方面:① 在CNN网络识别前,由于拍摄角度、光照的强弱和取景远近等因素可能对嫩芽图像提取造成影响;② CNN网络自身的结构参数设置可能产生影响。针对这两方面因素再进行一次相关实验。

1) 对200张图像分别按照拍摄角度、光照强弱和取景远近这3个条件进行分类。对每一类图像分别用CNN网络进行识别,其统计结果如表2~4所示。

表2 不同光照条件下茶叶嫩芽识别结果统计

表3 不同取像角度茶叶嫩芽识别结果统计

表4 不同取像远近角度茶叶嫩芽识别结果统计

其中:近景1表示视野中有1~3个茶叶嫩芽;近景2表示视野中有4~8个茶叶嫩芽;远景表示视野中有8个以上茶叶嫩芽。由以上实验结果可以看出:① 在光照条件较好时,由于图像前期的提取率较高,所以识别率较好;② 取景角度不同导致嫩芽互相遮挡的面积不同,这也会影响识别率,其中以斜向下45°的识别率最高;③ 焦距的不同造成取得的景深和清晰度不同,也会导致不同结果。实验发现:视野中有4~8个茶叶嫩芽时,其识别率最好。

2) 对CNN网络参数进行2种改动。在原实验网络模型的基础上减少卷积滤波器的数量,形成CNN1网络。将C1层特征图像的个数减少为4个,则S2层特征图像数量也是4个。同样,将C3层的特征图像减少为10个,则S4层特征图像数量也是10个。将C5的特征图像数量减少为120个,其余部分的构造方式保持不变。CNN1网络与原网络相比在卷积层上减少了卷积滤波器和对应的特征图像的数量,减少了网络模型需要训练的参数数量。但与此同时也使得网络模型能学习到的卷积滤波器数量减少,提取的图像特征信息也相应减少。其训练结果见图5。

在CNN1网络模型训练过程中,迭代到第8次开始收敛,此时对应的误识别率是11.8%。和原网络模型的训练结果对比可以看出,CNN1网络模型的误识别率有小量的上升。但CNN1在训练中收敛速度明显快于原网络,在第8次迭代后就达到稳定状态。这是因为随着CNN1网络模型各层的卷积滤波器数量的减少,使得网络需要训练的权重参数相应减少,网络训练时间也随之减少。该实验结果表明,减少卷积滤波器的数量,用同样数量的训练样本对网络进行训练,网络依然能很好地提取到输入图像的特征数据用于对图像进行分类。通过这个方法可以减小网络参数规模,从而减少网络训练时间。

图5 改进后的CNN1网络模型的误识别曲线

与CNN1网络模型相反,CNN2模型在原网络架构的基础上增加了卷积滤波器的数量。将C1层的滤波器数量增加到8个,C3层增加到24个,C5层增加到300个。同原网络相比,CNN2网络中各层卷积滤波器个数增加,使得需要学习的参数规模大幅增加。卷积滤波器数量的增加虽然能使网络学习到更多潜在特征,使网络的特征提取能力得到增强,但同时也使网络的训练难度随之增加,需要更多的样本数据进行训练。训练结果见图6。

图6 改进后的CNN2网络模型的误识别曲线

由图6可以看出:在训练过程中,网络的误分类率曲线变化波动较大,比较不稳定。误分类率在第8次和第12次迭代后趋于收敛,随后又很快上升。在12次迭代之后取得的16.6%的误分类率相比其他2种网络都高。

由以上实验可知:CNN网络模型各层的卷积滤波器个数需要适中,卷积滤波器过少可能减少对图像特征的提取,从而降低识别率;卷积滤波器过多则可能使训练规模增加、训练过程变长。

4 结束语

本文着重研究了基于深度学习的茶叶形态智能识别问题,重点对茶叶嫩芽进行识别。在外界光线、拍摄角度、取景远近及嫩芽数目未知的情况下,利用颜色、区域生长及形状的图像等因素对茶叶嫩芽进行检测,再利用深度学习方法中的卷积神经网络算法对茶叶嫩芽的形态进行3D识别。通过对不同影响因素的实验结果表明:将深度学习方法应用于茶叶嫩芽识别可获得到较优的结果,为后续的进一步3D还原奠定了基础。

[1] NGIAM J,KHOSLA A,KIM M,et al.Multimodal deep learning[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11).[S.l.]:[s.n.],2011:689-696.

[2] DAHL G E,YU D,DENG L,et al.Context-Dependent Pre-trained Deep Neural Networks for Large-Vocabulary Speech Recognition[J].IEEE Trans on Audio,Speech and Language Processing,2012,20(1):30-42.

[3] HINTON G,DENG L,YU D,et al.Deep Neural Networks for Acoustic Modeling in Speech Recognition:The Shared Views of Four Research Groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.

[4] 郝靳.基于改进的蚁群算法实现的茶叶种植分析系统[D].长春:吉林大学,2014.

[5] 肖波,索兴梅,白中英.应用神经网络方法解决小麦高产群体图像识别[J].计算机应用研究,2004,35(4):240-242.

[6] 汪建.结合颜色和区域生长的茶叶图像分割算法研究[J].茶叶科学,20l1,3l(1):72-77.

[7] COMANICIU D,MEER P.An algorithm for data—driven bandwidth Selection[J].IEEE Trans PAMI,2003,24(5):28l-288.

[8] 汪建,杜世平.基于颜色和形状的茶叶计算机识别研究[J].茶叶科学,2008,28(6):420-424.

[9] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012(8):2806-2810.

[10]BENGIO Y.Practical recommendations for gradient-based training of deep architectures[M].Berlin:Springer-Verlag,2012:437-478.

[11]WITTEN I H,FRANK E,HALL M A.Data Mining:Practical Machine Learning Tools and Techniques[M].USA:Elsevier,2011.

[12]ARRIBAS J I,CID-SUEIRO J,ADALI T,et al.Neural architectures for parametric estimation of a posteriori probabilities by constrained conditional density functions[C]//Neural Networks for Signal Processing IX,1999.Proceedings of the 1999 IEEE Signal Processing Society Workshop.USA:IEEE,1999:263-272.

[13]SIMARD P,STEINKRAUS D,PIATT J C.Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis[C]//ICDAR 2003.Scottland:IEEE,2003:958-962.

(责任编辑 杨黎丽)

Intelligent Identification for Tea State Based on Deep Learning

WANG Kun1, LIU Da-mao2

(1.Department of Electronic and Information Engineering, Yango College,Fuzhou University, Fuzhou 350015, China; 2.College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)

Currently the identification of tea state is still done manually, and it is difficult to form a large-scale and industrial production. As a new direction in machine learning, deep learning is getting more attention for its accuracy and efficiency. So the Convolutional Neural Network of deep learning was applied to tea state identification. According to the practical applications, some improvements was made for classical Convolutional Neural Network, using the extracted tea image to train the network, and finally the network can identify the tea state correctly. Experimental results show that the algorithm can make 3D identification for the symbol of tea-tea buds effectively and has robustness for different factors.

deep learning; convolutional neural network; image segmentation; feature extraction; 3D identification

2015-10-09 基金项目:福建省教育厅项目(JA13366)

王琨(1983—),女,河南鄢陵人,讲师,主要从事数字图像处理方面研究。

王琨,刘大茂.基于深度学习的茶叶状态智能识别方法[J].重庆理工大学学报(自然科学版),2015(12):120-126.

format:WANG Kun, LIU Da-mao.Intelligent Identification for Tea State Based on Deep Learning[J].Journal of Chongqing University of Technology(Natural Science),2015(12):120-126.

10.3969/j.issn.1674-8425(z).2015.12.020

TP391

A

1674-8425(2015)12-0120-07

猜你喜欢

嫩芽卷积茶叶
小嫩芽
《茶叶通讯》简介
基于3D-Winograd的快速卷积算法设计及FPGA实现
嫩芽
嫩芽的面积
藏族对茶叶情有独钟
卷积神经网络的分析与设计
从滤波器理解卷积
花盆里的小嫩芽
基于傅里叶域卷积表示的目标跟踪算法