APP下载

基于卷积神经网络的农作物图像识别方法研究

2021-03-17

中阿科技论坛(中英文) 2021年2期
关键词:权值特征提取灰度

(广东白云学院,广东 广州 510000)

随着数字图像处理和计算机视觉的发展,图片搜索引擎成为当今信息检索的必备功能。图像识别成为图片搜索引擎中最具有代表性的技术之一。图像识别作为一种数据挖掘技术,通过计算机处理、分析和理解图像的相关信息,能够把模式不相同的目标和对象分类[1]。尤其是在智能农业方面,把计算机视觉和图像处理技术相结合对农作物叶片识别分类的研究工作已慢慢渗透到实际应用中,为以后实现田间精耕细作奠定基础。近几年,全球的专家和学者对植物叶片图像的识别分类做了深入研究和大量的工作。2000年以前,Guyer等人采用植物叶片形状特征的方法进行识别[2]。2000年,Oide和Ninomiya[3]对大豆叶片进行识别,把形状特征参数用于Hopfield网络的输入。2007年,Ling等人[4]利用轮廓内最小距离改进叶片的形状,利用动态规划法对叶片形状进行匹配。2007年,Felzenszwalb等人[5]为了更好地描述叶片的全局形状与局部纹理,提出一个分层的形状树模型作为形状描述子,获得了很好的分类结果。2013年阎庆等人通过超绿特征去除田间复杂背景的影响,利用形态学方法进行阈值分割,将图片内绿色植物区域作为待判别杂草或作物的识别对象,采用基于Fisher投影的监督LLE方法降低图片内的灰度特征的维度,使用支持向量机方法完成杂草的识别工作[6]。2016年,马晓丹等人针对大豆叶部病害性状特征与病种之间的模糊性和不确定性,提出了基于改进级联神经网络的大豆病害诊断模型,实现了大豆叶部病害的高效自动诊断和精确测报[7]。

本文采用两种识别图像的方法,一种是通过提取多种特征,使用BP神经网络等识别算法对玉米、大豆和水稻图像进行识别;另一种是使用卷积神经网络算法直接对原始图像进行自动特征学习与识别分类,避免了以往图像识别分类方法中烦琐的图像与处理和特征提取过程。

1 数据的获取

1.1 图像预处理

在黑龙江八一农垦大学试验田中使用SONY DSCW350D型号相机采集玉米、大豆、水稻的幼苗期图像各300幅,将拍摄好的图像导入实验室的计算机,操作系统是windows7,所用软件为MATLAB7,采用jpg格式进行保存。为了减少计算量将图像裁剪成131×86(用于提取特征)和32×32(用于直接图像识别)两种。分别对两种不同尺寸的图像进行灰度化、直方图均衡化,然后完成图片的中值滤波,降低图片的噪声。

1.2 图像分割

为了去除图片的背景影响,本实验采用K-means算法[8]对图像进行分割。从n个数据中选取k个对象作为初始聚类中心,再根据和初始聚类中心的相似度把剩下的对象归类到和它最相似的聚类中,接下来求得每一个新聚类的中心,直到标准测度函数开始收敛结束,重复聚类2次,将图片分成两个区域,消除图像的背景噪声,最后显示完成分割的各个区域。分割图像如图1所示。

图1 K-mean聚类算法分割后的对比图像

1.3 特征提取

本研究依次获取了颜色、形状、纹理以及内在低维流形特征,共个22特征参数。选用Hu矩提取图像的形状特征,通过二阶和三阶归一化中心矩组成7个不变矩,计算出关于叶片图像区域的7个面积归一化中心矩;采用HSV模型,通过转化图片的颜色空间来消除拍摄亮度的影响,非均匀量化每个颜色分量,使用颜色直方图计算出图像的均值、方差、能量等三个参数;灰度共生矩阵作为像素距离和角度的矩阵函数,采用分析图片内一定距离与方向的两点灰度之间的关联程度,体现图片在方向、间隔、变化幅度等方面的情况。本文利用灰度共生矩阵提取图像的能量、信息熵、惯性矩、相关性和局部稳定性等纹理特征;选用LLE[9]降维算法作为本研究提取图像的内在低维流形特征的方法,寻找每个样本的紧邻点个数,然后求得样本点的局部重建权值矩阵,再依据样本局部重建权值矩阵及近邻点计算出样本的输出。本研究把图像的数据降至3维,近邻点数量设置为5。

2 算法描述

2.1 卷积神经网络介绍

1980年Kunihiko Fukushima[10]提出了CNN的前身——neocognitron,它是一个把人工神经网络与深度学习技术相融合的深层神经网络模型。卷积神经网络由卷积层与下采样层交替构成,它具备局部感受区域、层次结构化、特征提取以及识别过程相结合的全局训练的特性,这种算法在有效减少计算时间的同时还建立了具有不变形的空间结构[11]。它的识别是一个前向传播过程,输入的图像在模型中进行层层映射,图像的映射方式由卷积核的大小和下采样的方式决定,最终实现图像的深度表示。上一层的网络输出结果作为下一层的网络输入,采用激活函数依次传递,然后使用增加的非线性得出目标函数的近似结构,得到更好的特性表征。整个网络实际输出的计算公式如下:

当前层的输出可表示为

上述中,l表示网络层的数量,W表示完成训练这一网络层的映射权值矩阵,b表示当前网络的加性偏置,f表示激活函数,做完卷积映射后激活函数调整结束卷积的输出结果,本实验选用的激活函数为sigmoid函数。

和传统的BP神经网络相比,卷积神经网络最明显的不同不仅仅是它本身的深度网络结构,还包括它利用局部感受野以及权值共享的方法使结构中的相关参数减少。其中局部感受野是指不同种卷积核仅仅卷积图像中的某个指定区域,然后在采样层内将卷积特征关联起来,不仅体现图像中像素在空间上的相关程度,而且减少了卷积参数的个数。而权值共享是利用增多同一权值的不同卷积核种类实现提取多种特征的目的。

2.2 CNN框架

CNN框架由多个卷积层和子采样层组成。C代表是卷积层,还叫特征提取层,不同神经元的输入连接上一层的局部感受野[12],同时获得上一层局部的特征信息,确定它与其他特征之间位置上的相关程度。C层中有多个不相同的二维特征图用来获取多种特征,整个过程中,同一特征图采用的卷积核大小是一样的,也是共享的,不相同的特征图采用不同的卷积核。C层保存不同的局部特征,获取出具有旋转和平移不变性特点的特征参数。S代表子采样层,它主要把C层获得的特征池化,令它具备缩放不变性。S层进行缩放映射时准备训练的神经元数量少,计算容易。在CNN的最后一层通常和几个全连接层相连,最后类别数是输出节点数量,训练就是为了令CNN的输出与原始标签尽可能一致。

CNN中卷积层和采样层都由很多map构成,每个map中有很多个神经元,同一map的全部神经元可以用同一卷积核,表示一种特征。它是用一个固定大小的权重矩阵在图像上匹配而不是去计算一个卷积,此操作与卷积相似,故称为卷积神经网络。BP神经网络在某种程度上也能看作一种特殊的卷积神经网络,而且卷积核能够作为感知区域中每层的全部权重。权重共享既降低了训练的参数数量,又能够令完成训练网络模型具有较强的泛化性。采样是为了混淆特征的详细位置,即使图片发生变形或者扭曲也能够很好地对其进行识别。CNN对网络中的对象具备较强的鲁棒性。CNN通常将卷积层和采样层交替设置,卷积层通过将获得的特征组合成新的特征,完成图像特征描述工作,CNN也能够与BP神经网络相同的全连接层相连。

2.3 CNN在本研究中的应用

植物叶片识别分类的研究历经长时间的探索,也获得了一定的成绩,然而仍然存在着一些问题。传统的识别方法还是从输入的叶片图像中计算出人为设置的特征,然后通过识别算法对图像进行分类。识别效果好坏很大程度上取决于人为选择的特征是否合理,目前采用人为设置的特征进行识别也能够得到不错的识别精度,然而前期预处理和获取特征过程过于烦琐。针对这一问题,本研究采用一种针对二维图像设计的可以自动获取图像特征的卷积神经网络对图片进行识别分类。本研究的CNN由输入层、卷积层、采样层以及输出层组成,输入层仅有一个输出向量,向量与图片的尺寸相同,是32*32的矩阵;CNN通常由卷积层与采样层构成,卷积层用于获取特征,然后合成更加抽象的特征,来对图像完成描述。卷积核大小为5*5,在图片上逐个移动,每次移动一步。采样层是对上一层map的一个池化处理,采用2*2小区域的均值,最后CNN后面跟着一个全连接层。

3 实验与分析

3.1 卷积神经网络识别

3.1.1 图片识别

将裁剪好的32×32彩色图片灰度化,用于CNN的输入。本研究采用的卷积神经网络框架是由两个卷积层(C)和两个采样层(S)交替组成,C1层是特征提取层,使用5×5的卷积核获得6个28×28二维特征图;S1层是子采样层,获得6个14×14特征图,每个子采样层的缩放因子设置为2;C2层也是一个特征提取层,与C1层相似,但是也有不同。C2层使用的卷积核大小也是5×5,获得的特征图尺寸是10×10,但是C2的特征图是12个;S2层也是子采样层。输出层作为全连接层,都与输出神经元相连,共有3个神经元(即图片种类数目),形成900个连接。初始化网络,将用于训练的数据分批然后调用,设置批训练中样本数量以及迭代次数,验证模型准确率。

3.1.2 特征识别

本研究获取颜色、形状、纹理以及内在流形特征共22个,将特征参数组成特征向量作为BP神经网络和Elman神经网络的输入。在每种农作物的图像集内随机抽取250幅作为训练样本,50幅作为测试样本。采用三层BP神经网络,输入节点数量为22,输出节点数量为3。训练和输出分为三类,大豆的值为1,水稻的值为2,玉米的值为3。应用newelm函数可以构建三层Elman网络,隐含层函数通常应用tansig传递函数,输出层通常是purelin传递函数。

3.2 卷积神经网络优化

图2 批训练样本数不同对比图像

表1 不同神经网络算法对图像的识别率

本研究使用CNN对图像进行识别,多次试验发现批训练样本数和迭代次数对正识率有较大的影响。因此,采用分组的方式进行训练,依次在迭代30次、50次、80次、100次、200次的情况下,每组分别取10张和50张图像,得到测试后的错误率。

由图可知,CNN的批训练样本数越少,图像的正识率越高;迭代次数越多错误率收敛识别精度越高,相应迭代次数越多时间越长,所以在相对高效的情况下选取迭代次数。当批训练样本数为10,迭代次数为200时,卷积神经网络的正识率高达100%。

3.3 实现结果与分析

为了探究哪一种神经网络算法更适合作为三种农作物叶片的识别方法,本研究采用卷积神经网络对图像直接进行识别,BP神经网络和Elman神经网络对提取的特征向量进行识别,得到的识别率如表1所示。

从表1可知,当批训练样本数为10,迭代次数为100时,卷积神经网络的识别效果最好,正识率为100%,明显高于BP神经网络和Elman神经网络的识别率。同时,在使用卷积神经网络进行图像识别时,特征检测层利用训练数据隐式地进行学习,因为每个特征映射面上的神经元权值一致,因此它能够同时学习。CNN的布局比较接近实际的生物神经网络,所以它的局部权值共享的独特结构在机器视觉领域具有一定的优势,权值共享也降低了网络的复杂程度。卷积神经网络不仅识别精度高,而且它可以将图片用于网络的输入,减少了一般识别分类方法中烦琐的预处理和特征提取流程。

4 结论

本文提出一种可以直接对灰度图像进行识别分类的方法。传统的神经网络识别算法要人为地选择并提取从叶片图像中的特征,然后再对图像识别,这种做法过程烦琐且数据冗余度高,识别准确度却不高,具有一定的盲目性。和传统的神经网络相比,卷积神经网络不仅识别效果好,而且将图像直接用于网络的输入,不必再进行烦琐的特征提取和识别流程中数据重建,提高了效率。卷积神经网络的图像正识率高达100%,适合避免了作为本实验图像分类的识别算法,具有一定的推广价值。

猜你喜欢

权值特征提取灰度
一种融合时间权值和用户行为序列的电影推荐模型
采用改进导重法的拓扑结构灰度单元过滤技术
基于灰度拉伸的图像水位识别方法研究
CONTENTS
基于Daubechies(dbN)的飞行器音频特征提取
基于最大加权投影求解的彩色图像灰度化对比度保留算法
基于权值动量的RBM加速学习算法研究
Bagging RCSP脑电特征提取算法
基于多维度特征权值动态更新的用户推荐模型研究
基于灰度线性建模的亚像素图像抖动量计算