基于邻域算法的农业害虫图像分割
2017-08-12姚巧鸽夏银红
姚巧鸽 夏银红
摘要:针对分割农业害虫图像时不能区分相邻灰度值的问题,提出邻域算法。首先确定像素的邻域度,像素的邻域通过移除低于某一给定阈值的所有边并将所有相连的样本点作为域类而获得;然后采用基于关系权重方法区分邻域类别,从全局的角度衡量了每个特征项对所有类别的区分能力;接着基于可变聚类半径对像素数据排重,删除重复性数据;最后给出了算法流程。仿真试验结果表明,本研究算法分割农业害虫图像的效果清晰,消耗的时间较少。
关键词:邻域关系;像素;聚类;权重;农业害虫;图像分割
中图分类号: TP391.41文献标志码: A
文章编号:1002-1302(2017)11-0174-04[HS)][HT9.SS]
农业生产中需要检查农产品中是否存在害虫,避免农业灾害的发生,在农业害虫的检测中图像背景复杂,害虫在图像中很难与背景分离[1-2]。
传统的检测技术主要依赖于人眼,是农民自己对农产品的每个细节进行检查。但是检查环境往往很恶劣,同时受天气干扰,检查工作很难展开,利用计算机视觉处理代替人工检测成为了一种必然的发展趋势。目前使用的算法主要有以下几种,K均值算法(K-means)是基于划分的算法,只有农业图像数据聚类簇的平均值被定义的情况下才能使用,对噪声和孤立点数据敏感[3];基于统计信息算法(statistical information grid,STING)将农业图像空间区域划分为矩形单元,单元中存储着预先计算的统计信息,可处理高维数据,但是检测质量取决于网格的粒度,由于聚类的边界是直线,检测质量较低[4];基于动态模型的层次聚类算法(dynamic model hierarchical clustering,DMHC)不依赖于静态模型,适应被合并簇的内部特征,但是算法过于复杂,在每次判断子类的相似度时都要做最小连接二等分[5];基于密度与噪声应用的空间聚类算法(density-based spatial clustering of applications with noise,DBSCAN)对农业图像数据聚类中的每个对象通过连接区域划分为簇,但是对参数敏感,若没有采用空间索引,时间复杂度高[6];基于共享型邻居聚类算法(shared neighbor clustering,SNC)具有对输入样本的顺序不敏感、输入参数的邻域知识最小化等特点,但是存在孤立点的预处理不够,同时代表点的确定过程不够全面[7]。
本研究通过邻域算法(neighborhood relationship,NR)对农业害虫图像分割,首先确定像素邻域度,像素的邻域通过移除低于某一给定阈值的所有边并将所有相连的样本点作为域类而获得;然后采用基于关系权重的方法对邻域类别区分,从全局的角度衡量了每个特征项对所有类别的区分能力;接着基于可变聚类半径对像素数据排重,删除重复性数据,最后给出了算法流程。
1图像像素邻域关系数据聚类划分
1.1像素邻域度计算
在图像像素集合S=(s1,s2,…,sm)中2个元素(sq,sp)(q=1,2,…,m;p=1,2,…,m)间的关系R=(r1,r2,…,rm)为有限集A=(x1,x2,…,xm),对于任何ri(i=1,2,…,m),通过xj(xj∈A)描述2个元素(sq,sp)相对ri的邻域度,邻域函数μri(Xj)表示邻域度,A中所有集合的共同作用反映(sq,sp)相对于ri(i=1,2,…,m)的邻域度μri(sq,sp):μri(sq,sp)=c1μri(x1)+c2μri(x2)+…+cmμri(xm)。其中,c1,c2,cm为权重系数,且0≤cj≤1,∑[DD(]mj=1[DD)]cj=1。
对q和p取不同值,构成模糊关系矩阵[μri(sq,sp)]m×m,反映的是图像像素集合S中各像素相互间关系密切程度的分布情况。邻域度越大,2个像素彼此之间的关系越密切,即可归为图像目标或者图像背景[8-9]。
1.2邻域像素排重
1.2.1像素相似度計算
假定p和q 2个像素点之间的相似度定义为
[JZ]similarity(p,q)=size(NN(p))∩(NN(q))。
式中:NN(p)、NN(q)分别为对应p、q的最近邻域,通过移除低于某一给定阈值的所有边,并将所有相连的样本点作为域类而获得,本研究选取的阈值为
[JZ]ε=[SX(]∑[DD(]nq=1[DD)]NN(q)[KF(]∑[DD(]nq=1[DD)][NN(q)]2[KF)][SX)]。
1.2.2邻域关系权重
为了区分邻域类别,采用基于关系权重的方法,权重计算为
[JZ]W(t,m)=[SX(]TF(t,m)×W(t|c)[KF(]∑[DD(]t∈d[DD)][TF(t,m)×W(t|c)]2[KF)][SX)]。
式中:TF(t,m)为像素t在像素总数m中出现的频数;W(t|c)为关系权重,W(t|c)值越大,则特征项对于类别c的区分能力越强[10-11]。
设关系权重W(t|c)=lg(m/nt+0.02),nt为训练集中出现t的像素数,衡量了每个特征项对所有类别的区分能力。若给定k个类别k1,k2,…,kk,其中特征项t同属于ki、kj 2个类别的特征集,那么:
[JZ]W(t,m)=[SX(]TF(t,m)×lg(m/nt+0.02)[KF(]∑[DD(]t∈d[DD)][TF(t,m)×lg(m/nt+0.02)]2[KF)][SX)]。
从全局的角度衡量了每个特征项对于所有类别的区分能力。
如果对于任意类别c的任意特征项t,如果W(t|c)=1,则频数归一化:W(t,m)=[SX(]TF(t,m)[KF(]∑[DD(]t∈d[DD)][TF(t,m)]2[KF)][SX)],则所有特征项相对于所有类别的区分能力均相同[12]。
1.2.3基于可变聚类半径的像素数据删重
在图像中点为pi(i=1,2,3,…,np),线为li(i=1,2,3,…,nl),样条线为 si(i=1,2,3,…,ns),设p1为已存在基点,基于点p1(x,y)选择点p2,基于点p2选择水平点p3,基于点p2、p3选择线段l1,基于线段l1选择平行于l1距离为l的线段l2,垂直于线段l2过点p2、p3分别选择线段l3、l4,这样便选择出分割小矩形,基于点p1(x,y)选择点p4,基于点p4选择水平方向上的点p5;分别以点p4、p5为圆心选择半径为r1、r2的圆c1、c2,选择一线段切于圆c1、c2,这样便选择出分割小圆形,以此类推,可以选择任意分割小图形的实体集合。假设节点集合为V(v1,v2,v3),分割小图形之间的关系集为V{(v1,v2),(v1,v4),(v2,v3),(v2,v6),(v3,v6),(v3,v9),…},通过选择适当的聚类半径,把相似的分割小图形聚集到同一个聚簇,保留其中的一个小图形,删除其他小图形,达到聚类排重的目的,同时大大降低了程序的时间复杂度。考察和待分类像素最相似的k个小图形邻域,根据k个小图形邻域的类别来判定待分类,判断规则:[JP2]
[HT9.,8.5]C=arg maxci[score(d,ci)]=arg maxci[∑[DD(]dj∈k[HT4.]NN(d)[DD)][HT9.,8.5]Sim(d,dj)δ(d,ci)]。[HT][JP]
式中:kNN(d)为像素d的k个邻域;ci为类别;δ(d,ci)的含义为
[JZ]δ(d,ci)=[JB({]1[KG3]d∈ci0[KG3]dci[JB)]。
对小图形进行两两比较,计算它们之间的相似度,根据给定的相似度阈值判断,如果2个小图形的相似度大于阈值,認为这2个小图形重复;否则,这2个小图形不重复,删除重复小图形。把小图形分成若干个称为聚簇的子集,使得每个聚簇内的成员之间具有较大的相似性,而聚簇和聚簇之间的小图形具有较小的相似性。并且随着聚类半径的减小,聚簇内成员之间的相似性会增大[13-14]。因此,通过不断缩小聚类半径R,使得被聚集到同一聚簇下的小图形之间的相似度越来越高,直到可以认为它们就是相同的小图形为止。这样就达到了通过聚类算法来进行小图形排重的目的,然后保留该聚簇中的某一个小图形,删除其他的重复小图形。步骤如下:
①给定聚类半径R=[SX(]∑[DD(]i=1[DD)]ci[KF(]∑[DD(]i=1[DD)](ci)2[KF)][SX)],以其中的某个样本向量xi初始化一个聚类中心ci=xi;
②对于样本xi,寻找距离样本xi最近的聚类中心ci,并得到它们之间的相似度r=[KF(][SX(]1n[SX)]∑[DD(]nl=1[DD)](xi,l-ci,l)2[KF)];
③如果r≤R,把样本xi归入聚类中心ci所在的聚簇Ci,同时更新该聚类中心为
[JZ]ci=[SX(]1K[SX)]∑[DD(]x[HT4.]s∈[JX+0.3mm]C[HT3.]i[DD)][HT]xs[HT]。
式中:K为聚簇Ci所包含的向量个数。如果r>R,把xi初始化为新的聚类中心cn+1=xi,n为目前的聚簇个数。
④重复步骤②,直至所有的样本聚类完毕。
2农业害虫图像分割过程
在农业图像灰度分布曲线中,灰度值较低的是农业图像背景区域,灰度值较高的是农业害虫图像区域,灰度值变化比较大的地方为害虫区域与背景的边缘交接处。对农业图像的某列灰度值g(x,y)自上而下求微分,每次移动距离为Δx:
[JZ]|g(x+Δx,y)-g(x+Δx,y)|>T。
式中:T为阈值。
当灰度值变化比较大时,获得第一个点的行数i11是该列害虫区域的上边缘,以及最后一个点的行数i21是该列害虫区域的下边缘,每列灰度扫描后,获得上边缘行向量I1=[i11,i12,…,i1n]和下边缘行向量I2=[i21,i22,…,i2n],n为农业图像的列数。
对确定的害虫区域上、下边缘进行分割,统计图像边缘行所有像素的分布概率:
[
φ最大时,ρ就是最佳分割阈值。
算法流程:(1)输入图像,计算像素相似度;(2)对不同的像素进行邻域关系权重计算,划分出不同聚类;(3)通过可变聚类半径将像素数据排重,去掉相同的聚类;(4)若当前聚类中心和前一次中心的误差小于0.02,则可得最佳分割阈值ρ,执行步骤(5),否则,执行步骤(2);(5)输出分割图像。
3仿真试验
[HTK]3.1农业害虫图像分割[HT]
采用不同算法对农业图像滤波后进行分割,硬件计算机参数:Inter CORE I5-2430M,主频2.4 GHz,三级缓存为 3 MB,内存DDR4系列,大小为4 GB,硬盘串行接口,软件程序通过Matlab实现。
用不同算法对图1的白菜蚜虫图像进行分割,结果如图2所示,可以看出本研究算法NR的分割效果清晰,整体上保持了较为稳定的分割效果,并且在局部轮廓边缘上比其他算法分割的更精细,这是因为本研究算法通过可变聚类半径对像素数据重复性的删除,使得聚类之间像素分布相差不大,减少了误分割。
用不同算法对图3的梨小食心虫图像进行分割,结果如图4所示,可以看出本研究算法NR分割受其他边缘影响小,聚类过程考虑了邻域像素点对中心像素点聚类结果的影响,使聚类结果较为准确。
3.2定性分析
用归一化互相关系数(normalized correlation,NC)来评价分割效果:
[JZ]NC=[SX(]∑[DD(]Mi=1[DD)]∑[DD(]Nj=1[DD)]W(i,j)×W′(i,j)[KF(]∑[DD(]Mi=1[DD)]∑[DD(]Nj=1[DD)]W(i,j)2[KF)][KF(]∑[DD(]Mi=1[DD)]∑[DD(]Nj=1[DD)]W′2(i,j)[KF)][SX)]。
式中:M×N為图像大小;W(i,j)、W′(i,j)表示源图像与分割后图像在位置(i,j)处的灰度值。NC值越接近于1越好,对白菜蚜虫、梨小食心虫图像的分割NC值定性分析结果如图5、图6所示。
对图像分割来说,分割速度十分重要,为了衡量各个算法的分割效率,对每幅图像进行多次重复分割,取平均分割时间作为评价标准,对白菜蚜虫、梨小食心虫图像的分割速度定性分析结果如图7、图8所示。
[JP2]由图5、图6、图7、图8可知,本研究算法NR的NC值较接近于1,分割消耗的时间较少,[JP3]这是因为本研究算法将像素数据对象分割成集群,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,以便减小数据对象之间的影响。[JP]
4总结
本研究通过邻域算法对农业害虫图像进行分割,仿真试验结果表明,本研究算法分割的效果清晰,分割消耗的时间少,为农业害虫图像分割研究提供了一种新的参考方法,但是如[CM(25]何找出像素周围邻域的最佳大小和个数,仍然是目前面临[CM)][FL)]
参考文献:
[1]王爱新,李春友,张喆. 基于计算机视觉的农业图像害虫定位检测算法[J]. 江苏农业科学,2016,44(7):361-364.
[2]田海韬,赵军,蒲富鹏. 马铃薯芽眼图像的分割与定位方法[J]. 浙江农业学报,2016,28(11):1947-1953.
[3]Qiu C Y,Wang C L,Zuo X Q. A novel multi-objective particle swarm optimization with K-means based global best selection strategy[J]. International Journal of Computational Intelligence Systems,2013,6(5):822-835.[ZK)][HT][HJ]
[FK(W12][TPYQG8.tif][FK)]
[HT8.]
[HJ1.7mm]
[4]Sun W,Hansen A,Zhang L Y,et al. Neonatal nicotine exposure impairs development of auditory temporal processing[J]. Hearing Research,2008,245(1/2):58-64.
[5]Pokotilovski Y N. Constraints on strongly coupled chameleon fields from the experimental test of the weak equivalence principle for the neutron[J]. JETP Letters,2013,96(12):751-753.
[6]Li X Y,Gao G H,Sun J X. A new semi-unsupervised intrusion detection method based on improved DBSCAN[J]. Journal of Networks,2010,5(12):1527-1534.
[7]Pande S,Morgan F,Cawley S,et al. Modular neural tile architecture for compact embedded hardware spiking neural network[J]. Neural Processing Letters,2013,38(2):131-153.
[8]Schübler E,Decker C,Lerch F. Networks of clusters:a governance perspective[J]. Industry and Innovation,2013,20(4):357-377.
[9]Kim H,Kim H J,Lee J H,et al. Scheduling dual-armed cluster tools with cleaning processes[J]. International Journal of Production Research,2013,51(12):3671-3687.[ZK)]
[10]Ye J. Interval-valued intuitionistic fuzzy cosine similarity measures for multiple attribute decision-making[J]. International Journal of General Systems,2013,42(8):883-891.
[11]Rocha A R,Pirmez L,Delicato F C,et al. WSNs clustering based on semantic neighborhood relationships[J]. Computer Networks,2012,56(5):1627-1645.
[12]Aljaber B,Stokes N,Bailey J,et al. Document clustering of scientific texts using citation contexts[J]. Information Retrieval Journal,2010,13(2):101-131.
[13]Hansen P,Brimberg J,Uroevi D,et al. Solving large p-median clustering problems by primal-dual variable neighborhood search[JP3][J]. Data Mining and Knowledge Discovery,2009,19(3):351-375.[JP]
[14]Gan G J. Application of data clustering and machine learning in variable annuity valuation[J]. Insurance Mathematics & Economics,2013,53(53):795-801.[ZK)][HT][HJ][FL)]