基于数字图像的棉田复杂背景下棉蚜统计方法
2018-04-25顾佳敏王佩玲刘阳天高攀郭文超
顾佳敏,王佩玲,刘阳天,高攀,郭文超
(1.石河子大学农学院,新疆石河子 832000;2.石河子大学信息科学与技术学院,新疆石河子 832000)
0 引 言
【研究意义】棉蚜的种群密度和危害程度是棉蚜防治决策的重要根据,更是精准喷药的关键信息。传统上对棉蚜密度的监测主要采用样本抽查和人为估算,在棉蚜爆发高峰期,百株蚜量可达数万头,不仅工作繁重而且估算误差很大。与传统棉蚜测报方法相比,采用图像处理技术可以大幅降低工作强度,提高蚜虫计数效率和准确率。【前人研究进展】近年来,学者也对小虫体计数方法进行了相关研究。沈佐锐等[1]进行了温室白粉虱计数技术研究;张建伟等[2]实现麦田蚜虫计数;赵慧燕等[3]实现蚜虫目标识别;邱白晶等[4]提出了黄瓜蚜虫图像识别与计数方法;以及其他学者提出小型昆虫、微生物图像识别与计数方法[5-10]。【本研究切入点】目前研究大都针对较为理想的图像提出计数的算法,促进基于数字图像的小型昆虫计数的发展。但这些算法主要是基于灰度图像,且对阈值依赖性高,不太适用于棉田复杂背景下棉蚜计数。除此之外,在彩色图像转换成灰度图像时损失了2/3的图像数据,数据的丢失伴随而来的是特征信息的损失,不利于数学建模[11-12]。当前基于数字图像的棉蚜预测预报技术的难点是标准化的算法与多样化的棉田复杂背景之间的矛盾。【拟解决的关键问题】提出一种新的棉蚜计数方法,直接以大量RGB彩色图像为对象,对区域数据进行分析建模,实现对彩色图像分割去噪、二值图像自主选择结构元素完成腐蚀去噪、黏连区域像素个数求模运算的三位一体算法,在图像处理过程中极大降低算法对阈值的依赖性,完成基于数字图像的复杂背景下棉蚜计数,为棉蚜虫情准确测报提供重要基础。
1 材料与方法
1.1 材 料
一台图像图形工作站(设备型号WiseteamFL1A3708-12K移动便携工作站)和自主研发的一种棉田复杂背景下手持式可调控棉蚜拍摄装置(专利号:201720493225.4)。图1
图1 实验装置
Fig.1 instrument
1.2 方 法
1.2.1 棉蚜图像获取
1.2.1.1 棉蚜图像特点
棉蚜体型小,繁殖力极强,孤雌生殖,4~5 d可繁殖一代,一生之中体色多变,主要栖息在叶片背部,具有群居性。
1.2.1.2 棉蚜图像采集
棉花叶片背面朝上,使用自主研发的棉蚜拍摄装置将棉叶水平夹住,手机摄像头垂直拍摄棉蚜图像,通过自主开发的终端软件,实现拍照存储或实时发送至图形工作站进行处理。图像分辨率为:2 588×3 264像素,图像格式为jpg,24位RGB颜色空间模式。
1.2.2 算法流程
配置VISUALSTUDIO2015环境下的OPENCV3.0。基于图像RGB数据。根据数据特点归类,分析每类数据规律并建立模型。将已分割的彩色图像转换成二值图像进行图像腐蚀去噪,实现棉蚜的计数。图2
图2 算法流程
Fig.2 Flowchart of proposal algorithm
1.2.3 算法设计
1.2.3.1 噪音及棉蚜
通过对大量棉蚜图像分析,研究将常见噪音分为13类,如棉蚜蜕的皮,叶柄,主脉基部,主脉中部,主脉尖部,侧脉基部,侧脉中部,侧脉尖部,叶脉上的黑点、病斑、机械损伤、叶片、叶片折叠区;将常见棉蚜分为7类,如僵蚜、绿色伏蚜、淡黄色伏蚜、黄色伏蚜、深褐色伏蚜、棉黑蚜,有翅蚜等。使用OpenCV3.0结合MATLAB2014a从图像中提取出所有ROI,即所有噪音和虫态,并将其转换成数据。图3
注:a中的蚜虫根据颜色初步分为4类蚜虫:青色棉蚜、淡黄色棉蚜、黄色棉蚜、深褐色棉蚜;e中噪音为:叶柄,叶脉中部,叶脉尖部,叶脉上黑点、病斑、叶脉基部叶片、机械损伤,蚜虫皮等
Note:According to the color of aphis,we divided them of image a into five kinds of aphids;all noises in image e are petiole、veins、black spots on veins、 speckle of disease、leaf between veins、mechanical damage、skin of aphids
图3 噪音和虫体
Fig.3 noises and aphids
1.2.3.2 彩色分割
研究基于大量的棉蚜图像RGB色彩空间数据,采用K-means聚类算法对复杂背景下棉蚜图像进行彩色分割,经分析数据可从两方面建模。第一类模型由关系表达式组成,例如:黄色伏蚜满足数据规律:R>=G>B,部分噪音和蚜虫满足数据规律:G>B&&G>R;第二类算数表达式,例如:应用RGB颜色空间模式的R,G,B分量进行函数变换,利用函数值作为K-means聚类点坐标将无法用关系表达式分割的蚜虫从噪音中分割出来。例如,使用f(X)=X2;对G分量进行变换就可以突出G分量与其他分量的差值,使用f(R,G,B) =a*R-b*G+c*B;对R,G,B三个分量进行函数变换就可以建立关系表达式f(蚜虫皮) 根据大量图像数据的规律构造函数表达式,将变换后的函数值作为颜色空间的描述。使用欧式距离作为相似度的距离,研究中根据算法设计需求使用不同维度下的欧氏距离公式,其二维、三维公式如公式(1)、(2)所示。 (1) D(A,B)= (2) 其中,A(x,y,z)是任意数据对象的坐标;B(x,y,z)是聚类中心点的坐标。研究采用误差平方和准则将同一类的数据聚集成一簇,其公式定义如公式(3)所示。 (3) 上式中,E为误差平方和准则函数值:wj是每一簇中给定的数据对象,ci是每一簇的平均值。如果E值越小,那么误差就越小,聚类的质量也就越好。 1.2.4 腐蚀去噪 图像腐蚀是形态学中去除图像某一些部分的常规图像算法[13-17]。棉蚜图像彩色分割后转换成二值图像,从二值图像中选取40(蚜虫一生四个龄期,取10个重复)个样本蚜虫,从中找到最小蚜虫所占像素个数T1;其次遍历彩色分割后的二值图像找到所有比T1小的连通分量中最大的连通分量所占像素个数T0。建立腐蚀结构元素大小与T0/2的关联关系为:在满足结构元素对称的情况下,选取上线和下线中最接近T0/2的两个整数。不同的图像会根据自己的复杂度从关联关系中自主选择最优腐蚀结构元素,从而摆脱人为选择腐蚀阈值去噪的素1、结构元素2和结构元素3和结构元素4。图4 图4 蚜虫样本数据 图5 结构元素 若T0是奇数每一个结构元素对图像腐蚀一次并计数为Ni,最终的蚜虫数量为Ni的加和平均数N,其计算公式如公式(4)所示。 (4) 1.2.5 蚜虫计数 1.2.5.1 黏连区域计数 采用优化的分水岭算法对黏连区域蚜虫进行分割,都取得了较好的分割效果,但其对阈值依赖性较高,例如基于距离变换标记前景与背景的分水岭分割[18-20],基于梯度图像的扩展极小值分水岭分割,其阈值选取都间接取决于图像复杂度,不同图像的最佳阈值有所不同。所以具有阈值依赖性的分水岭分割算法不适用于解决棉田复杂背景下黏连区域棉蚜分割。本研究利用离散型随机变量样本蚜虫所占像素个数X与其对应样本数量xi和其概率p(xi)得到单头蚜虫所占像素个数的期望大小E(x)如公式5所示,从而提出一种基于二值图像腐蚀后的黏连区域所占像素个数T2与单头蚜虫所占像素个数期望大小E(x)求模运算,从而实现黏连区域棉蚜分割计数。 E(x)=x1×p(x1)+x2×p(x2)+…+xi-1×p(xi-1)+xi×p(xi). (5) 1.2.5.2 蚜虫计数标记 采用连通区域标记算法对最终的二值图像进行标记和计数。从中选取400个蚜虫样本,100个蚜虫黏连区域样本。计算单头蚜虫连通分量所占像素个数的期望大小E(x),最小蚜虫连通分量所占像素个数T1,黏连区域所占像素个数的平均大小T2。遍历腐蚀以后的图像凡是连通分量像素个数X小于等于E(x)则计为单头蚜虫Ni,凡是连通分量像素个数大于E(x)且小于等于T2则为黏连区域,其蚜虫数量N2为X除以E(x)的模,凡是连通分量像素个数大于T2的则不计数。最终蚜虫数量N为单个蚜虫数量N1与粘连区域蚜虫数量N2之和,如公式(7)所示。 f(X)= (6) N2=X/E(x). N=N1+N2. (7) 研究自主研发一款便携式棉蚜拍摄装置(设备型号:ZL201720493225.4),基于该装置拍摄棉蚜图像不仅可以过滤掉棉田复杂背景,而且图像数据不会受到拍摄角度、光线、高度等的影响。基于这样的图像数据设计的棉蚜计数算法不仅鲁棒性好而且更能适应一线生产的棉蚜计数。图6 图6 棉田复杂背景下蚜虫彩色分割Fig.6Colorimagesegmentationeffectofaphids b和d的图像复杂度各有不同,变换成二值图像以后b中T0=46,所以腐蚀结构元素为图5中的a和b。图a中T0=31,腐蚀结构元素为图5中的c和d。 由于腐蚀算子结构元素的大小直接关系到蚜虫计数的精度,如果结构元素太大,在腐蚀去噪的同时去掉了低龄若蚜,导致计数结果偏小;如果结构元素过小则无法完全去噪,导致计数结果偏大。然而腐蚀对结构元素的类型和大小有很强的依赖性,而复杂背景下的图像千差万别,其最理想的腐蚀去噪结构元素大小往往不同。所以本研究采用多尺度结构元素对图像进行腐蚀去噪并记录蚜虫数量Ni,最终求其平均值N。图7 图7 二值图像的腐蚀操作Fig7Thecorrosionoperatoronbinaryimage 对10幅蚜虫图像进行传统估算计数,直接计数和实验算法计数。表1 表1 蚜虫数量Table1Resultsofautomaticandtraditionalaccountingofaphids 图像Image直接计数数量(只)Directly counting number 传统大田估算(只)Traditional counting估算准确率(%)The accuracy rate of traditional method机器计数(只)Machine counting机器准确率(%)The accuracy rate of computer algorithem提高精度(%)Improved precision136925067.831284.616.8255636064.849889.624.8363742065.954986.220.3471040056.362588.031.7588535040.078889.049.0691840043.583691.047.5795646048.183387.139.08116555047.2101286.939.79126860047.3106884.236.910155675048.2121579.130.9 提出一种基于自动结构元素的新的棉蚜计数方法,与前人研究方法和结果相比较,前人算法多基于灰度图像,其图像数据量只有彩色图像的1/3,此外前人也多采用某个统计阈值来适用于所有情况,造成算法稳定性不佳。算法能够因地制宜的根据每张棉蚜图像自身的数据情况找到最佳的算法阈值,这提高了在不同复杂背景下算法精确度的稳定性,降低了算法对阈值的依赖性,并有效解决棉蚜图像黏连分割的问题,最终完成基于数字图像的复杂背景下较为精确的棉蚜计数。但在实验过程中发现,在RGB数据走势和噪音会有很大的重叠,以及局部反光等产生噪音,这都导致计数精确度会有所下降,HSB、LAB、HSI等色彩模式下的数据分析是本文彩色分割算法优化的方向。 提出一种基于数字图像的棉田复杂背景下棉蚜统计方法。该方法设计的自动结构元素腐蚀算法实现了图像自动地从结构元素中选择最优结构元素对二值图像进行腐蚀去噪,摆脱了传统算法在腐蚀去噪时对阈值的依赖,该算法有助于提升蚜虫计数精度。自主研发的“棉田棉蚜拍摄装置”采集的对10幅蚜虫图像分别进行传统估算计数、直接计数和实验算法计数,基于自动结构元素的棉蚜计数方法计数平均精度为86.47%,平均提高计数精度达33.66%。
Fig.4 The data of aphids samples
Fig.5 Structural Elements2 结果与分析
2.1 彩色分割
2.2 腐蚀去噪
2.3 计数标记
3 讨 论
4 结 论