改进的模糊C均值聚类算法和霍夫变换在榛子仁缺陷检测中的应用1)
2021-06-26张冬妍张瑞韩睿曹军
张冬妍 张瑞 韩睿 曹军
(东北林业大学,哈尔滨,150040)
榛子形似板栗,果仁口感香酥、营养价值高,被赞誉为“坚果之王”。作为林业副产品中的优质资源,在烘焙食用、油料加工等方面的需求量极大[1-3]。受生长环境、保存条件等影响,榛子仁中常有干瘪、虫蛀、发霉、腐烂等缺陷。以往对其分类识别,主要依靠人工分拣,但人工分拣效率低,且评判标准不一,很容易出现检测结果的差异。且榛子仁个体间形状大致相近,肉眼可见差别不大;由于产地、种类及采摘期不同等原因,对于榛子仁的识别、分类难度会进一步加大。采用图像处理技术[4-7],可提高榛子仁缺陷识别效率和准确率,减少人力资源的浪费。
由于榛子仁表面种皮粗糙,图像边界模糊,采用传统的阈值分割难以清晰地将样本与背景分开。而模糊C均值聚类(FCM)算法选取的聚类值具有非概率特性,聚类结果灵活[8],可以把目标与背景间边界模糊不清的榛子仁个体,完整地从整体图像中提取出来。但传统的模糊C均值聚类算法对噪声不敏感。本研究以榛子仁为检测样本,采用模糊C均值聚类算法进行图像分割;利用飞蛾扑火(MFO)算法[9-11]改进其目标函数;利用函数对个体样本边缘提取[12-14],标记边缘拐点位置,计算拐点个数;对边缘图像进行霍夫(Hough)变换的椭圆曲线拟合,标记并输出饱满籽粒个数;依据试验数据,分析应用改进的模糊C均值聚类算法和霍夫变换对榛子仁缺陷检测的效果。旨在为准确有效地对榛子仁中的缺陷籽粒进行识别检测、提高榛子仁加工过程中的分拣效率提供参考。
1 材料与方法
1.1 试验材料
榛子仁:试验样本选自大兴安岭地区的野生榛子。根据样本实际情况,结合表1的定义标准[15-16],将其划分为饱满、干瘪、霉斑、虫蛀、腐烂5个不同种类,除饱满粒外,其他种类均为缺陷。从已有1 000颗榛子仁中,分类选取350颗(包括饱满粒100颗、干瘪粒100颗、霉斑粒50颗、虫蛀粒50颗、腐烂粒50颗),作为试验样本进行图像采集。
表1 坚果类食品术语和定义
1.2 模糊C均值聚类算法
模糊C均值聚类(FCM)算法[17]由Bezdek在1993年首次提出,主要是通过隶属度优化目标函数,定量表示样本间关系,尽可能减小类内差别,增大类间差别,以便自动对样本数据进行分类。先将该算法的聚类类别定义为C,当中包括N个L维向量数据,用x(k)表示,表示数据元素xj被划分为第i类的概率,即元素隶属度记作uij,可以通过式(1)求最小值。
i=1、2、3、…、C,j=1、2、3、…、N。
(1)
据经验,一般赋值m=2,uij需满足:
∑iuij=1,∀i,i=1、2、3、…、C。
(2)
0<∑iuij (3) 各变量偏导可通过以上约束条件求得式(1)最小时相应的隶属度变量uij与聚类中心vi。 uij=1/∑k[d2(xj,vi)/d2(xj,vk)]2/(m-1), k=1、2、3、…、C。 (4) j=1、2、3、…、N。 (5) 2015年,Seyedali首次提出飞蛾扑火(MFO)概念[18],该算法寻优能力良好,参数少。设飞蛾位置为空间变量,飞蛾不断改变位置矢量飞行于超维空间。飞蛾和火焰两者区别,为算法迭代与更新方式间的差异。飞蛾不断进行空间搜索,将飞蛾当前获最优位置看作火焰。在该算法中,将更新位置的主要机制设为对数螺旋,公式为: Mi=Di·ebθ·cos(2πθ)+Fj。 (6) 式中:θ是为-1~1间的随机数;b为常数;Mi为飞蛾i;Fj为火焰j;Di为两者间的间距,Di=|Fj-Mi|。 飞蛾路径如图1所示。θ为收敛常数,定义飞蛾的下一次位置靠近火焰程度,θ=-1时飞蛾离火焰最近、θ=1时飞蛾离火焰距离最远。 图1 参数θ的分布 式(6)仅定义飞蛾扑火的过程,易收敛过快,致局部最优。为了避免此种情况,需计算飞蛾适应度值,火焰以适应度值为标准排序,飞蛾通过式(6)更新位置逐次迭代。通过这种方式,每只飞蛾与一簇火焰对应,初始飞蛾靠向最优火焰,末尾飞蛾靠向最差火焰。同时,对于火焰采用自适应,减少机制,增大效率,寻找最优解。当迭代至最后一次,将保留唯一火焰作为全局最优解。公式为: f=r[N-t(N-1)/T]。 (7) 式中:f为当前迭代次数的火焰数量;r为向下取整操作的函数;t为迭代次数;T为最大迭代次数;N为初始火焰数。 传统FCM算法是通过类梯度下降方法求取目标函数J(U,V)的最优解。由于隶属度变量U为模糊值且不断变化,通过类梯度下降法求目标函数的最优解,函数收敛较慢,且易于陷入局部极小值化。因此,结合图像像素点位置坐标,并引入飞蛾扑火算法,对其进行改进。首先通过腐蚀膨胀开闭运算将位置固定,并求得各样本聚类中心,而后在进行模糊均值聚类时,通过式(8)求得聚类距离(D)。 D=R2+G2+B2+X2+Y2。 (8) 式中:R、G、B为RGB色彩图像中颜色通道色彩分量;X、Y为当前像素点到聚类中心点间距离,避免了目标函数陷入局部极小值化。 引入飞蛾扑火算法,随机选取飞蛾初始位置并计算其适应度值,通过式(6)迭代,直至达到最大迭代次数,保留最佳位置作为新的聚类中心对图像数据元素进行重新聚类划分。 样本图像膨胀、腐蚀处理及中心点绘制过程见图2。预处理过程中,由于部分样本发霉、虫蛀等缺陷,导致二值化图片有白色空洞,为了将其填补从而获得更加完整准确的图像,对样本图像进行膨胀处理。同时,针对试验过程中,样本个体间存在黏连现象,对样本图像进行腐蚀处理。通过不断的膨胀腐蚀开闭运算,直至将样本个体彼此间清晰分开,继而通过搜索连通域,选取连通域中心点。 图2 样本预处理图像 用FCM改进前后的两种方法对整体样本图像进行分割后得到样本个体图像,分别从中随机选取饱满、干瘪、霉斑、虫蛀、腐烂5种图像(见图3、图4)。对比可见,传统方法所得图像,细节处分割效果不佳,且存在像素失真现象;对于存在缺陷的干瘪、霉斑、虫蛀等籽粒,分割边界不够清晰。改进后的FCM算法分割所得图像,边缘更加清晰流畅,更有利于试验的后期处理。 图3 传统FCM算法处理图像 图4 飞蛾扑火优化的FCM算法处理图像 在图像处理过程中,通过边缘拐点分布情况,能更准确地了解图像的形状特征,解决实际问题[19]。试验中,饱满样本的边缘较为平滑,而干瘪、霉斑、虫蛀、腐烂样本,由于表面缺陷导致其边缘曲线平滑度较差。因此,对个体样本进行边缘提取,并以通过拐点个数的多少判断样本表面光整度,从而对其达到缺陷识别效果。与其他算子(如索贝尔(Sobel)算子)相比,康尼(Canny)算子[20-21]因其抗噪能力强,能检测到易被忽略的弱边缘。因此,选取Canny算子提取样本边缘,以便更好识别出样本边缘轮廓间的细微差异。图5为通过Canny算子对5种样本图像进行边缘检测所得图像,图6为样本拐点标记图像。 图5 采用Canny算子边缘提取样本图像 图6 拐点标记样本图像 图6中检测到的拐点个数,饱满粒为6、干瘪粒为8、霉斑粒为32、虫蛀粒为24、腐烂粒为20。可见,饱满粒、干瘪粒,由于表面相对光滑,通过对其边缘检测,得到的拐点数在10个以下;而霉斑、虫蛀、腐烂粒,由于变质、表面损坏等原因,拐点个数均大于10;因此,拟将边缘图像拐点数作为榛子仁缺陷检测的区分指标之一。为了使试验结果更具有普遍性、代表性,现从已采集的5种样本图像中选取清晰图像进行边缘检测处理,并求取拐点个数(见表2)。由表2可见:96.94%的饱满粒检测到的拐点数在10个以下,95.88%的干瘪粒检测到的拐点数在10个以下,其余3种缺陷(包括霉斑、虫蛀、腐烂粒)边缘拐点个数10个以上所占比例均达到了95%以上。由此得出,在误差允许范围内(小于0.05),样本图像边缘轮廓检测到的拐点数大于10个,即可标记为缺陷。 表2 数据集样本边缘轮廓检测到的拐点个数及所占比例 饱满样本与其他几种样本相比,边缘更加圆润,边缘曲线接近椭圆,因此将提取到的边缘图像进行椭圆曲线拟合。对于可以识别检测到的椭圆图像标记为饱满,否则标记为缺陷。现有的椭圆检测方法中,最小二乘法[22]、依据Hough变换法[23-24]最为常用。但最小二乘法对于孤立点的判断,易受到噪声的影响,拟合误差很大。因此在椭圆轮廓提取中,Hough变换法效果更好。 将图6中样本边缘图像通过Hough变换进行椭圆曲线拟合,其中只有饱满籽粒边缘得到椭圆拟合曲线(见图7),其余籽粒均未检测到椭圆拟合曲线,标记为缺陷粒。 图7 Hough变换边缘椭圆拟合曲线图像 由表3可见:饱满样本中有96.94%可以得到椭圆拟合曲线,干瘪样本中仅有3.09%可以得到椭圆拟合曲线,而霉斑、虫蛀、腐烂样本均未输出椭圆拟合曲线,未输出拟合曲线样本均被标记为缺陷,在误差允许范围内(小于0.05),可以很好地实现对榛子仁缺陷准确识别的目的。 表3 数据集样本椭圆曲线拟合结果 对榛子仁缺陷检测提出了一种新的方法。通过结合像素点空间位置,并引入飞蛾扑火算法对FCM算法进行改进,从整体样本图像中获得清晰且分割效果良好的样本个体图像。通过对样本图像形态学分析,利用拐点数的标识计算,判断榛子仁表面外轮廓光滑度及果仁饱满程度,识别出样本是否存在缺陷并分类标记,从而实现榛子仁的缺陷检测。结果表明,本研究所提的改进方法对于榛子仁样本缺陷识别准确率达到96%以上。在未来的研究中,可推广用于其他坚果类的分类识别中,为林下产品加工行业的检测与识别提供有力的技术支持。1.3 飞蛾扑火算法
1.4 飞蛾扑火算法改进的FCM算法原理
2 结果与分析
2.1 改进FCM算法的图像分割
2.2 样本图像的边缘提取
2.3 样本图像边缘的椭圆曲线拟合
3 结论