基于机器视觉技术对烟叶部位识别方法的研究*
2022-07-05谢先明周俊成黄人杰高焕晔娄元菲江家洪
谢先明,郭 涛,周俊成,黄人杰,高焕晔,刘 伟,娄元菲,江家洪
(1.贵州烟叶复烤有限责任公司湄潭复烤厂,贵州 遵义 564100;2.贵州大学烟草学院/贵州省烟草品质研究重点实验室,贵州 贵阳 550025;3.贵州中烟工业有限责任公司,贵州 贵阳 550000)
外观特征是烟叶工业分级的重要特征,当前烟叶分级仍以人工分级方法为主,但人工分级对烟叶等级的判定受分级专家自身情绪的影响,判定结果也因此产生差异[1-3]。为避免主观因素对烟叶等级判定的影响,采用烟叶图像外观信息提取与计算机处理,结合加工过程其他纬度数据,最大程度地体现烟叶分选和可视化表征上的基准尺度不变性的优势[4-7]。在工业分级过程中,通常有三个主要外观质量因素,分别是“颜色的均匀度”“颜色的鲜亮程度”和“烟叶的油分”,而烟叶的形态特征、轮廓、颜色等信息是可以通过图像提取而获得的。对图像的信息进行提取、监控及模式识别处理,为实际工业分级的机器视觉技术运用提供了数据来源与理论基础[8-12]。
1 材料与方法
1.1 材料与设备
1)烟叶样本产地为贵州遵义,分别取上、中、下三个部位烟叶。上部烟包括B1F、B2F 和B3F 三个等级;中部烟包括C1F、C2F、C3F 和C4F 四个等级;下部烟包括X1F、X2F 和X3F 三个等级。每个等级取30片烟叶,共计300片烟叶样本。
2)烟叶拍摄设备为FILR 相机(型号:BFS-PGE-200S6C-C,美国),拍摄照片像素为2 280*5 028,拍摄环境温度为25 ℃。为保证更好地突出烟叶的颜色,拍摄在密闭环境下进行,采用黑色背景板以保证拍摄不受外界光干扰。
1.2 试验方法
取贵州遵义产地原烟,首先由分级专家对烟叶进行人工分级,而后取人工分级后的B1F、B2F、B3F、C1F、C2F、C3F、C4F、X1F、X2F、X3F 等级烟叶,采用烟叶密封拍摄装置采集烟叶原始图像。对烟叶图像进行预处理后,提取其烟叶图像的颜色和形状等特征信息,最后对烟叶颜色、形态特征与部位标签建立分类模型。
1.2.1 烟叶颜色特征提取
先对采集的原始图像进行滤波处理,然后选择合适的阈值对滤波后的图像进行二值化处理,分割出烟叶区域,分别提取烟叶的R 分量、G 分量和B 分量,并分别计算R 分量、G 分量和B 分量的均值和标偏。之后将RGB(Red 红,Green 绿,Blue 蓝)颜色模型转换成HSV(Hue色调,Saturation饱和度,Value亮度)模型,同时分别提取H 分量、S 分量和V 分量,并计算各分量的均值和标偏。
R、G、B 各分量均值的计算方式:先把R、G、B(R、G、B 分别对应图像矩阵I 的第1 维、2 维、3 维)颜色数值的uint8 型矩阵转换成double 型矩阵Rd、Gd、Bd。
设[m,n]为烟叶所在图像矩阵的索引,烟叶所在区域的颜色为:
原始颜色数据R、G、B 的均值分别用M R、表示,其具体的计算公式如下,p是R向量的长度:
原始颜色数据R、G、B 的标准偏差分别用stdR、表示,其具体的计算公式如下:
计算烟叶的HSV颜色,先把R、G、B按照如下的公式转换成H(色调)、S(饱和度)、V(明亮度)。
HSV 颜色空间各分量的均值与标准偏差计算方式同RGB颜色空间各分量。
1.2.2 烟叶形态特征提取
先对采集的原始图像进行滤波处理,然后选择合适的阈值对滤波后的图像进行二值化处理分割出烟叶区域,得到烟叶部分的连通区域,根据连通区域的像素位置获取所述烟叶的面积、长、宽和周长。
1)烟叶面积计算。图像二值化后,背景像素为0,烟叶区域像素为1,统计二值化图像矩阵中像素为1 的数量记作S,那么S为烟叶图像的面积。
2)烟叶长宽计算。计算连通区域的最小外接矩形,将外接矩形的长L 记作烟叶的长度,外接矩形的宽W记作烟叶的宽度。
3)烟叶周长计算。提取连通区域的轮廓,该轮廓为烟叶的轮廓,利用8 邻域链码跟踪烟叶的轮廓,得到轮廓链码,周长的计算公式为:,其中,Nodd为8 邻域链码中奇数码的数量,Neven为8 邻域链码中偶数码的数量。8邻域链码示意图如图1 所示,图中黑色的圆点表示二值化中像素为1 的点(轮廓上的任意一点),周围8 个方向为点的链码方向,如方向3 中也存在像素为1 的点,那么该点的8 邻域编码为3。
图1 8 邻域链码示意图
2 结果与分析
2.1 烟叶图像预处理
由于采集的烟叶的原始图像会存在一定的噪声,因此采用滤波消除噪声干扰,在进行二值化处理的时候尽量提取烟叶所在区域。图2 中(a)为原始烟叶图像,(b)滤波后的灰度图,(c)为二值化图像。
图2 图像预处理
烟叶轮廓提取和最小外接矩形,如图3所示。
图3 轮廓提取和最小外接矩形
2.2 烟叶部位识别
将RGB 颜色模型和HSV 颜色模型各分量的均值和标偏以及烟叶周长、面积、长和宽作为特征变量,共计16个特征变量。
将300 个样本分成两部分,其中210 个样本作为训练集,另外90 个样本作为测试集。将测试集中90个烟叶样本16 个特征进行主成分分析,前两个主成分得分图如图4 所示。从图4 可以看出,三个部位的烟叶重叠严重,利用主成分分析很难将它们区分开。
图4 90 个烟叶样本16个特征的前两个主成分得分图
分别运用Fisher线性判别分析(Fisher's Linear Discriminant Analysis,LDA)、朴素贝叶斯分类器(Naive Bayesian Classifier)、支持向量机(Support Vector Machine,SVM)、K最近邻(k-Nearest Neighbor,KNN)分类算法和BP 神经网络进行判别分析。图5是采用LDA 对训练集进行建模分析,90 个测试集样本的前两个得分图,从图中可以看出上部烟可以很好地区分开,但是中部烟和下部烟重叠还是比较严重。
图5 90 个烟叶样本LDA 前两个得分图
采用不同分类方法得到的预测结果如表1 所示,从结果上看朴素贝叶斯分类器效果最好,正确率为88.89%。从表中还可以看出上部烟预测正确率最高,中部烟和下部烟预测正确率较上部烟偏低。
表1 不同分类方法预测结果
3 讨论
综合已有相关研究,当前大部分研究成果都是通过静态采集方式对烟叶图像进行采集,经计算机的处理获得烟叶的外观特征,但随着对产区烟叶的深入研究及对分级要求的更加严格,对部位等级识别的精度也提出了更高要求[13]。通常情况下,烟叶特征会因为年份、产区、品种、等级及贮存条件的不同而呈现差异,这些信息较大程度上能够表现在烟叶的外观差异上,产区也是导致烟叶特征差异的重要因素,相关问题对实现烟叶自动化批量检测造成一定困难[14-15]。在识别过程中,受环境光线、拍摄设备稳定性等因素的影响,增加了对图像预处理的难度,也降低了图像预处理结果的精确度和时效性[16-17]。此外,烟叶摆放的位置也对烟叶图像采集质量产生一定影响,易对采集图颜色造成影响;而烟叶烘烤后产生的皱缩、压痕和破损及烟叶表面病斑等,均会对烟叶形态的图像采集及成像质量产生不同程度的影响[18-19]。为获得更有价值的烟叶特征,对烟叶的品质进行控制和严格的分级及贮存标准,有利于提高烟叶图像信息提取的准确性。
现有研究中,烟叶的部位及等级对烟叶加工过程中的加料和掺配均匀性有一定影响,进而对最终卷烟产品的稳定性产生影响。沿用人工评定的方式,在时效和判定结果的精准度上仍会受专家的主观因素影响。因此,基于机器视觉对烟叶外观特征的提取,进行烟叶部位识别的研究尤为重要。烟叶图像中的颜色、长度、宽度、面积和周长等是计算机对烟叶部位进行识别的重要判别信息。本研究表明,该方法对上部烟的识别准确率最高,为88.89%,中部烟和下部烟的识别率较低,这表明贵州遵义烟区上部烟叶外观特征提取更加明显。