基于轮廓纹理特征和线性判别分析的鲜烟叶部位识别方法
2022-12-20赵浩斌路晓崇张晓阳宋朝鹏
赵 晨,赵浩斌,路晓崇,张晓阳,白 涛,毛 岚,宋朝鹏,王 涛
(1. 河南农业大学 烟草学院,河南 郑州 450002;2. 河南省烟草公司,河南 郑州 450018;3. 山东中烟工业有限责任公司,山东 济南 250014;4. 云南省烟草公司曲靖市公司,云南 曲靖 655000)
烤烟作为一种重要的经济作物,其着生部位对烤后烟叶的物理特性[1-2]、化学成分[3-4]和感官质量[5-6]均有较大影响,同时也是烤烟烘烤工艺制定的重要依据[7]。目前生产中对采收鲜烟叶的部位判断多采用眼观、手摸等经验性方法,对于鲜烟叶部位特征的语言描述存在较高的模糊性和误差性[8]。因此,提出一种快速、准确、无损的鲜烟叶部位客观判别方法,对提升烟叶烘烤工艺的精准控制具有一定的意义。
目前,国内外研究人员多采用计算机视觉技术提取植物叶片形状轮廓特征[9]及纹理特征[10-11],构建植物叶片分类识别模型。BEGHIN 等[12]研究发现,与单一特征相比,轮廓与纹理融合特征可有效提升叶片的分类识别效果。在烟草检测领域,烟叶分类多采用形状、纹理和颜色特征参数,李翠英等[13]提取了能表征不同部位的烟叶轮廓特征,基于烟叶边缘拟合的二元正交多项式实现烤后烟叶部位分类;魏扬帆[14]通过烟叶图像尺寸大小进行预分级,基于Lab 颜色模型实现烟叶等级判别;庄珍珍等[15]采用烟叶形状与颜色融合特征,基于模糊数学方法实现了烤后烟叶分级。这些研究很好地推动了计算机视觉技术在烤烟分级中的应用,但此类方法对烤烟分级的准确度要求较高,受烟叶品种、产区、专家经验等因素影响,人工分组定级过程中容易出现误分现象,对于模型分级结果影响较大。因此,有学者采用神经网络权重与图像特征相结合的方法,对烤后烟叶进行分级。申振宇等[16]提取了烤后烟叶图像的形状、颜色和纹理特征,基于GRNN 模型分别构建烤后烟叶的部位、颜色、等级网络,通过3 次分级筛选实现烤后烟叶等级划分。但基于计算机视觉技术对烤烟部位的研究集中于烤后烟叶分级,在鲜烟叶部位识别方面鲜见报道,且对轮廓与纹理融合特征参数应用较少。因此,提出了一种基于轮廓纹理特征的鲜烟叶部位识别方法,通过对所采集鲜烟叶图像进行预处理,提取鲜烟叶形状特征和纹理特征参数,使用线性判别分析(LDA)进行特征降维,构建鲜烟叶特征数据集,利用轮廓纹理融合特征数据和K 近邻分类器对鲜烟叶所属部位进行分类,以期能够实现鲜烟叶部位的快速、无损识别。
1 材料和方法
1.1 试验材料
试验于2020—2021 年在河南农业大学试验基地进行。供试品种为云烟116、云烟87 和翠碧1 号。选取当地管理规范的烟田、具有代表性的烟株,成熟期采收,上部叶采收位置为15~18叶位,中部叶采收位置为9~12叶位,下部叶采收位置为5~7叶位。
1.2 鲜烟叶图像获取
共采集900个鲜烟叶样本,其中,下部叶296个,中部叶298 个,上部叶306 个。将采收鲜烟叶平铺放置在黑色背景布中央,将奥林巴斯XZ-1 CCD 相机固定在三脚架上,距地面约1.5 m,利用水平仪调节镜头与地面垂直,采集图像。鲜烟叶原始图像为24位真彩色图像,分辨率为3 648像素×2 736像素。
1.3 试验方法
为实现鲜烟叶着生部位的快速、无损识别,提出了一种基于轮廓-纹理特征和LDA 的方法实现鲜烟叶部位判别,算法流程如图1所示。
图1 鲜烟叶部位识别方法流程Fig.1 Process of green tobacco site identification method
图像预处理:为减少图像处理的时间和成本,将所采集烟叶图像按照原始图像的宽高比,缩放至304像素×228像素。并将上部叶、中部叶、下部叶分别以1、2、3进行标注。
特征提取:基于鲜烟叶图像提取轮廓特征参数和纹理特征参数,进行特征融合,采用LDA 方法进行降维,获得鲜烟叶轮廓-纹理特征数据集。以4∶1的比例随机选取训练集和测试集。
鲜烟叶部位分类:采用K 近邻算法(KNN)构建鲜烟叶部位分类模型,通过测试集对模型进行评估,实现鲜烟叶部位识别。
采用Origin 2021 绘制鲜烟叶轮廓-纹理特征参数分布图,使用Python 3 编程语言,基于Anaconda 3集成开发环境,实现轮廓-纹理特征提取、特征降维和识别模型构建。
1.4 特征提取
1.4.1 轮廓特征提取 为准确识别鲜烟叶着生部位,对鲜烟叶的轮廓特征参数[17]进行提取。以图像预处理缩放后的图像作为原始图像,通过灰度二值化预处理实现图像中叶片与背景的分离,然后采用Canny 算子对烟叶轮廓特征进行边缘提取[18],构建叶片轮廓的外接矩形[19],提取叶片的边缘特征参数。叶片边缘特征参数提取过程如图2所示。参数提取方法及释义如下。
图2 烟叶边缘特征参数提取过程Fig.2 Process of leaf edge feature extraction
由于样本图像采集过程中,受拍摄角度、拍摄距离等因素影响,轮廓特征参数应当具有缩放、旋转、平移不变性,鲜烟叶的叶长、叶宽、面积等边缘参数不足以作为分类依据[20]。故而选取4 项叶片轮廓特征:狭长度、矩形度、圆形度、叶宽轴与质心夹角弧度,计算方法[18,20]如下:
狭长度(AR):叶长和叶宽的比值,用于描述叶片圆形程度。
矩形度(RECT):叶片与其外接矩形的面积比,反映叶片对其外接矩形的充满程度。
圆形度(CIR):周长的平方与面积的比值,描述叶片边界复杂程度。
叶宽轴与质心夹角弧度(RAD):点L(p1,q1)与质心O(X,Y)连线LO和点R(p2,q2)与质心连线RO所成夹角α对应的弧度值。
其中,LMER为叶片轮廓上下距离最大的2 个点之间连线的像素点数量,2 个点分别为T、B;WMER为叶片轮廓上与TB 连线垂直、且距离最远的2个点之间连线的像素点数量,2 个点分别为L、R;A为叶片轮廓包含的像素点个数;P为外轮廓所占像素点个数;AMER为提取鲜烟叶轮廓的最小外接矩形包含的像素点个数;O为质心坐标,通过轮廓矩计算。
1.4.2 纹理特征提取 灰度共生矩阵(Gray level co-occurrence matrix,GLCM)是一种通过检测像素空间关系,表征图像纹理特征的统计方法,是分析图像的局部模式和排列规则的基础[21-22],鲜烟叶图像的纹理特征可以反映鲜烟叶部位间的皱缩程度变化情况[23]。基于RGB 颜色通道,选取位移矢量为1,方向为0°、45°、90°、135°的6 个GLCM 特征向量,计算公式[21-23]及具体描述如下:
相关性(Corr):反映度量图像的灰度级在行或列方向上的相似程度。
同质性(Homo):反映图像局部灰度均匀性。
纹理惯性(F):反映图像灰度分布的复杂程度。
对比度(Con):反映图像的清晰度和纹理沟纹深浅的程度。
纹理熵(Entr):反映图像非均匀程度或混乱程度。
纹理能量(Ener):反映图像灰度分布均匀程度和纹理粗细。
其中μi,μj,σi,σj的计算公式为:
式中,N:图像灰度级数目;Pi,j:归一化后的灰度共生矩阵元素,i、j分别表示2 个像素的灰度等级,i= 0,1,…,N- 1。
1.4.3 特征降维 LDA[24]算法的基本思想是将烟叶轮廓-纹理特征数据集,通过低维度投影寻找到最优投影矩阵,实现分类信息提取和特征数据降维,投影后的样本在新空间达到类间数据离散度最大、类内数据离散度最小的标准[25],即3 个部位的数据集在该空间中具有最优的可分离性。
1.5 鲜烟叶部位识别
KNN 算法[26]的核心思想是对于给定的烟叶测试样本xt,通过测量不同特征向量之间的欧式距离,获取测试样本与待测样本距离最近的前k个标签特征,以出现次数最多的标签特征作为待测样本的标签特征来预测其部位类别。欧式距离的计算公式[11]为:
其中,xtk、xik分别为xt、xi的特征值。
KNN 分类器对于轮廓-纹理特征存在交叉或相似性较高的烤烟相邻部位,识别准确度高,所需时间较短,因此,选用KNN分类器构建识别模型,实现鲜烟叶部位分类。
针对鲜烟叶轮廓-纹理特征数据,采用未经处理、主成分分析(PCA)降维和LDA 降维3 种处理方法,对比基于KNN、SVM 和BP 神经网络的模型识别结果。选择模型的精确率、召回率、F1 分数和准确率来评价鲜烟叶部位识别模型的性能。
2 结果与分析
2.1 特征提取与降维
基于轮廓特征,提取狭长度、矩形度、圆形度和叶宽轴与质心夹角弧度4 个特征参数;基于纹理特征,提取相关性、同质性、纹理惯性、对比度、纹理熵和纹理能量6个特征参数。将所提取轮廓特征和纹理特征结合,对10 个特征参数进行归一化,采用LDA 降维处理形成新的特征矩阵。将融合特征经LDA 处理投影到二维图像(图3),结果表明,对融合特征进行LDA 降维处理可以保留训练样本的类别和特征信息之间的关系,经LDA 降维后的特征矩阵在3个部位类别间有较好的区分度。
图3 轮廓-纹理融合特征提取流程及结果Fig.3 Process and result of contour-texture blend feature extraction
随着采收部位上升,鲜烟叶叶片由宽大逐渐转变为狭长,叶面皱缩程度增大[2]。轮廓特征和纹理特征能够区分不同采收部位鲜烟叶,可以将烟叶轮廓、光滑性、皱缩性等特性数字化,表征鲜烟叶部位变化。
2.2 不同部位鲜烟叶图像特征对比及降维分析
为验证提取轮廓-纹理特征在部位识别模型中的有效性,对轮廓特征、纹理特征及轮廓-纹理特征这3种特征数据,分别采用未经降维处理、PCA 降维和LDA降维方法,比较其分类准确度。图4和图5分别为轮廓特征、纹理特征和轮廓-纹理特征经PCA、LDA降维处理后,在二维空间下3个部位的类别分布图。可以看出,经LDA 降维处理后的特征离散程度较经PCA 降维处理后的特征离散程度更高,基于LDA降维方法所构建的模型可以有效提升鲜烟叶部位识别准确率。通过对比图4a 与5a、4b 与5b、4c 与5c可以看出,在二维空间下,对轮廓特征和纹理特征进行PCA 和LDA 降维处理后,上部叶和下部叶的离散性较强,但相邻部位间仍有较高的重叠性;图5c中同部位特征点的聚合性强,且不同部位间呈现较强的离散性,能够较好地进行鲜烟叶部位区分。
图4 不同特征经PCA 处理后的可视化展示Fig.4 Visual display of various features processed by PCA
图5 不同特征经LDA处理后的可视化展示Fig.5 Visual display of various features processed by LDA
表1为轮廓特征、纹理特征及轮廓-纹理特征数据经未经降维处理、PCA 降维和LDA 降维处理后,在BP、SVM 和KNN 模型上的部位识别结果。就不同识别模型而言,采用未经降维处理的特征数据,基于SVM 的模型识别准确率最高,基于BP 神经网络的模型识别准确率最低。采用PCA 降维后的特征数据,轮廓特征和轮廓-纹理特征采用基于SVM的模型识别准确率最高,纹理特征采用基于KNN 的模型识别准确率最高。采用LDA 降维后的特征数据,基于KNN 的模型识别准确率最高,基于BP 神经网络的模型识别准确率略高于SVM。
表1 不同特征选择方法下鲜烟叶图像特征的识别准确率对比Tab.1 Comparative identification accuracy of multiple green tobacco features by different feature selection methods
与未经降维处理和PCA 降维方法相比,LDA 降维处理可以有效提升部位模型的识别准确率。LDA 降维后的数据与未经降维处理数据相比,在轮廓特征下,LDA-KNN、LDA-SVM、LDA-BP 的分类准确率由0.56、0.66、0.61 分别提高至0.67、0.67、0.67。在纹理特征下,LDA-KNN、LDA-SVM、LDABP 的分类准确率由0.73、0.75、0.67 分别提高至0.87、0.83、0.87。在轮廓-纹理特征下,LDA-KNN、LDA-SVM、LDA-BP 的分类准确率由0.83、0.83、0.82 分别提高至0.99、0.95、0.97。采用PCA 降维处理后的特征数据所构建的模型,与采用未经降维处理的特征数据所构建的模型识别结果相比,存在识别结果不增反降的现象,说明针对本试验中的特征数据集,LDA 降维处理可以对数据起到较好的优化效果。
采用不同参数特征所构建的鲜烟叶部位识别模型,其识别效果差异较大。3种模型均在轮廓-纹理融合特征下的识别准确率最高。在轮廓-纹理融合特征下的分类效果最好,这可能是因为融合的鲜烟叶轮廓和纹理特征数据包含了更全面的特征信息,所以分类结果最优。基于纹理特征的模型识别结果优于基于轮廓特征的模型识别结果,这可能是因为烤烟生长过程中受品种、环境等外界因素影响,其烟叶轮廓差异性较小,所以基于轮廓特征的部位识别效果最差。
2.3 基于轮廓纹理融合特征的模型性能评估
为了进一步证明该方法的性能,将提取的轮廓-纹理特征与经过PCA、LDA 降维处理后的特征,分别在基于KNN、SVM、BP 神经网络模型上针对分类指标与评估时间进行对比分析,结果见表2。其中模型评估时间为模型训练和分类结果预测的处理时间总和。从表2 可以看出,LDA 降维方法较PCA 方法能显著提高部位分类的各项指标性能,在KNN 识别模型中,经LDA 处理后模型精确率较PCA提高了0.23,在SVM 识别模型中精确率提高了0.14,BP 神经网络识别模型中精确率提高了0.19。在3 种识别模型中,采用PCA 处理后特征构建的识别模型效果较差,采用LDA 处理特征构建的3 种识别模型的召回率、F1分数和准确率较PCA处理和未经降维处理的特征识别结果均有较大提高,基于SVM 和BP 神经网络模型的识别准确率达到了0.95和0.97。采用LDA 降维处理后的特征所构建的KNN识别模型处理时间最短,为0.01 s。
表2 不同预测模型的验证结果Tab.2 Validation results of different predictive models
3 结论与讨论
本研究针对鲜烟叶的部位识别问题,采用机器视觉技术,采集了不同品种不同部位的鲜烟叶图像数据进行试验,提出了基于轮廓-纹理特征和LDA的鲜烟叶部位无损检测方法。通过比较不同特征选择方法对鲜烟叶部位图像特征的影响,在基于KNN、SVM、BP神经网络模型下分别进行试验,采用LDA 处理后的特征所构建的模型准确率均高于经PCA 处理和未经降维处理的模型准确率,经LDA 处理的轮廓-纹理特征模型分类准确率分别为0.99、0.95、0.97,均高于轮廓特征和纹理特征的最优分类准确率,基于轮廓-纹理特征、LDA处理和KNN算法所构建的鲜烟叶部位识别模型,其精确率、召回率、F1 分数、准确率均达到0.99,且算法处理时间更短,能够较好地识别鲜烟叶着生部位。
本研究为鲜烟叶采收部位的快速、无损识别提供了一种技术参考,所提出的基于轮廓-纹理特征和LDA 处理后获得的高质量鲜烟叶特征,能够很好地表征鲜烟叶部位分类,可有效提升烤烟鲜烟叶素质的判别准确度。本研究的技术方法是基于完整的单片烟叶图像,对于挂竿鲜烟叶图像的特征提取及其部位分类还需要进一步研究。