基于机器视觉的烤烟鲜烟成熟度判别模型优选*
2023-09-11刘浩孟令峰王松峰刘自畅杜海娜孙福山
刘浩,孟令峰,王松峰,刘自畅,杜海娜,孙福山
(1. 中国农业科学院烟草研究所,农业部烟草生物学与加工重点实验室,山东青岛,266101;2. 中国农业科学院研究生院,北京市,100081)
0 引言
烤烟烟叶是卷烟生产的主要原料,其产量和品质的提升一直是广大烟叶工作者关注的重点,鲜烟叶作为烤后烟的基础,其成熟度直接影响烤后烟的质量[1],烤烟上部叶是烤烟单株生产力的重要组成部分,并且上部烟叶的烘烤难度较中下部烟叶大,所以科学地判定上部叶成熟度对于提高烤后烟质量有重大意义。但目前对于鲜烟成熟度的判别大多是依靠人工主观经验,存在判别标准不统一、主观性过强、费力低效的缺点[2-3]。而且对鲜烟进行各种生理生化指标判别时[4],需对烟叶进行有损检测,存在技术性要求较高,费时和操作复杂等问题。因此实现鲜烟叶成熟度的智能判别是目前研究的重点。目前机器视觉技术在农业方面应用甚广[5-7],如产前种子筛选与果蔬分级[8-9]、产中作物病虫草害识别与监测[10-14]、作物生长信息监测与产量估计[15]以及现代农业装备定位导航[16]等领域均有一定程度的应用。在鲜烟成熟度判别方面,史龙飞等[17-18]建立了鲜烟成熟度智能判别的一些模型,初步证明利用机器视觉技术对鲜烟成熟度进行判别是可行的,而建立多种预测鲜烟成熟度模型进行比较的报道较少。
基于此,本文拟通过构建不同鲜烟成熟度图像数据库、提取图像颜色与纹理特征值,利用聚类分析和相关性分析筛选鲜烟成熟度图像指标,建立基于遗传算法的支持向量机(GA-SVM)、基于粒子群算法(PSO-BP)的神经网络和极限学习机(ELM)三种模型对鲜烟成熟度进行判别比较,得出优选模型,以期为鲜烟素质成熟度的智能判别和智能采收提供理论依据和技术支持。
1 材料和方法
1.1 试验材料
试验于2021年在四川省凉山州西昌市中国农业科学院西南试验基地进行,试验田肥力中等,供试烤烟品种为云烟87,行距1.2 m,株距0.5 m,按照优质烟生产技术规范进行栽培。采收的上部鲜烟叶按照4个档次成熟度分类:欠熟(50片)、尚熟(49片)、适熟(49片)、过熟(52片),分类标准如表1所示。
表1 烟叶不同成熟度处理及主要外观特征Tab. 1 Tobacco leaves with different maturity and main appearance characteristics
图像采集设备采用专用高清相机和标准拍摄暗箱。利用Matlab 2016进行数据处理。
1.2 图像预处理
烟叶图像会受到背景、光照等因素影响而产生噪声,为了增强图像中的有效信息,需对采集图像进行改善处理,来提高图像的辨识度[19-21]。如图1所示,本研究将原始图像转为灰度图像,分别采用均值滤波和中值滤波对采集图像进行去噪,结果表明使用中值滤波器能够改善烟叶图像的质量。由于鲜烟叶图像采集时会受背景因素影响,所以使用Matlab 2016自带的阈值分割程序进行基于YCbCr颜色空间的图像分割。并运用合成运算获得与背景分割后的完整烟叶彩色图像。
(a) 烟叶原始图像
1.3 图像特征提取
鲜烟素质可作为鲜烟采收成熟度的内在基础与成熟度形成对应关系,鲜烟素质可以通过成熟度表现出来,而烟叶颜色和主脉状态是判断烟叶田间成熟度的重要依据[22],因此可以通过颜色特征和纹理特征来量化烟叶采收成熟度,以提供判断标准。本试验主要是在不同颜色空间模型RGB和l*a*b*颜色空间的基础上提取了其颜色均值和基于R、G、B颜色矩阵的几种组合特征2G-R-B、R/G、G-R和基于l*a*b*颜色矩阵的a*/b*,基于鲜烟叶图像灰度梯度共生矩阵的能量、灰度平均、梯度平均、灰度不均匀、梯度不均匀、相关度、灰度熵、梯度熵、惯性矩和逆差矩10个纹理特征。
1.4 数据处理与模型建立
为保证模型训练准确性及模型的泛化性,将上述提取的10个颜色特征和10个纹理特征分别进行变量聚类,然后将烟叶图像特征与鲜烟成熟度进行相关性分析,筛选出每类特征中与成熟度相关性最强的1个图像特征作为训练样本。选取优选图像特征组合作为模型输入,建立ELM、GA-SVM和PSO-BP分类模型对烟叶成熟度进行分类比较。数据处理软件为SAS 9.4和Matlab 2016软件。
支持向量机(SVM)是数据挖掘中的一个新方法,能够处理模式识别分类等问题。本文建立SVM模型选用的是SVM中的RBF核函数,其特点是不随参数变化而变化[23],利用模拟自然界中适者生存的遗传算法对支持向量机中c和g两个参数进行寻优[24-26]。以最高的交叉验证集判别准确率为寻优目标,在遗传算法中将种群数量设置为30,最大迭代次数为50,参数c和g从0.1~200进行寻优取值。
BP神经网络是一种按误差逆传播算法训练的多层前馈网络。BP神经网络模型以隐含层节点数目5为步长,从0到60对BP隐含层节点数进行寻优。并选取premnmx函数,将样本数据进行归一化处理。设定训练误差目标为0.000 1,终止训练步数为1 000,并将BP神经网络的初始权值和阈值运用粒子群算法(PSO)进行优化,PSO中的种群大小设置为30,迭代次数设置为50,以确保分类的精准度。
极限学习机(ELM)是一种针对单隐含层前馈神经网络的算法。本文建立ELM模型选用Sigmoid函数,以隐层神经元数目20为步长,交叉验证集判别准确率最高为寻优目标进行隐层神经元数目寻优,并用10折交叉法进行验证。
2 结果与分析
2.1 上部烟叶图像特征的聚类分析
利用SAS 9.4将提取的颜色特征和纹理特征分别进行变量聚类和相关性分析,结果如表2所示。由表2可知,烟叶的颜色特征值与鲜烟成熟度的相关性均达到极显著关系。类别1中a*/b*的相关性最强,相关系数达到0.924,类别2中R的相关性最强,相关系数为0.934,类别3中l*的相关性最强,相关系数为0.926。烟叶的纹理特征值与鲜烟成熟度的相关性均呈极显著关系,类别1中惯性矩相关性最强,相关系数达到0.745,类别2中梯度不均匀相关性最高,相关系数为0.457。所以选定3个颜色特征a*/b*、R、l*和2个纹理特征惯性矩、梯度不均匀为烟叶图像的优选特征作为模型输入变量。
表2 烟叶特征优选Tab. 2 Optimization of tobacco characteristics
2.2 上部烟叶图像特征值参数范围
表3是每个成熟度各个特征值的平均值及参数变化范围。由表3可知,颜色特征值R随成熟度增加而逐渐增大,欠熟烟叶R平均值为77.07,而过熟烟叶R平均值增加到162.94。颜色特征a*/b*与l*值随成熟度增加也表现为逐渐增大的趋势,这表明烟叶成熟度的变化可以由烟叶颜色特征很好地体现出来。纹理特征惯性矩表现为随成熟度增加而增加,梯度不均匀随成熟度增加其变化程度并不大。表明随成熟度增加,烟叶外观纹理变均匀但程度较小。
表3 上部叶特征值参数范围Tab. 3 Parameter range of upper leaf eigenvalues
2.3 上部烟叶图像特征变化趋势
图2为上部鲜烟叶成熟过程中颜色特征变化趋势。
(a) R值变化趋势
由图2(a)可知,上部叶随成熟度增加,颜色特征R呈现逐渐增大的趋势,R分量体现为过熟>适熟>尚熟>欠熟,这是由于纯红色与纯绿色的加色理论上为纯黄色[27],随烟叶成熟度增加,烟叶逐渐由绿色变为黄色,R分量逐渐增加;由图2(b)可知,四种成熟度a*/b*总体呈现逐渐升高的趋势,这主要是因为a*分量表示从红色到绿色的范围[28-29],a*分量为负表示为绿色,随着鲜烟叶成熟度增加,鲜烟叶中绿色是逐渐减少的,所以a*分量逐渐增大;b*分量表示从黄色到蓝色的范围,b*分量为正表示黄色,随着鲜烟叶成熟度增加,鲜烟叶中黄色逐渐增加;b*分量随之增加,总体呈随成熟度增加,a*/b*逐渐增大的趋势;图2(c)为l*值在烟叶成熟过程中变化趋势,l*代表明暗度,随烟叶成熟度增加,烟叶色泽变亮,所以l*呈现随成熟度增加逐渐增大的趋势。总体来看,成熟度可以由颜色特征R、a*/b*、l*很好地体现出来。
图3为上部鲜烟叶成熟过程中纹理特征变化趋势。由图3(a)可知,纹理特征惯性矩随成熟度增加而增加,但变化不明显,主要因为惯性矩与纹理均匀程度有关[30-31],随烟叶成熟度增加,烟叶叶片纹理变均匀但程度较小;图3(b)表明纹理特征梯度不均匀随成熟度增加变化不大。总体来看,惯性矩与梯度不均匀对成熟度的表征效果并不明显。
(a) 惯性矩变化趋势
2.4 基于机器视觉的上部烟叶成熟度预测模型
选取不同图像特征组合作为模型输入,建立ELM、GA-SVM和PSO-BP分类模型对鲜烟成熟度进行判别效果比较。由表4可知,输入优选特征数据所建立的ELM模型训练集、交叉验证集、测试集准确率分别为96.67%、83.00%、84.00%,模型识别时间为0.000 440 s,所建立的GA-SVM模型训练集、交叉验证集、测试集准确率分别为93.33%、93.33%、92.00%,模型识别时间为0.044 196 s,所建立的PSO-BP模型训练集、交叉验证集、测试集准确率分别为94.00%、96.67%、90.00%,模型识别时间为0.176 045 s。结果可知,基于遗传算法的GA-SVM模型对于上部烟叶成熟度的判别效果最优,测试集准确率达到92.00%,其次是基于粒子群算法的BP神经网络模型,测试集准确率达到90.00%,ELM模型的效果相对较差,测试集正确率只有84.00%。
表4 模型分类结果Tab. 4 Model classification results
3 讨论
鲜烟素质作为烟叶烘烤特性的决定因素,直接影响烤后烟的质量,鲜烟素质可以通过成熟度表现出来,科学地判定鲜烟成熟度对于提高烤后烟质量有着很大作用,颜色和主脉是判断烟叶田间成熟度的重要依据,图像处理技术可以量化鲜烟的颜色形态等外部特征[32-33],通过颜色特征和纹理特征来量化烟叶采收成熟度,以提供判断标准。本研究选定与烟叶成熟度相关性系数最大的3个颜色特征和2个纹理特征,发现随成熟度增加,颜色特征R、a*/b*、l*随成熟度增加呈明显增大的趋势,这是由于随烟叶成熟度增加,烟叶颜色由绿变黄。将5个特征作为PSO-BP神经网络、GA-SVM和ELM分类模型的输入,进行鲜烟成熟度判别,结果表明,PSO-BP神经网络、GA-SVM和ELM分类模型的准确率分别为90.00%、92.00%、84.00%,说明GA-SVM模型分类结果最好,PSO-BP神经网络次之,ELM分类模型略差。原因是鲜烟叶四个成熟度颜色纹理特征的空间分布较为接近,特别是相邻的两成熟度之间,而SVM的特点是采用映射函数将原始数据映射到一个高维空间[34],相对于BP神经网络和ELM这类神经分类网络,可以使原始样本转化成为高维空间中线性可分的样本,所以模型准确度较高。前文所提相关学者的研究,试验只设置了欠熟、适熟、过熟三种成熟度处理,烟叶特征相差明显,但在烟叶实际生产采烤过程中,成熟度校对不止3个档次,本研究按照烟叶生产实际采收经验,将烟叶成熟度划分为欠熟、尚熟、适熟、过熟4个档次,进行了模型参数的优化比较,提高了模型的稳定性和泛化性,以期为之后的烟叶成熟度判别和机械采收提供技术支撑和理论指导。
4 结论
1) 本研究选取四个成熟度鲜烟样本,分为欠熟、尚熟、适熟、过熟,符合实际采收与烟草公司收购要求。所建立的3类鲜烟成熟度预测模型,表现为基于遗传算法的SVM模型鲜烟成熟度识别效果优于基于粒子群算法的BP神经网络模型,基于粒子群算法的BP神经网络模型识别效果优于ELM模型。
2) 本研究选定与鲜烟成熟度相关性系数最高的3个颜色特征R、a*/b*、l*与2个纹理特征惯性矩、梯度不均匀。发现烟叶颜色特征R、a*/b*、l*可以很好表征成熟度的变化,表现为随成熟度增加,颜色特征R、a*/b*、l*逐渐增大的趋势。而纹理特征惯性矩与梯度不均匀表征效果稍不明显。
3) 本研究建立三类模型并进行比较,包括基于遗传算法的支持向量机(GA-SVM)、基于粒子群算法的反向传播(PSO-BP)神经网络和极限学习机(ELM)模型,从中筛出优选模型。SVM模型准确度达到92.00%,初步实现了对鲜烟成熟度的智能判别。表明可以利用机器视觉技术对鲜烟成熟度进行判定,对实际生产有一定指导意义。