基于机器学习的密集烘烤过程烟叶失水率预测模型对比
2022-09-24杜海娜孟令峰王松峰张炳辉王爱华李增盛孙福山
杜海娜,孟令峰,王松峰*,张炳辉,王爱华,刘 浩,李增盛,孙福山
1.中国农业科学院烟草研究所农业农村部烟草生物学与加工重点实验室,山东省青岛市崂山区科苑经四路11号 266101 2.中国农业科学院研究生院,北京市海淀区中关村南大街12号 100081 3.中国烟草总公司福建省公司,福州市鼓楼区北环中路133号 350000
烟叶烘烤是烟叶在烤房等高温环境下颜色由绿变黄的干燥过程,需要根据烟叶外观变化对烤房温度、湿度和烘烤时间等因素进行调控[1-3],从而使烟叶失水和变黄相互协调。在烟叶烘烤过程中,合理调控失水状态可以改善烟叶内在品质[4-5]。但在实际烟叶烘烤环节,依靠人工通过烤房观察窗查看烟叶变黄和皱缩程度进而判断失水率仍存在着主观差异的影响。近年来,随着智能化技术在烟草领域的发展和应用,已构建了多种烟叶烘烤过程水分动态预测模型,推动了密集烤房烘烤操作的智能化发展。陈飞程等[6]利用全自动色差计提取烟叶颜色特征,采用图像处理技术提取纹理特征,通过因子分析法得到6种表观优度因子作为模型输入,搭建了烟叶含水率BP神经网络预测模型(决定系数R2为0.998 7,均方根误差RMSE为0.011 8)。段史江[7]通过提取6种颜色特征和4种纹理特征分别输入BP神经网络与LS-SVM算法,建立了烟叶含水率预测模型,发现基于遗传算法的LS-SVM模型预测精度较佳,相关系数为0.998。张广普等[8]通过因子分析法量化研究了烘烤变黄期烟叶的颜色变化,并构建了不同变黄温度点的叶片含水率预测模型,发现在烟叶烘烤变黄期可利用BP神经网络基于烟叶颜色参数进行叶片含水率的快速无损估测。Miguel等[9]开发了基于数字图像处理的烟叶密集烘烤控制系统,能够实时记录烟叶样品的质量损失情况和烟叶图像,并发现质量损失与色相良好拟合,决定系数达0.970 7。上述研究大多采用试验取样结合机器学习算法对烘烤过程中烟叶水分变化进行分析,而利用实际烟叶烘烤环节实时采集数据预测烘烤过程烟叶失水率的研究则鲜见报道。为此,通过实时采集实际烘烤过程中烟叶状态变化图像及质量数据,利用机器学习搭建3种模型预测烟叶失水率,以期为烟叶智能烘烤提供技术支持。
1 材料与方法
1.1 供试材料
供试烤烟为2021年福建省三明市泰宁县烟草试验站成熟采收的翠碧一号中部叶(从下往上第7~9叶位),供试烤房为气流上升式密集烤房。按照优质烤烟栽培生产技术规范和当地翠碧一号密集烘烤工艺进行田间管理和烘烤操作。
1.2 设备和仪器
LT-P4A50-C工业耐高低温相机(深圳立天威视光电技术有限公司);25 W标准拍摄用光源(深圳海睿光电有限公司);烤烟房质量传感器(福州福日衡电子科技有限公司)。
1.3 数据集构建
1.3.1 数据采集和预处理
气流上升式密集烤房一次可烘烤300杆烟(3层2列),取中层12杆烟作为烤烟质量数据采集对象计算烘烤过程中烟叶失水率,并采用LT-P4A50-C工业耐高低温相机和标准拍摄用光源对准第一杆烟采集烟叶图像(保存为BMP格式,分辨率为2 592 px×1 944 px),随机加入烤房下层和上层数据各730、436个扩充样本。
式中:Vi为烘烤过程中第i杆烟的失水率,%;Di为第i杆烟的实时质量,kg;Fi为点火前第i杆烟的质量,kg;V为烘烤过程中12杆烟的平均失水率,%。
为避免拍摄光照、背景环境等多种因素对采集图像产生影响,采用中值滤波对烟叶图像进行去噪处理,得到边缘清晰的高质量烟叶图像;然后利用MATLAB 2016(美国MathWorks公司)的阈值分割程序进行图像分割[10-11],去除烤房内部背景等图像干扰信息,缩短计算时间并提高计算空间利用率[12]。将烟叶图像数据按照3∶1的比例划分为训练集与测试集,得到训练集2 195个,测试集732个。
图1 烘烤过程中烟叶质量和图像采集装置示意图Fig.1 Schematic diagram of image acquisition and weighing device during curing process
1.3.2 图像特征提取
①选用RGB颜色空间的R、G、B分量,并通过运算组合选取3种颜色特征参数2G-R-B、R/G和G-R,再结合Lab颜色空间[13]选取l*、a*、b*分量及其特征组合a*/b*,共10种颜色特征。②基于灰度梯度共生矩阵的图像纹理特征提取方法,提取烘烤过程中烟叶图像的能量、灰度均值、梯度均值、灰度分布不均匀性、梯度分布不均匀性、相关度、灰度熵、梯度熵、惯性矩和逆差矩,共10种纹理特征。
1.3.3 图像特征简化
使用SPSS 25.0统计分析软件(美国国际商业机器公司)对选取的10种颜色特征参数和10种纹理特征参数进行聚类分析,计算这20种特征参数与烟叶失水率实测值的皮尔逊相关系数。根据聚类分析和相关性分析结果对图像特征参数进行简化。
1.4 回归模型的建立
提取训练集中2 195个图像的简化特征参数及其对应的失水率作为模型输入,利用MATLAB 2016(美国MathWorks公司)建立网格式支持向量机(GS-SVM)、遗传算法(Genetic Algorithm,GA)优化的BP神经网络(GA-BP)以及极限学习机(ELM)3种回归预测模型。
1.4.1 GS-SVM模型
在2013年12月13日召开的中国水利企业协会五届理事会二次会议上,新兴铸管股份有限公司被授予“2011—2012年度全国优秀水利企业”荣誉称号。
SVM模型核函数选择径向基核函数(Radial Basis Function,RBF)。通 过 网 格 搜 索 法(Grid Search,GS)对该模型的惩罚因子c和核参数g进行寻优[14-15],运用网格采样点函数meshgrid[步长为0.5,区间范围为(-10,10)]得到最佳网络回归模型参数c和g分别为256.000 0和2.828 4;选取mapminmax函数对样本进行归一化处理,并对输出结果进行反归一化处理。
1.4.2 GA-BP神经网络模型
设置3层BP神经网络拓扑结构[16],训练学习率为0.01,最大迭代次数为1 000,训练精度为0.000 1,采用遗传算法优化神经网络的初始权值和阈值,初始种群规模设置为30,最大进化代数为50,交叉概率为0.8,变异概率为0.2,自变量范围为(-3,3)。采用mapminmax函数对样本进行归一化和反归一化处理,再利用BP神经网络进行精确求解[17-18]。
1.4.3 ELM模型
建立ELM模型[19-21],选择步长为10,多次对隐含层神经元的个数进行寻优,优化确定模型的结构,最终确定隐含层神经元个数为100。采用mapminmax函数对样本进行归一化和反归一化处理。
1.5 模型预测
将测试集中732个图像的简化特征参数输入3种模型,导出预测的烟叶失水率并与实际失水率进行对比,利用Microsoft Exce1 2013(美国微软公司)绘制回归曲线。
1.6 模型评价指标
选取均方根误差(Root mean square error,RMSE)、决定系数(Coefficient of determination,R2)2个指标评价模型精度[22-23]。
2 结果与讨论
2.1 烘烤过程中烟叶状态变化
从烤房中层烟叶图像中选取15张(每10 h取1张)观察烘烤过程中烟叶的变黄失水和皱缩情况,见图2。可见,在变黄期(0~40 h)烟叶失水变软并逐渐由黄绿色变为浅黄色;在定色期(40~100 h)烟叶继续失水凋萎、叶尖逐渐干燥卷曲并由浅黄色逐渐加深变为黄色;在干筋期(100~140 h)烟叶主脉失水、烟叶皱缩卷曲并由黄色变为橘黄色。
2.2 烟叶图像特征优选
2.2.1 图像特征聚类分析
图2 烘烤过程中烟叶图像变化Fig.2 Changes of images of tobacco leaves during curing process
图3 烟叶颜色特征和纹理特征变量聚类分析Fig.3 Cluster analysis of tobacco leaf color feature and texture feature variables
对烘烤过程中烟叶图像的10种颜色特征和10种纹理特征分别进行变量聚类,结果见图3。可见,以10为距离将10种颜色特征分为两类:R/G、a*/b*、a*、2G-R-B、G-R和b*为一类(类别1),R、G、B和l*为一类(类别2);10种纹理特征也分为两类:能量、灰度均值、梯度均值、灰度分布不均匀性、相关度、灰度熵、梯度熵、惯性矩和逆差矩为一类(类别1),梯度分布不均匀性为一类(类别2)。同类特征之间差异较小,不同类特征之间差异较大。
2.2.2 图像特征与失水率相关性分析
将提取的烟叶图像特征值作为待选变量,分别与主导变量(烘烤过程中烟叶失水率)进行皮尔逊相关性分析,在每类特征中选择与失水率变化相关性最强的特征,结果见表1。可见,烘烤过程中烟叶的10种颜色特征值均与失水率极显著相关,其中类别1的6种颜色特征中a*/b*与失水率相关性最强,为0.935;类别2的4种颜色特征中R与失水率相关性最强,为0.931。烟叶的10种纹理特征值均与失水率极显著相关,其中类别1中的梯度熵与失水率的相关系数绝对值最高,为0.914;类别2中仅有梯度分布不均匀性1种纹理特征,与失水率的相关性系数为0.883。综上,根据聚类分析和相关性分析优选出2种颜色特征(a*/b*、R)和2种纹理特征(梯度熵、梯度分布不均匀性)。对烟叶图像特征进行优选有利于降低模型计算的复杂程度,提高模型的稳定性和预测速度[23]。
表1 烟叶颜色特征和纹理特征优选Tab.1 Tobacco leaf color feature and texture feature optimization
2.2.3 优选特征与失水率的变化
优选出的图像颜色特征(a*/b*、R)和纹理特征(梯度熵、梯度分布不均匀性)随烘烤时间的变化见图4。可见,①颜色特征a*/b*总体呈现先逐渐升高后趋于稳定的趋势。a*分量表示从红色到绿色的范围,b*分量表示从黄色到蓝色的范围,两个分量取值范围均为[127,-128]。烟叶在烘烤过程中逐渐失水,颜色由绿色向黄色过渡[7]。a*分量表示绿色的负值逐渐增大,其绝对值逐渐减小;b*分量表示黄色的正值逐渐增大,a*/b*总体在烟叶干筋始期(100~120 h)逐渐升高,至干筋末期(120~140 h)烟叶颜色基本固定时逐渐稳定。②R分量表示颜色的红色成分,取值范围为[0,255],数值越大说明亮度越高,其呈现先逐渐升高后趋于稳定的趋势,烟叶失水率持续增大,主要是由于烟叶在变黄期和定色期失水变软,颜色发生变化,逐渐由绿色向黄色转变,干筋期主脉继续失水,此时黄色基本固定。③纹理特征梯度分布不均匀性在变黄期呈现下降趋势,这是由于随烘烤时间的增加,烟叶失水凋萎,沟纹逐渐清晰;定色期和干筋期梯度分布不均匀性逐渐升高,这是由于定色期是烟叶主要失水阶段,烟叶叶面逐渐粗糙,烟叶的支脉、主脉逐渐失水,沟纹逐渐复杂;干筋期烟叶主脉进一步失水,叶片全干,烟叶皱缩卷曲最为严重。④梯度熵则在变黄期略有上升,定色期和干筋期逐渐降低,同梯度分布不均匀性变化趋势相反[6-7]。
2.3 烟叶失水率回归模型
以优选出的4种颜色和纹理特征作为模型输入,采用训练集的烟叶图像及其对应的失水率对3种模型进行训练,3种模型对测试集的失水率预测结果见图5。可见,GS-SVM、GA-BP和ELM 3种回归模型均具有较高的预测精度(0.996 1≤R2≤0.997 3)和 较 小 的预测 误 差(0.011 7≤RMSE≤0.014 0),能够较为准确地预测密集烘烤过程中烟叶失水率,其中GS-SVM模型预测误差最小,为0.011 7。3种回归模型在变黄期(0~40 h)和定色期(40~100 h)的预测误差较小,这是由于变黄期(0~40 h)烟叶颜色变化明显,定色期(40~100 h)虽颜色基本固定但因叶脉失水而使得纹理逐渐清晰;干筋后期(120~140 h)烟叶失水主要为主脉失水,烟叶变化不明显,从而导致预测值波动较大,失水率预测误差较高。
图4 烘烤过程中烟叶图像特征和失水率变化Fig.4 Changes of image features and dehydration rate of tobacco leaves during curing process
图5 3种烟叶失水率回归模型预测结果Fig.5 Prediction results of dehydration rate of tobacco leaves by three regression models
3 结论
通过在密集烤房中安装质量传感器和工业耐高低温相机,获取烘烤过程中烟叶图像和失水率数据;对烟叶图像的颜色特征和纹理特征进行提取、聚类和相关性分析后,优选出4种特征(a*/b*、R、梯度熵、梯度分布不均匀性)作为输入变量对3种模型(GS-SVM、GA-BP、ELM)进行训练,建立了烘烤过程中烟叶失水率预测模型。分别利用3种预测模型对测试集图像进行失水率预测,结果表明,3种预测模型均能够准确预测密集烘烤过程中烟叶失水率,预测精度均超过0.99,其中GS-SVM模型预测误差最小,为0.011 7。烟叶失水率预测模型的构建实现了密集烘烤过程中烟叶失水率的实时无损检测,为烘烤工艺参数的精准调控奠定了基础并提供了试验参考数据。但本研究中建立的模型参数仅依据福建产区单一品种、单一部位烟叶进行确定,未来还需要增加不同产区、不同品种、不同部位的烤烟数据来扩充数据集并进行模型训练,以进一步提高模型性能,为后续烟叶烘烤智能调控系统的研发提供支持。