基于叶色偏态分布模式的鲜烟叶成熟度判定
2021-08-26童德文陈郑盟石三三林萍萍王福政储伟杰
沈 平,童德文,陈郑盟,陈 炜,石三三,林萍萍,王福政,储伟杰,张 佩
1.福建省烟草公司龙岩市公司,福建省龙岩市新罗区龙岩大道288号 364000
2.勤耕仁现代农业科技发展(淮安)有限责任公司,江苏省淮安市清江浦区曦园街67号 223001
3.南京南部新城生态农林发展有限公司,南京市六合区马鞍街道 211500
4.江苏省气象局,南京市建邺区双闸街道雨顺路6号 210008
鲜烟叶成熟度是指大田烟叶生长达到适于烘烤工艺要求的程度[1-2],直接影响烤后烟叶的外观、评吸及香气品质;准确判断鲜烟叶成熟度并开展适熟采收已成为烟叶生产过程中至关重要的环节[3-5]。目前烟叶生产中,鲜烟叶成熟度的判定主要通过烟农肉眼识别及依据生产经验,但由于操作人员水平、经验差异较大,导致鲜烟叶成熟度人工判定的准确率和稳定性较低。前人曾尝试通过量化指标来判定鲜烟叶成熟度,如通过烟株的茎叶夹角、叶片厚度等物理参数[1,4],叶绿素含量(质量分数)及相关的SPAD值[6]等作为鲜烟叶成熟度的量化指标。但这些方法耗时耗力还易损伤烟叶,在大田生产中的应用受到限制[7-9]。
随着数字成像技术的日益成熟及高分辨率摄像设备的普及,利用数码图像对植物外观表型性状进行定性和定量描述的研究越来越多[10-12]。数码图像可记录可见光波段的光谱信息,分辨率高、成本低,且该类图像包含大量的植物形态结构和颜色信息[13-14]。有研究通过数码图片来判定番茄[15]、李子[16]果实的成熟度。烟草种植标准化程度高,烟叶成熟期集中,叶片较大且较平整,成熟过程中颜色变化特征明显,这些特点使采用数码图像分析法对鲜烟叶成熟度进行自动化识别成为可能。使用RGB颜色模型参数作为输入因子是最常用的数码图像分析法,HSV(Hue Saturation Value)颜色模型、Lab颜色模型也是通过RGB颜色模型的数据进行转化得到的[17-19]。Chen等[20]研究发现,烟草鲜烟叶图像RGB颜色模型色阶为偏态分布,并揭示了RGB颜色模型偏态参数能够准确量化叶色与SPAD值的关系,这为使用RGB颜色模型判定鲜烟叶成熟度提供了新路径。
已有学者利用颜色模型来尝试量化鲜烟叶成熟度[21-24],但这些研究都集中在判定当年生产的鲜烟叶熟度,而没有对往年生产的烟叶成熟度进行验证。为了能够更准确地判定鲜烟叶成熟度,并尝试对多年度生产的烟叶进行预测,将采收后的鲜烟叶片分为欠熟、成熟和过熟3类,并分别提取这3类叶片RGB图像红(Red,R)、绿(Green,G)、蓝(Blue,B)3个颜色通道及灰度(Gray,Y)图像的正态参数、偏态参数及叶色复合参数(R、G、B通道均值、HSV颜色模型参数、Lab颜色模型参数、叶面纹理参数)等参数作为自变量,运用多元逐步回归及反向传递神经网络(BPNN)构建叶色参数-鲜烟叶成熟度判定模型。同时比较不同参数体系、建模方式对鲜烟叶成熟度判定模型的拟合优度及对不同年份间烟叶判定精准度的影响,筛选出最佳的鲜烟叶成熟度定量判定模型,以期为鲜烟叶成熟度的智能化准确判定提供依据。
1 材料与方法
1.1 试验材料
供试烟草品种为云烟87,于2018—2020年连续3年在福建省武平县岩前镇双坊村(24°54′19″N,116°14′24″E)同一田块种植,其中2018年于2月1日移栽,6月5日开始采收;2019年于2月1日移栽,6月4日开始采收;2020年于1月15日移栽,5月18日开始采收。栽培土壤为轻砂壤,前茬作物为水稻,土壤肥力中等,排水方便,大田管理按照当地优质烤烟生产技术规范执行[25]。在采收前1 d,选取相同田块、生长正常、长势一致,无病虫害的100株烟挂牌标识。取每株烟第6~10叶位(从上往下数)的叶片,并及时将收获的鲜烟叶送入室内立即进行成熟度分选(烟叶离体时间<20 min)。
1.2 烟叶成熟度分选
由烟草行业执证技师对完成图像采集的鲜烟叶进行外观成熟度判定,将鲜烟叶分为欠熟(UL,成熟度等级赋值为1)、成熟(RL,成熟度等级赋值为2)、过熟(OL,成熟度等级赋值为3)3类[2],见表1。结合Shapiro-Wilk检验法[26]及中心极限原理[27]对相关分析和回归模型前置条件的要求,以50个样本为数据分析的下限值。选取2018年150片烟叶作为建模样本(每个成熟度50片),选取3年(2018、2019和2020年)共225片烟叶作为预测样本(每年75片,每年每个成熟度各25片)。
表1 不同成熟度中部鲜烟叶的外观特征比较Tab.1 Appearance characteristics of middle tobacco leaves with different maturity levels
1.3 叶片RGB图像采集
采用烟叶标准化分级台(图1)进行图像采集,台面为长300 cm、宽200 cm、高80 cm,桌面底板颜色为灰白色(R∶G∶B=235∶235∶235)的哑光磨砂台面。照明光源为2支20 W条状白色LED灯管,色温为5 000 K,灯管悬挂位置位于平台1/4处和3/4处,以保证平台台面光线均匀。在距离平台台面100 cm处固定数码相机,采用高分辨率照相机(CANON EOS-550D,日本佳能公司)进行图像采集,原始数字图像分辨率像素为3 840×5 120。将采集到的鲜烟叶表面灰尘和露水用吸水纸擦净后,将样品放入平台中央进行拍照,以确保叶脉与桌面边缘垂直。
图1 鲜烟叶图像采集方法及叶片数码图像示例Fig.1 Schematic diagram of image acquisition method of fresh tobacco leaf and samples of digital leaf images
1.4 鲜烟叶图像信息参数提取
1.4.1 叶片图像预处理
采用Adobe Photoshop CS软件对烟叶样品原始图像进行切割,只保留鲜烟叶叶片部分,并将切割后的图像保存为透明背景的png图像格式,分辨率像素调整为1 000×1 330。
1.4.2 叶片图像RGB颜色模型参数提取
参照Chen等[20]的方法,采用MATLAB软件对叶片图像叶色特征参数进行提取,得到叶色偏态参数,即红(R)通道色阶的均值(RMean)、中位数(RMedian)、众 数(RMode)、偏 度(RSkewness)及 峰 度(RKurtosis);绿(G)通道色阶的均值(GMean)、中位数(GMedian)、众 数(GMode)、偏 度(GSkewness)及 峰 度(GKurtosis);蓝(B)通道色阶的均值(BMean)、中位数(BMedian)、众 数(BMode)、偏 度(BSkewness)及 峰 度(BKurtosis);灰度(Y)图像色阶的均值(YMean)、中位数(YMedian)、众 数(YMode)、偏 度(YSkewness)及 峰 度(YKurtosis)。其中RMean、GMean、BMean和YMean构成叶色正态参数。
1.4.3 叶色复合参数提取
①叶片图像Lab颜色模型参数提取。参照杨超等[28]的方法,采用MATLAB先将目标图像RGB颜色模型转换为Lab颜色模型,而后通过内置函数计算图像的亮度(L)、a通道值(a)及b通道值(b)。②叶片图像HSV颜色模型参数提取。参照史飞龙等[21]和谢滨瑶等[24]的方法,采用MATLAB先将目标图像RGB颜色模型转换为HSV颜色模型,而后通过内置函数计算图像的色调(H)、饱和度(S)和明度(V)。③叶片纹理参数提取。参照冯建辉等[29]、史飞龙等[21]和谢滨瑶等[24]的方法,采用MATLAB先将目标图像从RGB颜色模型转换为HSV颜色模型再转化为灰度图像,然后通过Graycomatrix函数获取灰度图像的64位灰度共生矩阵,通过MATLAB内置函数计算图像的对比度(CON)、相关度(COR)、熵(ENT)、同质性(HOM)和对角二阶矩(ASM)。
综 合R、G、B通 道 色 阶 的 均 值(RMean、GMean、BMean),Lab颜色模型参数(L、a、b),HSV颜色模型参数(H、S、V)及叶片纹理参数(CON、COR、ENT、HOM、ASM)构成叶色复合参数。
1.5 数据处理
1.5.1 方差分析
选取建模样品(2018年产,150片),以鲜烟叶成熟度为分类因子,采用SPSS软件对RGB颜色模型叶色偏态参数进行方差分析,采用最小显著差数(LSD)法[30]进行多重比较。
1.5.2 相关分析
选取建模样品(2018年产,150片),采用SPSS软件对鲜烟叶成熟度分别与叶色特征参数进行皮尔森(Person)相关分析。
1.6 判定模型构建及效果分析
1.6.1 回归模型构建
选取建模样品(2018年,150片),采用SPSS软件以鲜烟叶成熟度作为因变量,分别以叶色正态参数、叶色复合参数及叶色偏态参数作为自变量,采用基于最小二乘法的逐步回归方法建立线性模型F1、F2和F3,见表2。并对备选回归模型进行决定系数优选、回归模型及回归系数的显著性检验、回归模型自变量共线性诊断[30],最终确定最佳回归模型。
1.6.2 反向传递神经网络(BPNN)模型构建
BPNN模型拓扑结构包括输入层、隐含层和输出层3层。选取建模样品(2018年产,150片),以鲜烟叶成熟度为输出层因子,分别采用叶色正态参数、叶色复合参数及叶色偏态参数作为输入层因子构建基于BPNN的鲜烟叶成熟度判定模型F4、F5和F6,见表2。
表2 鲜烟叶成熟度的判定模型结构Tab.2 Structure of discrimination models for maturity of fresh tobacco leaves
采用MATLAB的神经网络工具箱(Neural Network Toolbox)[31]构建鲜烟叶成熟度的BPNN判定模型。其中,网络中间层神经元传递函数采用Logsig函数,输出层神经元传递函数采用线性函数Purelin,训练函数采用Trainlm。将75%数据用于模型训练,15%数据用于预测验证,15%数据用于模型测试。设置模型的收敛误差为0.000 1,学习速率为0.05,最大训练轮数为1 000。
1.6.3 反向传递神经网络(BPNN)模型参数贡献率
采用MATLAB中Neural Network Toolbox中的神经网络输入层到隐含层权重提取函数获取判定准确率最高的BPNN模型中每个输入因子权重值,然后将这些因子在所有隐含层中的权重值取绝对值后相加,最后通过MATLAB归一化函数Mapminmax求得每个输入层因子在[0,1]中的归一化值,该值即是每个输入层因子对该BPNN模型的归一化贡献率。
1.6.4 模型判定准确度比较
运用模型F1~F6对全部建模样品(225片)进行判定,并对其判定准确度进行计算,计算公式:
式中:DA为模型判定准确度,%;CN为模型准确判定成熟度的样品数量,片;TN为模型判定的样品总数量,片。
2 结果与分析
2.1 不同成熟度鲜烟叶叶色图像RGB颜色模型偏态参数的差异分析
叶色偏态参数中,色阶均值、中位数、众数是反映叶色的深浅情况,偏度反映叶色的偏向性,峰度则是反映叶色分布的集中程度[20]。对3个不同鲜烟叶成熟度叶色RGB图像的偏态参数进行LSD分析(表3)。R、G和B 3个通道及Y图像色阶的均值(RMean、GMean、BMean、YMean)、中位数(RMedian,GMedian,BMedian,YMedian)、众数(RMode、GMode、BModes、YMode)均随着成熟度的增加而提高,其中,不同鲜烟叶成熟度叶色图像的R、G通道及Y图像色阶的均值(RMean、GMean、YMean)、中位数(RMedian、GMedian、YMedian)、众数(RMode、GMode、YMode)间存在显著差异(P<0.05),而UL与RL叶片图像的B通道色阶的偏态参数(BMean、BMedian、BMode、BSkewness、BKurtosis)之间差异不显著,OL、UL和RL间存在显著差异;反映到叶色变化上,则与叶片从鲜绿转为黄绿相间、最后变为黄色的成熟过程相对应(图2)。在偏度方面,R、G通道及Y图像色阶的偏度(RSkewness、GSkewness、YSkewness)随着成熟度的增加而显著下降(P<0.05),负偏态程度逐渐加深,色阶分布逐渐倾向高值段,但B通道色阶的偏度(BSkewness)表现则相反。而峰度方面,R、G通道及Y图像色阶的峰度(RKurtosis、GKurtosi、YKurtosis)随着成熟度的增加呈现先下降后上升的趋势,反映到叶色变化上,则与叶片从鲜绿色变成黄绿相间(叶色离散程度最高,峰度最小),最后变为黄色的成熟过程相对应,其中UL和OL叶片图像的R、G通道及Y图像色阶的峰度(RKurtosis、GKurtosis、YKurtosis)均无显著差异,而成熟(RL)叶片图像的峰度(RKurtosis、GKurtosis、YKurtosis)显著低于UL及OL(P<0.05);B通道色阶的峰度值(BKurtosis)随着成熟度的增加呈现逐渐升高的趋势,UL与RL之间差异不显著,OL与UL、RL之间均存在显著差异(P<0.05)。
图2 不同成熟度鲜烟叶叶色图像色阶累积频次直方图Fig.2 Histograms of color gradation cumulative frequency for tobacco leaves with 3 different maturity levels
表3 不同成熟度鲜烟叶叶色偏态参数的差异性①Tab.3 Differences of skewness parameters of leaf color for fresh tobacco leaves with different maturity levels
2.2 鲜烟叶成熟度与叶色特征参数的相关性
对鲜烟叶图像叶色特征参数与成熟度进行相关分析,结果见表4。在RGB颜色模型中,R、G通道 和Y图 像 的 均 值(RMean、GMean、YMean),中 位 数(RMedian、GMedian、YMedian),众数(RMode、G Mode、YMode)这3类参数以及B通道5类参数(BMean、BMedian、BMode、BSkewness、BKurtosis)与烟叶成熟度呈极显著正相关,说明这些参数随着成熟度的增加而同步提高;R、G通道和Y图像的偏度(RSkewness、GSkewness、YSkewness)则与成熟度呈极显著负相关,说明偏度随着成熟度的增加而同步降低;而R、G通道及Y图像的峰度(RKurtosis、GKurtosis、YKurtosis)与成熟度的相关性不显著。
表4 鲜烟叶成熟度与叶色特征参数的相关性①Tab.4 Correlations between leaf maturity and parameters of leaf color characteristics
在Lab颜色模型中,L、a、b 3个参数均与成熟度呈极显著正相关,说明随着成熟度的增加,叶片亮度值(L)逐渐提高,a通道值从绿色向红色转变,b通道值从蓝色向黄色转变。在HSV颜色模型中,色调(H)与成熟度呈极显著负相关,说明随着成熟度的增加,H值逐步减小,图像从绿色调转为黄色调;而图像饱和度(S)及明度(V)间相关性不显著。在叶片纹理参数中,除对比度(CON)与成熟度呈极显著负相关外,其他4个参数均与成熟呈极显著正相关,说明随着成熟度的增加,对比度(CON)下降,叶面纹理沟纹变浅;熵(ENT)、对角二阶矩(ASM)提高,叶面纹理变粗;相关度(COR)及同质性(HOM)提高,叶面不同区域间纹理趋向一致,整体叶面变得更光滑。因此,与成熟度极显著相关的叶色特征参数可作为构建鲜烟叶成熟度模型的重要指标。
2.3 鲜烟叶成熟度判定模型的构建
采用叶色正态参数、叶色复合参数及叶色偏态参数,运用多元逐步回归法构建鲜烟叶成熟度判定模型,综合考虑各方程的拟合优度及共线性检测结果,最终得到最优回归模型F1、F2、F3及其模型表达式,见表5。从表5中可以看出,模型F1自变量只有鲜烟叶叶片RGB图像R通道色阶的均值(RMean)1个,模型F2自变量由RGB图像红通道色阶的均值(RMean)、叶片纹理的对比度(CON)及同质性(HOM)构成,模型F3自变量由鲜烟叶片RGB图像R通道色阶的均值(RMean)和B通道色阶的偏度(BSkewness)构成。HSV颜色模型参数及Lab颜色模型参数均未参与判定模型的构建。
表5 鲜烟叶成熟度的判定模型Tab.5 Discrimination models for maturity of fresh tobacco leaves
结合模型的拟合结果(图3)可看出,在BPNN模型的构建中,经过多次优选后,发现输入层的神经元数(m)为4、输出层的神经元数(n)为1、常数(q)为1时,隐含层的神经元数(Z)为4,此结构下的基于叶片正态参数所构建的模型F4的网络收敛效果最佳,由此确定模型F4的最佳BPNN结构为4-4-1;当m=14、n=1、q=6时Z=10,基于叶片复合参数所构建的F5模型BP网络收敛效果最佳,由此确定模型F5的最佳BPNN结构为14-10-1;当m=20、n=1、q=3时Z=8,基于叶片偏态参数所构建的模型F6的网络收敛效果最佳,由此确定模型F6的最佳BPNN结构为20-8-1。
图3 不同输入因子对鲜烟叶成熟度BPNN判定模型的拟合结果Fig.3 Fitting results of BPNN discrimination models with different input factors for maturity of fresh tobacco leaves
2.4 鲜烟叶成熟度判定模型准确度分析
应用模型F1~F6分别对预测组2018、2019和2020年度的鲜烟叶成熟度进行判定,结果见表6。总体看来,采用叶片偏态参数且使用BPNN的模型F6总体判定准确度最优。
表6 不同模型对不同成熟度鲜烟叶的判定准确度比较Tab.6 Comparison of discrimination accuracy between different models for maturity of fresh tobacco leaves
从参数体系来看,在回归模型中,使用叶色偏态参数的模型F3较使用叶色正态参数的模型F1判定准确度提高19.49%,较使用叶色复合参数的模型F2下降3.15%;在BPNN模型中,使用叶色偏态参数的模型F6较使用叶色正态参数的模型F4判定准确度提高14.45%,较使用叶色复合参数的模型F5提高11.11%。
从建模方式来看,在相同参数体系下,采用BPNN法构建的模型F4、F5和F6较使用多元逐步回归法构建的模型F1、F2和F3判定准确度分别提高115.60%、80.01%和106.51%。
从不同年份看,6个模型对2018、2019和2020年烟叶平均判定准确度为95.33%、45.34%和35.11%,与建模组年份一致,其平均判定准确度最高。在对2018年烟叶判定中,以F4表现最优,准确度达100%,F2、F5和F6准确度均达到97.00%以上;在对2019年及2020年烟叶的判定中,均以F6表现最优,准确度分别达到89.33%和66.67%。
2.5 叶色偏态参数对鲜烟叶成熟度判定模型贡献率分析
从判定准确率最高的模型F6输入因子归一化贡献率(图4)来看,贡献率排名前7(高于50%)的依 次 为RMedian、RMean、YMedian、RSkewness、GMode、YMode和YKurtosis。其中,正态分布参数(叶色均值)只有1个,而叶色偏态参数则有6个。叶色偏态参数在模型F6的主要因子中占比达85.71%。
图4 模型F6中各参数的贡献率Fig.4 Contribution rates of various parameters in F6 model
3 讨论
已有研究发现,烟草鲜叶数码图像的RGB颜色模型色阶分布遵循偏态分布[20]。本研究结果显示,不同鲜烟叶成熟度叶色数码图像的RGB颜色模型色阶分布也同样遵循偏态分布,并由此得到了20个叶色偏态参数,极大地丰富了烟草叶片图像的信息量,从深浅程度和分布偏向性、分布集中度3个方面系统和定量地描述了叶片叶色。不同鲜烟叶成熟度的烟草叶片肉眼可见叶色存在差异,通过方差分析发现,不同鲜烟叶成熟度的叶片叶色偏态参数大多存在显著差异,且不同偏态参数的变化规律不同,其中反映叶色深浅的均值、中位数、众数随着成熟度的增加而同步提高;反映叶色偏向性的偏度与成熟度在R、G通道及Y图像上存在显著负相关;在B通道上存在显著正相关。说明鲜烟叶色偏态参数可很好地表征成熟度的等级差异,且与鲜烟叶成熟过程中叶色的变化也存在一致的对应关系。这为利用偏态参数构建鲜烟叶成熟度判定模型奠定了基础。
本研究中基于叶色正态参数、叶色复合参数(R、G、B通道色阶的均值,HSV颜色模型参数,Lab颜色模型参数,叶面纹理参数)及叶色偏态参数等3套叶色特征参数,依次采用多元逐步回归法和BPNN法构建了鲜烟叶成熟度的判定模型。通过比较不同参数体系、不同建模方式下的6种模型的拟合效果及判定准确度发现,基于BPNN法构建的模型F4、F5和F6较基于多元逐步回归法构建的模型F1、F2和F3拟合效果更优且鲜烟叶成熟度判定准确度更高,其对同年度生产烟叶的成熟度判定准确度达100%、98.67%和97.33%,这可能是由于鲜烟叶成熟度与叶色特征参数不是线性关系所致。同时,在采用BPNN的建模方式下,采用偏态参数可提高模型对鲜烟叶成熟度判定的总体准确度,特别是在跨年度的烟叶成熟度判定上表现良好。进一步对模型F6的参数贡献率分析后发现,叶色偏态参数在模型F6的主要因子中占比达到85.71%。这说明偏态参数极大地丰富了叶色信息,可更准确地描述叶片状态,基于偏态参数构建的鲜烟叶成熟度判定模型有了更多的叶色信息输入,在保证对同年度鲜烟叶成熟度高判定准确度的同时,也明显提高了对跨年度鲜烟叶成熟度的判定准确度,使本研究方法在大田推广应用中优势更明显,无需每年重新建模、更新智能判定系统,尤其适用于丘陵山区以及分散种植的农户使用。
虽然引入图像偏态参数可明显提高模型对成熟度判定的准确度,但对鲜烟叶成熟度的跨年判定准确度,仍低于当年所建模型,这可能是由于不同年份间气象、生产环境条件及农艺措施等方面存在差异所致,具体原因还有待进一步研究。
4 结论
①不同成熟度鲜烟叶叶片数码图像的RGB颜色模型色阶分布遵循偏态分布。通过偏态分析得到的偏态参数可很好地表征不同成熟度鲜烟叶间的等级差异,且不同叶色信息参数随着成熟度的提高呈现不同的变化规律;且不同叶色信息参数随着成熟度的提高呈现不同的变化规律。
②叶色正态参数、叶色复合参数(R、G、B通道色阶的均值,HSV颜色模型参数,Lab颜色模型参数,叶片纹理参数)及叶色偏态参数等叶色特征参数与鲜烟叶成熟度间存在显著或极显著相关,这些高度相关的叶色特征参数可作为构建鲜烟叶成熟度模型的重要指标。
③采用BPNN法构建的鲜烟叶成熟度判定模型的拟合效果均优于多元逐步回归法。无论是多元逐步回归法还是BPNN法,采用偏态参数可明显提高对鲜烟叶成熟度的判定准确度,尤其是在鲜烟叶成熟度的跨年度预测方面,模型F6优于其他模型。