烤烟烟叶细胞壁物质含量预测
2014-02-08董高峰王理珉洪波和智君
张 强,董高峰,黄,杨 威,王理珉,洪波,和智君
1.云南烟草科学研究院,昆明市科医路41号 650106
2.云南省烟草公司昭通市公司,云南省昭通市昭阳区凤霞路48号 657000
烤烟烟叶中细胞壁物质含量约占干物质总量的1/3[1-2],在烟梗中占43%左右[3]。烟叶细胞壁物质主要包括纤维素、半纤维素、果胶质和木质素等,其中纤维素、半纤维素比值约为6.7∶1[4]。闫克玉[5-6]、李兴波[1]等分别研究了不同烤烟烟叶等级细胞壁物质含量以及细胞壁物质含量与外观品质、物理特性、化学成分之间的相关性。陈红丽等[7]报道了烤烟烟叶细胞壁物质含量与外观品质、感官品质的关系。任晓红等[8]提出烤烟烟叶细胞壁物质含量对烟叶外观、物理特性和感官品质有一定影响。以上研究表明,烟叶细胞壁物质对烤烟烟叶的物理特性有不同程度的影响,进而影响烟叶的加工特性。同时这些物质还影响烟叶的外观品质、化学成分和感官品质。因此,采用烟叶物理特性指标,基于二次多项式逐步回归分析、主成分回归分析和BP 神经网络分析来预测烟叶细胞壁物质含量,并比较了不同模型的预测效果,旨在为快速检测烟叶细胞壁物质含量提供参考。
1 材料与方法
1.1 材料
选取云南省昭通市8 个县(区)(昭阳区、巧家县、镇雄县、威信县、彝良县、鲁甸县、大观县、永善县)2010年生产的烤烟,品种为当地主栽品种K326。选取X2F,C3F 和B2F 3 个等级的初烤烟叶3 kg,等级合格率85%以上,共选取210 份样品。
1.2 测定项目与分析方法
1.2.1 物理指标的测定
[9-11]的方法测定烟叶拉力、延伸率、含梗率、叶质重、平衡含水率、叶长、叶宽和厚度。
1.2.2 烟叶细胞壁物质含量的测定参考陈红丽等[7]的方法测定烟叶木质素,果胶,全纤维素和细胞壁物质总量。各指标分别用Y1,Y2,Y3和Y4表示。
1.2.3 分析方法
运用Matlab7.0 统计软件对210 份烤烟样品的8 个物理指标进行相关分析;编号1~168 号(样品数量的80%)烟叶样品作为建模样品,分别进行二次多项式逐步回归分析、主成分回归分析和BP 神经网络分析,并建立模型;编号为169~210 号(样品数量的20%)烟叶样品作为验证样品,用于验证所建立模型的预测效果。
2 结果与分析
2.1 昭通烟区烤烟主要物理指标的描述性分析
拉力、叶质重、叶宽、厚度的变异系数在20%以上,变幅较大;平衡含水率、叶长变异系数小于10%,变幅较小。对烟叶样品8 项物理指标检测数据的峰度系数采用u 法检验[12],由表1 可知,8 项物理指标峰度系数u值的显著水平p>0.05,说明样本的这8 个物理指标的检测数据分布接近于正态分布。
表2 表明,样本木质素含量的变异系数为17.31%,变幅较大;细胞壁物质含量的变异系数为8.81%,变幅较小。对烟叶样品的木质素、果胶、全纤维素、细胞壁物质总量检测数据的峰度系数采用u 法检验,结果表明:烟叶样品果胶、全纤维素和细胞壁物质含量的峰度系数u 值的显著水平p<0.05,表明样本的细胞壁物质、全纤维素和果胶含量的检测数据分布为偏态分布;木质素含量的峰度系数u 值的显著水平p>0.05,表明样本木质素含量的检测数据分布接近于正态分布。
2.2 简单相关分析
由表3 可知,含梗率与烟叶果胶、细胞壁物质含量呈极显著正相关,与全纤维素含量呈显著正相关;叶质重、叶宽与烟叶果胶、全纤维素、细胞壁物质含量呈极显著负相关;叶长与烟叶全纤维素、细胞壁物质含量呈极显著负相关,与烟叶果胶含量呈显著负相关;厚度与烟叶果胶含量呈极显著负相关,与细胞壁物质含量呈显著负相关。烟叶木质素含量与拉力呈正相关,与其余指标呈负相关,但均未达到显著水平。
表1 昭通烤烟主要物理指标描述性统计分析Tab.1 Descriptive statistics of main physical indexes of flue-cured tobacco in Zhaotong
表2 昭通烤烟烟叶细胞壁物质含量的描述性统计分析Tab.2 Descriptive statistics of cell wall matter content of flue-cured tobacco in Zhaotong
表3 烤烟烟叶细胞壁物质含量与烟叶物理指标的简单相关分析①Tab.3 Simple coefficient correlation of cell wall matter content between physical characteristics indexes
2.3 二次多项式逐步回归分析
将168 个烤烟样品的8 个物理指标作为自变量,与之对应的木质素、果胶、全纤维素、细胞壁物质总量分别作为因变量进行二次多项式逐步回归分析,并建立回归方程:
式中:X1为拉力、X2为延伸率、X3为含梗率、X4为叶质重、X5为平衡含水率、X6为叶长、X7为叶宽、X8为厚度;Y1为木质素、Y2为果胶、Y3为全纤维素、Y4为细胞壁物质总量。
所建立的4 个二次多项式回归方程的显著性检验结果p 值均小于0.01,表明这4 个回归方程都达到了极显著水平,所建立的回归方程是有意义的;方程(1)、方程(2)的Durbin-Watson 统计量大于方程(3)和方程(4)接近于2,表明其残差之间独立性较好。
2.4 主成分回归分析
对168 个烤烟样品的8 个物理指标进行主成分分析,所得相关矩阵的特征值见表4。提取5 个主成分,其特征值分别为2.94,1.47,1.01,0.87 和0.77 累计方差贡献率达88.28%,保留了原来8 个物理指标88.28%的信息,信息量丢失很少,基本反映了原始变量的信息。
通过主成分分析(表5)得到了5 个无相关性的综合指标模型:
表4 公因子、特征值及贡献率Tab.4 Principal components,eigenvalue and contribution rate
表5 烟叶物理指标的主成分得分系数矩阵Tab.5 Principal components score coefficient matrix of physical indexes
式中:x1,x2,x3,x4,x5,x6,x7,x8分别对应拉力、延伸率、含梗率、叶质重、平衡含水率、叶长、叶宽、厚度的标准化量;Z1,Z2,Z3,Z4分别对应烟叶中木质素、果胶、全纤维素和细胞壁物质总量的标准化值。
将上述建立的模型还原为关于原始变量的回归方程:
式中:变量同回归方程(1)~(4)。
2.5 BP 神经网络预测
2.5.1 数据处理
BP 神经网络的隐层采用Sigmoid 转换函数。为提高训练速度和灵敏性以及有效避开Sigmoid 函数的饱和区,一般要求输入数据的值在0~1 之间[13]。因此,对输入数据进行了预处理。将烟叶各个物理指标和预测值进行0.2~0.8 标准化后形成建模数据。预处理的数据训练完成后,网络输出的结果进行反变换得到实际值。
2.5.2 网络设计与样本划分
2.5.2.1 网络设计
以8 个物理特性指标的检测数据作为神经网络输入的输入值,分别建立木质素、果胶、全纤维素和细胞壁物质总量的网络预测模型。经不断测试,最终构建的网络为8-27-13-41 结构的4 层BP 神经网络。网络的输入层单元数为8,输出层单元数为4,隐层数为2。第一隐含层节点数为27,第二隐含层节点数为13。
2.5.2.2 样本划分
随机选取168 个烟叶样本(编号1~168 号)中的42个作为测试数据,其余的126 个样本作为训练样本;剩余的42 个样本(编号169 号~210 号)则作为验证样本。BP 神经网络建模与仿真在Matlab 7.0 环境中进行。
2.5.3 模型的建立
采用的BP 神经网络迭代次数为1000 次,输入层和输出层的传输函数为tansig,隐层采用tan-sigmoid 饱和正切转换函数,训练方法为traingdx 动量梯度下降算法。以8 个物理指标为自变量,以木质素、果胶、全纤维素和细胞壁物质总量为因变量建立BP 神经网络模型。
神经网络的误差临界值Emin 为0.00001,即在迭代计算时误差值E 将编号为169~210 号烟叶样品的拉力、延伸率、含梗率、叶质重、平衡含水率、叶长、叶宽和厚度8 项物理特性指标代入所建立的模型,分别预测烟叶木质素、果胶、全纤维素和细胞壁物质总量。将木质素、果胶、全纤维素、细胞壁物质总量的实测值与预测值进行拟合。 由图1~图4 和表6 可知:二次多项式逐步回归分析方法预测烟叶细胞壁木质素、果胶、全纤维素和细胞壁物质总量效果不理想,其预测值与实测值基于1∶1 线的R2在0.004~0.093,RMSE 在0.21~1.60。表明其拟合度较差,预测精度较低。 图1 烟叶木质素含量的预测值与实测值比较Fig.1 Comparison between predicted and observed of the content of lignin in tobacco leaves 图2 烟叶果胶含量的预测值与实测值比较Fig.2 Comparison between predicted and observed of the content of pectin in tobacco leaves 图3 烟叶全纤维素含量的预测值与实测值比较Fig.3 Comparison between predicted and observed of the content of total cellulose in tobacco leaves 图4 烟叶细胞壁物质总量的预测值与实测值比较Fig.4 Comparison between predicted and observed of the content of total cell wall matter in tobacco leaves 主成分回归分析方法预测值与实测值基于1∶1 线的确定系数R2为0.15~0.37,RMSE 为0.025~0.990。其预测精度稍高于二次多项式逐步回归分析方法。 BP 神经网络预测烟叶木质素、果胶、全纤维素和细胞壁物质总量取得了较好的效果,其预测值与实测值基于1∶1 线的R2为0.9900~0.9975,RMSE 为0.03~0.14,明显高于二次多项式逐步回归分析方法的预测效果。BP 神经网络预测烟叶果胶、全纤维素和细胞壁物质总量验证模型的RMSE 小于主成分分析法,但BP 神经网络预测烟叶木质素含量验证模型的RMSE 稍高于主成分分析法。 表6 不同预测模型的验证结果比较Tab.6 comparison of validation models by different prediction models 建立的预测烟叶木质素的逐步回归模型精度高于果胶、全纤维素含量以及细胞壁物质总量的预测模型,可能是由于烟叶样品中果胶、全纤维素、细胞壁物质总量检测数据呈偏态分布,影响了其逐步回归模型的预测精度。 主成分分析法预测烟叶木质素、果胶、全纤维素含量以及细胞壁物质总量的精度高于二次多项式逐步回归分析方法,可能是由于主成分分析是研究如何通过原始变量的少数几个线性组合来解释原始变量绝大多数信息的一种方法,通过降维减少了变量中大量重叠信息对事物真实特征与内在规律的影响,从而提高了其预测精度。 BP 神经网络预测烟叶木质素、果胶、全纤维素含量以及细胞壁物质总量的预测精度高于二次多项式逐步回归分析方法和主成分回归分析法。这可能是由于烟叶细胞壁物质类含量与烟叶物理特性之间是一个复杂的线性和非线性的关系,二次多项式逐步回归模型、主成分回归模型是建立在因变量和自变量有线性关系的基础上,因此,造成其预测效果不理想;而BP 神经网络具有很强的线性和非线性拟合能力[14-15],其预测效果明显优于二次多项式逐步回归分析法和主成分回归分析法。 本试验基于易于检测的8 项烟叶物理指标,采用BP神经网络来预测烟叶中木质素、果胶、全纤维素含量以及细胞壁物质总量,具有检测方便、快捷、预测精度高的特点,可用于快速预测烟叶细胞壁物质的含量。 参考文献 [1]李兴波,闫克玉,丁海燕,等.河南烤烟(40 级)细胞壁物质含量及其规律性研究[J].郑州轻工业学院学报:自然科学版,1999,14(3):27-30. [2]左天觉.烟草的生产、生理和生物化学[M].朱尊权,等译.上海:上海远东出版社,1993:371-373. [3]周正红,高孔荣,张水华.烟草中化学成分对卷烟色香味品质的影响及其研究进展[J].烟草科技,1997(2):22-25. [4]王瑞新.烟草化学[M].北京:中国农业出版社,2003:29-34. [5]闫克玉,王建民,屈剑波,等.河南烤烟评吸质量与主要理化指标的相关分析[J].烟草科技,2001(10):5-9. [6]闫克玉,李兴波,赵学亮,等.河南烤烟理化指标间的相关性研究[J].郑州轻工业学院学报:自然科学版,2000,15(3):20-24. [7]陈红丽,任晓红,杨永锋,等.四川烤烟烟叶细胞壁物质含量与外观质量、感官质量的关系[J].烟草科技,2011(1):9-12. [8]任晓红,陈刚,马海燕,等.烤烟细胞壁物质对烟叶质量影响研究[J].中国农学通报,2010,26(4):113-116. [9]杨虹琦,周冀衡,李永平,等.云南不同产区主栽烤烟品种烟叶物理特性的分析[J].中国烟草学报,2008,14(6):30-36. [10]于建军.卷烟工艺学[M].北京:中国农业出版社,2003:37-49. [11]王浩雅,王理珉,张强,等.烟叶颜色指标与其他物理指标的相关研究[J].广东农业科学,2011,38(11):41-44. [12]唐启义,冯光明.实用统计分析及其DPS 数据处理系统[M].北京:科学出版社,2002:23-25. [13]张强,师建全,董高峰,等.配方模块制丝关键工艺参数的优化设计[J].中国烟草学报,2013,19(3):28-34. [14]王大成,王纪华,靳宁.用神经网络和高光谱植被指数估算小麦生物量[J].农业工程学报,2008,24(S2):196-201. [15]张正杨,马新明,贾方方,等.烟草叶面积指数的高光谱估算模型[J].生态学报,2012,32(1):168-175.2.6 结果验证
3 结论与讨论