APP下载

基于BP神经网络的烤烟外观质量预测模型

2019-04-11王建峰程小强段史江史文强胡蓉花肖荣贵申洪涛

西南农业学报 2019年3期
关键词:烟叶外观神经网络

李 峥,王建峰,程小强,段史江,史文强,胡蓉花,肖荣贵,申洪涛,3*

(1.河南农业大学烟草学院,河南 郑州 450002;2.江西省烟草公司吉安市公司,江西 吉安 343009;3. 河南中烟工业有限责任公司,河南 郑州 450016)

【研究意义】烟叶的外观质量表征了烟叶外在的特征特性,具有良好外观质量的烟叶是卷烟工业的原料基础。烟叶外观质量的形成与其内在化学成分含量之间密切相关[1-2],目前有关此方面研究多集中在外观质量评价指标和化学成分之间的数理统计方法探究,诸如简单相关分析[3-4]、通径分析[5]、逐步回归分析[6]、关联度分析[7]等方法。上述研究虽然可以实现外观质量的定性分析,但无法直接给出明确的外观质量评价预测结果,仍旧无法摆脱烟叶外观质量人为评定存在的主观性和随意性[8],因此如何探究出烟叶化学成分与外观质量之间存在的复杂关系具有重要研究意义。【前人研究进展】随着人工神经网络的发展,BP(Error Back Propagation Training)神经网络在解决简单感知器无法处理的异或(Exclusive OR,XOR)和一些其他问题方面发挥了重要作用,具备任意复杂的模式分类能力和优秀的多维函数映射能力[9],无疑为这种复杂关系的探究模式提供了新的解决思路。目前在工业、经济、医疗、农业等领域得到了广泛的应用[10-15]。有关BP神经网络在烟叶质量评价方面的研究也取得了一定的研究进展,例如:彭黔荣等[16]利用3层BP神经网络实现了烟叶品质的识别;陈清等[17]基于烟草中性致香物质含量,采用遗传BP神经网络构建了烟草香味特征的识别模型;邵惠芳等[18]和路晓崇等[19]分别以化学成分含量和颜色特征值为网络模型输入指标,实现了感官质量的预测。【本研究切入点】本研究以湖南烟区烤烟为研究对象,基于烟叶样品常规化学成分的测定和统计分析,利用BP神经网络具备处理任何复杂非线性映射的强大功能的特点,构建各单项外观质量指标预测模型。【拟解决的关键问题】旨在为烤烟外观质量评价的智能化、精准化发展提供一定科学依据和理论支撑。

1 材料与方法

1.1 试验材料

参照中国烟草种植区划[20]对湖南烟区的划分,湖南烟区分为湘南和湘西两个生态区,分别选取湘南烟区的桂阳、宜章、安仁、嘉禾、永兴、蓝山、新田、江华、望城、浏阳、耒阳、常宁,湘西烟区的邵东、隆回、新宁、遂宁、武冈、洪江、桃源、临澧、永顺、龙山等22个县、市的39个主产乡镇2017年的初烤烟叶样品390个,经严格分选后,最终共获取具有代表性的烟叶样片336个。

1.2 试验方法

1.2.1 烟叶常规化学成分检测 烟叶样品中的总糖、还原糖、总氮、钾、氯、淀粉等常规化学成分指标含量采用流动分析法测定,烟碱采用分光光度法测定。各项化学成分参照标准如下:总糖(YC/T 159-2002)、还原糖(YC/T 216-2007)、总氮(YC/T 160-2002)、烟碱(GB/T 23225-2008)、钾(YC/T217-2007)、氯(YC/T 162-2002)、淀粉(YC/T 216-2013)、蛋白质(YC/T 249-2008)。

1.2.2 烤烟外观质量评价 依据GB 2635-92烤烟分级标准结合专家咨询法确定烤烟外观质量评价指标并建立评分标准(表1),表中各项外观质量统一最高得分值为10,对外观质量指标各档次赋以不同分值,烟叶质量和得分成正比。烟叶样品鉴定前平衡含水率至16 %~18 %,组织10名烤烟烟叶分级专家依据感官感受和评分标准逐项对颜色、成熟度、色度、身份、油分、叶片结构等6项外观质量指标进行评分,其中各项指标统一最高得分为10,对外观质量指标各档次赋以不同分值,烟叶质量越高,最终得分值越高。

1.3 数据处理

数据处理、统计和建模采用Matlab2016b软件,作图采用Excel2013软件。

2 结果与分析

2.1 烟叶常规化学成分和外观质量的描述性统计

对336个烟叶样品的各项化学成分及外观质量指标得分进行描述性统计分析,结果见表2。从变异系数可以看出烟叶常规化学成分成分和外观质量评价指标呈弱变异和中等强度变异。其中颜色、成熟度、色度、身份、油分、叶片结构等6项外观质量评价指标以及常规化学成分中的还原糖、总氮、钾、淀粉、蛋白质的变异系数均小于10 %,属弱变异。总糖、烟碱、氯的变异系数介于10 %~15 %范围,属中等强度变异。

根据峰度和偏度值,除常规化学成分中的氯指标以及外观质量评价中的身份指标相对较大,但总体呈现为尖顶峰,其余指标的峰度和偏度较小,均接近于0。表明样品的常规化学成分含量和外观质量评价得分均服从正态分布规律,满足回归分析、相关分析、关联度分析等经典统计分析的基本要求,具有良好的统计意义。

表1 烤烟外观质量评价指标及评分标准

表2 烟叶样品常规化学成分与外观质量的基本统计

2.2 样品常规化学成分因子分析

神经网络输入变量的筛选一般有专家咨询和因子分析2种方式[21],本文对烟叶样品中8种化学成分进行因子分析,并将因子载荷矩阵方差极大正交旋转,得到旋转后的因子载荷矩阵(表3)。由表可知在累计方差贡献率为94.48 %(>90 %)的前提下,分析得到6个主因子,满足因子分析的原则。6个因子中因子1贡献率最高为20.42 %,其次为因子2的贡献率17.47 %,因子5对烤烟常规化学成分含量的贡献率为15.67 %,因子3、因子4和因子6的贡献率均在15 %以下,分别为14.81 %、13.08 %和13.03 %。因子1主要反映了总糖和还原糖的影响;因子2主要反映了烟碱成分的作用;因子3主要反映了淀粉含量的影响;因子4、因子5和因子6分别主要反映总氮、钾离子和蛋白质的影响。

表3 方差极大正交旋转后的因子载荷矩阵

2.3 网络结构及数据处理

BP神经网络在不限制隐含层节点数的情况下,只有一个隐含层即可实现任意非线性映射[22]。因此本文确定的网络预测模型采用典型的三层结构,即包括输入层、隐含层和输出层。根据因子分析结果,以烟叶常规化学成分中的总糖、还原糖、总氮、烟碱、钾、淀粉、蛋白质共7项指标作为BP神经网络的输入参数,以烟叶外观质量中颜色、成熟度、色度、身份、油分、叶片结构等6项指标得分分别作为网络模型的输出参数共建立6个预测模型,隐含层的神经元数目可依据经验公式(1)确定[23]。通过网络性能测试确定单元数为10的隐含层所构建的网络模型拟合残差最小,因此构建拓扑结构为7-10-1的BP神经网络(图1)。

(1)

式中:n为隐含层节点数,x为输入神经元数量,y为输出神经元数量,z为经验值([1,10]之间的常数)。

由于作为训练样本输入层的各项化学成分数据之间在单位和数量级方面存在较大差异,对于BP神经网络而言输入值和输出值应限制在一定范围内,这样较大的输入值也可进入网络转化函数梯度大的区域以提升网络训练速度,同时可确保网络训练的精准性使结果更为有效。因此本文采用Matlab2016b软件通过premnmx函数对作为输入层的7项化学成分指标数据进行归一化处理,将数据变换至[-1,1]区间内。

2.4 网络创建与样本训练

BP神经网络创建采用Matlab2016b软件进行,将标准化处理后的数据导入软件中,基于上述输入层、隐含层、输出层参数设定的基础上,采用newff函数创建网络,输入层至隐含层的连接函数设置为tan-sigmoid饱和正切函数,隐含层到输出层采用purelin线性转换函数,训练函数选择应用较为广泛的Levenberg-Marguardt数值优化算法,该算法可依据网络训练误差变化自动调节网络参数,以提升目标输出的精度及网络收敛速度[24]。网络训练采用分批次测试的方式进行,在336个样本中随机选择70 %作为训练样本,剩余30 %的样本作为测试样本以检验构建的网络对训练样本的训练准确度;网络训练参数方面训练步数设为100,反复训练次数为1000,目标误差精度为0.001,训练速率为0.1,其余均采用系统默认值。相应的Matlab程序代码如下:

x1、x2、……、x7分别表示烟叶常规化学成分中的总糖、还原糖、总氮、烟碱、钾、淀粉、蛋白质;y表示烟叶外观质量评价指标图1 BP神经网络拓扑结构Fig.1 BP neural network topology

net=newff(minmax(P),[10, 1], {‘tansig’, ‘ purelin’ }, ‘trainlm’);

net.divideFcn =‘dividerand’;

net.divideMode =‘sample’;

net.divideParam.trainRatio = 0.7;

net.divideParam.testRatio = 0.3;

net.trainParam. Epochs =1000;

net.trainPAram.lr=0.1;

net.trainParam.goal=0.01;

net. trainParam. goal=0. 001;

net=init(net);

[net, tr]=train(net, P, T);

a=sim(net, P)

2.5 训练结果

利用336个样本,依据上述网络训练策略,分别对烤烟外观质量评价指标中的颜色、成熟度、色度、身份、油分、叶片结构等6个网络模型进行训练和仿真。图2为训练完成后网络模型模拟值与目标输出值之间的回归分析统计图。图中横坐标为目标输出值,即实际得分值,纵坐标为预测模型得出的模拟值,实线为y=x,即两项指标数值完全一致时的情况。

网络模拟值和目标输出值的统计回归分析结果表明,建立的各个网络预测模型的模拟值与目标值之间的决定系数R2均在0.8以上,也就表明各单项外观质量得分的预测模型模拟值与实际目标值非常近似。其中成熟度和色度2项指标的决定系数R2达到显著水平;颜色、身份、油分、叶片结构等4项指标的决定系数R2达到极显著水平。

为进一步验证构建的外观质量预测模型的精准性,分别对235个训练样本和101个验证样本的模型预测值与目标输出值之间差异进行统计,得到归属于不同误差区间的样本所占比例,统计结果如表4所示。训练样本与测试样本各个单项外观质量评价指标预测模型中误差区间在0~0.5范围内的比例均达到60 %以上,误差区间在0~1.0范围内的样本比例均达到90 %以上,表明网络模型的预测结果具有较高的准确性。测试样本较训练样本在不同误差区间内所占比例较为分散,但误差区间整体集中在较小范围内,表明模型具有较好的推广泛化性能。各个神经网络对样本进行训练后,所构建的BP网络模型可较好的基于烟叶常规化学成分含量,实现对外观质量中颜色、成熟度、色度、身份、油分、叶片结构等指标得分的预测,模型的模拟结果与人员实际评定结果相比,绝大多数的样本误差在很小的范围内。再者考虑到外观质量是依靠专业人员的触觉和视觉进行评定,具有较强的主观性和随机性,整体来看BP网络模型的模拟效果较好。

* 和**分别表示模拟值与目标值相关性达到0.05和 0.01显著图2 训练后网络模拟和目标输出的回归分析Fig.2 Regression analysis of network simulation and target output after training

3 讨 论

BP神经网络在样本训练时受训练数据的准确性和可靠性影响较大,由于获取的烟叶样品数据中可能存在较大的误差及噪声干扰,导致在数据建模时出现过拟合现象,进而影响网络泛化性能和预测准确度[18]。再者烟叶中已被鉴定出的化学成分高达3035种[25],本文选取的常规化学成分仅为其中的极少几种。综合来看所构建的模型应该是一个较为粗糙的预测模型,在网络训练策略、输入参数筛选等方面还需要进一步改善,以期获得更为精准的预测模型。

表4训练样本与测试样本单项外观质量评价指标预测模型误差区间所占比例统计

Table 4 Proportion statistics of the prediction model error interval of the single appearance quality evaluation index of the training sample and the test sample

指标 Index误差绝对值区间 Error absolute value interval0~0.50.5~1.01.0~1.51.5~2.0>2.0颜色 Colour69.36 %(64.36 %)22.13 %(26.73 %)4.68 %(4.95 %)2.98 %(3.96 %)0.85 %(0.00 %)成熟度 Maturity67.23 %(60.40 %)24.26 %(29.70 %)5.53 %(6.93 %)2.55 %(2.94 %)0.43 %(0.00 %)色度 Chroma64.68 %(63.37 %)25.53 %(27.72 %)6.38 %(5.94 %)3.40 %(1.98 %)0.00 %(0.99 %)身份 Body71.06 %(66.34 %)21.28 %(24.75 %)5.11 %(6.93 %)2.55 %(0.99 %)0.00 %(0.99 %)油分 Oil72.77 %(69.31 %)20.85 %(23.76 %)4.26 %(3.96 %)2.13 %(0.00 %)0.00 %(0.00 %)叶片结构 Leaf structure71.91 %(70.30 %)20.85 %(22.77 %)4.26 %(3.96 %)2.55 %(1.98 %)0.43 %(0.99 %)

注:()中内容为101个测试样本在各个误差区间所占比例。

Note:The percentage of 101 test samples in parentheses.

此外,预测模型的研究虽然不算是一个新的研究内容,但与我国烤烟生产模式相结合仍存在一些研究盲点。我国资源禀赋,生态环境、品种、部位等属性的不同也会导致烟叶内化学成分含量的差异,本文选取的供试材料仅为湖南烟区具有代表性的烟叶样品,并未选取不同烟叶生态区的样品,构建的模型具有一定的局限性。因此,模型的普适性还需基于更为广泛的样品数据支撑和检验。

4 结 论

本研究基于烤烟常规化学成分,利用BP神经网络的非线性映射能力构建的各个单项外观质量指标预测模型对样本的训练结果表明:模型模拟值与实际目标值之间的误差区间集中在0~1.0范围内的样本比例均可达到90 %以上,构建的预测模型可通过烟叶中总糖、还原糖、总氮、烟碱、钾、淀粉、蛋白质等常规化学成分实现对颜色、成熟度、色度、身份、油分、叶片结构等6项外观质量指标的预测评价,其结果具有较高的准确性,具有一定实用价值,可进一步推动烤烟质量评价体系的智能化、精准化发展。

猜你喜欢

烟叶外观神经网络
外观动作自适应目标跟踪方法
鸟类能识别植物的外观等
A Shopping Story to Remember
基于递归模糊神经网络的风电平滑控制策略
贵州主产烟区烤烟上部烟叶质量的差异
提高烟叶预检水平的措施探讨
不论外观还是声音,它都很美 Yamaha(雅马哈)A-S3200合并功放
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
神经网络抑制无线通信干扰探究
关于新形势下烟叶生产可持续发展的思考