APP下载

基于选择稳定性优化的卷烟吸阻快速预测

2023-05-30胡素霞章桥新龚静雯刘思琪程占刚赵诗棋

安徽农业大学学报 2023年2期
关键词:套索透气卷烟

胡素霞,陈 琳,王 娜,章桥新,龚静雯,刘思琪,程占刚*,赵诗棋

基于选择稳定性优化的卷烟吸阻快速预测

胡素霞1,陈 琳1,王 娜1,章桥新2,龚静雯2,刘思琪2,程占刚1*,赵诗棋2

(1. 湖北中烟工业有限公司技术中心,武汉 430000;2. 武汉理工大学机电工程学院,武汉 430070)

卷烟吸阻是卷烟设计制造中的核心指标。因涉及影响因素多且具有复杂的非线性特性,无论是基于多孔介质流体力学模型还是基于大量工程实践的经验模型,均无法定量指导设计与生产,至今卷烟吸阻仍以实验测试数据为评价依据。针对卷烟生产过程中产生的大量检测数据及数据的复杂多源和不断更迭的特性,提出了一种利用生产历史积累数据,通过K均值聚类算法清洗数据消除样本差异,结合自适应套索方法对输入变量进行降维处理和辅助变量选择,并利用选择稳定性评估对过程进行一致性约束,在多源数据和滚动过程一致选择出与吸阻原理模型匹配的关键影响指标,并将其作为径向基函数神经网络(RBFNN,radical basis function netural network)的输入,建立吸阻的推理预测模型。经验证,预测模型的均方误差为0.004,相对误差率控制在3% 以内,实现了生产场景下的吸阻快速预测。

吸阻;预测;径向基神经网络;选择稳定性;自适应套索

卷烟抽吸品质受烟支吸阻的影响,对烟支吸阻的研究已经成为提高烟支品质的重要途径[1-2]。然而,卷烟吸阻受到众多烟支生产与设计因素的影响,且其间存在复杂的非线性关系,实际工程应用中常通过大量的实验反推[3-5],或利用计算流体力学(CFD)[6-7]来模拟吸阻模型,但这些方法受到操作复杂、执行耗时长、实验成本高等限制,很难直接应用于生产。大量学者从统计角度寻找答案,如:李敏[8]利用线性回归方程建立了卷烟吸阻等质量指标的预测模型;朱波等[9]则采用考虑变量显著性选择的逐步回归模型来建立了烟丝尺寸和吸阻关系模型;堵劲松[10]应用灰色关联分析来探究了烟丝结构中的变量对吸阻的影响。但线性回归和灰色关联分析存在预测范围和精度都有限的方法缺陷[11]。何孝强等[12]利用多元自适应样条回归方法建立了卷烟吸阻和通风率预测模型,但收集的指标过多,数据收集难度较大,对吸阻的生产调控作用有限。

在数据量合适的情况下,相比线性回归,神经网络预测具有更广的预测范围和更高的预测精度,可以建立非线性映射来实现预测[13]。针对数据模糊特性,陈昌华等[14]以主成分分析法来优化径向基神经网络的输入,达到提高预测稳健性目的。而面向时变数据,主成分分析法无法适应于变量的筛选,Zou[15]提出了自适应套索的方法,通过修正权重来维持全局优良的Oracle性质,确保算法的稳健化筛选。王国长等[16]提出了一种针对数据滞后性对惩罚项改进的自适应套索模型,给出一种对应数据特征调节惩罚项的思路。Li等[17]通过关注变量选择的相似性使筛选过程具备选择稳定性。

在这些研究的基础上,本文针对多牌号细支卷烟生产历史数据的多源和模糊特性,利用自适应套索回归算法压缩解释变量系数,选择出吸阻模型的关键解释变量,并通过选择稳定性的惩罚算子约束,保证多源数据的变量选择一致,输出具备聚焦性与记忆性的吸阻关键解释变量,以此来优化径向基神经网络(radial basis function neural network)的输入,最后通过训练出的RBFNN模型实现对吸阻的预测,为生产场景下吸阻的快速预测提供理论指导。

1 选择稳定的数据处理方法

在大量生产数据杂糅情况下,指标数据之间关系复杂。为了明确影响目标指标关键解释变量,需要利用变量筛选的方法剔除杂糅数据中的不相关变量,以提高模型的准确性,降低模型过度拟合的风险[15]。伴随数据滚动与补充,基于自适应套索筛选出的解释变量会出现选择不一致现象,为了保证选择过程的稳定性,需要对预测模型进行选择稳定性的约束与优化。

学者们[8-9]在研究中通常把吸阻的模型描述为式(1)的回归方程形式。回归模型变量的筛选,即压缩无显著相关性的解释变量系数至0。

=0+11+22+…+βxn+(1)

式(1)中:,被解释变量;0,常数项;p,回归系数;x,解释变量;,与x独立的残差项。

根据自适应套索回归对解释变量的划分,将有系数的变量成为非零系数变量,剔除后的变量成为零系数变量,在滚动次数为第次情况下,所有非零变量的集合为1,所有零系数变量集合为BP+1为第+1次与第次的非零变量的并集,1反映P+1的子集个数,Q+1为第+1次与第次的零变量的并集,0反映Q+1的子集个数, S+1为第+1次与第次的非零变量的交集,1反映S+1子集个数,T+1为第+1次与第次的零变量交集,0反映T+1子集个数。稳定性评估就是在数据滚动预测的过程中衡量每次模型中非零系数变量与零系数变量的相似性情况,对选择过程进行调控。定义S为模型随时间滚动过程中的稳定性,计算如式(5):

通过自适应套索在过程中调节超参数对变量进行筛选和对系数进行估计,利用选择稳定性的判断对筛选过程的一致性、相似性与稳定性进行评估与反馈调节,使最终输出的关键变量与目标变量的相关性显著且无多重共线性,变量筛选与稳定性评估流程图如图1所示。

图1 变量筛选与稳定性评估流程图

Figure 1 Flow chart of variable screening and stability assessment

2 基于RBFNN的细支卷烟吸阻预测模型

2.1 RBFNN模型建立

RBFNN是一种以函数逼近为基础的单隐层前馈神经网络。整体由输入层、隐藏层和输出层构成,具体如图2所示。模型具有良好的泛化能力和较快的学习收敛速度[20-21],能够应对吸阻大量的生产数据。RBFNN利用函数逼近和插值的手段可以解决模型非线性问题,进行复杂的规律描述,具备对吸阻的预测能力。

图2 RBFNN结构

Figure 2 Structure of RBFNN

将稳定性选择出的关键变量作为RBFNN的输入。从没有权值的输入层通过,进入径向基函数为高斯内核的隐藏层中,对复杂关系进行学习与训练,隐藏层节点输出如式(8)。由隐含层输出加权得到的最终输出的吸阻y计算如式(9)。

式(8)(9)中:u为隐藏层第个节点的输出;c为高斯核函数的中心向量。

利用均方根误差()和平均绝对误差()来评价基于RBFNN的模型预测的损失和准确度,和值越小说明模型的预测准确度越高,计算公式如下。

图3 模型建立流程图

Figure 3 Model building flow chart

2.2 模型流程

基于选择稳定性优化的RBFNN吸阻预测模型的建立,首先需要根据数据误差要求对数据进行预处理。经过处理后的数据应用自适应套索,并通过数据的每次滚动与补充动态调节惩罚算子和超参数选择出的解释变量,对选择过程的稳定性指标S的大小进行判断并反馈惩罚算子的调整。当解释变量的选择一致及其贡献率达到稳定后输出关键解释变量集,完成关键解释变量的选择。最终将关键解释变量转化为RBFNN的输入,经过RBFNN的不断学习与训练,输出预测模型结果,相应模型流程图3所示。

3 案例与应用

3.1 数据说明

本次案例数据为湖北中烟11个牌号细支卷烟的历史物理指标测试数据和辅料设计数据(表1),其中烟支的常规物理指标包括质量、圆周、长度和硬度,辅料设计指标包括卷烟纸透气度、助燃剂含量、定量、滤棒吸阻和接装纸透气度。为了利用满足技术标准和数据要求的历史数据进行建模,要先对数据进行初筛选,首先根据各指标的技术标准来判断样品是否合格,剔除不符合细支卷烟技术标准的样品数据,再根据拉依达法则去除含粗大误差的样品数据。

由于历史数据存在多源性特征,为匹配辅料设计参数与物测指标数据和消除不同牌号卷烟样本量之间的差距,利用K-means的中心聚集性[13],依据类别内的数据平方和最小原则,将11个牌号细支卷烟数据聚类的得到18个中心,对历史数据按各类别中心训练样本,得到总共3 600个数据。

表1 物理测试数据示意列表

图4 变量筛选稳定性的3种方法对比图

Figure 4 Comparison of variable selection stability with three methods

3.2 吸阻变量筛选结果

以吸阻为因变量,物理指标和辅料设计指标为自变量,带入自适应套索算法中进行筛选。随着数据多次滚动,稳定性约束开始限制选择,在12次滚动后输出解释变量选择一致(图4)。对比套索回归、自适应套索回归与稳定性改进后的解释变量筛选过程,可以发现套索回归的吸阻模型的解释变量筛选过程相较于其他两算法更加不稳定。基于稳定性改进的自适应套索算法在解释变量的最终选择上,与自适应套索回归算法在前5次滚动预测中存在相似选择,但随着滚动次数推进,稳定性惩罚项存在使模型相较于自适应回归的吸阻模型具备了记忆性与一致性,从第6次滚动开始,继承性选择滤棒吸阻、接装纸透气度、质量和卷烟纸透气度4个指标。

第8次后持续选择长度、圆周两个指标,在第12次滚动实现解释变量的稳定选择。利用稳定性评估改进下的自适应套索对历史数据进行筛选,得到开放吸阻模型的关键解释变量为滤棒吸阻、接装纸透气度、卷烟纸透气度与质量、长度和圆周。所有解释变量都通过显著性和多重共线性的检验,具体如表2所示。

通过稳定性评估的吸阻关键指标,利用改进自适应套索回归的得到解释变量系数计算各个解释变量的贡献度I和累计贡献度A如式(12) (13)所示,并绘制出解释变量的贡献度排列图(图5)。

式(12) (13)中:为解释变量总个数;为已累积的解释变量个数;p为解释变量个数。

从贡献度的排列图中可以得到吸阻关键解释变量的影响程度排序为:滤棒吸阻、接装纸透气度、质量、圆周和长度。其中滤棒吸阻对烟支吸阻的影响最大,影响贡献率超过40%,接装纸透气度影响贡献率接近25%,滤棒吸阻、接装纸透气度、质量贡献率之和接近80%。

表2 变量筛选与检验结果

图5 变量贡献度排列图

Figure 5 Pareto diagram of explaining variables

图6 吸阻测量原理

Figure 6 Measurement principle of pressure drop

图7 卷烟结构示意图

Figure 7 Schematic diagram of cigarette structure

ISO标准和GB/T22838.5—2009中规定的卷烟吸阻的测量原理为[22]:将样品密封于测量设备中,在标准条件下,即空气温度(22±2)℃,大气压力(960±100)hPa,大气相对湿度(60±5)%时,维持样品输出端气体体积流量为17.5 mL·s-1时样品两端的压差。图6为吸组测量原理图。

烟支由卷烟纸、烟丝、接装纸、滤棒和成型纸组成,具体如图7所示。依据吸阻的测量原理结合多孔介质流体力学的原理,可沿轴向将烟支吸阻分为卷烟纸段、烟丝段、接装纸段和滤棒段,吸阻的经验公式[3]可以表达为各段压降的叠加,如式(14)所示:

式(14)中:1为卷烟纸段气阻;2为烟丝段气阻;3为接装纸段气阻;4为滤棒段气阻;为气流流量;为误差项。

接装纸透气度与卷烟纸透气度共同组成的通风率与对应段气阻可以相互转换,滤棒段气阻可由滤棒吸阻线性表示。圆周与长度与流速为负相关关系,圆周与长度的增大,反映为流速变慢,从而使压强差变小。质量反映了烟支内容物充实程度,内容物越充实,气流受阻越严重,吸阻越大。因此利用稳定性评估选出的吸阻关键指标与原理吻合。

3.3 吸阻预测结果

以滤棒吸阻、接装纸透气度、卷烟纸透气度与质量、长度和圆周为输入向量=(1,2,3,4,5,6),吸阻为输出向量构建RBFNN模型=()。将总数据集按95%和5%的比例分成训练集和测试集。依据均方误差0.005为目标,多次训练网络来确定隐藏层神经元数量。通过图8反映的过程误差与目标误差逼近情况可以看出,当隐藏层神经元数量为700时,误差达到需求。

图8 RBFNN误差收敛过程

Figure 8 Error convergence process of RBFNN

由此建立输入神经元数量6,隐藏层神经元数量700,输出层神经元1,散布常数为1的RBFNN模型,整体训练时间为49 s,整体训练情况如图9所示。

利用测试集数据对训练完后的RBFNN进行测试验证,并与相同目标MSE下的BP神经网络进行比较。从图10可以看出,RBFNN构建的吸阻预测值和实测值拟合程度相比BP神经网络更高,同时存在更少不稳定的预测点,更难陷入局部最优,有良好的稳健性。结合表3的分析结果,RBFNN相比BP神经网络具有更小的平均绝对误差和更高的模型拟合程度,需求更少的模型复杂度和更快的收敛性。综上,说明利用RBFNN构建细支卷烟吸阻的预测模型具有较高的预测精度和较强的拟合能力和兼具快速收敛性。相比表4中湖北中烟的生产技术标准,利用RBFNN构建的细支卷烟吸阻预测误差在生产允许误差内,说明细支卷烟吸阻预测模型构建合理,具备一定的生产实用性。

图9 RBFNN训练结果

Figure 9 Training results of RBFNN

表3 RBFNN和BP神经网络方法预测结果对比

表4 结合生产标准对比预测结果

图10 吸阻预测与真实值对比图

Figure 10 Comparison of predicted and real value

4 结论

本研究提出了一种基于选择稳定性的卷烟吸阻数据预处理方法,利用稳定性评估改进后的自适应套索算法,对多源且模糊的吸阻历史数据进行了关键变量的选择,并结合RBFNN对吸阻进行了预测,预测模型的均方误差为0.004,相对误差率控制在3%以内。本研究主要贡献总结如下。

(1)在面向多源数据和过程稳定性情况下,本研究提出的选择稳定性评估的变量筛选方法可以在一定程度上降低模型的复杂度,保证了指标的相关性,提高模型的鲁棒性,经过实例验证后,具备较强的适应性和选择过程的稳健性。

(2)选择稳定性优化的RBFNN细支卷烟吸阻预测模型相比传统以大量实验数据导向的方法,具备处理复杂数据的能力,能实现在保证预测准确性的前提下,为生产场景下卷烟指标的低成本快速预测提供了理论依据。

[1] 侯冰清,刘永新. 基于卷烟物理指标和生产方式对卷烟吸阻的影响因素分析[J]. 农产品加工, 2020(21): 59-62, 68.

[2] 邹剑, 郝伟, 张富坤, 等. 卷烟烟支吸阻变化的影响因素研究[J]. 工程技术研究, 2018(16): 93-94.

[3] 常月勇, 仕小伟, 陈平, 等. 基于物理指标的全叶卷雪茄烟吸阻控制方法[J].烟草科技, 2019, 52(3): 92-96.

[4] 喻赛波, 王诗太, 金勇, 等. 接装纸透气度及烟丝结构对细支卷烟逐口吸阻波动的影响[J].烟草科技, 2019, 52(1): 79-84.

[5] 潘广乐, 张二强, 巩佳豪, 等. 烟支规格对卷烟物理、烟气、燃吸特性及感官质量的影响[J].烟草科技, 2022, 55(1):91-98.

[6] 王乐, 游敏, 崔晓梦, 等. 基于线性网络模型的卷烟吸阻及通风特征预测方法[J].烟草科技, 2017, 50(12): 85-89.

[7] 王乐, 李斌, 鲁端峰, 等. 不同抽吸状态下卷烟动态通风特征的数值模拟[J].烟草科技, 2016, 49(1): 60-65.

[8] 李敏. 回归分析在卷烟质量预测控制中的应用[J].烟草科技, 2006(12):16-19.

[9] 朱波, 关欣, 张东, 等. 基于细支卷烟物理指标的烟丝尺寸分析[J].安徽农学通报, 2021, 27(18):114-116.

[10] 堵劲松. 烟丝结构对卷烟物理指标的影响[J].烟草科技, 2008(8): 8-13.

[11] 饶运章, 王丹, 饶睿, 等. 基于EMD-RBFNN的稀土原地浸矿边坡位移预测[J].金属矿山, 2015(3): 72-75.

[12] 何孝强,李泓燊,向虎,等. 基于MARS的卷烟吸阻和通风预测模型[J].食品与机械, 2020, 36(3): 220-224.

[13] 赵庆展, 李沛婷, 马永建, 等. 基于K-means聚类与RBFNN的点云DEM构建方法[J]. 农业机械学报, 2019, 50(9): 208-214.

[14] 陈昌华, 谭俊, 尹健康, 等. 基于PCA-RBF神经网络的烟田土壤水分预测[J]. 农业工程学报, 2010, 26(8): 85-90.

[15] ZOU H. The adaptive Lasso and its oracle properties[J]. J Am Stat Assoc, 2006, 101(476): 1418-1429.

[16] 王国长, 梁焙婷, 王金枝. 改进的自适应 Lasso 方法在股票市场中的应用[J]. 数理统计与管理, 2019, 38(4): 750-760.

[17] LI J H, CHEN W Y. Forecasting macroeconomic time series: LASSO-based approaches and their forecast combinations with dynamic factor models[J]. Int J Forecast, 2014, 30(4): 996-1015.

[18] 黄雅丹, 陆晓骏, 张大力. 具有模型一致性的自适应Lasso预测模型研究[J/OL].工业工程与管理: 1-18 [2022-02-09].http://kns.cnki.net/kcms/detail/31.1738.T. 20210611.1441.003.html.

[19] TIBSHIRANI R. Regression shrinkage and selection via the Lasso[J]. J R Stat Soc Ser B Stat Methodol, 1996, 58(1): 267-288.

[20] 乔俊飞, 韩红桂. RBF神经网络的结构动态优化设计[J].自动化学报, 2010, 36(6): 865-872.

[21] 沈艳, 杨春雷, 张庆国, 等. 基于RBF神经网络的池州市降水序列预测[J].安徽农业大学学报, 2012, 39(3): 451-455.

[22] 中华人民共和国国家质量监督检验检疫总局. 卷烟和滤棒物理性能测试: GB/T 22838—2009[S]. 北京: 中国标准出版社, 2009.

Rapid prediction of cigarette pressure drop based on selective stability optimization

HU Suxia1, CHEN Lin1, WANG Na1, ZHANG Qiaoxin2, GONG Jingwen2, LIU Siqi2, CHEN Zhangang1, ZHAO Shiqi2

(1. Technology Center, China Tobacco Hubei Industrial Co. Ltd., Wuhan 430000;2. School of Mechanical and Electronic Engineering, Wuhan University of Technology, Wuhan 430070)

Pressure drop is the key indicator for cigarettes design and manufacture. As pressure drop is affected by many factors and exists complex nonlinear characteristics, neither the fluid mechanics model of porous media nor the empirical model can guide the design and production quantitatively based on a large number of engineering practices. Hence, pressure is still evaluated on the basis of experimental test data. Aiming at the characteristics of a large number of test data generated in the process of cigarette manufacture and the complex multi-source and updating, a method was proposed to eliminate the sample differences and using K-means to clean the data. The approach applied adaptive lasso to reduce the dimension and select key variables from input and used stability indicator to evaluate the process of variables screening. Afterwards, the key variables were used as inputs to RBFNN (radical basis function netural network). Through the training of RBFNN, the study created a pressure drop prediction model. After example validating, the mean square error of the prediction model was 0.004, and the relative error rate was controlled within 3%, realizing the rapid prediction of the pressure drop in production scenarios.

pressure drop; prediction; RBFNN; select stability; adaptive lasso

TS452

A

1672-352X (2023)02-0372-07

2022-05-17

湖北中烟工业有限责任公司科技项目(2020JSCL3JS2B029)资助。

胡素霞,高级工程师。E-mail:husx@hbtobacco.cn

通信作者:程占刚,高级工程师。E-mail:chengzhan@hbtobacco.cn

10.13610/j.cnki.1672-352x.20230511.022

2023-05-12 12:00:52

[URL] https://kns.cnki.net/kcms/detail/34.1162.s.20230511.1338.044.html

猜你喜欢

套索透气卷烟
织物透气量仪透气率示值误差测量不确定度评定
透气感
套索肽替代抗生素应用的研究进展
套索肽
——一种可供多肽类药物设计和改造的多功能载体
数字化图像的简单合成教学分析
浅议常见PS抠图方法
弥散式和狭缝式透气砖在首钢京唐钢包中的试验对比
防水透气技术延长汽车电子寿命
卷烟包装痕迹分析
我国卷烟需求预测研究述评