基于BPNN-XGBoost组合模型的瓦楞纸板线湿部生产速度预测方法
2024-05-18谢威炜曹曦蒋勉陈勇黄玮
谢威炜,曹曦,蒋勉*,陈勇,黄玮
基于BPNN-XGBoost组合模型的瓦楞纸板线湿部生产速度预测方法
谢威炜1,2,曹曦2,蒋勉2*,陈勇2,黄玮3
(1.广东东方精工科技股份有限公司,广东 佛山 528520;2.佛山科学技术学院 机电工程与自动化学院,广东 佛山 528525;3.广东佛斯伯智能设备有限公司,广东 佛山 528520)
满足瓦楞纸板行业日益个性化的定制需求,减小复杂多变的生产条件对瓦楞纸生产速度的影响,帮助企业合理安排生产,提高生产线管控水平。首先对瓦楞纸板生产速度进行重采样,统一订单参数和各传感器参数采样间隔,采用ButterWorth滤波器进行高通滤波,并采用四分位距统计量方法筛选稳定的湿部生产速度区间,提取B瓦和BC瓦的数据,然后根据提取的数据使用BP神经网络和XGBoost预测湿部生产速度,并采用贝叶斯优化和网格搜索分别寻优2种模型的超参数,最后使用粒子群算法组合2种模型的预测结果。实验结果表明,2个模型都具有一定的预测能力,其中XGBoost的预测效果更好,组合模型的预测效果最好。基于BPNN-XGBoost组合模型的方法能有效预测瓦楞纸板湿部生产速度,可指导实际生产。
瓦楞纸板;生产速度;预测模型;数据驱动;超参数寻优
随着我国经济社会的快速发展,瓦楞纸箱包装在电商物流、日化等领域得到广泛应用,展现出巨大的发展前景[1]。同时,基于市场中规格多样化、高端化、个性化趋势的逐步增强,生产瓦楞纸板出现小批量、多批次的特点,进一步加大了生产过程的管控难度,亟需提高瓦楞纸板生产线的管控水平,以适应当前发展趋势。瓦楞纸板生产线的生产参数较多,其中,湿部生产速度是体现效率和产量的重要指标,同时也会反映生产线的状态。生产速度与定量、层数、瓦型、温度、压力等生产参数相互影响,需要进行配合,以完成多样化订单的生产。建立瓦楞纸板各参数与生产速度的对应关系模型,准确预测瓦楞纸板的生产速度,不仅有助于提高生产效率,更好地应对订单结构的变化,同时也能合理安排生产、减少调试时间、提高生产线管控水平,对于瓦楞纸板的高效绿色生产具有重要意义。
由于瓦楞纸板的生产线结构和生产过程非常复杂,因此建立基于物理、化学的生产速度预测数学模型非常困难。根据生产线上各类传感器采集的多维数据建立数据驱动的预测模型是可行的,通过对比各项指标,选择合适的预测模型可以精确预测湿部生产速度。目前,基于数据驱动的预测模型在工业上得到广泛研究和应用。Dogan等[2]将制造业中运用的数据挖掘和机器学习方法进行了总结,针对制造过程的不同环节细致地进行划分,通过将数据和来源进行分类,以解释制造过程中数据库知识发现(Knowledge Discovery in Databases,KDD)的各个步骤。Cui等[3]详细阐述了数据驱动和大数据技术对制造业发展的巨大作用。Xu等[4]通过对比传统模型和数据化模型,详细阐述了数据驱动模型框架,同时指出,为了支持数据模型的建立,需要高度集中数据,以此提升信息密度,更好地对数据进行分类,这对于数据分析和建模至关重要。Ge[5]利用流程分解对不同流程进行建模,以提高监控系统的容错率和灵活性。Ghosh等[6]将动态偏最小二乘法(DPLS)和偏最小二乘法(PLS)应用于工业炼油加氢装置,证明前者在输入低频参数时具有较高的准确性。Hofmann等[7]针对敏感热能存储设备,分别建立了物理模型和数据驱动的循环神经网络模型(RNN),对比二者发现,它们均能够很好地预测设备的运行情况,但在数据足够的前提下,数据驱动模型具有更好的适应性和灵活性,节省了大量时间。Tsay等[8]根据历史数据,对低温空分设备进行动态建模,大幅减少了电费。Alsina等[9]使用神经网络(NN)、支持向量机(SVM)、随机森林(RF)等方法,利用传统可靠性估计函数预测了工业生产中元件的可靠性。结果表明,机器学习方法(特别是RF)的预测能力很强,且具有较高的精度,在增大数据集的情况下机器学习方法具有更大的优越性。林利红等[10]建立了电阻炉理论能耗预测模型,利用粒子群优化算法(PSO)对支持向量回归的超参数进行寻优,建立了基于支持向量回归的多参数能耗预测模型,并对比了支持向量回归、高斯过程回归等模型。结果表明,在粒子群优化下支持向量回归多参数能耗预测方法具有良好的效果。
虽然数据驱动模型已大范围应用于工业领域,但是在瓦楞纸板制造领域(尤其是生产线湿部)的速度预测方面未见报道。由此,文中提出一种基于BP神经网络(BPNN)和XGBoost的组合模型预测方法,采用粒子群算法优化BPNN和XGBoost模型的组合系数,实现瓦楞纸板生产线湿部生产速度的预测。原始数据采用某瓦楞纸板制造企业的某型瓦楞纸板4~11月湿部生产线采集数据进行数据驱动建模,并测试其预测精度。
1 瓦楞纸板生产线
可将传统的瓦楞纸板生产线分为湿部和干部,湿部主要由单面机、双面机、接纸机、原纸架组成,主要负责瓦楞纸板的热压成型、里纸/瓦纸粘合等;干部主要由轮切机、纵切机、横切机、堆叠机等组成,主要负责瓦楞纸板的裁切、堆叠、烘干等。瓦楞纸板的生产过程:原纸分别通过接纸机和原纸架进入单面机,通过热压形成瓦楞,再经过单面机内的上胶系统将瓦纸与里纸粘合,形成一层瓦楞和里纸,再经过双面机粘合一层里纸,进入裁切、堆叠系统,从而加工成瓦楞纸板。瓦楞纸板生产线的湿部结构如图1所示。
图1 瓦楞纸板生产线湿部结构
2 BPNN和XGBoost模型
2.1 BPNN模型
BPNN指误差反向传播神经网络,包含3层结构:输入层(1层)、隐含层(1层或多层)、输出层(1层),其结构如图2所示。其基本思想包含2个过程:由输入层信号正向传播,实际输出与期望输出的误差反向传播。在正向传播时,信号通过相邻两层神经元间的权重和偏置产生线性组合,再经过非线性激活函数产生下一层神经元的输入,最终到达输出层。在反向传播时,通过计算输出层损失函数,调整各层权重和偏置,再经过正向传播减小实际输出与期望输出的误差。通常将误差收敛程度或模型迭代次数作为终止训练的条件。
图2 BP神经网络结构
Fig.2 BP neural network structure
2.2 XGBoost
XGBoost是一种典型的boosting集成学习算法,被广泛应用于各类分类回归任务中。该方法根据训练样本特征情况,不断分裂出子树,拟合上次训练残差,直到达到最大迭代次数或残差不再减小[11]。详细推导如下。
设训练集中有个训练样本,样本特征均为个。在第棵树时,第个样本最终预测值的计算见式(1)。
式中:f(x)为样本x在第棵树的预测值。
由式(1)可将损失函数定义为式(2)。
为了提高泛化能力,加入正则项,可得XGBoost的目标函数,见式(3)。
式中:为叶子节点数量;为叶子结点值;、为系数。
为了使式(4)得到最小值,用泰勒二阶对式(2)展开近似计算,其中g、h的计算分别见式(5)~(6)。
确定最优叶子节点值后,采用贪心算法确定节点最优划分方法。对每个叶子节点枚举所有特征和单特征的分裂点进行分裂,计算分裂收益。根据收益确定最优分裂特征和最优分裂点,优先选择具有更大收益的分裂特征和分裂点。收益的计算见式(9)。
3 建模数据准备
3.1 数据来源及特征选择
这里研究的瓦楞纸板湿部生产线主要由2台单面机、1台双面机、原纸架、接纸机、预热缸和上胶机组成,可以生产3层和5层瓦楞纸板,瓦型分别为B型和BC型,标准生产速度分别为300、250 m/min。分别对B型和BC型瓦楞纸板的生产速度进行建模,选择双面机、预热缸和上胶机采集的数据及生产材质,共12个特征。其中,BC瓦的输入特征有11个,即生产材质、双面机上胶单元上层上胶间隙、双面机上胶单元下层上胶间隙、双面机1段热板蒸汽压力、双面机1段压板压力、双面机2段热板蒸汽压力、双面机2段压板压力、双面机3段热板蒸汽压力、双面机3段压板压力、双面机4段压板压力、双面机冷段压板压力;B瓦的输入特征有10个,无双面机上胶单元上层上胶间隙这个特征。2种类型的输出特征均为湿部生产速度。
3.2 数据预处理
在生产线数据库中存储的数据主要有生产过程数据、订单号、生产材质等信息。由于各传感器的采样方式和采样时间不同,无法直接作为特征数据使用,因此需要预处理[12]。原始数据主要存在如下问题。
1)各传感器的采集方式和采样间隔时间不同,因此无统一尺度的综合数据。
2)针对小批量、多样性的生产订单,需要频繁减速、加速和停机,提高了预测模型建模难度。
3)B型和BC型混合生产时不便于分类预测。
针对以上问题采用如下解决方案。
1)根据实际采样情况,以1 s为间隔时间对湿部生产速度进行重采样,建立统一时间尺度,其余参数对照生产速度的时间采样点进行匹配,采用向下填充法扩充数据,得到时序生产数据。
2)采用Butterworth滤波器[13]对时序生产速度进行高通滤波,再采用四分位距统计量方法筛选并删除不稳定区间,得到稳定的生产速度区间,同时删除对应不稳定区间的其他参数。
3)把处理后的数据基于B瓦和BC瓦分别建模。
在解决方案中,Butterworth滤波器的高通滤波传递函数见式(10)。
式中:为阶数,这里选择二阶Butterworth滤波,即=2;0为频域原点到截止频率的距离;()为点(,)到频域原点的距离。
针对滤波后的数据,采用四分位距统计量方法筛选不稳定区间。计算得到滤波后的数据,1=−0.000 074,3=0.000 064,=0.000 138。其中,1表示第1分位数,3表示第3分位数,表示四分位距。数据正常区间端点值:1−3×=−0.000 488,3−3×=0.000 478,正常区间为(−0.000 488, 0.000 478)。
如图3a所示,上部分曲线为实测生产速度曲线,下部分曲线为经过二阶Butterworth滤波后得到的生产速度数据。显然,经滤波后保留了数据中的波动部分。将滤波后的曲线与计算得到的数据正常区间进行匹配,如曲线幅值落在区间外,则判定为不稳定区间,并记录不稳定数值索引,其余则判定为数据稳定区间。经筛选后,局部结果如图3b中不稳定区间点所示。进一步把筛选出的不稳定数值索引与原时序生产数据对应,并删除相应索引,保留剩余的稳定区间数据。部分稳定湿部生产速度结果如图3b中稳定区间点所示,处理后部分数据见表1。
再次清洗上述方法处理后的数据,去除异常值和重复值。生产材质采用One-Hot编码,同时对所有数据进行归一化处理。经处理后,B瓦的总数据集为70 600,划分为训练集(63 540,90%)、测试集(7 060,10%);BC瓦的总数据集为179 490,划分为训练集(161 541,90%)、测试集(17 949,10%)。
4 模型训练准备
4.1 模型超参数调优
与基于人工经验的传统超参数调优方法不同,这里采用网格搜索和贝叶斯优化分别调优XGBoost和BP神经网络超参数。网格搜索是一种穷举搜索调优方法,通过列举所有设定超参数组合,结合交叉验证,得到最好的超参数组合。贝叶斯优化[14]利用任意采样点函数值,通过高斯过程等概率代理模型逐步构建采集函数,在此过程中会评估下一步应该探索的点,最终找到全局最优值;能够通过较少的搜索次数寻找到目标函数的最优值,针对复杂函数可以求得近似解,甚至最优解。
图3 平稳湿部生产速度的筛选
表1 湿部生产速度预测特征及部分数据
Tab.1 Prediction characteristics and partial data of wet end production speed
4.2 评价指标
为了有效评估模型预测误差,这里的预测指标选用平均绝对误差MAE、均方根误差RMSE、平均绝对百分比误差MAPE,计算见式(11)~(13)。
4.3 调优结果
根据调优方法和评价指标,调优评价指标均选用RMSE。通过网格搜索和交叉验证XGBoost的超参数,调优结果如表2所示。
BP神经网络采用一层隐含层和两层隐含层,正则化项选用L2。通过贝叶斯优化超参数,调优结果如表3所示。
表2 XGBoost的超参数最优结果
Tab.2 Optimal results for hyperparameters of XGBoost
表3 BP神经网络贝叶斯优化超参数的调优结果
Tab.3 Tuning results of Bayesian optimization for hyperparameters of BP neural network
5 模型组合及预测结果
5.1 BPNN-XGBoost组合模型
为了降低预测误差,提高预测精度和稳定性,这里采用基于粒子群优化算法(PSO)[15]的并行加权组合预测模型[16-17]。具体步骤:统一所有传感器数据、订单数据的采样间隔时间均设置为1 s,得到所有参数对应的时序生产数据;采用ButterWorth高通滤波法和箱线图,删除生产速度不稳定生产区间,归一化数据,统一量纲,字符数据采用One-hot编码,去除重复值;选择生产材质等11个数据作为输入参数,根据层数和种类将数据分为B瓦和BC瓦,最后分别将90%的数据作为训练集,将10%的数据作为测试集;选择BP神网络和XGBoost为预测模型,其中BP神经网络选择3层和4层模型;针对2种BP神经网络,采用贝叶斯优化寻优其超参数,使用网格搜索和交叉验证选择XGBoost超参数;将2种模型的预测结果进行组合,选择粒子群算法寻优组合模型权值。
采用粒子群算法对组合模型系数进行寻优的适应度函数见式(14)。
基于BPNN-XGBoost组合模型建模的流程如图4所示。
5.2 预测结果
根据调优后的超参数,分别使用BP神经网络和XGBoost对B瓦和BC瓦测试集数据进行预测。取2种模型5次预测的平均值,选择最优预测结果加权相加,再采用PSO寻优最佳权值,结果如表4所示。
由表4可知,采用XGBoost和BP神经网络均可预测B瓦和BC瓦的湿部生产速度,相对而言,XGBoost相较于BP神经网络,其预测精度更高。采用PSO对XGBoost和BP神经网络组合模型系数进行优化后,其预测精度更优,对比B瓦和BC瓦的预测结果和测试数据,得到最小的RMSE、MAE、MAPE。其中,部分B瓦和BC瓦生产速度的预测结果如图5~6所示。采用PSO优化系数后,组合模型具有最小的预测误差,因此基于组合模型进行预测得到的生产速度曲线更接近生产速度的测量值,证明文中提出的基于BPNN-XGBoost组合模型的瓦楞纸板线湿部生产速度预测方法有效。
图4 瓦楞纸板湿部生产速度预测流程
表4 预测结果
Tab.4 Prediction results
图5 部分B瓦的预测结果
图6 部分BC瓦的预测结果
6 结语
文中提出了一种基于BPNN-XGBoost组合模型的瓦楞纸板线湿部生产速度预测方法。根据瓦楞纸板湿部数据采集特点,建立了统一的采样间隔时间,同时提出了一种基于ButterWorth高通滤波和IQR方法的稳定湿部生产速度筛选方法,比较了BP神经网络和XGBoost对B、BC瓦楞纸板湿部生产速度的预测结果,最后基于粒子群算法优化2种预测值权重,得到最优预测精度。文中方法可有效预测不同生产条件下瓦楞纸板的生产速度,为提高生产线管控水平、合理安排生产、减少人工调试时间提供了重要参考。
[1] 宋慧慧. 箱板瓦楞纸行业现状及趋势[J]. 印刷技术, 2020(7): 4-5.
SONG H H. Current Situation and Trend of Box Corrugated Paper Industry[J]. Printing Technology, 2020(7): 4-5.
[2] DOGAN A, BIRANT D. Machine Learning and Data Mining in Manufacturing[J]. Expert Systems with Applications, 2021, 166: 114060.
[3] CUI Y, KARA S, CHAN K C. Manufacturing Big Data Ecosystem: A Systematic Literature Review[J]. Robotics and Computer-Integrated Manufacturing, 2020, 62: 101861.
[4] XU K, LI Y G, LIU C Q, et al. Advanced Data Collection and Analysis in Data-Driven Manufacturing Process[J]. Chinese Journal of Mechanical Engineering, 2020, 33(1): 43.
[5] GE Z Q. Review on Data-Driven Modeling and Monitoring for Plant-Wide Industrial Processes[J]. Chemometrics and Intelligent Laboratory Systems, 2017, 171: 16-25.
[6] GHOSH D, MOREIRA J, MHASKAR P. Application of Data-Driven Modeling Approaches to Industrial Hydroprocessing Units[J]. Chemical Engineering Research and Design, 2022, 177: 123-135.
[7] HOFMANN R, HALMSCHLAGER V, KOLLER M, et al. Comparison of a Physical and a Data-Driven Model of a Packed Bed Regenerator for Industrial Applications[J]. Journal of Energy Storage, 2019, 23: 558-578.
[8] TSAY C, KUMAR A, FLORES-CERRILLO J, et al. Optimal Demand Response Scheduling of an Industrial Air Separation Unit Using Data-Driven Dynamic Models[J]. Computers and Chemical Engineering, 2019, 126: 22-34.
[9] ALSINA E F, CHICA M, TRAWIŃSKI K, et al. On the Use of Machine Learning Methods to Predict Component Reliability from Data-Driven Industrial Case Studies[J]. The International Journal of Advanced Manufacturing Technology, 2018, 94(5): 2419-2433.
[10] 林利红, 李雨龙, 李聪波, 等. 工业电阻炉多参数能耗建模与预测[J]. 重庆大学学报, 2021, 44(2): 107-119.
LIN L H, LI Y L, LI C B, et al. Multi-Parameter Energy Consumption Modeling and Prediction of an Industrial Resistance Furnace[J]. Journal of Chongqing University, 2021, 44(2): 107-119.
[11] 吴强, 张伟, 岳秀清. 自动化包装生产线电机无传感器驱动故障诊断[J]. 包装工程, 2021, 42(11): 182-190.
WU Q, ZHANG W, YUE X Q. Fault Diagnosis of Sensor Less Motor Drive in Automatic Packaging Production Line[J]. Packaging Engineering, 2021, 42(11): 182-190.
[12] CHENG H J, FENG D Y, SHI X B, et al. Data Quality Analysis and Cleaning Strategy for Wireless Sensor Networks[J]. EURASIP Journal on Wireless Communications and Networking, 2018, 2018(1): 61.
[13] DAVID K, TODD F, JAROSLAV K, et al. Evaluation of (1+α) Fractional-Order Approximated Butterworth High-Pass and Band-Pass Filter Transfer Functions[J]. Elektronika Ir Elektrotechnika, 2018, 24(2): 37-41.
[14] SNOEK J, LAROCHELLE H, ADAMS R P. Practical Bayesian Optimization of Machine Learning Algorithms[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. ACM, 2012: 2951–2959.
[15] SHI Y. A Modified Particle Swarm Optimizer[C]// IEEE World Congress on Computation Intelligence, Indianapolis, 1998: 69-73.
[16] 凌立文, 张大斌. 组合预测模型构建方法及其应用研究综述[J]. 统计与决策, 2019, 35(1): 18-23.
LING L W, ZHANG D B. A Review of Construction and Application of Combination Forecast Model[J]. Statistics & Decision, 2019, 35(1): 18-23.
[17] 陈根. 基于模型筛选的中长期径流组合预测模型研究[D]. 武汉: 华中科技大学, 2021: 22-27.
CHEN Gen. A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering[D]. Wu Han: Huazhong University of Science and Technology, 2021: 22-27.
Prediction Method for Wet End Production Speed of Corrugated Board Line Based on BPNN-XGBoost Combined Model
XIE Weiwei1,2,CAO Xi2, JIANG Mian2*,CHEN Yong2,HUANG Wei3
(1. Guangdong Dongfang Precision Science & Technology Co., Ltd., Guangdong Foshan 528520, China; 2. School of Mechatronics Engineering and Automation, Foshan University, Guangdong Foshan 528525, China; 3. Guangdong Fosber Intelligent Equipment Co., Ltd., Guangdong Foshan 528520, China)
The work aims to meet the increasingly personalized customization needs of the corrugated board industry, reduce the impact of complex and variable production conditions on the production speed, help enterprises to arrange production reasonably, and improve the level of production line control. Firstly, the production speed of corrugated board was resampled to unify the sampling interval of order parameters and sensor parameters, and high pass filtering by ButterWorth filter. Quartile statistics were used to screen the stable wet end production speed interval and extract the data of types B and BC. Then, BP neural network and XGBoost were used to predict the wet end production speed based on the extracted data, and Bayesian optimization and grid search were used to optimize the hyperparameter of two models, respectively. Finally, PSO algorithm was used to combine the two models to predict the production speed. The experimental results showed that both models had certain prediction ability, among which XGBoost had better prediction performance and the combined model had the best prediction performance. The method based on BPNN-XGBoost combined model can effectively predict the wet end production speed of corrugated board and guide the actual production.
corrugated board; production speed; prediction model; data driven; hyperparameter optimization
TB484.1
A
1001-3563(2024)09-0210-08
10.19554/j.cnki.1001-3563.2024.09.027
2023-06-07
广东省普通高校新一代信息技术重点领域专项(2021ZDZX1057); 佛山市南海区重点领域科技攻关项目(2230032004654)