基于DE-SARIMA方法的机组产出量预测
2024-12-31黄俊婷王忠鑫滕用秋宋波曾祥玉白仁喜
摘" 要:获得高精度机组产出量预测是维持钢铁企业库存量合理稳定的前提。受生产环境复杂多变和市场需求不确定性的影响,机组产出量表现出一定波动。为此,提出基于差分进化——季节性自回归整合移动平均(DE-SARIMA)的机组产出量预测方法。为提高预测精度,设计带有分段迭代自适应变异策略和DBSCAN选择策略的DE算法对SARIMA模型的参数进行寻优。采用实际生产数据进行测试,验证了所提方法的有效性。
关键词:SARIMA;DBSCAN;DE;产出量;预测
中图分类号:TP18" " 文献标识码:A" 文章编号:2096-4706(2024)12-0116-05
Unit Output Prediction Based on DE-SARIMA Method
HUANG Junting1, WANG Zhongxin1, TENG Yongqiu2, SONG Bo1, ZENG Xiangyu1, Bai Renxi3
(1.CCTEG Shenyang Engineering Company, Shenyang" 110015, China;
2.Shenyang Power Supply Company of State Grid Liaoning Electric Power Co., Ltd., Shenyang 110052, China;
3.Coal Transportation Department of National Energy Group, Beijing" 100010, China)
Abstract: Obtaining high-precision unit output prediction is a prerequisite for steel enterprises to maintain reasonable and stable inventory levels. Due to the complex and ever-changing production environment and the uncertainty of market demand, the unit output shows certain fluctuations. To this end, a unit output prediction method based on differential evolution and seasonal autoregressive integrated moving average (DE-SARIMA) is proposed. To improve prediction accuracy, a DE algorithm integrating the segmented iterative adaptive mutation strategy and DBSCAN selection strategy is designed to optimize the parameters of the SARIMA model. Testing is carried out using actual production data, and the effectiveness of the proposed method is verified.
Keywords: SARIMA; DBSCAN; DE; output; prediction
0" 引" 言
在钢铁企业生产过程中,建立准确的机组产出量预测方法是一项极具挑战性的工作。这主要是因为生产过程中常伴有突发事件,造成生产环境不稳,导致投入产出机理模型难以建立。受生产计划和生产平衡的影响,各机组当前产出量与其以往产出量之间表现出高度的线性相关关系。因此,考虑采用时间序列模型对机组产出量进行预测。
在众多的时间序列模型中,季节性自回归整合移动平均(Seasonal Autoregressive Integrated Moving Average, SARIMA)是应用最广泛的季节性时间序列预测模型。该模型利用研究对象本身的历史信息来推断研究对象发展变化的规律,从而得出下一时段的预测结果,尤其在处理带有周期性的小规模线性时间序列数据样本时具有明显的优势。然而,数据的平稳性和线性是使用该模型进行预测的前提。在现实世界中,生产环境的多变性往往造成机组产出量的较大波动,进而极大地影响了SARIMA模型的预测精度。因此,如何改进SARIMA模型以获得满意的机组产出量预测结果,对于钢铁企业来说十分重要。
众所周知,SARIMA的预测精度与其参数估计水平密切相关。近年来,已有学者对其参数估计方法进行了研究。传统的参数估计方法主要是基于统计的方法,这类方法在使用时需要满足严格的假设限制。而这些假设在企业生产过程中往往难以成立,因此,基于统计方法获得的参数难以实现SARIMA的高精度预测。相比之下,使用进化算法对模型的参数进行估计可以成功避免上述问题。作为一种有效的进化算法,差分进化(Differential Evolution, DE)能够在连续空间上快速收敛到全局最优[1-3]。已有研究表明,DE比遗传算法和猫群优化算法的计算量更小[4];粒子群易陷入局部最优且分布式估计算法收敛速度较
慢[5]。Flores等[4]和Salami等[6]也阐述了DE可以通过提高模型的参数估计水平的方式来提高自回归整合移动平均(Autoregressive Integrated Moving Average, ARIMA)模型的预测精度。因此,本文开发了带有分段迭代自适应变异策略和DBSCAN选择策略的DE算法来优化SARIMA模型的参数,确定最优的SARIMA模型并进行相应的机组产出量预测。
1" DE-SARIMA预测方法
1.1" SARIMA模型
1976年,Box等[7]提出了ARIMA模型,用于非季节一元时间序列的预测[8-11]。该模型假设一个变量的未来值可以表示为过去几个观测值以及相应残差项移动平均的线性组合。在此基础上,考虑季节性对时间序列的影响,得到SARIMA模型,简记为SARIMA(p,d,q)(P,D,Q)s。具体来说,一个SARIMA(p,d,q)(P,D,Q)s模型可以表示为:
(1)
其中,C表示常数;φl、θk、Φl′和Θk′分别表示自回归(AR)、移动平均(MA)、季节性自回归(SAR)和季节性移动平均(SMA)部分的参数;p、q、P和Q分别表示相应部分的参数个数;d和D分别表示常规差分和季节性差分的阶数;s表示季节长度;zt表示t时刻的观测值;残差at服从正态分布WN(μ,σ2),其中均值μ为0,方差σ2为常数。
1.2" DE算法
为提高模型的预测精度,使用DE算法优化SARIMA参数(例如:C,φ1,φ2,…,φp,θ1,θ2,…,θq,Φ1,Φ2,…,ΦP,Θ1,Θ2,…,ΘQ)的具体步骤如下。
1.2.1" 种群初始化
初始化DE算法使用的所有参数,并将SARIMA的参数按顺序编码为一个个体。令M和NP分别表示个体维度和种群规模。根据模型参数的定义域(如 ),随机生成第G = 0代种群中个体 ,i = 1,2,…,NP;h = 1,2,…,M。个体" 目标函数适应值的计算式如下:
(2)
其中,zt和" 分别表示真实值和预测值;N表示训练样本规模。
1.2.2" 分段迭代自适应的变异操作
在初始化后,基于下列变异操作得到目标个体" 对应的变异个体:
(3)
其中, 表示第G代种群中的最好个体;Gmax表示最大迭代次数;个体索引i1 ≠ i2 ≠ i;变异概率F~WN(μ,σ2)。这里,正态分布参数F能够保证进化前期种群的多样性。随着迭代次数G的增加, 所起的作用越来越小,促使进化后期的种群个体逐渐向最好个体" 靠拢,达到收敛的目的。所提分段迭代自适应变异策略符合种群的演化规律,使得DE算法获得高质量的解。
对于变异个体中越界的编码值,给出如下修复方式:
(4)
其中,rand(x1,x2)表示从区间[x1,x2]中随机选择的实数。
1.2.3" 交叉操作
在变异操作之后,对 和 执行经典交叉操作,得到试错个体:
(5)
其中,CR表示交叉概率;rand(x1,x2)的含义与式(4)相同。
1.2.4" 基于DBSCAN的选择操作
。令C_N表示DBSCAN聚类后得到所有类中包含的个体总数,按照步骤1)至5)获得下一代种群中的个体 :
1)计算所有试错个体" 的适应值 。
2)将所有" 和" 按照适应值由小到大的顺序依次存入同一个集合Set中。
3)使用DBSCAN算法对Set中的所有个体聚类。
4)依次抽取每一类中的第k个个体,并将其存放至集合Setk中,k = 1,2,…,CN。
5)基于C_N与NP的大小关系对每个个体" 进行赋值:
如果C_N≥NP,则依次将Setk中的个体赋值给 ,直至所有" 都被赋值;否则,将所有Setk中的个体赋值给 ,对于剩余的NP-C_N个个体,采用下列选择操作对这些个体 进行赋值:
(6)
1.2.5" 停止准则
如果G>Gmax,则终止算法并输出SARIMA模型的最优参数;否则,算法将连续执行到下一代。
1.3" DE-SARIMA方法构建流程
基于DE-SARIMA方法的机组产出量预测过程如图1所示,具体步骤如下:
1)使用单位根检验法检查机组产出量原始时间序列的平稳性。如果时间序列不平稳,则执行差分操作直至满足平稳性要求。
2)基于自相关函数(Auto Correlation Function, ACF)和偏自相关函数(Partial Auto Correlation Function, PACF)并结合人工调试方法对模型的结构进行辨识。
3)使用DE-SARIMA方法拟合机组产出量数据,得到一系列预测值和相应的残差值。
4)检查模型的残差是否满足正态性/不相关性。如果满足,转至步骤5);否则,模型无效,转至步骤2)。
5)使用DE-SARIMA对机组产出量时间序列进行预测。
2" 数值实验
为了调查DE-SARIMA的实用性,本文以冷轧阶段为背景,在某钢铁企业中进行了应用测试,即:电镀机组产出量的预测。电镀卷作为钢铁企业中最常见的产品,它是国内某大型钢铁企业获利较高的产品之一,其机组产出量最具研究价值。考虑到电镀机组产出量的机理模型难以建立,采用数据驱动的方法准确分析电镀机组产出量序列的演化规律,实现机组产出量的高精度预测。
2.1" 模型环境和参数设置
数值实验基于Microsoft Visual Studio 2013软件平台中C++语言编程实现。令Eps和Minpts分别代表DBSCAN算法中一个样本的邻域距离阈值和一个样本的距离为Eps的邻域中样本个数的阈值,则实验中所使用SARIMA模型和DE算法的参数值如表1所示。
2.2" 数据来源
电镀机组的产出量数据来源于某钢铁企业的日常生产操作。收集并清洗2019年6月至9月实际机组产出量数据,得到124天的有效数据。将前109天的产出量数据用于训练模型,剩余15天的数据用于测试模型。
2.3" 评估标准
为评价所提方法的预测性能,本文选择平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)、均方根误差(Root Mean Square Error, RMSE)和最大绝对误差(Maximum Absolute Error, MAXAE)综合评估DE-SARIMA方法的预测性能。
2.4" 结果分析
2.4.1" 预测结果分析
图2给出了电镀机组产出量数据经常规差分和季节性差分各一次后得到的ACF和PACF图。在该图中,ACF值以阻尼正弦波方式衰减,这说明产出量数据已经获得了平稳性。而且,ACF值和PACF值均呈现出长期趋势,同时二者并没有随自相关阶数和偏自相关阶数的增加而趋向于零,图2显示出电镀机组产出量具有明显的季节性。因此,使用SARIMA模型对产出量进行预测是科学的。
基于DE-SARIMA方法得到的电镀机组产出量预测结果如图3所示。由图3(a)可知:在预测时段内,电镀机组产出量的预测值逼近其真实值。而且,图3(b)展示了产出量的预测误差率不超过4%,其中73.33%的误差率不超过2%,这表明电镀机组产出量的预测结果满足实际生产要求。图3(c)的残差诊断图显示:所获得的SARIMA模型残差中没有明显的相关性。由此验证了DE-SARIMA方法对于预测电镀机组产出量的有效性。
2.4.2" 模型精度对比分析
为了检验SARIMA模型对电镀机组产出量的预测能力,采用最小二乘支持向量机(Least Squares Support Vector Machine, LSSVM)模型对该机组产出量进行相同的预测实验,并使用DE算法对这些模型的参数进行优化。每种模型运行10次得到的预测性能指标统计结果如表2所示。
表2展示了DE-LSSVM方法和DE-SARIMA方法的预测结果。从该表中可以看出,相比DE-LSSVM方法,DE-SARIMA方法所获得的MAPE和RMSE更小,这说明:就电镀机组产出量数据而言,DE-SARIMA方法具有更强的预测能力。而且,DE-SARIMA方法所获得的MAXAE明显小于DE-LSSVM方法,结合图3可知,DE-SARIMA方法的整体预测误差更加平稳,并未出现单点的预测异常情况,这对于企业生产和库存计划的制定具有重要的指导意义。此外,由于LSSVM更适用于非线性数据的预测,而DE-SARIMA优良的预测效果也验证了电镀机组产出量的时间序列数据中线性成分占比更大,由此验证了DE-SARIMA方法对于建模机组产出量数据的有效性。
2.4.3" 算法性能对比分析
为了研究所提算法的性能,使用GA、PSO、基于DE/rand/1/bin变异策略的DE(简称CDE)分别优化SARIMA的参数。为保证结果的公平性,每种算法独立运行10次得到的统计结果如表3所示。
表3展示了针对电镀机组产出量分别使用不同算法获得SARIMA模型的预测性能指标。由该表可知,相比于GA-SARIMA和PSO-SARIMA,DE-SARIMA所获得的MAPE、RMSE和MAXAE更小。这说明DE-SARIMA方法的预测误差更小且预测能力更强。与CDE-SARIMA方法相比,尽管DE-SARIMA方法获得的MAPE更大,但所获得的RMSE和MAXAE更小。总体来说,DE能够搜索到更好的SARIMA模型参数,全局收敛性更强。这也验证了所提变异策略和选择策略的有效性。
基于以上结果和分析可知,SARIMA模型和DE算法的大多数指标都优于其他竞争模型和算法,由此验证了所提DE-SARIMA方法的有效性。
3" 结" 论
针对钢铁企业电镀机组产出量的预测问题,提出一种基于DE-SARIMA的预测方法。为提高该方法的预测精度,在DE算法中,设计了新的分段迭代自适应变异策略和DBSCAN选择策略。结果表明:所提方法的预测精度能够较好地满足实际生产的要求。与LSSVM模型相比,SARIMA获得了更高的预测精度;与GA、PSO和CDE算法相比,DE获得了更好的全局收敛性。由此,验证了所提方法的科学性和有效性。
参考文献:
[1] LIANG J,QIAO K J,YUE C T,et al. A Clustering-based Differential Evolution Algorithm for Solving Multimodal Multi-objective Optimization Problems [J/OL].Swarm and Evolutionary Computation,2021,60[2023-09-08].https://doi.org/10.1016/j.swevo.2020.100788.
[2] ZHANG Y Y,CHEN G Y,CHENG L,et al. Methods to Balance the Exploration and Exploitation in Differential Evolution from Different Scales: A Survey [J/OL].Neurocomputing,2023,561[2023-09-13].https://doi.org/10.1016/j.neucom.2023.126899.
[3] YANG Y K,LIU J C,TAN S B,et al. A Multi-objective Differential Evolution Algorithm Based on Domination and Constraint-handling Switching [J].Information Sciences,2021,579:796-813.
[4] FLORES J J,CALDERON F,GONZALEZ J R C,et al. Comparison of Time Series Forecasting Techniques with Respect to Tolerance to Noise [C]//IEEE International Meeting on Power, Electronics and Computing. Ixtapa:IEEE,2016:1-6.
[5] LIU C,TANG L X,LIU J Y. Least Squares Support Vector Machine with Self-organizing Multiple Kernel Learning and Sparsity [J].Neurocomputing,2018,331:493-504.
[6] SALAMI M J E,TIJANI I B,ABDULLATEEF A I,et al. Two Level Differential Evolution Algorithms for ARMA Parameters Estimation [C]//2013 IEEE 8th Conference on Industrial Electronics and Applications (ICIEA). Melbourne:IEEE,2013:1337-1342.
[7] BOX G E P,JENKINS G M,REINSEL G C,et al. Time Series Analysis: Forecasting and Control [M].New York:Wiley,2015.
[8] CHENG Y X,YI J Y,YANG X G,et al. A CEEMD-ARIMA-SVM Model with Structural Breaks to Forecast the Crude Oil Prices Linked with Extreme Events [J].Soft Computing,2022,26(17):11-15.
[9] 姚金海,邹家骏.CPI预测的SVM-ARIMA模型构建与数值模拟 [J].统计与决策,2022,38(21):48-52.
[10] KAYTEZ F. A Hybrid Approach Based on Autoregressive Integrated Moving Average and Least-square Support Vector Machine for Long-term Forecasting of Net Electricity Consumption [J/OL].Energy,2020,197[2023-09-15].https://doi.org/10.1016/j.energy.2020.117200.
[11] 孙学波,刘宁,王元杰,等.时间序列ARIMA模型在煤矿地音监测系统中的应用 [J].煤炭工程,2023,55(10):111-117.
作者简介:黄俊婷(1987—),女,汉族,辽宁鞍山人,工程师,博士,研究方向:工业数据解析与计算智能优化。