多模型融合下的煤炭价格预测方法
2024-04-10贺仁杰
文/贺仁杰
有效掌控煤炭价格走势有利于保障煤炭供应链的安全稳定。本文整合了宏观经济、煤炭市场、电力行业等相关数据,筛选出影响煤价的关键因素,提出了一种基于Stacking集成学习的组合预测方法。实验结果显示,融合后的模型充分发挥了各个基学习器的优势。与单一模型相比,融合后的Stacking模型具有较小的预测误差,预测效果更佳。
1.引言
能源供给侧结构性改革的目标是优化能源结构,减少无效供给,合理配置资源,提高能源效率。有研究者分析了我国煤炭价格与火力发电的动态关系,也有研究者考虑了煤炭价格的多种影响因素,如工业增加值、发电量和消费量等。随着机器学习、深度学习的发展,BP神经网络、混合深度学习分步预测方法等也被用于煤价预测。但这些算法在数据样本量少的数据集上难以实现精准预测,并且缺乏可解释性。本文针对上述问题,筛选出影响煤价的关键因素,将随机森林、支持向量回归、弹性网络和BP神经网络与集成学习方式进行融合,构建基于Stacking的组合预测方法,并验证了其有效性。
2.模型构建与评价指标
考虑到随机森林的高效性能和自适应特征选择、弹性网络的良好泛化能力、SVR的非线性分类能力,以及BP神经网络简单灵活,能够处理非线性问题等优点,本文利用煤炭价格数据集分别构建了模型。Stacking可以利用这些基学习器的优势,提高整体的预测性能。实验表明元学习器为岭回归时可以取得较好的预测效果,故选用岭回归作为元学习器。为了对预测模型性能进行评估比较,本文采用均方误差(MSE)、平均绝对误差(MAE)和拟合优度三种常用的评价指标。
3.数据来源及预处理
在进行数据分析之前,需要对数据进行预处理,以便算法能更好地学习数据并做出更准确的判断与决策。此外,由于本数据集中缺失值较少,采用了将缺失值前后时间段的数据求均值来代替空白缺失值的方法,以保证样本量不减少。为了减少变量间多重共线性对线性模型参数估计不确定性的影响,需要对数据集进行变量间相关性分析,进行变量筛选和合并,从而减少变量间的多重共线,提高模型精度。
4.结果分析
本文采用四种单一模型分别进行预测,选取数据的80%为训练集,20%为测试集。RF、SVR、EN和BP模型都表现出较好的拟合效果。将构建的Stacking模型进行训练后进行预测。各模型的预测的MSE和MAE见表1。可以看出,EN表现出最低的MSE,RF和BP整体表现优越,而且BP的MSE值更低,SVR也实现了较好的预测效果。
表1 各模型预测效果评价
Stacking模型预测的MSE和MAE最小,预测准确率有了明显提升。Stacking通过多种基学习器结合,可避免模型陷入局部最小点,这也是Stacking可显著提升预测精度的关键原因。
5.总结
本文通过收集经济数据,找到影响煤价的关键因素,并利用集成方式将多个算法融合后进行煤炭价格预测。结果表明,融合模型能够结合多种模型的优势,预测的平均误差较小,明显提升了预测准确率。但研究中还存在一些不足:由于获取相关数据不便,后续研究可筛选更多特征纳入模型训练,争取提供更精确的煤价预测方法。