基于RFE 特征选择的PSO-SVM 用电量预测算法
2023-10-21罗红郊马晓琴张华铭
罗红郊,马晓琴,孙 妍,张华铭
(1.国网青海省电力公司信息通信公司,青海西宁 810000;2.北京清软创新科技股份有限公司,北京 100085)
近年来,随着新型电力系统建设进程的加快,电力行业也开始逐步推进企业数字化转型。其中,计算机技术是赋能企业数字化转型的重要途径。在电力市场化改革背景下,新能源将逐渐占据主体地位。相较于传统的火力发电,在新能源接入后电力供给侧的波动性与随机性将显著提升,这便要求更准确地对负荷大小进行预测,从而把控用电量趋势[1-3]。
随着机器学习技术的发展,神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)、多元回归(Multiple Regression Analysis,MRA)等多个数学模型已逐步应用于电力系统的用电量预测中。但此类算法自身的训练及求解过程仍存在迭代效率低、容易陷入局部最优等问题,会直接影响到模型的预测精度[4-5]。此外,由于影响用电量的因素较多,在进行模型算法的特征选择时无法全面顾及,这导致模型在训练时易产生维度缺陷,从而影响算法的性能发挥[6-7]。基于上述分析,该文一方面从影响用电量的因素出发,使用递归特征消除法(Recursive Feature Elimination,RFE)筛选用电量特征指标,以提高机器学习算法的迭代效率;另一方面则对传统支持向量机算法的训练方式加以优化,引入改进后的粒子群(Particle Swarm Optimization,PSO)算法来提升模型的预测精度。
1 理论分析
1.1 算法框架
支持向量机(SVM)是一种常见的基于统计学理论的机器学习算法,其在小样本、高维度的非线性拟合问题上具有广泛的应用[8-13]。但传统的SVM 算法在确定回归参数时,通常基于计算机遍历、人工选取等方法,从而影响了算法的使用效率及预测性能,因此需对其进行优化与改进[14]。设规模为l的样本集为{(xi,yi),i=1,2,…,l},xi、yi分别是输入值与其对应的输出值。设f(x)为以x为自变量的回归估计函数:
式中,ε是不敏感损失函数。当样本落入以f(x)为中心且距离为2ε的区域时,记回归损失为0;而当样本未落入该区域时,则模型对样本进行惩罚。SVM 算法通过构造合适的f(x),在ε尽可能较小的情况下,实现最少的样本惩罚L。以线性的f(x)为例,可表示为:
此时,上述的优化问题可转化为:
通常在求解时,为提升模型的泛化性能,会引入松弛变量ξi、与惩罚系数C,此时式(3)可改写为:
在求解式(4)时,引入拉格朗日乘子(Lagrange Multiplier),此时根据:
1.2 基于PSO的算法优化
根据上文所描述的基于传统优化方式SVM 算法中,C、ε等参数均会影响模型回归的精度。因此,文中使用粒子群(PSO)算法来确定SVM 算法的参数[15-16]。该文粒子群算法中引入了自适应调整机制和惯性权重机制,具体流程如图1 所示。
图1 基于PSO优化的SVM算法流程
首先对于规模为m的种群,按照20%、30%、50%的比率划分为A、B、C 三个子种群:
1)在A 种群内部,变异策略为:
惯性权重的计算策略为:
2)在B 种群内部,变异策略为:
惯性权重的计算策略为:
3)在C 种群内部,变异策略为:
惯性权重的计算策略为:
2 方法实现
2.1 基于RFE的特征选择策略
该文算法所设计的应用场景主要用于居民用电量预测。经过前期的数据清洗,已获取某地区2017—2021年间342个小区每日的用电量数据,且数据采集的频率为15 min/次。此外,还搜集并清洗了小区用户规模、小区地理位置、台区容量以及居民负荷等标号为1-30 的不同类别数据,作为模型的输入特征。
根据SVM 算法的特性,该模型对于低维数据的回归具有更优的泛化性能。因此,需从30 组特征中随机选取一个作为PSO-SVM 模型的输入。
该文在进行特征选择时,基于SVM 的递归特征消除特性(RFE)基本思路描述如下:对于目标函数Lp,计算在1-30 个特征中的第i个特征Δwi被剔除时Lp的变化情况,即:
此时,能够得到样本集中每个特征的排序系数:
将采集的所有数据进行标准化处理,消除数据量纲对模型预测的影响。
根据图2 的计算结果可知,使用11 个指标作为模型的特征输入时,即可对模型精度产生97.99%的贡献度,且PSO-SVM 能够取得综合最优的性能。这11 个指标及各自的贡献度,如表1 所示。
表1 文中采用的指标及贡献度
图2 RFE特征选择计算结果
2.2 仿真结果
该文在计算机软件环境下对改进后的SVM、PSO算法性能进行评估。具体环境参数如表2所示。
表2 算法仿真的软硬件环境
首先评估文中对PSO 算法的改进效果,使用标准测试函数进行验证。所选择的测试函数为Schaffer’s F6 及Rosenbrock,其表达式分别如下:
其中,式(17)为二维函数,最优目标值为0;式(18)则是n维函数,取n=30,最优目标值为100。
在验证时,采用标准的PSO 算法作为对比,PSO算法中的参数与文中改进后特有参数的取值如表3所示。
表3 算法参数设置
对两个函数分别进行100 次迭代优化,其结果如表4、5 所示。
表4 Schaffer’s F6的优化结果
Schaffer’s F6和Rosenbrock分别为多峰函数和单峰函数。从表4 的结果可以看出,改进后的PSO 算法将Schaffer’s F6 的达优率提升了11%,平均迭代次数减少了661.78次,即降低67.36%;由表5可知,改进后的PSO算法将Rosenbrock的达优率提升了15.92%,平均迭代次数则降低了62.04%。综合来看,改进后的PSO 算法对单峰函数的优化精度提升效果更为显著,而对多峰函数的迭代效率优化效果则更好。
表5 Rosenbrock的优化结果
表6 给出了该文算法在用电量预测时的效果统计,其预测精度采用平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)两个指标进行评估。
表6 不同算法的预测指标结果
从表中可以看出,采用PSO 进行参数优化的普通PSO-SVM 算法与使用传统方式优化的SVM 算法相比,MAE 与RMSE 分别提升了3.36%和2.06%,证明了粒子群算法在参数优化时的作用。此外,该文算法相较于普通的PSO-SVM 算法,MAE 及RMSE 分别提升了5.79%和2.88%,说明该文算法在迭代效率与求解精度上均有显著提升,这与上文的测试结果具有一致性。
3 结束语
该文使用SVM 算法的递归特征消除特性对用户用电量预测的指标进行了筛选,提升了算法的训练效率。文中还对PSO 算法进行了一定的改进,且改进后的PSO 算法收敛速度更快,预测精度更高。随着新型电力系统建设进程的加快,该文研究算法将在电力行业取得更为广泛的应用。