基于RF-PSO-BP 的电能质量稳态指标预测
2023-11-21向星宇刘敬之曲全磊夏得青黎朝晖
向星宇,刘敬之,曲全磊,夏得青,罗 政,黎朝晖
(1.湖南工业大学电气与信息工程学院,湖南株洲 412007;2.国网青海省电力公司电力科学研究院,青海西宁 810001;3.湖南工业大学 轨道交通学院,湖南 株洲 412007)
随着我国国民经济和现代工业的高速发展,区域电网中的设备和负荷也日益趋向复杂化和多样化,使得区域电网电能质量问题出现了新的特征,也给其治理带来了新的挑战[1]。电能质量指标预测作为尽早发现潜在电能质量问题的前提条件,对潜在电能质量问题的高效治理以及电网的稳定运行有着重要的意义。
目前,对于电能质量指标预测的研究主要有回归模型、时间序列、灰色模型以及神经网络等方法[2]。回归模型注重于数据的拟合,对于非线性关系的准确性差[3]。时间序列对受未来因素影响大的指标进行预测时,准确性不佳[4-6]。灰色模型只适用于中短期、指数增长的预测[7-8]。神经网络能够很好地解决多特征、非线性的复杂关系拟合,但由于初始的权值与阈值是随机的,算法容易陷入局部最优,且对于多特征输入时运行速度慢,准确性不高[9-10]。
因此,针对影响电能稳态指标特征复杂以及BP神经网络收敛速度慢、易形成局部极小等不足,提出了RF-PSO-BP 电能质量稳态指标预测方法。
1 相关理论
1.1 随机森林
随机森林(RF)是一种功能强大、用途广泛的监督机器学习算法,其由多个决策树组成,每个决策树的数据集都对应着不同的特征和样本。决策树算法根据给定的数据集归纳出分类规则[11],并采用自顶向下的递归划分方式,以树的形式展现出来。其中,信息熵作为决策树方法中分支产生的衡量标准,其大小由信息决定,信息的定义如式(1)所示:
其中,xi表示第i个分类,p(xi)表示第i个分类的概率函数,l(xi)表示为信息。因此信息熵H(X)就可以表示为式(2):
通过信息熵可以精确地度量信息量的大小,算法会根据所有样本信息熵的变化来选择最佳分类,最后随机森林将单个决策树的输出整合起来,生成最后的输出结果。
RF 模型由于随机进行样本和特征选取,因此不容易出现过拟合的问题,在处理高维数据、特征遗失数据与不平衡数据时依然有很好的鲁棒性。
1.2 BP神经网络结构
BP 神经网络是一种通过反向传播误差来训练的多层前馈网络算法[12]。网络结构由三部分组成,其中输入层与输出层分别对应信息的输入与输出,隐含层作为中间层用于信息的分析处理。BP 神经网络模型拓扑结构如图1 所示。
根据Strauss和Corbin的观点,扎根理论利用三个阶段的编码方式用以裂解原始资料、概念化,并重新产生新的形式,此三个阶段编码包括开放编码、主轴编码与选择编码。[21]三个阶段编码通常也被称为三级编码。为了更有效率地进行编码分析,本研究借助了质性分析软件NVivo11.0。
图1 BP神经网络拓扑结构
由于独特的结构,BP 神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力[13],但随着应用研究的深入,其局限性也暴露出来。如神经网络的初始权值与阈值是随机的,导致算法容易陷入局部极小;当网络参数过多时,每次更新都需要操作过多权值,导致收敛速度变慢。因此,对于神经网络初始参数的优化以及算法收敛速度的提升是BP神经网络的重要研究内容。
1.3 粒子群优化
粒子群优化(PSO)算法的基本概念源于对鸟群捕食行为的研究,它利用了种群的群体智慧进行协同搜索,从而在解空间内找到最优解[14]。其算法简单易于实现、精度高,且对比遗传算法收敛速度更快。粒子群算法流程图如图2 所示。
图2 粒子群算法流程图
速度与位置更新公式如下:
式中,xi和vi分别表示粒子的位置和速度;rand()为均匀分布的伪随机数;pbesti和gbesti分别代表粒子的个体和全局最优位置[15];c1、c2分别为粒子个体、全局的学习因子,w为惯性因子。
由于PSO 拥有较强的全局探测和局部开采能力,因此将BP 神经网络误差作为目标函数,通过粒子不断迭代更新寻找最优位置,进而最大程度优化BP 神经网络的权值与阈值,从而提高神经网络预测的准确性。
2 电能质量稳态指标预测
2.1 数据预处理
智能电表采集到的电能质量数据特征以及环境因素特征的量纲以及数量级存在着差别,如有功功率单位为kW,电压谐波畸变率为百分数等。不同特征的量纲不同,导致神经网络的拟合偏向于量纲较大的特征,从而导致预测效果不理想,因此需要对特征数据集进行标准化处理。标准化公式如式(5)所示。在BP 神经网络输出后,必须将输出数据进行反标准化,才能得到其原本量纲上的预测值。反标准化公式如式(6)所示:
式中,X为标准化后的数据,Xi为某特征对应的原始数据,为数据样本均值,σ(X)为标准差。
2.2 特征选择
对于复杂多样的特征数据,完全利用数据中的信息会导致预测准确性差,盲目减少特征同样也会损失很多有用的信息,从而导致预测结果不理想。因此,在充分考虑预测指标的影响因素下进行重要特征提取,是提高算法预测准确性的关键。为了保留有效的特征数据,随机森林算法将收集到的动态电能历史数据与环境因素特征作为神经网络输入,将某一预测指标作为输出,通过比较各输入特征预测其指标的重要性,过滤掉低或负重要性的特征。
2.3 模型评估
均方根误差(RMSE)和平均绝对百分误差(MAPE)是对于连续变量的两个最普遍的度量标准,将其作为验证预测准确性的方法,如式(7)、(8)所示。两者值越小,则预测精度越高。
2.4 预测流程
整体预测流程可分为四个步骤:
步骤1:对智能电表采集到的动态电能历史数据以及监测点的温湿度等数据进行预处理,将处理后多维特征作为随机森林输入,将某一预测指标作为输出,通过重要性分析后确定初始输入变量集合。
步骤2:将步骤1 提取出的特征数据作为BP 神经网络的训练集输入样本,通过输入输出特征个数与经验公式来确定合适的隐含层节点数。经验公式如式(9)所示:
式中,h为隐含层节点的数目,m和n分别是输入层和输出层节点的数目,a为1~10 之间的调节常数[16]。
步骤3:利用PSO 算法优化每一项预测指标相应的BP 神经网络初始参数。计算BP 神经网络的误差,将其作为粒子更新过程的输入,通过设定PSO 的迭代次数、权重以及学习因子等参数进行优化,将最优权值和阈值赋给网络。
步骤4:以梯度下降为训练算法,设定一系列训练参数后,对网络进行训练并预测,最后通过预测结果的误差评价算法的性能,并进行检验评估。
3 实例分析
实例数据由湖南省某低电压台区监测点每15 min采集一次得到,9 月份共采集共计2 880 组样本数据。样本数据由动态电能数据与环境因素数据两部分组成。其中动态电能数据包括各时间段的电压、电流、有功功率、无功功率、视在功率、总功率因数、频率、电压畸变率、电流畸变率等;另收集了该地区的温度、湿度、风速及气压等同时刻数据作为环境因素数据。由于电表采集到的数据集含有缺失项和不完整数据,为了得到更加准确的预测结果,数据集在使用前均进行缺失值补充、异常值修正等预处理操作[16]。以电压偏差和三相电压不平衡度作为预测指标,将标准化后得到的数据集按照6:2:2 进行数据划分,其中占比为6 的数据集为训练集作为神经网络训练样本,占比为2 的数据集为验证集用于超参数的调整与设定,另外占比为2 的数据集作为测试集,用于对预测方法的准确性进行验证。
3.1 重要性分析
剔除无关特征与冗余特征后,选择出能够有效提升算法效果的特征,试验基于Matlab 2020b 将数据集样本的动态电能质量历史数据以及环境因素共13 个输入特征与待预测的某一电能质量指标进行重要性分析。以电压偏差为例,其特征重要性分析图如图3 所示。
图3 电压偏差的特征重要性分析图
图3 中横坐标分别对应上述各特征,纵坐标代表各特征所对应的重要性,数值越大,则重要性越高。由图3 可知,特征13(气压)呈负重要性,特征10(频率)的重要性为0,均予以剔除。余下特征经过多次试验分析,当加入重要性排名第6 的特征时,预测算法性能降低,因此取排名前5 的特征作为神经网络的特征输入。
3.2 参数设定
合适的参数设定可以在提高算法预测精度的同时缩短算法运行时间,从而提升算法预测性能。将3.1 提取出的特征作为神经网络输入,进行PSO 以及神经网络的参数设定。为了得到更好的预测效果,经多次试验分析,最终确定各超参数如下:设定PSO的学习因子c1、c2为1.494 45,惯性权重为0.8,限制速度范围为(-1,1),迭代次数为1 000;设定BP 神经网络的训练次数为1 000,学习速率为0.01,目标误差为0.000 001,训练算法为TRAINLM。
3.3 预测结果与误差评价
为了更加直观地体现所提方法在目标预测上的优越性,将该方法与传统BP 神经网络以及PSO-BP在Matlab 平台上进行仿真试验并得出预测结果。在保持数据条件相同的前提下,选取各预测指标的前100 个测试集样本的预测值与实际值进行对比。三种预测方法对于电压偏差ΔU、三相电压不平衡度εu的预测结果如图4-5 所示。
图4 电压偏差预测对比图
图5 电压三相不平衡度预测对比图
由图4-5 可知,传统BP 预测在部分样本试验中存在明显偏差,在电压偏差指标预测中于样本数50到75 之间呈现了相反预测趋势;PSO-BP 方法在少数样本试验中也存在明显偏差;而所提方法的预测值整体上会更加趋近于实际值。为了更加客观地对预测结果进行评估,试验程序通过式(7)、(8)计算出各预测方法的εRMSE、εMAPE进行对比,并计算各算法平均运行时间,如表1-2 所示。
表1 预测指标误差分析表
根据表1 预测结果可知,RF-PSO-BP 预测的准确度在两个指标预测中均高于其他方法。但两种预测指标的误差在精度上有所差异,其原因是不同的预测指标所构建的输入特征及神经网络参数的设定不同。相对于传统BP 神经网络,所提方法的εRMSE降低了0.081 67,εMAPE降低了3.301%;相对于PSO-BP,所提方法的εRMSE降低了0.038 7,εMAPE降低了1.262%。由表2 可知,由于利用了优化算法对神经网络初始参数进行寻优,PSO-BP 对比BP 运行时间增长。而所提方法利用RF 进行了特征选择与降维,对比PSO-BP 运行速度提升了274%。
表2 算法运行时间对比表
4 结束语
文中针对于传统BP 神经网络的不足,提出一种基于RF-PSO-BP 的电能质量稳态指标预测方法,对监测点采集到的多维动态电能历史数据以及环境因素数据利用RF 算法进行特征优选,使用粒子群算法优化神经网络的初始参数,并在实例分析中以电能质量的重要指标(电压偏差和电压三相不平衡度)作为预测指标,对比传统BP 以及PSO-BP 进行预测分析,得到各个指标的预测结果。通过对各方法预测结果进行分析评价,证明了所提预测方法有一定的优越性。该方法未来可与其他深度学习算法相结合,进一步提高预测的准确性,并运用在电能预警系统中。