基于KPCA-ISHO-LSSVM的接地网腐蚀速率预测
2022-03-17王海涛
王海涛,陈 明,文 中,方 萌
(1.三峡大学电气与新能源学院,湖北 宜昌 443002;2.国网西安供电公司,陕西 西安 710032)
0 引言
随着全球能源互联网概念的提出,特高压成为我国电力系统的发展方向,电力系统的安全性和稳定性也迎来了更大的挑战[1-4]。接地网是变电站必不可少的保护设备,承担着保障人身和设备安全的重要角色[5-7]。接地网金属部件常年埋于地下,极易发生表面腐蚀,腐蚀加剧后甚至发生断裂,严重威胁电力系统的安全稳定运行[8-10]。目前接地网腐蚀状态的检查只能采取开挖方式,费时费力却收效甚微[11]。因此,对接地网腐蚀速率预测进行研究,准确掌握接地网运行状态具有重要意义。
在接地网腐蚀预测方面,BP 神经网络得到了广泛应用,文献[12]以电阻率、含水量、含盐量等6 个影响因素为输入参量,建立了基于BP 神经网络的接地网腐蚀速率预测模型。文献[13]采用遗传算法对BP 神经网络参数进行优化,对华南某地金属腐蚀速率进行了预测。上述文献中腐蚀样本容量均小于100,属于典型小样本,采用BP 神经网络并不合适。对于小样本数据,采用支持向量机(Support Vector Machine,SVM)的拟合效果更好[14],文献[15]采用人工蜂群算法对SVM 参数进行优化,建立了接地网腐蚀速率预测模型,并用腐蚀试验数据验证了模型的实用性。文献[16]采用扩展记忆因子对粒子群算法进行了改进,建立了基于改进粒子群优化LSSVM 的接地网腐蚀预测模型,该模型预测效果较好。但人工蜂群算法和改进粒子群算法寻优能力有限,因此接地网腐蚀速率预测精度还有待进一步提高。
本文对接地网腐蚀影响因素进行核主成分分析(Kernel Principal Component Analysis,KPCA),确定接地网腐蚀速率的关键影响因子,采用改进斑点鬣狗算法(Improved Spotted Hyena Optimization,ISHO)对最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)进行优化,建立基于KPCA-ISHO-LSSVM 的接地网腐蚀速率预测模型,并用实际算例验证模型的正确性和优越性。
1 算法原理
1.1 核主成分分析(KPCA)
1988 年,Schölkoph 团队在主成分分析(Principal Component Analysis,PCA)的基础上提出了核主成分分析法,它是由PCA 非线性扩展而得的[17]。相比于PCA,KPCA 利用核函数将样本数据映射到高维空间,在高维空间寻找其子空间进行降维处理,主元提取精度更高,数据降维效果更好。
KPCA 原理如下[18]:设原始数据集为X={X1,X2,…,Xn},Xi∈Rm,i=1,2,…,n,其中,m为数据维数,Rm表示输入空间。为了消除数据集中不同量纲的影响,将原始数据归一化得到新数据集x={x1,x2,…,xn},xi∈Rm,i=1,2,…,n,归一化公式为:
式中:xj为归一化后的数据;Xj为某一特征向量的原始数据;分别为特征向量的最大值和最小值。
通过映射函数将新数据集映射到高维空间,可以得到φ={φ(x1),φ(x2),…,φ(xn)},i=1,2,…,n,在高维空间φ的协方差矩阵为:
令核函数为K=φTφ=(ki,j)n×n,其中ki,j=φ(xi)Tφ(xi),利用核函数可将协方差的特征多项式进行化简,可得:
式中:α为维数为n的列向量。
计算各因子累计贡献率c,对贡献率较高的q个主元素进行提取,即可确定主要影响因子,h的计算公式为:
通常,当累计贡献率c大于85%即满足要求。利用式(4)确定主成分,对任意样本x,对其特征值α及特征向量ui进行高维映射即可得到重构后的非线性样本Fi为:
1.2 改进斑点鬣狗算法(ISHO)
1.2.1 斑点鬣狗优化算法
2018 年,印度学者Gaurav Dhiman 受斑点鬣狗群体捕食行为的启发提出了斑点鬣狗优化算法(Spotted Hyena Optimizer,SHO),斑点鬣狗种群的捕食过程包括搜索、包围、狩猎和攻击猎物[19]。SHO 原理如下:
1)包围过程
斑点鬣狗能够敏锐察觉到猎物的位置,并包围猎物,该过程的数学表达式为:
式中:Dh为猎物与斑点鬣狗个体之间的距离;t为迭代次数;Pp为猎物位置;P(t)为斑点鬣狗个体位置;B为摇摆因子;r1为均匀分布的随机数,r1∈[0,1]。
斑点鬣狗个体位置更新公式为:
式中:E为收敛因子;r2意义同r1;h为控制因子;NI为最大迭代次数。
2)狩猎过程
斑点鬣狗属于群居动物,通过相互信赖和交换信息确定猎物位置完成狩猎。该过程的数学表达式为:
式中:Ph为斑点鬣狗的第一个最佳位置;Pk为其他斑点鬣狗的位置;N为斑点鬣狗的数量;Ch为包含N个最优解的集合。
其中N的表达式为:
式中:M为介于[0.5,1]中的一个随机向量;Count表示计数;nos定义了可行解的个数,并对所有候选解进行计算,加上M后,它与给定搜索空间中的最优解非常相似。
3)攻击猎物过程(局部搜索)
在狩猎完成后,斑点鬣狗开始攻击猎物,攻击猎物的条件为收敛因子 ||E<1,该过程的数学表达式为:
式中:Ph(t+1)为保存的最优解。
4)搜索过程(全局搜索)
斑点鬣狗根据最优解集合Ch中的位置搜索猎物,当收敛因子满足 ||E>1时,斑点鬣狗将远离当前猎物的位置,并分散搜寻位置更好的猎物,这种机制有利于SHO 开展全局搜索。
相比于其他优化算法,SHO 参数少、操作简单、稳定性好,具有较高的求解精度。但其寻优能力是依靠B、E两个随机参数进行调节的,在寻优过程中,SHO 也会出现陷入局部最优值、求解精度不够等现象。
1.2.2 斑点鬣狗优化算法改进策略
1)收敛因子非线性调整
在SHO 进行迭代计算时,控制因子h采用线性递减的调整策略,但实际上h的变化是非线性的,为了更好地体现算法的寻优过程,本文引入非线性调整策略,具体为:
式中:e 为自然对数,Q为衰减系数,Q∈Z且Q∈[0,10],Q越大,h衰减越厉害。
通过改进,随着迭代次数的增大,控制因子h实现了从5 到0 的非线性递减。在算法迭代初期,h呈缓慢递减的状态,相比于原控制因子,衰减性更好,有利于算法进行全局搜索。在迭代后期,改进后的h衰减加快,使种群向最优解靠拢,便于算法展开局部搜索,快速找到最优解[20]。
2)莱维飞行策略
莱维飞行是一种非高斯随机过程,其随机性较强,能够解释自然界的某些随机现象。研究发现,莱维飞行前期采用大步长,后期采用小步长,这种步长调整方式不仅能够增加种群多样性,也有助于种群收敛于全局最优解。因此,在寻优算法中引入莱维飞行策略有利于增加种群多样性和扩大搜索范围,加快算法收敛。
为了增强斑点鬣狗的优化性能,在SHO 中引入莱维飞行策略,并作用于SHO 的随机因子r1,r2,具体为:
式中:B为摇摆因子;E为收敛因子;Levy为莱维搜索路径。
1.3 最小二乘支持向量机(LSSVM)
LSSVM 是一种用于解决非线性回归问题的机器学习方法[21],LSSVM 的特点是所需样本少、回归精度高,目前广泛于解决非线性回归问题。其回归原理及核函数选择可参考文献[22]。惩罚参数C和核函数参数σ是LSSVM 的两个非常重要的参数,它们对LSSVM 回归拟合效果影响很大,为了获得更好的拟合效果,需要对C和σ进行寻优。
2 KPCA-ISHO-LSSVM接地网腐蚀预测模型
2.1 接地网腐蚀预测模型建立
接地网常年埋于地下,所处环境复杂,其腐蚀速率影响因素众多且各因素之间具有一定的相关性,为了减少接地网腐蚀预测模型建模工作量,提高腐蚀速率预测精度,采用KPCA 对接地网腐蚀速率影响因素进行处理,在高维空间对样本数据进行降维,消除空间相关性和冗余数据,提取主要数据的非线性特征主元。利用收敛因子非线性调整及莱维飞行策略对SHO 进行改进,提高SHO 的寻优性能,并采用ISHO 对LSSVM 进行参数优化,建立基于KPCA-ISHO-LSSVM 的接地网腐蚀速率预测模型,建模过程如图1 所示。
图1 接地网腐蚀速率预测模型Fig.1 Prediction model of grounding grid corrosion rate
具体步骤如下:
1)获取样本数据。根据接地网腐蚀速率影响因素,对相关数据进行收集。
2)归一化处理。为了消除各影响因素不同量纲带来的误差,对样本数据归一化后得到数据集x1,x2,…,xn。
3)KPCA 降维。利用KPCA 对数据集x1,x2,…,xn进行降维,获得重构后的指标F1,F2,…,Fm。
4)ISHO 参数寻优。利用ISHO 对LSSVM 惩罚参数C和核函数参数σ进行优化,获取C和σ的最优值,ISHO 的寻优流程如图2 所示。
图2 ISHO寻优流程图Fig.2 Optimization process of ISHO
5)设置惩罚参数C和核函数参数σ的初始值及搜索范围,并设置斑点鬣狗的种群规模、最大迭代次数及迭代终止误差,将参数h,B,E和斑点鬣狗种群位置初始化。
6)设置训练集的均方根误差为适应度函数,计算斑点鬣狗种群中的个体适应度值。
7)计算当前斑点鬣狗最佳位置,并检查是否有超出给定搜索空间边界的斑点鬣狗个体,若有则进行调整。
8)计算位置更新后的斑点鬣狗个体适应度值,并与上一代适应度值进行比较,保留斑点鬣狗最佳位置。
9)更新斑点鬣狗的群组直到搜索到个体最优的适应度值下的斑点鬣狗位置。
10)若算法达到终止条件,则输出最佳斑鬣狗位置,即C和σ的最优解;否则重复步骤5)-步骤9)。
11)将C和σ的最优解赋给LSSVM,利用LSSVM 对接地网腐蚀速率进行预测。
2.2 模型评价
预测完成后,需对预测模型进行评价,本文采用平均相对误差、均方根误差、全局最大相对误差和决定系数对模型的预测效果进行综合评价[23],计算公式分别为:
式中:N为测试集样本容量;yi为腐蚀速率实际值;yi*为腐蚀速率预测值;为腐蚀速率平均值。
3 仿真分析
对海南省境内32 座变电站开展接地网腐蚀试验,共获得32 组试验数据[24],部分原始数据如表1所示。
表1 腐蚀实验数据Table 1 Data of corrosion test
选择泛化性能更好的径向基核函数作为KPCA的核函数,对32 组腐蚀试验数据进行KPCA 计算,计算结果如图3 所示。
图3 KPCA计算结果Fig.3 Calculation results of KPCA
由图3 可知,pH 值x1、氯离子含量x2和含水量x33 个主成分的累计贡献率为85.8%,满足超过85%的要求,因此选择前3 个主成分进行指标重构,其表达式为:
利用式(23)确定32 组重构指标后,将32 组重构指标数据分为2 组,前27 组为训练集,用于模型的训练,后5 组为测试集,用于检验模型的预测精度。利用训练集进行训练,将训练集样本的均方根误差作为优化目标的适应度函数,采用改进鬣狗算法对LSSVM 的C和σ进行优化,C和σ的初始值分别设置为100 和1,搜索范围均为[0,1000],ISHO相关参数设置见文献[25],设置最大迭代次数为300。ISHO 迭代曲线如图4 所示。由图4 可知,ISHO 经过52 次迭代后,达到最小适应度值,此时对应的最优解C和σ分别为63.26 和2.64。
图4 ISHO迭代曲线Fig.4 Iterative curve of ISHO
为了对比ISHO 的优化效果,采用粒子群算法(Particle Swarm Optimization,PSO)和SHO 分别对C和σ进行优化,最大迭代次数均设置为300,3 种优化算法的计算结果如表2 所示。
表2 优化算法对比Table 2 Comparison of optimization algorithms
从表3 可以看出,ISHO 在迭代次数、最优值和收敛时间方面均优于SHO 和PSO,可见本文提出的斑点鬣狗算法的改进策略是成功的,ISHO 能够有效减少迭代次数,加快算法收敛。
将ISHO 寻找的最优值C=63.26、σ=2.64 赋给LSSVM,对测试集数据进行预测,预测结果如图5所示。为了验证ISHO-LSSVM 模型的优越性,采用相同的试验数据分别建立RBF、GA-BP 和SHOLSSVM 接地网腐蚀预测模型,图5 同时给出了3 种模型对测试集数据的预测结果。从图5 可以看出,ISHO-LSSVM 模型的预测结果更接近实际值。
图5 4种模型预测结果Fig.5 Prediction results of four models
表3 给出了4 种预测模型对训练集和测试集预测结果的各类预测误差及模型的决定系数,对于训练集数据,相比于其他模型,ISHO-LSSVM 模型的误差更小,决定系数更大,训练效果更好。对于测试集数据,ISHO-LSSVM 模型的平均相对误差、均方根误差和全局最大相对误差均小于其他3 种预测模型,其中,平均相对误差为2.79%,较SHOLSSVM 模型减小49.8%,可见模型预测精度较高;均方根误差和全局最大相对误差分别为0.139 和3.53%,较SHO-LSSVM 模型分别减小45.3%和60.9%,可见模型预测时的波动性较小;从决定系数上看,ISHO-LSSVM 模型的决定系数为0.995,大于其他3 种模型,可见模型的拟合效果较好。综上所述,本文提出的基于KPCA-ISHO-LSSVM 的接地网腐蚀速率预测方法能够进一步提升腐蚀速率预测精度。
表3 预测误差及决定系数Table 3 Prediction error and determination coefficient
4 结语
本文采用KPCA 在高维空间对接地网腐蚀样本数据进行降维处理,消除了样本数据之间的空间相关性和冗余数据,简化了接地网腐蚀预测模型的建模过程。同时利用收敛因子非线性调整及莱维飞行策略对斑点鬣狗算法进行改进,建立了基于KPCA-ISHO-LSSVM 的接地网腐蚀速率预测模型,仿真结果表明:(1)ISHO 能够有效减少迭代次数,加快算法收敛;(2)该模型预测效果较好,能够进一步提升接地网腐蚀速率预测精度。