基于改进RF 算法的低压配电工程信息识别技术
2023-10-21刘士李周远科施晓敏
刘士李,周远科,施晓敏,高 象
(1.国网安徽省电力有限公司经济技术研究院,安徽合肥 230601;2.国网安徽省电力有限公司,安徽合肥 230061)
随着我国电网建设工程需求的持续增长,当前电力基础设施建设工程的竣工结算管理状况已难以满足实际需要。低压配电网中电力设备数量较多,所产生的海量数据信息通常需要编制人员不断重复开展数据统计、处理与审核工作,进而严重缩减了电网主业员工进行低压配电网故障分析、架构规划及项目实施的有效时间,且在一定程度上影响了低压配电网建设及改造工程的最终结果。此外,低压配电网自身的复杂结构使得其建设工程也较为繁杂,大幅增加了竣工结算的难度[1-3]。
在当前低压配电网的结算管理过程中,施工单位主要承担结算文件编制的工作,而业主项目部则承担结算审核工作。但从实际结算工作来看,主要存在以下问题:1)施工单位缺少高水平配电网技经人员,且业主项目部的相关人员也较为紧缺,故无法满足各区县配电网工程编制及审核的需求。因此,容易出现配电网结算工程量与实际工程量不遵从、一级线下表格不统一的现象;2)低压配电网建设工程较为复杂,编制文件涵盖的内容也较多。在工程计量过程中会由于精度不统一而造成一定的偏差,并产生异常数据。若未及时发现异常会导致结算误差严重,从而不利于低压配电网工程项目的建设;3)当前编制低压配电网结算文件所必需的数据收集、审核校验、统计计算与进度管理主要通过人工手动完成,难以适应当前电网建设的长短期发展规划需求。因此,有必要在低压配电网结算管理过程中开展对工程信息识别技术的研究。该文针对这一问题通过改进随机森林算法,经过特征提取及特征识别完成对工程信息的有效识别,从而甄别出工程信息中的异常数据,避免误差的产生;同时还改善了传统人工方式的低效性,提升了低压配电网建设的质量。
1 电网工程信息特征分析与提取
1.1 低压配电网工程信息特征分析
低压配电网的工程信息主要包括项目运营信息、施工监管信息、施工进度信息、合同信息、安全监管信息、物料设备信息及预结算编制信息等[4-7]。
项目运营信息是对低压配电网建设项目集中整合管理所获取的信息,主要包括计划编制、项目存储与项目资金计划下发等内容;施工监管通常是对施工前的准备工作开展统一管理,所涵盖的信息包含施工期间的日常监管记录、准备材料和结束后的竣工验收材料等内容;施工进度信息主要追踪工程进展,通常包含总工程计划起始日期、实际起始日期、责任部门、责任人及分包子工程的相关信息;合同信息的主要作用是保障甲乙双方及法人的合法权益,并协商达成书面合同资料,通常包含合同编号、名称、类型及总金额等;安全监管信息通常涵盖低压配电网建设工程施工期间的安全标准、防护手段与处理措施,主要包括安全资料台账、安全管理条例、工作票信息等;物料设备信息主要确保施工期间设备材料的充足,涵盖物料设备的仓储信息、出入库信息、物资采购计划、领料与报废信息,其核心是物料定额关系;预结算编制信息通常用于对工程造价开展评估,并概算出低压配电网建设工程的基本预算,主要包括施工预算信息、工程劳务结算信息、施工决算信息与工程毛利润等。
根据以上分析可以看出,低压配电网建设工程信息较为复杂且数据量庞大,仅凭借人工记录易出现误差。而所记录的数据由于类目过多,通常难以进行核验。故需提取工程信息的主要特征,并通过特征分类识别信息的异常情况。因此,该文引入核主成分分析(Kernel Principal Components Analysis,KPCA)算法进行特征提取。
1.2 基于KPCA的电网工程信息特征提取
KPCA 是一种在主成分分析算法基础上变迁而来的非线性特征降维方法,主要利用非线性映射函数对原始数据开展变换并提取主要成分实现数据的充分降维。设低压配电网工程信息的数据训练集为X={x1,x2,…,xM},ϕ表示非线性映射函数并满足,则定义协方差矩阵为:
对协方差矩阵实行特征分解可得:
其中,V={ϕ(x1),ϕ(x2),···,ϕ(xM)} 表示数据的特征向量,且μ>0,则可将式(2)改写为:
因Vr可视为ϕ(x)的线性组合,因此可得到:
对r维协方差矩阵实行归一化,使得则映射的投影为:
令G(x)表示非线性的主成分,则可获得投影向量为:
通过KPCA能够有效提取低压配电网工程信息的特征,将其组成特征向量并用于分类识别能够发现工程信息中的异常数据。该文采用随机森林作为基础的分类模型,对所获取的工程信息特征向量进行分类识别。
2 低压配电网工程信息识别模型
2.1 随机森林算法
随机森林(Random Forest,RF)算法是在引导聚集算法Bagging(Bootstrap aggregating,Bagging)的基础上延伸而来。该算法同时具备对所训练样本实行有放回的抽选及针对不同属性实行无放回的抽选两种功能,从而有效提升了全局搜索性能并获得较高的分类准确率。RF 算法所应用的弱分类器即为决策树,每个决策树均应用Bagging 算法完成训练样本的采样工作,同时还可基于随机子空间算法完成属性的采样。此外,由于RF 中任一决策树均独立且各不相同,因此对于训练样本具有较强的适应性[8-11]。
RF 算法流程如图1 所示,具体流程如下:
图1 RF算法流程
步骤1:设定RF 完成训练的初始参数、训练集的样本及决策树的数量N,随机化属性并设定数量为I,确定决策树在训练过程中的剪枝阈值;
步骤2:针对训练集中的样本进行有放回的抽选,直至选出与训练集样本容量一致的集合并将其作为单个决策树训练过程中的使用样本;
步骤3:针对属性集实行无放回的抽选,当选够I个属性后,仅留存I个属性并将其对应的数据划分为训练所用的样本;
步骤4:将步骤2-3 所产生的训练样本输入至单个决策树中进行训练;
步骤5:基于剪枝的阈值对完成训练的决策树实行剪枝;
步骤6:若完成训练的决策树数目低于N,则回到步骤2 继续迭代;反之,则基于投票原则将N个决策树进行级联以构成RF。
RF 算法中基于投票原则将多个决策树的分类结果进行归类,并选择其中的众数输出为RF 的分类结果,其数学表达式为:
式中,FRF(x) 表示样本经RF 计算后的分类结果,A(·)表示符合式(9)的数目,=χ表示第n个决策树经运算后的分类结果为χ。c表示RF 的类目数量,其中χ隶属于c中的一类。
2.2 基于精准加权的RF投票原则的改进
在传统的RF 投票原则中,各决策树可自行为自身分类结果投票。这导致性能存在差异的决策树具有相同的投票权重,进而对最终的分类结果产生不利影响,且若产生票数相等的情况则难以进行抉择。因此该文为了改进RF 算法,采用精准加权对投票过程进行赋权,从而提升RF 算法的分类准确率。
该文依据各决策树的分类性能来设置相应权重,该理论的核心在于一部分训练集的样本仍应用于传统RF,并对全部决策树进行训练,其余部分则作为分类预测的试验样本。当该部分训练完毕后再对全部决策树加以测试,并输出分类准确率。整个流程的数学表达式为:
将ω设定为相应决策树的权重,RF 中各决策树在投票时需加以赋权,则RF的输出可由式(10)改写为:
将RF 的投票过程进行精准加权便能避免不平衡,也无需进行平衡性调整。因此可直接将各决策树对于预测试验样本的分类准确率作为权重,从而提升运算效率。
2.3 粒子群算法优化RF参数
在RF 算法中,其基本参数的设置对于最终的输出结果具有较大影响。但RF参数通常是基于人工经验选取,故容易导致最终分类结果产生误差。因此为了获取全局最优参数,该文将决策树的剪枝阈值、决策树数量与预测的试验样本选取概率组成目标向量。并将其设定为粒子群(Particle Swarm Optimization,PSO)算法中的单个粒子,再通过算法实现全局寻优获取最优粒子,从而得到最适宜的RF参数[12-13]。
粒子群算法优化RF 流程如图2 所示,具体步骤如下:
图2 粒子群算法优化RF流程
步骤1:初始化RF 参数,随机化目标向量元素值,并设定属性数目的初始值为log2(L+1)[14-16];
步骤2:基于Bagging算法对待分类样本实行采样,随机产生N个训练集并选取用于预测试的试验样本;
步骤3:将各训练集的剩余样本用于生成N个决策树,并从属性集合中筛选M个属性作为节点属性;
步骤4:当节点样本个数低于剪枝阈值时,则将此节点作为叶节点并传递回所求属性的众数,当作该树的分类结果,反之则返回步骤1;
步骤5:生成全部决策树后,开展预测试并保存正确率数据;
步骤6:应用式(9)计算RF 分类结果;
步骤7:计算步骤6中的分类结果以得到准确率,应用粒子群算法实现RF 参数寻优并确定最优参数,从而生成最终的RF 模型。
通过粒子群改进后的RF 对经过KPCA 所提取的低压配电网工程信息特征向量进行分类,能够有效识别异常数据,从而避免了人工核验的困难。
3 实验分析
3.1 实验环境与数据来源
该文实验部分主要通过Matlab 2018B 编程来实现改进随机森林算法,并对某省2018—2020 年低压配电网工程信息进行了识别。实验室的计算环境配置如表1 所示。
表1 实验室的计算环境
实验数据中有关低压配电网工程信息的内容主要包括项目运营信息、施工监管信息、施工进度信息、合同信息、安全监管信息、物料设备信息及预结算编制信息,如表2 所示。
表2 数据集信息
3.2 低压配电网工程信息识别结果
将该文提出的改进RF 算法应用于低压配电网工程信息,从而实现对异常信息的识别。并与BP(Back Propagation)神经网络、SVM(Support Vector Machine)、RBF(Radial Basis Function)神经网络算法及用PSO 优化后的算法进行对比,所得的识别结果如表3 所示。
表3 识别结果
从表3 中可以看出,相比于其他算法,RF 算法对于属性与类别较多的低压配电网工程信息能够实现更为准确的识别,且其训练集和测试集的识别准确率分别达到90.2%和86.5%。相比于其他算法具有较大的优势,但仍难以满足实际工程的需要。当采用PSO 优化以上分类算法时,各分类算法的分类准确率均得到显著提升。其中,PSO-RF 算法训练集与测试集识别准确率分别达到93.8%和91.0%,能够满足实际工程中的识别要求。尽管其他算法也在优化后得到提升,但仍与PSO-RF 算法存在一定差距。因此,说明了该文提出的改进RF 算法可有效识别低压配电网工程信息,并实现对异常信息的发掘。该算法在一定程度上有效避免了人工核验的繁琐,有助于推动低压配电网的建设与改造。
4 结束语
文中针对当前低压配电网工程建设过程中信息管理面临的繁杂问题,在改进随机森林算法的基础上,设计了一套低压配电网工程信息识别技术方案。利用KPCA 算法提取了工程信息的特征,并将随机森林作为基础分类模型完成对特征的识别。为了有效提升分类识别准确率,采用精准加权改进投票原则,并利用粒子群算法完成随机森林的参数寻优,从而得到改进的随机森林模型。所提出的方法相比于其他方法具有较高的识别准确率,可精确地完成低压配电网工程信息的识别,具有较好的工程实用价值。