基于IK-MD-SA 聚类算法的电力数据审计疑点研究
2022-01-04陈蓉CHENRong
陈蓉CHEN Rong
(成都兴通电研电力科技有限公司,成都 610041)
0 引言
电力企业是关系国计民生、国家经济和社会发展的支柱性行业,随着科学技术的不断发展,电网规模逐渐扩大,海量非结构数据日益增加,加大了传统基于人工经验审计工作的监督巡查难度,严重威胁了电力信息系统的安全性。若电力数据库遭到破坏,将直接影响电力行业发展的健康稳定性,甚至会给国家和社会造成不可估计的损失。因此,科学调整电力审计方式、促进电力审计信息化发展,从而提升审计工作效率和准确度的改革迫在眉睫。人工智能、互联网大数据等新兴技术的层出不穷,为计算机辅助电力审计巡查疑点数据、揭露审计风险的工作方式提供了新契机,也迎来了挑战,研究如何充分发挥审计这个“免疫系统”,实现审计全覆盖电力大数据,并高效精确的发现疑点数据具有重要意义。
目前,国内外普遍关注电力审计智能化研究,运用数据挖掘[1-2]、模型构建[3-5]等研究热点进行内部审计工作的转型,但现阶段仍处于初步阶段,理论和实践都尚未成熟。大数据环境下基于数据挖掘技术的审计工作疑点数据分析相似于“离群点”检测,是从大量随机数据中寻找数据间隐藏规律性特征的过程[6]。聚类分析算法作为一种无监督数据挖掘技术,可以在不给定先验知识的条件下寻找出数据间内在关系并完成分类。聚类审计业务中,实例较少的“小簇”和较多实例的“大簇”由于存在较大的特征属性差异,将被视为潜在疑点。大数据聚类分析能够将占比例少却有更大疑点的数据聚类为可疑数据“小簇”,配合审计经验既可以实现海量数据总体分析又可以配合审计人员发现审计疑点并迅速精确定位。王丙参等[6]根据不同的场合通过运用不同的测量方法对函数型数据聚类方法进行了比较和评价。王金会等[7]针对政府云计算下大数据泄露、滥用、侵袭等风险,构建指标运用熵权法对安全风险进行了评估分析。王海洪[8]通过分析近7 年来大数据审计的相关文献指出目前审计评估已由假设验证模式转化为运用网络爬虫、聚类分析和机器学习技术的数据挖掘模型。文献[6-8]的研究均停留在理论层面,并未进行实例分析。
综上所述,本文在已有研究的基础上,构建了一种无需基于训练集构建训练模型的无监督蜂群迭代K-means聚类模型进行审计电力数据。考虑K-means 聚类算法选择初始聚类中敏感性、易陷入局部最优解导致聚类结果不稳定的不足,运用相异性度量法对初始聚类中心点的选取进行改进,然后利用改进的蜂群算法对聚类中心结果和聚类结果进行优化,以保证电力大数据聚类结果的准确性。最后通过离散型电力数据进行识别潜在疑点试验,验证了所提算法的可行性和有效性。
1 基于IK-MD 聚类的审计疑点发现算法
传统K-means 聚类算法存在初始聚类中心敏感性极易陷入局部最优解,电力审计时潜在疑点簇依靠审计经验确定聚类中的问题[9]。本文运用相异性度量法,通过定义均值和总体相异性的度量方式,确定电力数据的初始聚类中心进行改进。只输入聚类数便能获取聚类中心,且多次运算结果一致,充分保证了聚类结果的稳定性。基于IK-MD的聚类算法利用启发式算法能够使每次自动选取的聚类中心一致,具有处理大型数据、不同簇类的能力,且在进行离群点处理时能够将离群点排除在候选聚类中心点之外,排除异常值对聚类结果的影响,具有很好的鲁棒性和收敛性。
1.1 相异性度量法确定初始聚类中心
聚类算法是通过“物以类聚”的原则将相似度高的数据聚为一类,以最大化减少簇间数据的相似度。近年来,传统聚类算法受离群点和随机性因素的影响,存在初始聚类中心敏感、聚类结果稳定性差等问题。相关研究者针对存在的问题进行了改进,典型的改进方法是运用最小化平方误差和寻找局部最优解,以簇中距离最小点为聚类中心,解决离群点对聚类结果的影响,但仍存在初始聚类中心影响聚类结果稳定性的现象。之后,离群因子和最大最小算法优化[10]、平均差异度[11]、Pearson 相关系数[12]等改进方法相继出现,改进的算法也不能同时解决随机选取初始聚类中心和离群点等问题。相异性度量法是一种通过数据间不同处构造相异性矩阵,从而准确确定初始聚类中心点的方法,其以中位数代替各簇中数据点的均值迭代后续聚类中心的方式可以消除离群点对聚类准确率的影响,能够同时避免传统聚类算法中离群点和初始聚类中心随机性问题。相异性度量法的具体操作步骤为:
首先通过欧式距离计算数据点间的相异性dis;然后用两两数据间的临近度构造相异性对称矩阵disM;其次计算数据点与簇中其他数据的距离平均值作为数据的均值相异性Adis(xi);最后以最大的Adis(xi)作为初始聚类中心,计算并比较数据集的总体相异性Tdis 和各数据与聚类中心的相异性Dydis(xi),若Dydis(xi)大于Tdis,则该数据样本集作为第2 聚类中心,否则选取次大均值相异性数据集进行判断,依次循环类推,直至选出所有聚类中心为止,相关计算公式如下。通过选取均值聚类中心大的数据点为初始聚类中心,不仅可以避免初始聚类中心过于集中化,还能减少迭代次数。
式中:xi表示实例,所有实例构成数据集;n 表示数据样本数;m 表示数据维度。
1.2 基于多次迭代的IK-MD 聚类分析
聚类分析是通过某种标准将数据集内具有相似性的数据划分成同一簇的过程[13]。在聚类分析中,含有数据较少的簇称为小簇,将小簇中的数据与其他多数数据进行比较,若存在较大的差异性,则被视为审计疑点。单次聚类分析中,可疑度高的疑点会掩盖可疑度底的疑点,导致聚类精度低,疑点发现审计结果差[14-15]。因此,本文采用多次迭代的IK-MD 聚类算法对电力数据进行疑点审计,先确定数据集,划分聚类簇数,相异性度量法确定初始聚类中心,并将数据集中的数据按照就近原则进行归簇,在用中位数代替均值重新计算选择聚类中心,具体步骤如下:
①输入数据集X 和聚类簇数K;
②根据公式(1)分别计算数据点的相异性、均值相异性和总体相异性,取K=1;
③按照1.1 的介绍选取初始聚类中心;
④判断聚类中心的个数与簇数是否相等,若相等,确定聚类中心点集{u1,u2,…,uK},否则转到步骤③;
⑤根据就近原则划分数据集到各簇,并标记Ci;
⑥用中位数代替均值相异性重新计算聚类中心,公式为:
⑧在聚类结果中将簇中数据占总数据比≤5%、簇数据与最多数据的簇相比<0.1 的簇定为小簇,视为电力数据审计疑点;
⑨重复步骤②-⑧,直到没有发现小簇条件是终止迭代;
⑩输出审计疑点数据。
2 基于IK-MD 聚类的审计疑点发现算法求解
蜂群算法是用蜜源表示数据潜在聚类中心的一种群体智能搜索方法[16]。相异性度量法确定初始聚类中心解决了传统K-means 算法初始聚类中心敏感性高的问题,但其结果的准确性仍有待提高。因此,本文运用蜂群算法结合K-means 聚类算法对上述聚类结果进行优化,以进一步提高聚类结果的精确度。蜂群优化IK-MD 聚类算法通过蜜源的适应度值来获得聚类簇的质量如何,适应度值越大、目标函数值越小代表具有良好的聚类结果,其适应度函数表达式为:
式中:T 表示聚类质量的目标函数。
蜂群优化IK-MD 聚类算法将相异性度量法的初始聚类中心作为初始值,通过蜜源位置优化各个聚类中心,计算式如公式(4),运用K-means 算法对优化结果再聚类,以聚类结果为中心更新蜂群,多次迭代直到满足条件是终止,其具体流程如图1 所示。
图1 蜂群优化IK-MD 聚类算法流程图
3 算例分析
为验证本文所提聚类算法的合理性和有效性,采用仿真和真实数据进行测试本文所提方法的有效性。本文选取某地市几家县电力公司财报数据进行验证,设置算法最大迭代次数为100 次,最小改进因子为1e-05。
本文从样本公司营业收入增长率、营业利润增长率、利润总额增长率以及净利润增长率四个方面进行聚类分析验证。如图2 所示,将样本数据分为四簇,每一簇都设置一个簇心,通过分析数据关于簇心的隶属度确定审计可疑点,由图可以看出,本文所提的迭代IK-MD-SA 聚类电力大数据审计疑点算法具有较好的效果。
图2 迭代IK-MD-SA 聚类电力数据审计疑点算法聚类图
根据图2 聚类分析实验结果,统计得出样本电力公司中有27 处的审计数据存在于疑点数据聚类中,表现异常,对可以审计数据逐个分析核实情况,确定了相关可疑审计数据有23 处存在错误,验证本文所提算法的有效性。
4 结论
本文在已有研究的基础上,构建了一种无需基于训练集构建训练模型的无监督蜂群迭代K-means 聚类模型进行审计电力数据。利用改进的蜂群算法对聚类结果进行优化,使其保证高运行效率的前提下聚类结果仍具有较高准确性。最后,通过离散性电力数据进行识别潜在疑点试验,验证了所提算法的可行性和有效性。