基于k-means 聚类的智能电表异常动态数据检测方法
2023-03-10刘丰硕刘然董子慧
刘丰硕,刘然,董子慧
(内蒙古电力(集团)有限责任公司电力营销服务与运营管理分公司电能计量中心,内蒙古呼和浩特 010010)
k-means 聚类算法是一种迭代求解型的聚类分析方法,在处理过程中,首先将所有数据分为k个组别,然后随机选取k个对象作为初始聚类操作的赋值中心,最后计算各个对象到其赋值中心之间的物理距离,并顺带将每个对象分配至距其最近的聚类中心之中[1-2]。一般来说,聚类中心分配给它们的数据对象就代表一个完整的聚类组织。在实施分配操作时,每增加一个新的分配样本,聚类中心都会根据现有对象的存储水平对其进行重新计算,在此过程中,聚类计算的操作将会不断重复,直至完全满足某个聚类赋值中心的数值终止条件。
电能量采集设备故障会导致所得电量数据信息出现明显的缺失情况,这也是导致异常数据出现的主要原因。所谓异常数据是指不符合电量预期行为的运行数据参量,在智能电网环境中,异常数据的传输行为越明显,智能电表中显示数据与常规电量数据之间的补偿误差水平也就越高。传统回归分析型检测方法根据常规电表电量数据与异常测量数据之间的相对距离水平,确定电表主机对于电量截断信号的依赖程度,再以此为基础,突出异常点数据与检测中心点数据之间联系的紧密性[3]。然而该方法测定出的误差百分比数值水平较高,并不能有效控制常规电表电量数据与异常测量数据之间的补偿误差水平。为应对上述问题,提出基于k-means 聚类的智能电表异常动态数据检测方法。
1 异常电量数据的特征提取
1.1 电量负荷异常数据预处理
由于智能电表异常动态数据检测是对常规负荷数据与异常负荷数据之间补偿误差水平的研究,所以在计算过程中,应对个别信息参量进行初步剔除,也就是对电量负荷异常数据的预处理[4-5]。因此,为了加快k-means 聚类算法的收敛运算速度,在进行电量负荷异常数据的预处理之前,需要对数据信息样本进行归一化处理。具体运算公式如下:
其中,ymax表示电量负荷异常数据归一化后变量的最大值,ymin表示变量的最小值,在异常数据预处理运算过程中,分别取值为1 和0。p为待归一化的电量负荷异常数据原始变量,pmax代表待归一化电量负荷异常数据变量的最大值,pmin代表待归一化变量的最小值。完成电量负荷异常数据预处理后,可将各类变量作为后续检测处理的初始特征数据。
1.2 密度偏差值
由于k-means 聚类算法的存在,智能电表异常数据的动态传输行为并不能完全表现出来,因此在预处理原则的支持下,需要根据数据样本的检测权限值系数,确定密度偏差值的实际数值水平[6-7]。对于一个数据分组而言,为保障异常电量负荷信息与常规电量负荷信息被抽取到的概率相同,应使密度偏差值的分布特征与原始数据集合的分布特征保持一致。而对于异常动态数据的检测条件而言,为使密度偏差值计算结果更加贴合实际运算需求,应将智能电表异常数据集合中的样本期望结果保持在最大值状态[8-9]。设I表示与智能电表异常数据匹配的检测权限值系数,h代表电量负荷信息的被抽取概率值,e表示异常数据的动态传输系数,联立公式(1),可将密度偏差值计算结果表示为:
式中,λ表示异常电量负荷信息的分布系数,we代表传输系数为e时的异常数据分组向量,wmin代表分组向量的最小值,f代表智能电表异常数据的初始密度条件。若异常数据集合中不存在明显的参量转折点,则可认为密度偏差值指标能够直接影响异常数据的动态检测结果。
1.3 聚类k值设置
由于智能电表异常数据集中信息节点越密集的地方,k-means 聚类函数的原始数值越大,因此为获得较为准确的数据信息检测结果,应确保聚类k值与数据密集区域中心的信息参量值十分接近。为缩小常规电表电量数据与异常测量数据之间的补偿误差水平,可以选择密度偏差值最大的数据点作为kmeans 聚类函数的初始迭代中心[10-11]。另外,可以通过设置聚类k值的方式,将电表异常数据与常规数据之间的半径阈值归并到一个类别之中。对比多个半径阈值之间的数值参量差,就可确定一个标准的聚类k值,当数据集总量相对较大时,可以对密度偏差值进行归一化处理,从而实现对数据信息参量检测结果的动态求解。设δ、σ代表两个不同的异常数据动态聚类条件,联立式(2),可将聚类k值计算结果表示为:
式中,β表示智能电表异常数据的动态检测系数,j代表异常数据参量的初始设定值。由于待处理的数据样本相对较大,所以聚类k值的设置应考虑以常规电表电量数据与异常测量数据之间的补偿误差为基础。
2 智能电表的异常动态数据检测
在k-means 聚类算法的支持下,按照电表数据异常值设定、异常数据清洗、动态检测特征值计算的处理流程,实现智能电表异常动态数据检测方法的顺利应用。
2.1 电表数据的异常值设定
异常值就是智能电表数据集中明确存在但又不符合动态集群规则的数据点,也叫电表数据的离群值。若某一数据值在两个集合中均保持相同的离群规律,且每个集合中的其他数据点都不符合该规律,则可认定该数据点为电表数据的异常值[12-13]。智能电表异常数据在不同时间序列上的表现情况完全不同,且随着电表负荷能力的增强,数据参量之间联系的紧密性也会不断增强,这也是异常测量数据会对常规电表电量数据补偿误差能力造成直接影响的主要原因。设r表示智能电表异常数据的离群系数,gr代表离群系数为r时的电表负荷能力数值,代表电表负荷能力均值。电表异常值表示为:
综上所述,采用瑞替普酶治疗急性心肌梗死冠状动脉再通率效果更佳,再通时间早、方便给药、药物作用时间长,临床效果好,是治疗急性心肌梗死的较理想的溶栓药物。
由于智能电表数据的选取随机性较强,所以在实施异常值设定时,应将电表结构的所有负荷行为全部考虑在内。
2.2 异常数据清洗
异常数据清洗是实现动态数据检测的关键操作步骤,从智能电表中采集到的原始数据不能直接用来进行检测与分析。原始数据中往往存在着大量污染参量,如电信息缺失、电负荷数据格式不一致等,且引发这些问题的原因并不唯一[14]。但对于k-means 聚类算法而言,为保证检测结果的准确性,应将所获信息参量中的常规数据与异常数据进行全部选取处理,前者用于验证电表数据异常值设定结果的时效性,后者则直接用来完成异常数据清洗[15]。设N1、N2代表两个不同的电表异常数据传输特征向量,ξ代表与智能电表数据相关的异常量化差系数,α代表污染源系数,联立公式(4),可将异常数据清洗表达式定义为:
一般来说,完成清洗后的智能电表异常数据始终保持相对密集的分布态势。
2.3 动态检测特征值
动态检测特征值决定了智能电表异常动态数据检测方法的实际应用能力,在k-means 聚类算法的作用下,该项指标参量的数值水平越大,单位时间内异常用电负荷数据的累积量也就越大[16]。假设在一个检测周期内,c和v代表两个不同的k系数聚类条件,且由于电表示数结果的多变性,c≠v关系恒成立。在已知异常数据清洗原则的情况下,动态检测特征值计算基本等同于异常数据检测运算强度的统计。规定在k系数聚类条件为c时,电表异常数据的传输特征量可以达到vc,在k系数聚类条件为v时,电表异常数据的传输特征量可以达到vv,联立式(5),可将动态检测特征值表示为:
动态检测特征值可在已知异常数据清洗原则的情况下,对电表异常信息进行深度检测处理,该项物理指标的存在,也使得缩小常规电表电量数据与异常测量数据之间的补偿误差水平成为可能。
3 实验分析
为了验证基于k-means 聚类的智能电表异常动态数据检测方法的有效性,进行对比实验。实验电路图如图1 所示。
图1 实验电路图
首先采用基于k-means 聚类的智能电表异常动态数据检测方法对实验电路进行控制,所得示数参量作为实验组数据;然后采用回归分析型检测方法对实验电路进行控制,所得示数参量作为对照组数据;最后对比实验组、对照组检测数据。
在电网环境中,由于异常负荷数据信息的存在,智能电表的显示数据极易与实际数值出现较大误差。常规电表电量数据、异常测量数据之间的显示数值差可表示为补偿误差,一般来说,补偿误差水平越高,常规电表电量数据、异常测量数据之间的显示数值差也就越大,反之则越小。
在50 min 的实验时间内,对比实验组、对照组电量负荷与常规电量负荷数值。电量负荷对比曲线如图2 所示。
图2 电量负荷对比曲线图
分析图2 可知,常规电量负荷数值在实验过程中始终保持上升、下降交替出现的变化情况,整个实验过程中的最大数值为709 kW、最小值为398 kW。实验组电量负荷数值在实验过程中的变化趋势基本与常规电量负荷保持一致,整个实验过程中的最大数值为651 kW、最小值为303 kW,与常规电量负荷极限数值之间的物理差值水平相对较低。对照组电量负荷数值在实验过程中的变化形式则相对较为单一,整个实验过程中的最大值为784 kW、最小值为63 kW,与常规电量负荷极限数值之间的物理差值水平远高于实验组。
在50 min 的实验时间内,对比实验组、对照组电量负荷值与常规电表电量数据之间的补偿误差百分比数值情况。补偿误差百分比统计如表1 所示。
分析表1 可知,第50 min 时,实验组补偿误差百分比达到最大数值23.9%,整个实验过程中的平均值水平仅为7.8%。第35 min 时,对照组补偿误差百分比达到最大数值86.8%,整个实验过程中的平均值为41.5%,远高于实验组。
表1 补偿误差百分比统计表
综合上述实验研究结果可知,应用基于k-means聚类的检测方法,能够缩小电表异常显示数据与常规显示数据之间的物理差值水平,这对于缩小测量数据的补偿误差水平起到一定的促进性作用。
4 结束语
在k-means 聚类算法的作用下,新型智能电表异常动态数据检测方法在回归分析型检测方法的基础上[17-19],对异常电量数据的特征值进行了预处理,通过聚类k值的约束作用,完成对异常数据的初步清洗,再根据已知的电表数据异常值设定结果,实现对动态检测特征值的准确计算。分析对比实验结果可知,k-means 聚类型检测方法与回归分析型检测方法相比,能够有效控制异常电量负荷数据的显示情况,从而为缩小常规电表电量数据与异常测量数据之间的补偿误差水平提供保障。