APP下载

基于决策树和聚类算法的智能电表误差估计与故障检测

2022-09-21史鹏博李铭凯朱锦山

计量学报 2022年8期
关键词:电表电能表仪表

史鹏博,李 蕊,李铭凯,赵 成,朱锦山

(国网北京电力科学研究院,北京100162)

1 引 言

智能电网融合了电网基础设施和网络系统,具有典型的网络物理系统(cyber physical system,CPS)[1],其旨在将电力技术应用于能源系统,以实现双向电力流[2]。智能电表作为整个配电网的传感器,可以测量用电量并将记录的数据发送给能源管理中心[3],对应数据的使用有助于通过CPS为智能电网规划和运行提供及时的决策[4]。对于智能电表数量众多、应用场合复杂的情况,如何提高智能电表故障检测能力成为电网企业关注的焦点[5,6]。

智能电网先进计量基础设施(advanced metering infrastructure,AMI)为人们提供了丰富的测量、通信、计算和存储资源,这些信息引起了人们的关注[7]。用数据分析检测故障智能电表的方法很多。文献[8]提出了一种综合考虑层次结构和仪表数据的智能电表生成模型,但当面对大量的智能电表数据时,该方法效果急剧下降;文献[9]提出了一种面向概念漂移的异常检测能力定义方法,该方法采用长短期记忆网络来描述和预测消费者的行为,然而检测精度并不高;文献[10]描述了一种考虑电流和功率特征之间关系的比较方法来检测异常设备,考虑较为单一,无法处理较为复杂的情况;文献[11]介绍了一种数据挖掘技术来检测异常数据和能量窃取,该方法结合最大信息系数理论和聚类技术,发现任意形状的异常用户,对历史数据的依赖较为严重;文献[12]中提出了一种结合Bollinger带和部分可观测马尔可夫决策过程的技术来检测异常数据和能量窃取;并采用概率自适应模型提高效率,然而其操作过于复杂,计算量大;文献[13]提出一种通过比较前后能耗来检测欺诈和异常使用的方法;文献[14]提出了一种基于随机矩阵理论的异常使用和能量盗窃检测器,研究了能量消耗与系统异常状态的关系,但考虑的因素较为单一。

在相关的工作中,虽然已经有了许多成熟的方法[15~17],并且一些研究工作已经得到了实际应用,但在实际应用中仍然存在一些局限性。利用机器学习和强化学习相关算法检测异常电能表的思想虽然简单易行,但其结果取决于具体的系统结构和数据集。通过检查仪表误差来检测故障仪表是一种有效的方法,在线仪表误差估计是一种能够实现大规模检测的新思路。误差估计精度仅限于数据和系统信息,所采集的系统特征和测量数据越多,估计精度越高;然而,一些系统信息存在如能量损失、系统信息丢失等现象,在实际系统中很难获得,缺少这些信息将影响检测精度和方法性能。

本文主要提出了大范围误差检测模型。采用能耗数据构造线性方程,由方程的解可导出仪表误差估计量;在其基础上,结合分类和递归理论的仪表误差计算方法,对能量损失率水平相近的数据,采用决策树和聚类方法对不同的配置数据进行分类,构造线性方程,用递推最小二乘法求解,得到误差估计量;最终通过算例分析证明所提模型的有效性。

2 方案综述

2.1 方案概述

电能数据由智能电表记录并送数据中心存储,具体拓扑图如图1所示。在低压电能系统中,电能表采用拓扑结构,即在一些低精度单相电能表前安装高精度三相电能表。高精度电能表是电网的主电能表,低精度电能表是电能网的子表。其中,子表记录一个住宅用户的电压、电流和能耗值,而主表记录一个区域内所有用户的总值。仪表功能异常、内部元件退化、工作环境变化等所造成的抄表误差是智能电表检定中广泛使用的一种指标,将电表误差与官方规定的阈值进行比较得到抄表误差。若仪表误差超过阈值,仪表将被视为故障仪表。

图1 故障仪表检测流程Fig.1 Workflow of meter detection

本研究的目的是以电能数据分析的方式,藉由估测电表读数误差来侦测故障电能表。仪表误差估计方法包括4个步骤。首先,进行数据采集,作为工作的基础部分,其需要获取能源信息(电能消耗、电压、电流等)和系统信息(仪表ID、位置号等),其以固定的频率传输到数据中心;然后,对数据进行处理,去除异常仪表数据和聚类代表性剖面数据;其次,根据能量平衡关系建立方程,求解得到仪表误差;最后,估计误差,若其高于调节阈值的则为故障仪表。

2.2 数据收集

仪表数据采集自AMI系统。如图2所示,仪表通过电力线载波、RS485和无线通信方式向接入点发送测量数据。通常安装在接入点的集中器,用于收集电表数据,然后上传到云数据中心进行进一步分析。数据包括电能表测量数据,如电能消耗、电压、电流等,系统信息包括电能表ID、表号、日期、时间等。

图2 AMI数据采集系统Fig.2 AMI data acquisition system

2.3 模型

电能首先通过主电能表,然后再通过子表。在同一时间间隔内,通过主表的能量流为通过子表能量的总和。具体关系如下:

(1)

式中:Ej(i)是子表j支路i上的实际能量消耗;E0(i)是实际总能量消耗。

在实际能源系统中,由于内部元件的退化以及环境变化、安装不正常等外部因素的影响,存在测量误差。此外,能量损失的存在使得功率损耗也较难估计。若考虑能量损失和仪表误差,式(1)可改写为:

(2)

式中:αj为子表j的相对误差;φj(i)为子表j的记录能耗值;φ0(i)为主表的使用值;E(i)是系统中的能量损失。其中,主表精度高于子表误差,其误差可以忽略。

通过n次测量,可以建立矩阵方程如下:

ΦTΘ=Y

(3)

其中:

仪表误差可由式(3)算出。智能电表自耗eM(i)、电力线损耗eN(i)和漏电损耗eL(i)是电能损耗的主要组成部分。能量损失E(i)的表达式如下:

E(i)=eM(i)+eN(i)+eL(i)+ε(i)

(4)

式中ε(i)是误差项。其余各项的表达式如下:

(5)

eN(i)=U2σt(i)

(6)

(7)

2.4 数据处理

数据处理是估计模型中的一项重要工作。在实际系统中,由于一些参数的缺乏,能量损失很难估计,而能量损失项对方程求解有重要影响。如果能量损失误差项大于所有子表误差引起的能量损失,则误差估计会变得准确。智能电能表的抄表误差是一个不随使用时间增长的常数;反之,在不同的能量负荷下,仪表误差会发生变化。

在模型中,主仪表的使用值应大于子仪表的总和。考虑到窃电和电源断线,应剔除子表读数之和超过主表的数据。为了减少电能损耗和电能负荷对仪表误差求解的影响,本文提出一种基于决策树和聚类的数据处理方法。

数据首先分为异常数据和正常数据,然后将正常数据分为轻载和重载负荷。轻载数据是指电表电流值小于电表额定电流,重载时电表电流大于额定电流。然后对不同能量损失率的数据进行分类。比值γ为:

(8)

当γ落在不同的比值范围内时,数据可以分为不同的能量损失水平。范围为从(0,γmax/k]到((k-1)γmax/k,γmax]),k是节点数。选择所需的聚类中心数R和K-means过程迭代移动中心,使点与中心之间的总距离最小。对于给定的观测集x(i)={x(i)1,x(i)2,…,x(i)n}和质心c(j)={c(j)1,c(j)2,…,c(j)n}。x(i)与质心c(j)之间的距离为:

(9)

给定簇C={C1,C2,…,CR}的质心为c(j),聚类的目标是使每个点到质心的距离最小:

(10)

中心评估为:

(11)

式中ni为中心c(i)的观测点数量。

主要采用决策树方法对异常数据进行初步识别,并将正常数据划分为一个类似的能量损失水平部分。然后对数据进行聚类,得到相似的特征数据用于仪表误差估计。

2.5 仪表误差估计

子表矩阵是一个N×N维矩阵,其解是与仪表误差有关的参数。递归模型可以同时更新参数,节省存储资源。为了重复更新估计结果,提高数据使用效率,采用递推加权最小二乘模型求解方程。

为使残差平方和最小,方程(3)的代价函数为:

(12)

θ的递推加权最小二乘解为:

(13)

式中:W=diag(w1,w1,…,wn),W是权重因子矩阵。递归方程为:

(14)

(15)

在权重矩阵中使用指数遗忘因子。则估计方程为:

(16)

ζ(n)=P(n)Φ(n+1)·

(ΦT(n+1)P(n)Φ(n+1)+λ)-1

(17)

(18)

式中λ是遗忘因子。

均方根误差(root mean square error,RMSE)被广泛应用于通过计算估计值与实际值之间的距离来评价估计性能。较小的RMSE意味着更好的性能。其定义为:

(19)

3 算例分析

数据集采集自城市居民小区低压电能系统中。在这个能源系统中部署了一个主表和122个子表。数据集由2014年8月至2016年8月间每24 h的所有电表的能耗值组成。此外,主表每15 min记录1次电压和电流值。大多数用户是社区中的常住用户。该子表的技术参数如下:额定功率1 100 W,额定电压220 V,额定电流5 A。除了电表电量测量值外,仪表ID、系统ID和社区ID都记录在数据集中。此外还删除了数据集中的空行和格式错误的行、冗余数据和无效数据,然后提取出可用的数据。假设所有电表数据有效,系统中无窃电和设备故障。在此期间,所有仪表误差保持不变。然后随机嵌入故障表通过将超过2%的主仪表误差分配给某些子仪表。大于2%的仪表误差估计值将被视为故障仪表。首先对数据进行筛选和分类,然后对数据进行聚类和构造线性方程来估计仪表误差。

3.1 仪表误差估计结果

估计的仪表误差如图3所示。X轴为测量次数,Y轴为仪表误差。当新数据输入到模型时,仪表误差更新。

图3 不同测量次数下的估计误差Fig.3 Estimated error in different measurements

在图3中,每一行显示了每个递归的误差估计量。随着测量值的增加,估计量收敛到稳定值。3个仪表的误差明显高于其他仪表,有些仪表的估计误差非常接近于0,所需测量的数量取决于数据特点。进行大约300次测量,可以找到误差估计值的稳定值。该递推模型能很好地估计仪表误差,且误差变化不大。

图4显示了当所有值保持稳定时误差估计器的详细信息。可以看出,电表28、55和79的表计误差大于2%。79号仪表的最大误差为8.596%,而55号仪表和28号仪表的误差估计值分别为6.213%和4.669%,其他仪表的误差估计值在-2%到2%的正常范围内。该方法的RMSE为0.21%,这意味着估计误差与真实误差值的偏差很小。误差估计器能很好地反映仪表的误差特性。

图4 仪表误差估计Fig.4 Meter error estimator

3.2 方案对比

在相同的数据下,将所提方法与LU分解(LU factorization)、广义最小残差法(generalized minimal residual method,GMRES)进行了比较。图5显示,由于子表矩阵的病态性,LU因子分解有一个不收敛的估计量。广义最小残差法得到的误差估计量含有奇异值。表1显示了3种方法的RMSE,所提出的方法具有最小的RMSE,而LU因子分解具有最大的RMSE。仪表误差阈值为2%,RMSE不应大于2%。LU分解方法表现出了糟糕的性能,而且通过对比RMSE值可见,所提模型比GMRES性能更好。

图5中的合计误差为所提方法估计误差RMSE变化曲线,曲线在零轴附近小幅波动,表明所提方法整体估计误差准确度高。

图5 仪表误差估计对比Fig.5 Meter error estimator comparison

表1 性能比较Tab.1 Performance comparison

3.3 检测正确率分析

图6展示了系统中故障仪表数量与所提模型检测正确率之间的关系。检测正确率是指正确划分电表状态的数量所占的总电表数量的百分比。可以看出,当故障表数不大于23时,所提模型运行良好。正确率在90%以上,如果系统中部署的故障不超过10个,则可以检测到所有异常数据。随着故障仪表的增多,模型性能会越来越差。

图6 检测正确率Fig.6 Detection rate

4 结 论

本文介绍了一种检测智能电表故障的数据分析方法,主要提出了一种基于决策树和聚类理论的电表误差估计递推算法。实验结果表明该方法具有良好的分类性能,且在相同的数据背景下,与常规方法相比,所提模型的检出正确率更高。由于智能电表数据分析在电表检测中有着广泛的应用和较高的经济价值,所提方法能为相关人员在边缘计算环境下的图像仪表误差在线估计和智能仪表数据分析等方面提供理论支持。

猜你喜欢

电表电能表仪表
浙江中控自动化仪表有限公司
浙江中控自动化仪表有限公司
巧数电能表
电表“对”与“错”归类巧掌握
认识电能表
“蹦叭”跳动电表数
电子式电能表技术综述
停电那点事儿
奔驰E260车行驶过程中仪表灯熄灭
浅析智能电能表常见故障及处理