基于平均影响值-启发式前向搜索的异常光伏用户识别方法
2022-02-21彭曙蓉杨云皓刘登港王书龙
陆 双,彭曙蓉,杨云皓,苏 盛,刘登港,张 恒,王书龙
(1. 长沙理工大学电气与信息工程学院,湖南 长沙 410114;2. 浙江大学计算机科学与技术学院,浙江 杭州 310027;3. 武汉大学电气与自动化学院,湖北 武汉 430072)
0 引言
自2013 年3 月国家电网公司出台《关于做好分布式电源并网服务工作的意见》以来,新能源发电产业不断兴起,大大小小的分布式光伏电站不断建成并网,极大地推进了我国光伏产业的飞速发展[1],但也带来了不少的问题,分布式光伏电站一般仅向电网公司上传光伏发电系统的并网状态、发电量等信息,缺乏有效的辅助测量信息,存在用户通过一定的技术手段进行光伏窃电的行为。光伏窃电行为是在光伏发电系统中注入功率,但是注入的功率并不是来自光伏电池阵列输出的功率,而是来自电网的输出功率。光伏窃电用户将这些注入功率伪装成光伏电池阵列输出功率流过光伏电能计量表,使得光伏电能计量表虚高,进而获取高额补贴[2-4]。
基于光伏特殊的发电方式,催生了很多新型的窃电手段,而光伏防窃电与传统防窃电有所不同。目前关于防窃电技术的研究主要针对传统窃电方式开展,对象侧重于电能计量表本体,每台电能计量表都需安装防窃电装置,工程量大且效果不好。文献[5]建立了分布式光伏并网信号的数学表征式,并基于时分割乘法器(TDM)电能计量模型,提出了适应分布式光伏动态特性的改进电能计量模型;文献[6]提出将关口电表数据随光伏计量表数据变化的斜率作为虚增电量的检测指标,提高了检测便捷性。另一方面,对于光伏窃电现象的识别主要通过以下方法实现:基于线损率标杆值确定台区光伏窃电的严重程度,将发电量预测理论值与光伏计量值进行比较,再结合窃电嫌疑判别方法进行判定。文献[7]基于全天空云图,利用数字图像处理技术提取与辐射相关的图像特征,将大气层外辐射、大气质量、图像亮度和云量作为输入因子,较好地解决了云造成的影响;文献[8]采用欧氏距离对天气类型进行处理,将不同天气类型的平均发电功率之间的倍率关系映射为一个天气类型指数,该模型在各种天气类型下都有较准确的预测能力和较强的适用性;文献[9]提出了基于无监督学习的异常用电模式检测模型,适用于电力用户数据集缺乏训练样本的情况。但是影响光伏出力的因素众多[10],预测模型难以进行全面考虑,导致预测精度不高以及识别准确率低。
本文针对现有的光伏窃电识别方法,发现电量数据相比气象数据更易获取齐全,且受影响较小,基于此提出了一种通过计算光伏用户的平均影响值MIV(Mean Impact Value)来表示同一地区其他光伏用户与当地标杆光伏用户发电量之间的关联程度,挖掘异常光伏用户的方法。MIV 可反映神经网络中权重矩阵的变化情况,被认为是在神经网络中评价变量之间关联性最好的指标之一,可用于确定输入神经元对输出神经元的影响程度。该方法能够降低光伏用户发电量影响因素的干扰程度,MIV 和前向搜索算法的组合运用提高了异常光伏用户的识别效率及精度[11-13]。最后基于相关数据进行算例仿真,结果验证了所提识别方法的有效性。
1 光伏电站地域相关性分析
1.1 所研究区域的光伏电站介绍
本文所研究区域为比利时某一包含11 座光伏电站的区域,总面积为3.05×104km2,地理位置图见附录A 图A1。图中,地区5 与地区11 之间的直线距离约为220 km,地区8 与地区9 之间的直线距离约为140 km。各地区周边相邻基本为陆地(除了地区5、8 附近),气候条件大致类似。分析各光伏电站的光伏出力相关性,根据相关性结果选定最终光伏电站的研究区域。
1.2 光伏电站出力相关性分析
为了说明本文所提异常光伏用户识别方法的可行性,需要考虑该区域同一时段内不同光伏电站之间的出力相关性,相关性反映了同一时段内不同光伏电站出力之间的关系。对于包含N座光伏电站的光伏基地而言,一般认为电能计量表会维持自身相应时间的读数,每15 min 记录1 次数据,那么不考虑延时的相关系数矩阵为:
本文在比利时区域选取11 座光伏电站(以地区编号标记光伏电站编号)进行出力相关性分析,根据式(2)分别讨论11 座光伏电站在小时时间尺度和日时间尺度下的出力相关性,即分别取n=4 和n=49 计算各光伏电站两两之间的出力相关系数矩阵,从而选取地理位置合适的光伏电站。光伏电站小时时间尺度、日时间尺度的出力曲线分别见附录A 图A2和图A3。小时时间尺度、日时间尺度出力相关性结果分别如附录A 表A1 和表A2 所示(表中加粗数据为相关系数小于0.5 的数据)。由表可知:在日时间尺度下,本文所研究比利时区域的11 座光伏电站之间的出力相关性都比较高;但在小时时间尺度下,光伏电站2、5、11 之间的出力相关性比较低,故本文最终选取研究其他8 座光伏电站。其他8 座光伏电站之间的出力相关系数较接近1,反映了光伏电站之间的出力相关性较高,为此能够对这些光伏电站统一进行光伏出力异常行为分析,为后文的分析提供可行性依据。
2 光伏用户行为分析
2.1 标杆光伏用户
分布式光伏发电是指在用户场地附近建设的光伏电站,运行方式以“用户侧自发自用、多余电量上网”为主。由于国家会给予光伏用户高额的补贴,不少用户利用技术手段使电能计量表数据虚高。
通过从电站发电能力、故障情况、安全文明生产、运行管理、班组建设、设备运行等多方面进行综合评估后得到标杆光伏用户,其能够代表该地区光伏电站的发电水平。通过计算同一地区其他光伏用户与当地标杆光伏用户发电量之间的相关性,可以挖掘异常光伏用户,有效识别光伏窃电行为。
2.2 光伏用户发电数据及数据处理
2.2.1 数据选取原则
光伏电站的有效发电时段为06:00—18:00,在此基础上获取比利时区域8 座光伏电站连续多天且时间间隔为15 min 的发电数据,具体天数需根据光伏电站的实际发电情况而定,本文选取1 个月的发电量数据,且选定地区3(Flemish_Brabant)用户为标杆光伏用户。定义该地区的光伏用户集合X={X1,X2,…,XN}(N为光伏用户的数量;X1为标杆光伏用户;Xi(i=2,3,…,N)为其他光伏用户),根据上述数据计算得到光伏用户Xi(i=1,2,…,N)的日发电量数据序列Xi={xi1,xi2,…,xiT}(xij(j=1,2,…,T)为光伏用户Xi在第j天的发电量,T为所选取光伏用户发电数据的天数),并根据式(3)进行归一化处理,得到归一化发电量数据序列Yi={yi1,yi2,…,yiT}。
2.2.2 BP神经网络模型训练
在人工神经网络中,BP 神经网络是目前研究最为成熟、应用最为广泛的神经网络模型之一[14-15],因此本文选用BP 神经网络仿真得到与MIV 相关的影响变化值(IV)。BP 神经网络结构图如图1 所示,其包含输入层、隐含层、输出层。在BP 神经网络模型训练过程中,输入量为除标杆光伏用户外其他光伏用户的发电量数据,将标杆光伏用户的发电量数据作为网络输出量。BP 神经网络输入层、隐含层、输出层的定义式如式(6)—(8)所示。
图1 BP神经网络结构图Fig.1 Structure diagram of BP neural network
式中:αh为隐含层的第h个神经元接收到的输入值;βj为隐含层的第j个神经元输入输出层的结果;ŷk为输出层第k个神经元的输出值;σ(⋅)为激活函数,用于增加网络非线性拟合能力;vih为输入层的第i个神经元与第1 个隐含层的第h个神经元之间的连接权重;whj为第1个隐含层的第h个神经元与第2个隐含层的第j个神经元之间的连接权重;ujk为第2个隐含层的第j个神经元与输出层的第k个神经元之间的连接权重;D、q、p分别为输入层、隐含层、输出层的神经元个数。
当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权重值,向隐含层、输入层逐层反向传播。周而复始的信息正向传播和误差反向传播过程,是各层权重值不断调整的过程,也是神经网络学习训练的过程,重复该过程直至网络输出的误差减少到可以接受的程度。
3 基于MIV-启发式前向搜索的异常识别模型
本文所提异常识别方法能够降低光伏用户发电量影响因素的干扰程度,通过计算MIV 和运用启发式前向搜索算法,提高了异常光伏用户的检测效率与精度。本文所提异常光伏用户的识别流程图如图2所示。
图2 异常光伏用户的识别流程图Fig.2 Flowchart of identifying abnormal photovoltaic users
3.1 MIV的计算准则
MIV 可反映BP 神经网络中权重矩阵的变化情况,被认为是在神经网络中评价变量之间关联性最好的指标之一,可用于确定输入神经元对输出神经元的影响程度,其数值的正负性表示自变量对因变量产生影响的方向。
可以根据MIV计算得到当地其他光伏用户与标杆光伏用户发电量之间的相关性,具体计算过程如下:BP 神经网络训练终止后,在原有发电量数据样本的基础上构建新的训练样本,将除标杆光伏用户之外的其他光伏用户的发电量数据在其原始数据基础上增加10%和降低10%构成2 组新的训练样本,分别记为样本S1和S2;然后将样本S1和S2分别作为网络的输入仿真样本,利用已建成的BP神经网络进行仿真,将标杆光伏用户的发电量作为网络输出,得到2 组仿真结果,分别记为A1和A2,它们之间的差值就是变动原始数据后对网络输出产生的IV;最后将IV 除以天数T得到光伏用户与标杆光伏用户之间的MIV,即光伏用户的MIV 集合M={MMIV2,MMIV3,…,MMIVN}(MMIVi(i=2,3,…,N)为光伏用户Xi的MIV),MMIVi的绝对值大小反映了光伏用户与当地标杆光伏用户发电量之间的相关性程度大小。
3.2 启发式前向搜索算法原理
采用启发式前向搜索算法逐个选取特征,即从空集开始,从当前候选光伏用户的MIV 集合M={MMIV2,MMIV3,…,MMIVN}中选取MIV 最大的光伏用户放置到已选用户集合中,并在候选光伏用户集合中将其剔除,直至已选用户集合的MIV达到要求,即所选光伏用户Xy的MIV为:
MMIVy=argmax{MMIVi}i=2,3,…,N(9)
当筛选的光伏用户集合的评价值满足式(10)所示终止条件时,停止光伏用户的筛选,判定未被筛选的用户为异常光伏用户。
式中:D′为未被筛选的光伏用户MIV 中的最大值与已筛选光伏用户MIV 总和的比值,当其不大于所设定的终止阈值0.1时,停止对光伏用户的筛选。
上述方法能同时兼顾计算效率与选择效果,实现了以较小的计算量得到较好的筛选效果。
4 算例分析
本文从比利时区域选取8 个光伏电站用户(地区1、3、4、6—10 用户)连续1 个月(5 月份)06:00—18:00以15 min为时间间隔的发电量数据,其中地区3(Flemish_Brabant)用户为标杆光伏用户。为了使本文方法的有效性得到充分体现,特地人为构造了4 组窃电用户数据,4 组窃电用户数据的构造准则为:构造用户1,将光伏发电量等比例放大一定的倍数;构造用户2,在某特定时段将光伏发电量放大一定的倍数;构造用户3,在原始数据缩放的基础上随机增加某一数值,但一天中最大值出现时间点的数据保持不变;构造用户4,上述准则两两混合构造[16-17]。
按照本文所提方法,采用原始发电量数据训练BP 神经网络,结合MIV 计算方法利用已建成的BP神经网络仿真得到除标杆光伏用户之外其他光伏用户的MIV,然后利用启发式前向搜索算法进行筛选,直到满足终止条件,未被筛选的用户则为异常光伏用户。采用MATLAB 进行算例仿真,电脑配置为2.6 GHz,8 GB RAM。
在利用原始发电量数据训练BP神经网络时,将标杆光伏用户作为网络输出,其他11 个光伏用户作为网络输入;以5 d 为时间间隔对1 个月分6 次进行MIV 计算,这样可以排除一些非窃电故障因素的影响,减小误报率。经过仿真计算得到各光伏用户的6次MIV结果如附录A表A3所示。然后采用启发式前向搜索算法对光伏用户进行筛选,所得结果如表1 所示(表中加粗数据为未被筛选用户的MIV)。各用户某一周内的光伏发电量曲线如图3所示。
图3 各用户的发电量曲线Fig.3 Power generating curve of each user
由表1 可知,人为构造的窃电用户基本上每次都被筛选出来,结合图3 所示发电量数据可以验证本文方法的有效性。与标杆光伏用户地区邻近的其他地区光伏用户被判定为正常用户,除了地区9 和地区10 用户分别有1 次和2 次未被筛选,有可能是因为这2 个地区相较于其他地区离标杆光伏用户地区稍远,超出了适用范围(140 km),也有可能是因为光伏用户在那段时间内某个部件出现故障现象,此时先不判定窃电嫌疑,如果后续又出现未被筛选的情况,则判定其为异常光伏用户,而且可能是从首次未被筛选时开始窃电,需要对其重新进行检查。本文后续也进行了1月份及8月份相关数据的仿真,所得结果均能很好地识别窃电嫌疑用户,验证了所提方法具有较好的普适性。
表1 启发式前向搜索算法的筛选结果Table 1 Filter results of heuristic forward searching algorithm
为了进一步体现本文所提方法的有效性,将其与以下2种方法进行对比验证。
1)方法1,利用光伏发电量容量比及其偏离值分析识别异常光伏用户。首先计算每天各用户发电量容量比和地区光伏用户总发电量容量比,然后核查容量比偏离值K(K=(Pav-Pˉtotal,av)/Pˉtotal,av,Pav为光伏用户发电量容量比,Pˉtotal,av为全地区平均发电量容量比),并计算30 d 的K值之和Ktotal。若Ktotal>30,则将该用户列为重点现场排查用户。上述11 个光伏用户的容量比偏离值结果如表2 所示。由表可知,方法1 只适用于识别窃电非常严重的用户,对于其他情况无法进行有效排查。
表2 各用户的容量比偏离值Table 2 Deviation values of users’capacity ratio
2)方法2,利用发电量频率分布相对熵进行异常光伏用户识别。将本文所用仿真数据按各自时段内的最大发电量数值进行标准化,并将其等分为10个频率区间,但由于数据量少且轻度异常时无明显频率特性特征,在频率特性的基础上运用相对熵进一步识别异常用户,但需要设置合理的时间窗口和阈值,比较复杂,该方法的实现要求较高。
综上可知,本文所提方法可以降低光伏用户发电量影响因素的干扰程度,同时系统性地提高异常光伏用户的识别效率及精度。
5 结论
本文首次提出采用MIV评估光伏用户与区域内标杆光伏用户之间的关联程度,并结合启发式前向搜索算法进行光伏用户MIV 筛选,未被筛选的用户被判定为异常光伏用户。本文方法仿真所需数据为光伏发电量数据,不再受制于气象数据的准确度以及预测的精度。同时考虑以5 d 为时间间隔进行筛选,很好地排除了光伏出力的故障因素。经过对比验证可知,本文方法可以降低光伏用户发电量影响因素的干扰程度,同时系统性地提高异常光伏用户的识别效率及精度。
附录见本刊网络版(http://www.epae.cn)。