基于K均值聚类算法的大客户用电行为分析
2018-01-24崔立卿贺伟军
崔立卿,贺伟军,田 晶,虞 伟,张 叶
(国网浙江省电力公司岱山县供电公司,浙江 岱山 316200)
0 引言
在新的电力体制改革背景下,要求按照“放开两头、管住中间”的原则,稳步推进售电侧改革试点,逐步放开售电市场。为适应改革需求,对电力企业而言,有必要准确了解和掌握大客户群体用电行为习惯,帮助电力企业提前规划线路、安排客户组合、制定可开放容量等工作。
在大客户用电行为分析领域,传统的分析方法一般按照区域用电特性、行业用电特性、用户用电特性等方法来划分客户群,然而这种方式过于陈旧、粗犷,针对大容量专用变压器(以下简称专变)用电客户用电形式多样、计费方式不同、用电负荷特性存在差异的情况缺少专门研究,也没有根据信息系统反馈的大数据对客户负荷特性进行分类分析,无法帮助电力部门精确掌握企业用电情况。
为此,考虑直接从企业产生的用电数据入手,在掌握用电负荷曲线的基础上,通过挖掘大客户间不同个体的用电负荷特性规律对群体进行聚类分析,将曲线形态相近或相似的归为一类,进而将对应的企业归为一类,建立全新的企业群组。电力部门可以针对不同的企业群组制定针对性极强的服务策略、有序用电方案等内容,有效识别对电网运行存在“贡献”的客户群组,同时分析潜在市场,科学制定可开放容量,优化售电侧客户结构,采取迎峰度夏错避峰用电措施等,为电网企业提供可靠高效的供电方式,为用电客户制定科学合理的用电方案。
1 负荷特性分析方法
1.1 二八定律
根据帕累托二八定律,20%大客户所消耗的用电量占据整个大客户群体用电总量的80%,他们在用电行为中表现出主导地位。现对某地区电力企业2014年5月份营销数据(见表1)进行统计分析。
表1 2014年5月份大客户数量与用电量的占比统计
大客户群体共有个体865个,五月份用电量为30 657 982 kWh。从表1可以看出,其中存在指定的75个大客户五月份用电量为24 881 515 kWh,占群体用电量的81.16%。因此根据二八原则选取这75个大客户作为分析对象,能较好地反映出当月大客户总体用电情况。
1.2 聚类分析
聚类分析是按照一定的要求和规律将事物进行分类的一种数学方法。以下分析对分组的划分遵循以下四点:
(1)每个分组应该代表一类相对近似的大客户群体。
(2)各分组之间是各自区别的。
(3)将某大客户的负荷特性归类于某个分组是易执行的。
(4)分组的数量不宜太多。
2 大客户高峰用电负荷特性分析
2014年5月岱山电网专变用电负荷最高的一天为5月30日,最大负荷为6.57万kW。其中,大客户总体月负荷曲线如图1所示。
图1 2014年5月份大客户总体月负荷曲线
由于部分大客户存在2个或2个以上的计量点,经对比发现,系统数据中展示的75个大客户实际对应的企业厂家数量为66个。由于以下研究对象的基本单元是企业厂家,故仅考虑实际的66个大客户。
以该地区用电负荷最高的一天为分析日期,采集66个大客户24 h负荷数据进行聚类分析,提炼公司大客户高峰用电行为。由于不同用户负荷差异较大,为避免因负荷差异导致无法将具有相同用电规律的客户进行聚类,采用归一法对客户负荷数据进行处理,使客户负荷值均分布于[0,1]之间。
2.1 负荷数据预处理
(1)数据获取。
(2)数据归一法。
由于不同类型的企业的最大负荷也各不相同,数据的归一法采用如下公式:
式中:P代表每个大客户的负荷;下标ob代表企业编号;j为0—23之间的整数,代表一个整天共24个小时节点;下标max和min分别代表该企业每日负荷的最大值和最小值。
实施过程:将不同大客户在每个时间节点上的用电负荷带入公式(1)计算,即1个大客户需计算24次,66个大客户共需计算1 584次。利用归一法,将1 584个用电负荷原始数据经过化简得到1 584个无量纲处理结果,使物理系统数值变成某种相对值关系,达到缩小和统一量值的目的。
2.2 聚类分析
经过上述数据预处理,得到了各个用户的代表负荷曲线,接下来将这些曲线进行聚类。2条负荷曲线之间的距离定义如下:
运用K均值聚类原理,随机选择5个对象,即将K-means算法中的K值设定为5。在K均值聚类算法中,K值的选定是非常难以估计的,即事先并不知道给定的数据集应该分成多少个类别才最合适,通过对一系列自然数演算后发现,当K值等于5时,得到的分类结果兼具有代表性和差异性,得到的负荷曲线与已知的典型性负荷曲线基本一致。每个对象初始代表一个类的平均值,作为类的质心,对剩余每个对象,计算其到类质心的距离,被划分到最近的类;然后重新计算每个类的平均值,不断重复这个过程,直到所有的样本都不能再分配为止。
表2中,第一次随机抽取的五个初始聚类中心,其他对象需计算其到初始聚类中心的距离,再被划分到其中某一个初始聚类中心。
如表3所示,经过4次迭代计算,准则函数已经收敛于0.000。说明第4次计算出的聚类中心已经满足要求。
如表4所示,将第4次迭代的聚类中心作为最终聚类中心。
表5中,五大类最终聚类中心的案例数分别为3个、10个、36个、10个和7个。在本次聚类分析中有效案例66个,有效率为100%。
表2 第1次迭代生成的初始聚类中心
表3 准则函数收敛
表4 第4次迭代生成的最终聚类中心
表5 案例分布情况
2.3 聚类负荷曲线分析
经过上述数据处理,得到了各个用户的代表类,根据上一节中五大类最终聚类中心绘制不同特点的聚类负荷特性曲线,列出每个大客户所属的特性曲线类别,并对每个代表曲线分别进行命名,可划分为五类客户。
(1)第一类优质大客户。
第一类优质大客户聚类负荷曲线见图2,该类大客户的高峰用电时间集中在谷时段,而高峰时段用电负荷很低,属于优质大客户,有利于电网负荷整体均衡分配。
从行业分布看,该类大客户主要集中在部分船舶及浮动装置制造业以及专用化学产品制造业。根据对用户用电情况的调查,此段时间用电主要集中在船厂对高压气泵的充气作业,具体案例分布情况见表6。
图2 第一类优质大客户聚类负荷曲线
表6 案例分布情况
(2)需重点关注大客户。
需重点关注大客户聚类负荷曲线见图3,该类大客户总体呈现持续高负荷用电特征,对电网运行影响较大,是开展错避峰用电措施的重点关注大客户,也是有序用电的重点实施客户。
图3 需重点关注大客户聚类负荷曲线
从行业分布看,该类大客户主要集中在砖瓦石材建筑材料制造业、纸制品制造业、部分船舶及浮动装置制造业以及农、林、牧、渔服务业,具体案例分布情况见表7。
表7 案例分布情况
(3)双峰型大客户。
双峰型大客户聚类负荷曲线见图4,该类大客户负荷总体呈现在电网高峰时段,平时段和谷时段基本不用电,其最大负荷出现在8∶00—12∶00及 13∶00—16∶00。 因此在电网高峰时段对电网负荷产生较重负担,可对其开展错避峰用电措施,实施有序用电计划。
图4 双峰型大客户聚类负荷曲线
从行业分布看,岱山供电公司该类大客户主要集中在国家权力机构、企事业行政机构、医院、超市以及大部分船舶及浮动装置制造业,具体案例分布情况见表8。考虑到岱山县公安局、岱山县第一人民医院等部分单位属于一级负荷,中断供电可能对社会生活造成重大影响,因此需优先保证其正常供电。
表8 案例分布情况
(4)单峰型大客户。
单峰型大客户聚类负荷曲线见图5,该类大客户负荷在 20∶00—23∶00 用电高峰时段达到最高,而在2∶00—7∶00出现低负荷。因此其用电负荷对公司电网安全运行影响较大,可对其开展错避峰用电措施,实施有序用电计划。
图5 单峰型大客户聚类负荷曲线
从行业分布看,该类大客户主要集中在土砂石开采业及部分船舶及浮动装置制造业,具体案例分布情况见表9。经用户调查后发现,部分企业(如常石集团)拥有自备发电机组,建议其建立一套自备发电方案,电网高峰负荷时启动预案。
表9 案例分布情况
(5)第二类优质大客户。
第二类优质大客户聚类负荷曲线见图6,该类大客户的高峰用电时间集中在谷时段,而高峰时段用电负荷很低,同样属于优质大客户,有利于电网负荷整体均衡分配。与第一类优质大客户在高峰时段用电负荷呈现下降趋势相比,第二类优质大客户在高峰时段 8∶00—22∶00用电负荷非常低,对于整体电网负荷的均衡分配十分有利,较前者而言更优。
从行业分布看,岱山公司该类大客户主要集中在水产品加工业以及交通器材及其他交通运输设备制造业,具体案例分布情况见表10。
图6 第二类优质大客户聚类负荷曲线
表10 案例分布情况
3 结论
基于大客户用电负荷特性曲线及分类得出以下结论及建议:
(1)根据采集数据得到的负荷特性曲线,以及所了解的大客户用电特点,结合聚类分析的计算结果可以证明,分析结果符合大客户群体客观用电事实规律,因此具备实际参考价值。
(2)在五类负荷特性曲线中,双峰型大客户中的案例数为36个,占比为54.55%,大于其他四类案例数的总和。说明半数以上的大客户其用电高峰期出现在 8∶00—12∶00 及 13∶00—16∶00, 应当采取有序用电措施。
(3)船舶及浮动装置制造业(案例号为25,57,28,65,7,16,22, 27,31,37,42, 45,54,1,2,59)在前四类负荷特性分类中均有出现,说明不同的船舶制造厂家其用电形式存在较大差异,应当区别对待;另一方面可以根据第一类优质大客户的典型用电经验向其他船舶及浮动装置制造厂家提出合理建议,达到消峰填谷的作用。
(4)砖瓦、石材及其他建筑材料制造业(案例号为6)在第二类负荷特性分类中出现,土砂石开采业(案例号为4)在第四类负荷特性分类中出现。当出现用电紧张时,可以优先采取必要的有序用电措施来限制这两大类企业的用电行为,保证向居民生活和其他重要负荷持续稳定供电。