面向增量配电网用户的典型用电模式提取方法
2021-01-22于洪杰温力力刘永超侯荣均
于洪杰,温力力,范 丽,李 博,刘永超,侯荣均
1 概述
随着燃煤、燃油等化石能源的消耗及其带来的生态环境危机,绿色、低碳、可持续发展的理念逐渐成为社会主流的共识。在此背景上,重点发展清洁能源、节能减排、提高配电网运营效率、改善配电以及供电服务质量等需求逐渐成为众多国家的发展战略。由于欧美等发达国家推行电力改革的时间较早,而且市场机制相对更加开放且完备,目前相关的实践处于世界前列。美国已经接连开展了多个关于用户用电特性分析以及智能化用电服务等多个领域的实践与研究。相关项目得益于新型技术推动和政策的扶持作用,现已经步入稳步推进的阶段[1-2]。
欧洲电力市场走在世界前列,较为开放的市场环境也使得各个电力公司之间的竞争十分激烈,这也促使终端用户的地位逐步上升。在这种市场机制的激励上,电力公司为了吸引到更多的用户资源,就必须在原有供应电力的基础服务之上,还要为各种类型的用户,比如:居民、商业、工业等提供具有个性化的增值服务。换言之,这也对电力公司自身业务提出了更高的要求。电力企业如果仅仅是按照提高自身运营效率、适当降低电价的传统经营理念,将影响其长远的发展。因此,必须还需要基于用户制定有针对性的服务,那么全面掌握不同用户的用电特性就是制定这些服务的数据前提。智能电表的普及让获取用户数据和分析用户特性成为可能,比如,SEAI发布了2012年至2013年基于智能电表实际测量的4225户爱尔兰居民用电数据,数据采集时间跨度大约500多天,日负荷曲线共计300万余条[3]。
2015年3月,中共中央、国务院印发了9号文件,旨在打破传统电网企业的售电垄断,面向社会开放配电和售电业务。增量配电网也因此不断深入改革,蓬勃发展。总体来说,我国智能化用电布局的基本思路是以市场需求为导向,立足于客户需求、侧重于引导客户消费为中心,以需求预测管理为着力点,以提高电力在终端能源消费市场的比例为目标,力求实现电网公司效益和社会效益的同步上升[4]。国务院在2016年年初发布了《关于推进“互联网+”智慧能源发展的指导意见》,文件中重点指出要鼓励面向能源终端用户的用能大数据信息服务,能够达到对用户用能行为进行实时感知与动态分析的效果,力求实现智能用能控制的远程化、便捷化、互动化[5]。
在各国的政策推动上,近年来国内外学者对智能电网用户的用电模式也陆续进行了较多的研究。文献[6]利用KNN聚类算法对智能电表所采集的负荷数据进行分析,文献[7]基于普通居民用户的负荷曲线建立了马尔科夫模型,接着对用户进行分类并提取不同用户的典型日负荷曲线,最后通过典型负荷曲线进一步分析各类用户的行为。文献[8]在运行BP神经网络对高电压等级负荷的预测之间,先采用K-means聚类算法对用户进行分类,这两种方法相结合能够提高预测精度。文献[9]提出了智能家庭与电网进行信息与能量双向互动的分层体系模型。文献[10]通过建立HM-MDP模型实现居民用户侧电源与电网各级调度控制器之间的双向电能传输,解决用户侧新能源发电资源并网问题。文献[11]将需求预测管理、客户需求作为分类依据对居民用电模式进行划分。
本文提出基于密度法的K-means聚类方法。首先采用DI指标选取最优K值;其次基于密度法优化初始聚类中心,然后进行计算得到聚类结果;最后采用重庆市某地区实际数据验证方法的可行性。
2 K-means聚类算法基本原理
K-means算法的最终目标是将给定数据集中的n个原始数据点划分成K个种类。评价这K个种类划分效果的优劣就是看每一个类别中的所有数据点到该类的聚类中心点的平方和是否最小。也就是说,每一类中的点相似度越大,而不同类之间相似度越小,那么划分的效果就越好。根据大量实测数据表明,该算法具有高效、适用性广和相对可伸缩性等明显优势。
假设现有一个包含n个数据点的集合X={x1,x2,…,xn}。聚类个数为K,即算法最终输出K个类{S1,S2,…,SK}。上面介绍K-means聚类算法的流程:
(1)令I=1,从整个样本数据集X中,随机选取K个数据点作为初始聚类中心mj(I),其中j=1,2,…,K。
(2)通过式(1)计算任意两个数据点之间欧氏距离,即计算X中的每个数据点xi到K个聚类中心mj(I)的距离d(xi,mj(I)),搜索最小距离对应的数据点xi,将其纳入到mj(I)所属的类别Sj中。
(3)再利用上式计算mj(I+1)的值,并将其作为上一个聚类中心点。
其中,Nj表示第j个类中数据点的数量。
(4)如果第I次所得到的分类结果与第I-1次完全一致,那么就可以认为本次聚类结果即为最终结果,输出聚类结果;否则转(2)。
从上述算法流程中不难看出,K-means聚类算法在实际运用时存在以上几点不足:
(1)在进行计算之前,需要确定聚类个数K。而在实际操作中K值通常是根据人为经验设置的,主观因素占比很大。另一方面,数据样本内部本身的分布特征也没有被充分利用,进而很可能得出不准确、不合理的聚类结果。
(2)初始聚类中心点的选取会直接影响K-means算法的稳定性。根据已经介绍的K-means算法原理可以看出,该算法是先随机初始化K个数据点作为首次聚类的中心点。紧接着,通过不断地迭代计算搜索最优的K个聚类中心点,直到满足收敛条件(见算法流程中步骤(4))。可见,不同的初始中心点完全可能导致聚类结果也大不相同。
(3)初始中心点选取不当还可能导致聚类结果并非全局最优。由于K-means聚类算法的收敛准则常采用误差平方和函数。但是该收敛准则函数理论上可能存在很多个局部极小点,倘若直接随机初始化聚类中心导致该收敛准则函数陷入某个局部最小点,提前停止迭代搜索,无法得到全局最优的聚类结果。
(4)最后,随机选取初始聚类中心可能会降低算法的效率。因为随机选取的聚类中心与聚类对象的实际聚类中心之间的偏差,将会直接决定计算的迭代次数。如果偏差很大,则算法迭代次数增多、收敛速度变慢,总体计算效率随之上降。
综上分析,优化选取K值以及K-means算法的初始中心点是非常必要的,将改进后的算法应用于配电系统的典型场景提取中更为准确、合理。
3 基于密度法改进的K-means聚类算法
3.1 最优K值选取方法
DI指标是以不同类别间离散程度和类内密集程度为依据来评估聚类结果的有效性。DI指标表示为:
可见,当同一类中数据点密集程度越高,不同种类数据类别间相似程度越低,即类内距离越小,不同种类间距离越大,DI指标值越小,聚类效果越好。故最小的DI指标对应的K就是最优聚类个数。
3.2 基于密度的聚类中心最优选取方法
基于密度的聚类中心最优选取方法的大致思路为:通过依次计算并查找密度参数最大的数据点作为聚类中心。算法的计算流程如上:不妨假设待处理的样本数据集合为X={x1,x2,…,xn},K个初始的聚类中心点为z1,z2,…,zK。
(1)计算任意两个数据点xi和xj之间的欧式距离。
(2)计算全体数据点的平均距离MD。
(3)根据式(5),计算每个数据点的密度参数ρ(p,MD)。密度参数的定义为:取原始数据集中任一数据点p,以p为中心,以MD为半径的圆内,所包含的数据个数则称为数据点p在距离MD上的密度参数,将D称为密度参数集合。
(4)搜索密度参数最大的数据点,将其作为第一个聚类中心点,从集合D中删除与该聚类中心之间的距离小于MD的数据点对应的密度参数。
(5)重复步骤(3)、(4),知道搜索到密度参数最大的前K个数据点时停止。这些数据点就是最优的初始聚类中心点。
4 算例分析
4.1 原始数据集
为了验证本文所提方法的有效性,本节选取重庆市某地区110kV变电站负荷作为研究对象。该算例由居民负荷与工业负荷各月份上的日负荷曲线组成。每一条日负荷曲线包含96个采样点。
4.2 典型用电模式提取结果
居民用户典型用电模式如图1所示,可以看出三条曲线能够明显反映居民在春秋季、冬季、夏季不同的用电需求,体现了季节对普通居民生活用电习性的影响。图2为工业用户的典型用电模式,也与季度有一定的相关性,从侧面说明了工业用户的实际生产安排与季度的关系。
图1 居民用户典型用电模式提取结果
图2 工业用户典型用电模式提取结果
5 结论
为了进一步改善目前增量配电网中典型用电模式的提取技术,本文提出了一种基于改进K-means典型用电模式提取方法,采用密度法和DI指标解决了传统K-means方法在聚类结果容易陷入局部最优以及人为设定K值导致结果不合理两方面的不足。最后通过重庆某地区实际数据分析验证了该方法的有效性。