基于多维度能耗分析的园区用户画像模型
2021-08-23张琳娟许长清王利利李晨希
张琳娟,许长清,王利利,李晨希
(1.国网河南省电力公司 经济技术研究院,河南 郑州 450000;2.华北电力大学,北京 102206)
0 引言
2011年,国务院发布了《工业转型升级规划(2011-2015)》,大力推动园区建设,发展园区经济,打造主导产业集群,从而促进调整产业结构、改变经济增长方式,是较好的“经济驱动器”。治理环境污染和缓解能源紧缺问题,促进了可再生能源的发展。2012年,国家能源局发布了《关于申报新能源示范城市和产业园区的通知》(国能新能[2012]156号),新能源成为园区中的重要供能资源。然而,由于园区数量的增多、用能需求的增大以及新能源带来的随机性,为电网企业的用能管理带来巨大挑战。此外,能源互联网的发展推广、电网各部分之间的紧密互联以及用电数据的有效存储,为供电服务信息化创造了有利条件,也为基于数据驱动模型提高电网用能管理和服务水平奠定了基础[1]。
目前,画像算法中最普遍的是用户画像算法。用户画像算法可以帮助使用者快速了解用户特征并制定相应管理方法。该算法在互联网领域应用较多,在图书、旅游等领域也进行了较多的实践探索,并建立了各式各样的为用户推荐商品和服务的基于内容的推荐系统、基于网站特征的推荐系统和基于隐变量的推荐系统等[2]~[7]。用户画像算法在电力领域也进行了相关研究。文献[8]对客户用电特征进行分类,建立客户用电行为标签库,对用户标签采用模糊聚类算法实现用户群体划分,将划分结果作为用户画像。文献[9],[10]通过特征间的相似度分析完成客户用电行为的特征优选,探索用户聚类分析中聚类数量的最佳参数。文献[11]提出了一种改进的K-means算法,对用户用电数据进行分析,得到用户典型用电特征曲线,实现对用户的分类分析。文献[12]基于95598大数据平台分析电力用户的用电特征,提出电力用户的标签体系,实现用户画像。上述方法均在特定场景较好地解决了相应问题。然而,受限于用户层面,并没有考虑群体的画像分析,无法满足园区层面提高管理水平的需要,也没有考虑高比例可再生能源的接入情况对画像结果的影响。
针对上述问题,本文提出了一种针对高比例光伏接入情况下的园区层次画像构建算法,从用电类别、业扩报装和需求响应3个维度综合分析用户画像。本文基于聚类算法分析园区画像结果,借助光谱双聚类算法实现用电类别的分析,基于负荷数据及光伏数据特点,分别建立负荷业扩报装需求评价指标体系、光伏业扩报装需求评价指标体系和需求响应评价指标体系。本文基于河南省物流园区、科技园区和工业园区的用户数据完成算例分析,结果表明,园区用户画像算法可以展现不同园区的差异性,从而可以帮助制定园区用能管理和服务政策。
1 园区画像算法流程
画像构建的第1步是数据的选取。本文提出的园区画像算法旨在解决园区用能管理方面精准服务水平不足的问题,因此选取和园区服务相关的数据进行分析。选取园区用户每天用电和园区用户电力业务往来记录两方面的数据,前者包含用户的用电行为和用能水平信息,后者包含与业扩报装、需求响应等用电服务的相关信息。
画像构建的第2步是构建用户画像,将其结果作为实现园区画像的基础。用户画像从用电服务涉及的用电类别、业扩报装需求和需求响应3个方面进行分析构建。用电类别分析的是用户用电习惯,帮助电网了解不同用户的用电模式,指定供电方案;业扩报装需求分析的是用户用能水平、预估用户后续用能增长情况,帮助电网提前进行规划;需求响应分析的是用户参与电网调节的能力,帮助电网挖掘电力调节的潜力,降低电网供电波动,提高用户的用电体验满意度。这3个维度的分析,共同为园区服务方案的制定提供基础。
画像构建的第3步是园区画像的构建。园区画像是在用户画像的结果上,利用K-means聚类算法,划分群落;然后,统计不同群落的用户数量占园区用户总数的比例,将比例构成的序列作为园区画像分析结果。电网可以根据园区画像,针对园区内群落构成情况,配置相应的服务方式,使园区服务更好地与园区情况相配合,利于园区生产及园区经济发展。园区画像整体构建流程如图1所示。
图1 园区画像构建流程Fig.1 Park portrait construction process
2 用户画像的构建
2.1 用户用电类别分析
用电类别分析的目的是区分不同用户的典型用电行为模式,归类总结用户的用电习惯,从而帮助供电公司配合用户用电习惯提供个性化的供能服务。
通过观察分析,用于构建画像的用电数据存在以下特征:园区中不同用户的迁入迁出时间不同,数据的时间跨度不同;园区中用户的用电数据量大,不同用户包含的数据量不一致;园区中用户用电数据缺乏专业的标签作为方向指导。这些特征导致神经网络和时间序列分析的相关算法难以应用于园区画像分析中。聚类算法能有效处理数据量不一的无标签数据,因此使用聚类算法分析用户用电行为数据。传统聚类算法是将数据视作一个整体,计算数据间的距离进行聚类,忽略了数据内部的结构差异,使传统聚类算法无法满足局部特征分析的需求。光谱双聚类算法克服了传统聚类算法的不足,可以在用户用电日期和用电时间两个方向对用电数据同时进行聚类,完成用户用电波动的局部相似性聚类分析[13]。光谱双聚类算法的流程如图2所示。
图2 光谱双聚类算法流程Fig.2 The chart of spectral biclustering clustering algorithm
2.1.1双随机归一化方法
双随机归一化方法能对行和列同时进行归一化。使用该方法能在不破坏用电数据局部特征信息的条件下降低全局特征信息对寻找局部特征信息的干扰。算法具体流程如下。
①设迭代次数为k,并令k=1,下列矩阵的上标代表第k次迭代。
④更新迭代结果。令Ak=Ank,此时迭代得到的结果即为Ak。
⑤当满足Dik中任意值都小于ε或k=K时停止迭代,得到归一化结果Ak,否则重复步骤②~④的计算过程。其中,ε为预设的阈值,K为预设的最大迭代次数。
⑥达到最大迭代次数的矩阵AK即归一化后数据矩阵A。
数据矩阵A是剔除无关信息后的干净数据,与后续算法结果结合,转换到合适的代数空间中,用于聚类分析。
2.1.2奇异值分解算法
奇异值分解算法(SVD分解)可以将矩阵分解为特征向量组和特征值矩阵乘积的形式。使用SVD算法将用电数据的归一化矩阵分解为3个矩阵U,V,Σ。其中,U和V是特征向量组,分别包含用电数据在用户用电日期和用户用电时间两个方向上的数据特征信息;Σ为特征值矩阵,矩阵中特征值越大,所对应的特征向量包含的信息越多,对于构建数据矩阵越重要。由于最大特征值对应的特征向量包含的特征信息最多,其中有全年用电趋势、电网整体波动等大量全局特征信息,对分析用户不同用电时间下的局部特征无意义,所以须要将其剔除。
2.1.3用K-means聚类算法筛选用于数据变换的向量组
借助K-means聚类算法对分解得到的U,V矩阵进行K-means聚类,分别筛选得到在用电日期和用电时间分析所使用的特征向量组。其中,根据聚类的簇内差异,挑选聚类结果最紧凑的前N_best个向量,即用于进行数据变换的向量组V_tr,从而完成筛选。向量留存数N_best代表经过筛选保留的特征向量数目。保留的向量数量越多,则保留的用户用电信息越多,越有利于后续分类。但是,数量过多会增加计算量,加大对全局信息的干扰。因此须要根据数据情况选取向量保留数量。
将通过U筛选得到的特征向量组V_tr和归一化数据矩阵A相乘得到结果Pr。特征向量组V_tr将用户用电的归一化数据矩阵转换到合适的代数空间中,便于对数据矩阵进行聚类分析。
对结果Pr进行K-means聚类,聚类结果为用户每天用电情况的类别。对用户每天的用电类别进行统计,出现次数最多的用电类别即为用户的常见用电类别,代表着用户的用电习惯。由于不同行业的用户的无功、有功消耗方式不同,因此从无功和有功两个角度进行聚类分析,将无功用电类别、有功用电类别作为用户的用电类别画像结果。
2.2 用户业扩报装需求分析
业扩报装需求分析使用的数据主要包括新装需求数据与增加需求数据。新装需求是指用电的申请者就所需耗能,申请与供电企业建立新的供用能关系;增加需求是指原有用户因原协议约定的用能容量或注册容量不能满足用能需求,申请增加用能容量。由于用户拥有负荷及光伏发电装置,因此须研究用户负荷的业扩报装需求及光伏发电的业扩报装需求。负荷业扩报装需求和光伏发电业扩报装需求的分析方式相同,所以仅以负荷的业扩报装需求分析为例介绍算法流程。
为了分析用户负荷的业扩报装需求增长趋势,须要预测用户中长期的负荷水平。然而,单独使用某种预测方法得到的中长期负荷预测结果与实际结果的误差较大,因此,本文采用基于等权递归理论的组合预测模型,将Logistic曲线模型和改进灰色Verhulst模型相结合,对电力用户未来3年的用电量以及年最大负荷进行预测[14],[15]。
将预测得到的结果与当前用电负荷规模进行比较,得到评价用户业扩报装需求程度的年平均用电量增长率和年平均最大负荷增长率两个主要指标。此外,当前最大负荷规模以及未来3年的最大负荷预测规模分别与当前合同运行容量进行比较,可得到另外两个评价指标:变压器当前负载率和变压器未来3年预期负载率。上述4个指标的计算如式(5)所示。
式中:Grate1,Grate2分别为用户年平均用电量增长率和年平均最大负荷增长率;Lrate1,Lrate2分别为变压器当前负载率和变压器未来3年预期负载率;Q,Q1,Q2,Q3分别为用户当前年用电量和未来1,2,3年用电量的预测值;P,P1,P2,P3分别为用户当前年最大负荷和未来1,2,3年最大负荷的预测值;Pmax为用户当前合同运行容量。
园区用户负荷业扩报装需求评价结果评价指标体系如表1所示。
表1 业扩报装需求评价结果的评价指标体系Table 1 Evaluation index system of business expansion demand
根据实际经验赋予指标权重,并对指标进行加权求和,其结果命名为负荷业扩报装需求评价结果。
海洋油气资源开发是服务海洋强国战略和“一带一路”倡议的具体体现,对实现国家能源战略、维护国家权益等具有重要意义。惠州海事局秉持提供专业优质高效的海事服务理念,积极采取多种有效措施,不断提高海事监管服务水平,与有关企业共同努力解决存在的安全隐患,大力助推海洋石油勘探事业的发展。
光伏业扩报装需求分析即是根据用户光伏历史出力、用户年最大光伏出力预测未来3年的光伏出力、最大光伏出力。与负荷业扩报装需求分析类似,分别得到年平均光伏出力增长率、年平均最大光伏出力增长率2个指标,实现园区用户光伏业扩报装需求评价分析。
2.3 用户需求响应分析
需求响应体现了用户参与电力系统削峰填谷过程中的调节能力。拥有光伏发电装置的园区用户除了通过调节负荷参与需求响应外,还可以与电网进行电力交易,售出多余光伏出力。因此,选取负荷模式、降负荷率、分时用电量变异系数、停电总时长和光伏出力交易量5个指标评估用户的需求响应能力。负荷模式指的是用户的典型用电波动;降负荷率是不同行业的可改变负荷水平占当前总负荷水平的比率;分时用电量变异系数是用电波动变化大小的评估结果;停电总时长是用户一年里停电时间;光伏出力交易量是用户一年内可与电网交易的光伏电量。
用户的最小负荷用电模式是指用户所有典型的日负荷模式中总负荷最小的负荷模式。用户所有负荷用电模式和最小负荷用电模式之差的积分就是用户潜在的用电负荷水平:
式中:Pmin(t)为用户的最小负荷用电模式t时刻的功率;Cg(t)为用户最小负荷用电模式t时刻的功率,其所有时刻功率的积分是M个日负荷模式里最小的;Cm(t)为用户的第m类负荷模式t时刻的功率;M为用户典型日负荷模式的总数量。
用户的需求响应潜力为
式中:DRP1为用户的基准负荷偏差;Nm为第m类负荷模式下相似日的总数量。
降负荷率是不同行业当前负荷水平的可改变负荷水平占总负荷的比率。基于降负荷率的用户需求响应水平的计算流程见文献[16]。根据文献计算得到降负荷潜力DRP2。
分时用电量变异系数反映用户在峰、谷、平3种时段的用电波动水平,用电量变异系数越大,用户用电波动水平越大,负荷转移的空间就越大,即需求响应能力就越高。
用户峰、谷、平分时用电量的变异系数如式(9)所示。
式中:CV1为用户峰、谷、平分时用电量的变异系数;SD1为用户峰、谷、平分时用电量的标准差;MN1为用户峰、谷、平分时用电量的平均值。
园区内电力用户的停电总时长St在一定程度上也可以反映用户的需求响应能力,用户停电总时长越长,说明用户更容易接受区域电网运营商下达的切负荷命令。
拥有光伏发电装置的用户通过售出多余光伏出力参与电力市场交易,实现需求响应。光伏出力交易量的计算式为
式中:pij为用户第i天、第j时的光伏出力交易量,其值为光伏出力与用户负荷之差,仅取正值。
园区电力用户需求响应评价指标体系示于表2。分别赋予5个指标权重并进行加权求和,并将结果命名为需求响应评价结果E,作为用户需求响应评价结果。
3 算例分析
基于河南省郑州市及焦作市的工业园区、科技园区、物流园区9万条用户用电数据进行算例分析。用电类别模型在python3.7.4的环境下,使用0.21.3版本的sklearn库完成分析编写。业扩报装需求特征的分析模型、需求响应潜力特征的分析模型在MATLAB 2017a环境下完成编写计算。首先须要对算例使用的数据进行预处理,由于不同用户的用电等级不同,数据中的数值单位不同,要转换为同一单位;其次,由于存在用电数据的缺失,即有部分记录缺少无功消耗数据,须要将其剔除;最后,因部分用户的用电数据极少,且波动极大,为避免对后续分析产生较大干扰,也将其剔除。
3.1 园区用电类别特征分析
双聚类算法簇的数量选为6,7时,分类结果的内部差异较大;选为9,10时,会出现较多相似类型的分类结果;因此,簇的数量选为8。分类结果如图3所示。由于用电数据为每15 min采样一次,图3中横轴共96个采样点;将同一类用电数据按采样点计算均值,即纵轴所示为功率。有功聚类结果的单位为kW,无功聚类结果的单位为kVar。
图3 用户用电数据聚类结果Fig.3 Behavior data clustering results
统计用户每天有功用电类别出现次数,出现次数最多的类别为用户有功用电类别。用户的用电类别分类结果为无功用电类别、有功用电类别组合。此时,已经根据用电类别完成用户群落划分,所以不须要聚类,直接统计不同类别的用户占园区用户总数的比例。3个园区的计算结果如表3所示,其构成的序列作为园区用电类别画像。表3中只列出3个园区中存在的用电类别。
表3 园区用电行为特征序列Table 3 Characteristic sequence of electricity consumption in the park
由表3可以看出,园区中大多数用户属于(1,1)类型。结合图3分析可知,该类型多为用户全天平稳生产的大工业用电用户,其无功和有功用电都非常平稳。其中,(1,1),(1,5),(5,8),(7,7)占比较多,说明大部分用户的有功和无功用电波动是趋于一致的。根据表3结果进行对比可知,3个园区中物流园区的用电最稳定,工业园区的用电模式最多样,科技园区存在有功和无功用电波动变化较为剧烈的用户。
3.2 业扩报装需求特征分析
利用业扩报装需求特征分析的算法可以得到每个用户的负荷业扩报装需求评价结果和光伏业扩报装需求评价结果。为了便于了解园区内用户业扩报装需求水平的分布情况,基于已得到业扩报装需求结果,使用K-means聚类算法分析。当聚类数量为3时,类间误差不再出现显著下降,此时的聚类结果较好。因此选取聚类数量为3的结果作为园区聚类分析依据,聚类结果如图4所示。
图4 负荷业扩报装需求评价聚类结果Fig.4 Clustering results of business expansion and installation demand evaluation
在此基础上,计算园区内不同类型业扩报装需求的用户占园区用户总数的比例。这3个比例构成的序列包含园区用户的业扩报装需求水平分布结构特征,作为园区业扩报装需求画像结果(表4)。
从表4可以看出,科技园区和物流园区低水平业扩报装需求的用户占大多数,说明园区内用户的业扩报装需求都处于较低水平;工业园区中业扩报装需求位于中水平和高水平的用户总数远高于位于低水平的用户的数量。这表明工业园区中大部分用户有较高的负荷业扩报装需求。
光伏业扩报装需求分析与负荷业扩报装的分析方式相同,部分用户的光伏发电出力曲线如图5所示。
图5 部分用户的光伏发电出力曲线Fig.5 PV output curve of some users
从图5可以看出,用户光伏出力曲线呈现出单峰型,出力的高峰在12:00左右;在0:00-6:00和20:00-24:00光伏出力功率基本为零。光伏发电装置从6:00左右开始出力,出力功率不断增加,到12:00左右达到高峰;之后不断减小,出力功率在16:00-20:00接近为零。光伏出力功率曲线存在波动性,出力曲线不完全一致。
可以将用户光伏业扩报装需求结果划分为低水平、中水平、高水平3类。光伏业扩报装需求序列如表5所示。
表5 光伏业扩报装需求序列Table 5 The business expansion and installation demand sequence of PV
从表5可以看出,3个园区中均是光伏业扩报装需求为低水平的用户占比较高,表明3个园区的光伏业扩报装需求均较低。郑州高新技术开发区中水平和高水平光伏业扩报装需求用户的占比均高于工业园区和物流园区,说明高新技术开发区与其他两个园区相比,更倾向于使用光伏等清洁能源。
3.3 园区需求响应特征分析
与业扩报装需求特征中的分析思路相似,得到园区内所有用户的需求响应评价结果后,对其进行K-means聚类,聚类数量选为3时,聚类效果较好。需求响应评价聚类结果如图6所示。
图6 需求响应评价聚类结果Fig.6 Clustering results of demand response evaluation
统计园区内不同需求响应水平的用户数量占园区用户总数的比例,其结果构成的序列作为园区需求响应画像结果(表6)。
表6 需求响应序列Table 6 Demand response sequence
从表6中可见,3个园区中均是需求响应能力为低水平的用户占比较高,表明3个园区的需求响应能力均较低。郑州高新技术开发区中水平和高水平需求响应能力用户的占比均高于工业园区和物流园区,说明高新技术开发区与其他两个园区相比,更倾向于参与电力市场交易。
综合考虑上述3个维度的分析结果提出3点建议。第一,焦作工业产业集聚区的负荷业扩报装需求较高,可为其预先配置配电设备容量。第二,郑州高新技术开发区的光伏业扩报装需求较高,须提前考虑高比例光伏接入对电网带来的影响。该园区中接近30%的用户存在需求响应潜力,可以尝试提出负荷转移的相关合同。第三,郑州国际物流园区在用电类别、业扩报装、需求响应上表现出较高的稳定性,对其相关服务可以延后,无须投入较多人力物力进行提前准备工作。
4 结束语
本文提出了基于聚类的多维度园区画像模型,并根据河南省郑州市和焦作市的园区进行算例分析,得到以下结论。
①不同类型的园区具有不同的用户分布特征,但园区内用户在用能方面基本保持稳定。
②物流园区与其他园区相比,用能更稳定、需求响应评价结果和业扩报装需求评价结果更低。
③高新技术园区具有更高的光伏业扩报装需求及需求响应能力。
研究结论表明,基于聚类的多维度园区画像模型可以实现高比例光伏接入下的园区多个维度特征的量化,其分析结果具有一定的现实解释价值。供电公司可以基于园区画像技术实现差异化、个性化的供电服务。