基于交叉域分析的能源大数据中心数据质量评估方法
2023-01-31徐厚东李赋欣刘建华林茂
徐厚东,李赋欣,刘建华,林茂
(1.国网四川省电力公司,四川 成都 610095;2.国网资阳供电公司,四川 资阳 641300)
随着中国智慧城市建设工作的逐步推进,城市能耗总量和强度“双控”力度不断加大,能源数据监测与管控工作的重要性日益增强[1-2]。中国的部分城市开始建设能源大数据中心(以下简称“能源中心”),并按照能源中心的数据应用程序编程接口(application programming interface,API)规范,接入水、电、气、热等结构化能源数据[3]。上述数据由不同的能源生产厂商提供[4],数据的采集和传输过程容易受到噪声干扰,造成数据质量不高,不能满足能源综合效率评估的需求[5]。因此,亟需开展能源中心的数据质量评估工作。
国内外许多学者对能源中心的数据质量评估工作进行了大量研究。文献[6]介绍了生成对抗网络的经典架构,并阐述了生成对抗网络在新能源数据质量评估方面的应用。文献[7]提出一种基于模糊综合评价法的能源中心数据质量评估方法,通过设置层次架构和评估权重,对能源中心的数据进行评估。文献[8]提出一种基于大数据技术的能源中心数据质量评估方法,应用粒子群优化算法提升数据质量的评估能力。文献[9]提出一种基于数据质控框架的能源中心数据质量评估方法,采用异常数据分析方法评估能源中心数据质量。文献[10]提出一种基于惩罚变权的数据质量评估方法,采用差异评估和惩罚变权相结合的方式进行能源中心数据质量评估。上述研究主要针对单一的能源数据类型进行评估,并未对单一用能单位的各种用能数据进行综合校验,缺少对多源异构数据的分析。为此,本文提出一种基于交叉域分析的能源中心数据质量评估方法。首先通过主成分分析法(principal components analysis,PCA)提取能源中心多源异构的能源数据,然后通过近邻传播聚类对所提取的能源数据进行分类,并建立评估指标集,最后通过数据交叉域分析来评估能源数据质量。
1 能源中心数据质量评估框架
本文所述的基于交叉域分析的能源中心数据质量评估方法主要包括能源中心数据汇聚、能源中心数据分类和能源中心数据质量评估,如图1所示。
图1 能源中心数据质量评估框架Fig.1 Energy center data quality assessment framework
在能源中心数据汇聚环节:首先通过系统接口接入电、水、煤、气、油等能源数据,对上述能源数据进行异常数据清洗,对缺失和异常数据进行分析与补正;然后,对能源数据进行降维处理,减少海量数据计算的复杂程度;最后,进行数据汇集处理,按用户、街道、市区汇集能源数据。
在能源中心数据分类环节:首先,进行能源数据聚类,形成能源典型数据特征;然后,在此基础上建立数据评估指标集;最后,根据城市的特性调整评估指标的权重。
在能源中心数据质量评估环节:首先,按用户、街道、市区建立交叉验证索引;然后,通过能源中心数据交叉验证检测,评估数据质量;最后,生成能源中心的数据质量评估报告。
2 能源中心数据质量评估模型
2.1 能源中心数据汇聚
2.1.1 能源数据接入
能源中心汇聚了电、水、煤、气、油等能源数据,向政府、供电公司、能源供应商、能源聚合商和居民等用户提供数据增值服务。能源中心数据量巨大,服务用户众多,对数据质量要求较高[11]。
能源中心的数据来源于供电公司、供水公司、燃气公司、供热公司等能源供应商的数据,各能源供应商按照能源中心的接口标准制定能源数据API,数据的接入格式见表1。
表1 能源中心数据接入格式Tab.1 Data access format of energy center
2.1.2 异常数据清洗
能源企业的数据来源于用电采集、水务管理、燃气管理、供热管理等多种量测系统,数据的采集和传输过程容易受到噪声的影响,导致海量的能源数据集存在缺失和错误数据的情况。因此在进行数据评估前,先对异常类数据进行分析与清洗[12]。异常数据检查采用拉依达准则,详见文献[13]。异常数据清洗是指从能源生产方的接口数据记录中检测出不一致、缺失或量测错误的数据。
数据的正常率
(1)
式中:na为能源数据应采集个数;nb为缺失数据个数;nc为异常数据个数。
采用数据填充法进行异常数据清洗,区间[gr,gs]中某缺失采样点l的数据值gl的计算公式为
(2)
式中:gr和gs为相邻的第r个采样点和第s个采样点的已知能源数据测量值;m为采样点总数。
2.1.3 降维与汇聚
PCA是一种线性降维方法[14],通过对能源中心的多源异构数据进行线性投射,将高维的特征数据映射到对应的低维空间中,从而减小降维后的能源中心数据损失。
通过PCA降维后的数据
(3)
式中:nf为数据能源中心的数据维度数;Canf1,Canf2,…,Canfm为单个数据指标的原始特征。本文将nf个维度降低为a个维度。
在数据降维后,进行数据汇集处理,按所在城市的用户、街道、市区汇集能源数据。
2.2 能源中心数据分类
2.2.1 能源数据聚类
模糊均值聚类(fuzzy C-means,FCM)是一种基于能源中心数据目标函数的模糊聚类算法,具有速度快、聚类准确的特点,因此本文采用FCM进行聚类。
FCM目标函数的实质是各能源数据点的欧氏距离之和,该目标函数通过隶属度的一级样本到聚类中心的距离来度量。聚类结果
(4)
式中:ng为能源中心数据指标样本的数目;cg为FCM聚类的数目;saij为能源中心不同数据之间的隶属度;dkij为能源中心不同数据点之间的欧氏距离。
2.2.2 建立数据指标集及评估权重
根据能源数据的特征,依据能源行业协会公布的典型值建立能源中心评估指标集,见表2。
表2 能源中心数据评估指标集Tab.2 Energy center data evaluation indicator set
对于上述能源中心数据评估指标,首先依据能源行业协会的典型权重设置初始权重,再通过熵权法调整能源中心指标权重。
熵权法是一种综合评价指标的方法[15],通过熵值来判断能源中心指标的离散程度,能源中心数据指标离散程度越大,则信息熵越小,说明权重越大。
信息熵权重
(5)
式中:nh为输入的评价指标个数;uaq为不同评价指标的贡献值。
2.3 能源中心数据质量评估
交叉域分析是在单个维度分析的基础上,从多个维度进行交叉检查,验证能源中心数据质量评估的准确性,即在单个指标分析的基础上,按照用户、街道、市区等维度进行交叉比对分析[16]。该方法虽然较为复杂,但能有效减小单个指标法分析的误差。
交叉域分析量
(6)
式中:nl为各指标的采样量;Zk为交叉域分析函数;yi为不同指标采样量的自由度。
能源中心的数据质量评估值
(7)
式中:no为能源中心的评估指标数量;ki为不同的能源中心评估指标值;si为不同的交叉域分析差值。
在完成能源中心数据评估后,按照能源中心的格式,从水、电、气和区域维度生成能源中心数据质量评估报告。
3 算例分析
3.1 场景与参数设置
为验证本文所提基于交叉域分析的能源中心数据质量评估方法的有效性,在某市的能源中心应用该方法进行评估。采用的服务器操作系统为windows server2016,中央处理器为英特尔至强系列6254,18核心,运行频率为3.1 GHz,服务器内存为64 GB,服务器硬盘为10 TB,算法采用python搭建。
本文用于比对的方法是文献[17]中基于机理模型的能源中心数据评估方法,该方法应用广泛,具有行业代表性。
3.2 算例运行分析
3.2.1 异常数据分析准确率
异常数据分析准确率用于衡量本文所提模型对缺失、错误数据的分析准确性,该指标的计算方式为:人工依据行业典型数据分析该指标数据与模型统计数据是否一致,若一致即为准确;准确数据的数量与统计数量之比即为异常数据分析准确率。
选择能源数据量10 000、20 000、30 000、40 000、50 000、60 000、80 000、90 000,比较本文所提方法与机理模型方法的异常数据分析准确率,结果见表3。
表3 异常数据分析准确率Tab.3 Abnormal data analysis accuracy
由表3可见,本文所提基于交叉域分析的能源中心数据质量评估方法的异常数据分析准确率均值为99.78%,高于机理模型方法的98.27%。因此,本文所提方法的异常数据分析准确率更高。
3.2.2 指标权重调整结果
指标权重为本文所提模型评估分析的关键,合理设置权重,可提高能源中心数据质量评估的准确性。分别采用本文所提方法和机理模型方法进行指标权重调整,结果见表4。
表4 指标权重调整结果Tab.4 Index weight adjustment results
3.2.3 能源中心数据质量评估准确率
能源中心数据质量评估准确率是本文所提方法的核心指标。该指标的计算方式为:人工依据能源行业协会公布的典型指标值进行分析,若数据在该典型指标的范围内,即为准确;准确数据的数量与统计数量之比即为数据质量评估准确率。
选择能源数据量为10 000、20 000、30 000、40 000、60 000、80 000个,采用本文所提方法与机理模型方法比较数据质量评估准确率,分析结果见表5。
表5 能源中心数据质量评估准确率Tab.5 Accuracy of energy center data quality assessment
由表5可见,本文所提方法的数据质量评估准确率均值为99.32%,高于机理模型的95.87%。因此,本文所提方法数据质量评估更准确。
4 结束语
为解决能源大数据中心多源异构数据质量评估难的问题,提出了一种基于交叉域分析的能源大数据中心数据质量评估方法。该方法能有效提取电、水、煤、气、油数据,建立数据特征评估指标集,通过能源数据交叉域分析来评估能源中心数据质量。现场应用结果验证了该方法的有效性。
今后,将结合城市群的能源中心数据质量多维分析,进一步研究完善本文方法。