智能电网中高维数据聚类方法研究
2016-03-02于君范文彬杜永军
于君 范文彬 杜永军
摘要:随着电网智能化程度的逐步深入,智能电网高维数据成为了“电网2.0”的重要价值资源。本文论述了智能电网大数据源、大数据流体系,讨论了传统电力数据聚类方法与特征,分析了智能电网高维数据所具有的稀疏性、空空间现象、维度效应、Hubness现象和离群点检测的特征,对智能电网高维数据从维数简化、索引技术、结果表征与评价方面论述了高维数据聚类分析方法和应用实践。
关键字:智能电网;电网高维数据;高维数据聚类
中图分类号:TP391,TP274, TM769文献标志码:A文章编号:2095-2163(2016)01-
Abstract: With the intellectualized development of power grid, SG (Smart Grid) high-dimensional databecomes the valuable resources of “Power Grid 2.0”. The big data resource and big data flow architecture of SG has been discussed. And the methods and characteristics of traditional electric power data clustering have been analyzed. After that, the characteristics of sparsity, empty space phenomenon, Dimensionality, Hubnessphenomenon, outlier detection and similarity measurein SGhigh-dimensional data have also been analyzed. Based on the aboved, the analytical methods and applications have been discussed in detail from several aspects of dimension reduction, indexing technique, result demonstrability and evaluation.
Keywords: smart Grid; SG high-dimensional data;high-dimensional data clustering
0 引言
随着电力网络向着智能化、集约化、清洁化方向的发展,电力网络数据的规模化、高维化和关联化程度日益加深,对于高维数据的数据挖掘成为了电力数据“工程化”向电力运维“价值化”的关键环节[1-2]。通过电力网络高维大数据挖掘技术可以实现电网规划建设全景可视化、网络运行实时动态监控决策、复杂大电网建模降维与解耦、电网能量传递与转化效能分析、网络暂态保护控制策略分析等方面的价值应用[3]。聚类挖掘分析方法是数据挖掘技术重要手段,其在电力运动异常检测[4]、电力用户行为分析[5]、电力负荷曲线聚类[6]、电网覆冰预警[7]等方面具有重要的理论研究意义和工程实践价值。
1智能电网大数据
智能电网依托无线传感器网络(WSN,Wireless Sensor Network)和物联网技术(IOT,Internet of Things)实现了信息资源的整合,具体而言,WSN实现了末端设备/传感器完成数据采集和转换功能;IOT通过无线/有线数据传输技术实现感知数据、控制命令等信息资源的传播;最后基于感知数据资源实现了系统管理、信息挖掘、商业智能等电网智能全流程。
智能电网技术与大数据分析有着与生俱来的紧密联系,智能电网的全生命周期各环节(需求分析、规划建设、优化升级、技术标准、流程规范、生产运营、商业营销等)均需要持久可靠的数据资源提供决策支撑。智能电网大数据重点方向及领域涉及社会化行业服务(能源政策分析与制定、新能源开发与推广等)、个性化用户服务(需求侧相响应与管理、客户服务能效评估、混合动力汽车设施建设与支撑等)、电力企业运营(电力系统监控与调度、电力设备维护与管理、发电储电输电动态匹配等)[8]。
以电力规划设计为例,行业设计标准的合理性是通过反复的实验数据和工程实践共同形成的规律性参数总结,同时需要结合不同的应用环境(风力、土质、温湿度等等)的周期性变化进行适用性的修正,甚至是阶段性动态修正;在生产运营环节中,智能电网的电能转换、电力输送、变电配电、电力调度等各环节均需要基于数据的精细化、预判性的决策,而这种决策方式需要长期的数据积累才能完成合理正确的指挥调度。
传输电网的各个环节均为一个相对独立的功能单位,因而从主干线输电网、区域性配电网、企业送电网直至家庭用电网均需要全程监控,最终形成了由末端用户“细胞数据”、接入电网“血管数据”、传输电网“动脉数据”、电力源头“心脏数据”等一系列连续且微量的数据构成智能电网“大数据”。电网大数据不仅具有大数据共性 “3V” 特征,即:海量数据(Volume)、多源种类(Variety)、高速流动(Velocity),而且具有电力行业“3E”,即:数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy),以智能电表为例,如果电能计量单位由“千瓦时”等级细化为“瓦时”等级,则时间单位管理粒度就要缩小为约1秒,那么就要将现行的采集频率由15分钟调整至1秒,1万台智能电表所获得计量信息数据则由32.61GB增长至114.6TB[9]。除此之外,基于电网资源分布与拓扑关系的故障管理、基于用户的用电行为习惯及地理信息的个性化营销方案、基于电网设备特性的智能自修复控制、基于运行数据的全网态势评估等等都将为成为大数据的来源和研究方向。智能电网大数据依托电网特性可以实现低损失、低消耗、无污染的传输,并且在周期性循环过程中实现服务价值凝练和升华、商业价值的低成本和可持续。
智能电网的大数据来源涵盖外部环境数据、企业运营运行实时数据以及数据管控分析数据等多个层面,通过科学合理归纳和经验总结修正,最终将指导末端环节的生产实践和运营管理,例如:电网运维(网络规划建设、设备运转性能指标等)、商业营销(电价评估、销售方案、客户维系等)、企业经营(公司运营规划、内部办公流程等);从生产消费角度而言,大数据来源涉及发电侧、输变电侧和用电侧。
2 智能电网大数据流
由图1可知,体系结构模型中每一主体层级的功能实现阐析可作如下表述:
(1)信息感知层。该层作用是感知、识别特定目标信息并实现传感器组网与信息获取,包括智能传感器、高清摄像头、北斗卫星导航系统(BDS,Big Dipper Navigation System)、全球定位系统(GPS,Global Positioning System)等设备,其中的主要技术包括WSN自组织网络技术、高速电路设计技术、微机电系统(MEMS,Micro-Electro-Mechanical Systems)、编码/解码技术、抗干扰技术、传输加密技术、短距离组网传输技术。从信息传播方式而言,信息感知层位于整个信息体系的信源,需探测的电网参数丰富。
(2)数据交互层。该层作用主要是实现数据的交互与传输,承载数据信息的载体可以是宽带互联网、有线接入网、移动通信网络等等,例如:2G/3G/4G/5G信息通信技术、异构网络融合技术、信息编码/鉴权技术、自适应传输技术、电力线通信等。
(3)信息应用层。该层主要是实现为电网服务客户和电力企业自身决策提供解决方案,其中包括大数据存储技术、云计算技术、物联网技术、分布式存储技术、分布式计算技术、信息聚合技术等,同时融入全球定位系统(GPS,Global Positioning System)、遥感遥测技术(RS,Remote Sensing)、地理信息系统(GIS,Geographic Information System)、电网管理/专家决策模型等相对丰富的应用平台。
3 传统聚类方法
对于单一的电力数据而言,可采用的聚类分析方法包括:层次方法、划分方法、基于密度方法、基于网格方法和基于模型方法。在此,给出各类方法的关键实用概述。
(1)层次方法(Hierarchical Methods)
层次法是基于目标数据集合进行层次化的分解过程。根据目标数据集合的层次分解过程可以分为凝聚式层次法(自底而上)和分裂式层次法(自底而上)。其中,凝聚式层次法将目标数据集中所包含的每个对象作为一个类,再逐步迭代合并相近的对象或者类,直至合并成为一个包含所有对象的类或者达到所设置的其他终止条件;而分裂式层次法则是将全部目标数据集中具体包含的所有对象视为一个类,而后迭代分解为更小的类直至每个对象成为一个类或者达到所设置的其他终止条件[10]。
层次聚类法的典型算法有ROCK聚类算法、BIRCH聚类算法、CURE聚类算法。
(2)划分法(Partition Clustering)
划分法将包含n个对象的数据集合按照分类规则划分为k个类(k不大于n)。每个类至少包含一个对象,每个对象只属于一个类。该方法实现过程:首先初始化类的个数k,划分方法将随即创建一个初始划分,再通过迭代优化形成更优的类划分结果,划分过程遵循下述准则,即:相同类分组距离越近越好,不同类分组距离越远越好。
划分聚类法的典型算法有:CLARANS聚类算法、k-Means聚类算法、k-Modes聚类算法、k-Prototypes聚类算法等[11]。
(3)密度法(Density-based Methods)
密度法是以目标数据的分布密度为基础,规避了距离聚类方式的球状聚类局限性,进而实现了任意形态的聚类形式。该方法实现过程:首先设定密度阈值m和聚类包含数据最小个数n,当某个区域的目标数据分布密度超出阈值则形成聚类,且每个类中目标数据个数不小于n。
密度聚类法的典型算法有:基于密度分布函数的DENCLUE聚类算法、基于高密度连接区域的DBSCAN聚类算法[12]。
(4)网格法(Grid-based Methods)
该方法首先将目标数据空间划分为n个单元的网格结构,然后基于网格单元进行聚类划分。
网格聚类法的典型算法有:基于统计信息的STING聚类算法、基于小波变换的WaveCluster聚类算法、基于网格和密度的OptiGrid聚类算法、基于聚类高维空间的CLIQUE聚类算法等。
(5)模型法(Model-based Methods)
模型法是通过自行设定聚类条件模型,寻找目标数据与设定聚类条件模型之间的最佳匹配模式,过程中则假设目标数据集合具有一系列的概率分布规律特征。
模型聚类算法有:COBWeb(统计学方法)聚类算法,COBWeb是增量式概念聚类方法,通过采用分类树的形式表征层次聚类。
对上述传统典型聚类算法进行性能评价比较,具体结果如表1所示[13-14]。
4 电力高维数据聚类方法
4.1 电力高维数据特征
随着互联网技术、物联网技术和传感器网络技术的发展,电力运营中的发电、输电、配电、用电等全流程电力环节均会产生海量且多维的指标数据,这些数据的资源化向价值化转变成为了电力信息研究的重要课题。1961年由Bellman 提出“维度灾难”,即:在多变量函数中数据对象属性维数增加,其网格单元数量将会以指数级速度增长,因而在多维网格中优化该函数是不可能的事情。而高维数据聚类分析就是典型的“维度灾难”问题分析。由于高维数据特征导致高维数据对传统聚类分析带来了一系列的困难与挑战,分析阐释如下:
(1)稀疏性(Sparsity)
随着维度增长的目标数据在维度空间中会遵照其自身的分布特征,但是对于同步增长的维度空间而言仍然是稀疏的[15]。
(2)空空间现象(Empty Space Phenomenon)
以正态分布的目标数据密度函数为例,当维度值增加为10,分布在中心区域的数据点不到1%[16]。
(3)维度效应(Dimensionality)
随着目标数据的维度数量过多将导致数据索引效率下降,当目标数据维度增大,数据样本之间的距离变得等距且稀疏,这就使得传统的平等使用每个特征的距离度量将因此而出现失效[17]。对于高维数据聚类分析而言,数据自身所蕴含大量无关属性,导致此类数据噪声和冗余特征将直接影响聚类分析效果。
(4)Hubness现象(Hubness Phenomenon)
高维数据空间Nk(x)分布呈现出明显右偏态,随着数据维度增大则该分布特征越加明显,导致少量数据点频繁出现在其他数据点的K最近邻列表中[18]。
(5)离群点检测(Outlier Detection)
高维数据由于自身的稀疏分布特点导致高维数据中的离群点检测难度提高,特别是基于深度、偏差、距离或密度的传统聚类分析在高维数据流存在明显不足。
(6)相似性度量(Similarity Measure)
对于高维数据采用传统聚类距离度量法用于判别衡量对象之间相似度,导致搜索近邻点结果的有效性和稳定性呈现出下降态势。
4.2电力高维数据聚类方法
(1)维数简化(Dimension Reduction)
通过降维处理将高维属性降至较低维空间,进而使用传统聚类分析方法进行数据分析。维数简化可以通过特征变换(FT,Feature Transformation)和特征选择(FS,Feature Selection)来展开并实现,或者采用非线性维数简化方法(流形学习),典型的流形学习方法有等距映射、局部线性嵌入以及拉普拉斯特征变换。对于需考虑数据子集属性差异亦可采用全局维度简化(GDR,Global Dimension Reduction)或者局部维度简化(LDR,Local Dimension Reduction)不同的维数简化分析手段。
(2)索引技术(Indexing Technique)
高维数据将导致聚类算法的复杂程度在时间维度和空间维度上均已表现出指数级代价增长方式,通过构建快速的高维数据索引结构和优化高维相似性查询手段即可实现高维数据信息的快速检索和交互。高维索引结构包括向量空间索引结构(SAM,Spatial Access Method),例如:R-tree、R*-tree;度量空间索引结构(MAM,Metric Access Method),例如:M-tree、M+-tree等[19]。
(3)结果表征与评价(Result Demonstrability and Evaluation)
通常聚类结果表征与评价内容包括:可伸缩性、多数据类型数据处理能力、发掘任意形状簇的能力、输入参数依赖性、噪声数据分拣能力、数据顺序敏感度、聚类结果可诠释性等等[20]。但是由于高维数据具有多维属性,因此对于聚类关系结果表征与评价复杂度也将有所提升,特别是聚类关系可视化和聚类逻辑解释势必存在较高的难度,进而对于聚类结果的有效性和准确性则将缺乏有效评估手段。
另外,朱付保等提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法将模糊C-Means算法融入了粗糙集属性约简思想,提取出对分类影响较大的属性集而摒弃与分类无关的属性,在聚类过程中只计算属性约简结果集中的属性,进而减少聚类过程的工作量、提高聚类效率[21];汪仁红等提出了一种基于投影和密度的高维数据流聚类算法(HpDenStream算法),该算法结合滑动窗口技术,采用投影算法对高维数据流进行降维处理并运用密度聚类算法对降维后的数据进行异常数据检测,经仿真测试:HpDenStream算法在存储空间占用和运行效率均要优于基于主成分的聚类算法(PCA算法)[22];王倩等提出了云环境下聚类分解的高维数据混合索引方法。该方法采用聚类分解方法对分割数据建立树状索引;以叶节点为单位,通过扫描线算法来获取节点内部所有对象的局部最近邻结果;最后依据计算的结果得出启发式的裁剪距离。在单节点最近邻计算中,第二个阶段获取外部的最近邻对象采用范围查询算法。实验分析表明,在查询效率上该索引方法高于单纯的聚类方法,与M-tree、顺序查找、iDisance相比,基于聚类分解的混合索引方法在高维查询模式下则具有良好的查询效率和负载均衡[23]。
5 结束语
电力网络中海量多维数据为电网运营能力的拓展优化提供着丰富的数据资源,有效挖掘资源价值是电网运营的关键环节。传统的数据聚类分析手段可以有效实现对于单一数据的挖掘分析,但是在多维度电网数据方面则需要针对其数据特征采用合理的计算方法。
电力网络多维数据挖掘(例如:关联分析、主成分分析、动态可视化分析)将有效推动规划、发电、输电、变电、配电、用电等各环节的智能化、信息化、科学化的互动管理和精细运维。
参考文献:
[1]李智勇. 电力系统运行信息的数据挖掘研究[D]. 杭州: 浙江大学, 2009.
[2]张东霞,苗新,刘丽平,等. 智能电网大数据技术发展研究[J]. 中国电机工程学报, 2015, 35(1): 2-12.
[3]李泽文, 邓拓夫, 曾祥君,等. 智能电网能量流的时空多尺度大数据探讨[J]. 电力科学与技术学报, 2015, 30(1): 22-27.
[4]陈利跃, 杭钟灵, 余亮,等. 基于马氏距离的双层聚类电力远动异常检测[J]. 控制工程, 2015,22(2): 360-364.
[5]彭显刚, 赖家文, 陈奕. 基于聚类分析的客户用电模式智能识别方法[J]. 电力系统保护与控制, 2014, 42(19): 68-73.
[6]张斌, 庄池杰, 胡军,等. 结合降维技术的电力负荷曲线集成聚类算法[J]. 2015, 35(15): 3741-3749.
[7]罗永勤, 周景, 武国亮,等. 基于聚类算法的电网覆冰灾害分级预警模型研究[J]. 内蒙古电力技术, 2015, 33(1): 13-16.
[8]王秋平, 陈志强, 魏浩. 基于数据挖掘的电站运行参数目标值优化[J]. 电力科学与工程, 2015, 31(7): 19-24.
[9]中国电机工程学会电力信息化专委会. 中国电力大数据发展白皮书[R]. 北京: 中国电机工程学会电力信息化专委会, 2013.
[10]王芳. 传统聚类方法的分析及改进[D]. 长沙: 中南大学, 2007.
[11]卢志茂, 冯进玫, 范冬梅,等. 面向大数据处理的划分聚类新方法[J]. 系统工程与电子技术, 2014, 36(5): 1010-1115.
[12]沈明明. 聚类算法的研究及应用——基于群智能技术的聚类算法研究[D]. 无锡: 江南大学, 2011.
[13]Y.P. YAO. 聚类分析中几种算法的比较[EB/OL].(2011-03-27) [2015-08-08]. http://blog.csdn.net/yaoyepeng/article/details/6281991, 2015-08-08.
[14]Johnho. 聚类算法总结[EB/OL]. (2013-06-06) [2015-08-08]. http://blog.chinaunix.net/uid-10289334-id-3758310.html, 2015-08-08.
[15]D.L.Donoho. High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality [Z]. Los Angeles: Aide-Memoire of the lecture in AMS conference of the 21st Century, 2000.
[16]M. Verleysen. Learning High-dimensional Data[Z]. Siena: Limitations and Future Trends in Neural Computation, S.Ablameyko et al.(Eds.), 2003: 141-62.
[17]刘建伟. 基于高维数据上集成聚类的个性化推荐算法研究[D]. 广州: 华南理工大学, 2014.
[18]张巧达, 何振峰. 基于Hub 的高维数据初始聚类中心的选择策略[J]. 计算机系统应用, 2015, 24(4): 171-175.
[19]张井. 高维数据子空间聚类算法研究[D]. 天津: 天津大学, 2012.
[20]任亚洲. 高维数据上的聚类方法研究[D]. 广州: 华南理工大学, 2014.
[21]朱付保, 徐显景, 白庆春等. 基于粗糙集理论的模糊C-means高维数据聚类算法[J]. 华中师范大学学报(自然科学版), 2015, 29(4): 511-514.
[22]汪仁红, 王家伟, 梁宗保. 基于投影和密度的高维数据流聚类算法[J]. 重庆交通大学学报(自然科学版), 2013, 32(4): 725-728.
[23]王倩, 朱变. 云环境下聚类分解的高维数据混合索引方法[J]. 周口师范学院学报, 2015, 32(2): 116-119.