一种基于数据挖掘分析的设备状态评价方法
2017-12-29李金,高寿
李 金,高 寿
(1.中国南方电网电力调度控制中心,广东 广州 510663; 2.南瑞集团公司(国网电力科学研究院),江苏 南京 210003)
一种基于数据挖掘分析的设备状态评价方法
李 金1,高 寿2
(1.中国南方电网电力调度控制中心,广东 广州510663;2.南瑞集团公司(国网电力科学研究院),江苏 南京210003)
为提高电力设备状态评估的准确性和效率,提出了一种将数据挖掘方法应用到设备状态评价中的思路和方法。介绍了基于数据挖掘方法的状态评价模型,从大量设备历史数据库中采集电力设备的台账信息、在线监测信息、运行信息等作为设备评价的基础参量,将这些历史数据分别归类为不同状态的数据集,然后对每个数据集提取其主要特征向量,以此作为设备状态评价分类依据。该方法为设备状态评估提供了新的思路。
数据挖掘;主成分分析;电力设备状态评价
0 引言
随着社会发展和经济的不断进步,社会各行业对电力设备安全、稳定、可靠地运行提出了越来越高的要求,电力行业传统的按固定周期对所有电力设备进行监测诊断的方法难以有效地对电力设备的状态进行有效评估和分析,预测设备故障状态,存在工作量大、维修滞后、检修过剩等问题[1-3]。而设备的状态评价技术是实施状态检修的核心,只有在准确评价设备的实时运行状态的基础上,才能合理安排设备检修的项目和时间。
本文将数据挖掘分析算法应用到设备状态评价中,通过对大量设备历史运行数据进行特征提取和降维处理,提取出能够表征设备运行状态的特征信息,然后结合设备当前运行情况,对设备状态进行评估,为设备状态检修工作安排提供数据基础。
1 基于数据挖掘分析的评价模型描述
在传统的有限数据设备状态评价系统中,状态量的选取往往是单一的,故障/缺陷情况也是单一的,两者对应的关联规律性较弱。采用数据挖掘的方法对设备状态进行评价,重点要获取设备状态量与设备状态之间的关联关系[4]。而在大数据环境下,所采集的设备状态量数量较多,无疑会增加分析问题的难度和复杂性,因此本文对设备状态量集合采用降维方法,去除冗余设备装态量,提取出设备状态量与设备状态之间的关联关系。目前在降维领域应用较为广泛的方法有:主成分分析法[5]、因子分析[6]、局部线性嵌入(Locally Linear Embedding,LLE)、等距映射(Isometric Mapping,ISOMAP)[7]等。LLE、ISOMAP等方法适合连续时间信号的降维处理[8],而设备状态量信息中的设备台账信息、运行信息等多为离散信息量,因此本文采用主成分分析方法对设备状态量进行降维操作,提取表征设备状态的关键信息。
本文设计的设备状态评价模型包括:提取大量设备历史运行信息,将这些运行信息分类成不同状态的信息集;采用主成分分析法提取各个状态信息集的特征信号;对于待评价设备的当前运行情况,将该运行信息投影到状态信息集的特征空间进行设备状态评价。
1.1 主成分分析算法介绍
主成分分析(Principal Component Analysis,PCA)是多元统计过程控制的常用方法之一,通过一组标准正交变换,将原始数据集线性变换为一组包含原始数据的大部分信息的主成分集合,可基本表征原始数据,实现数据从高维到低维的变换[9-10]。PCA 法已应用于电力系统的短期负荷预测、暂态稳定评估、汽轮机故障诊断等方面[11-15]。
PCA算法步骤可以描述为:
假设训练样本集为X=[x1,x2,…,xn]T。
该样本的平均向量为:
(1)
构造样本集的协方差矩阵为:
(2)
计算出协方差矩阵的特征向量αi和对应的特征值λi。这些特征向量组成的矩阵A就是训练样本集的正交基底,将协方差矩阵的特征值按大到小排序:λ1≥λ2≥…≥λk≥…>0,可将主成分构成的变换矩阵记为:A=(α1,α2,…,αk)T。
有了这样一个降维的子空间,任何一个测试样本都可以向其作投影ω=Ay,即并获得一组坐标系数,即低维向量ω。
1.2 设备状态评价模型步骤
整个过程可以分为以下3个阶段:
(1)提取设备历史运行信息,并将这些历史运行信息根据设备状态的严重程度不同分为严重、异常、注意、正常等数据集,并对原始样本集进行归一化处理。
(2)采用主成分分析法实现各数据集的特征优化,以减少设备特征状态量的维数,减少设备评价信号数据的复杂度。
(3)通过最近邻算法实现设备状态评价。当需要评价的样本到来时,首先计算其与各个数据特征集中心的距离来确定其所属的状态,取其中最小距离的状态集作为设备状态评价的最终结果。
2 数据挖掘在设备状态评价中的应用
目前,电力设备状态评价的方案主要根据标准导则对设备进行打分评估,而数据挖掘技术和设备监测技术的发展为电力设备状态评价提供了新思路。本文在传统电网设备状态评价方法基础上,将数据挖掘算法引入设备评价方法中,提出基于数据挖掘算法的设备状态评价方法。
2.1 设备状态量信息获取
以数据挖掘方法进行设备状态评价的首要问题在于表征设备状态的各个维度的状态信息量的获取。
与电网设备状态关系密切的数据信息来源较为复杂,要对设备状态进行评估,首先要收集设备的相关信息,包括:(1)设备台账信息,此类信息作为固定参数自记录以后不再变化,作为某项状态量直接参与状态评估时的计算;(2)设备在线监测信息,此类信息采集周期短,时效性强,反映了设备的实时健康状态,作为最主要的设备状态评估参数,在设备评价时应给与最大的权重占比;(3)设备运行信息、定检信息、缺陷信息,此类信息通常采用周期性采集方式获取,对设备状态评价结果的准确性有重要的参考作用;(4)其他信息,包括温度、气象、环境等因素,此类信息相对稳定,但会对设备状态评价结果产生影响。
2.2 设备状态量信息预处理
经过数据采集阶段获取设备状态信息量以后,要对采集到的数据进行数据清理、集成、变换,使获取到的数据能够满足数据挖掘算法的要求。
(1)数据清理:按照固定规则丢弃部分采集到的设备状态量数据,如在线监测信息不符合预定的数据格式、超出正常阈值范围、数据发生跳变等情况。
(2)数据集成:将不同来源、格式、特点性质的设备状态量在逻辑上统一起来,将其转换为适合挖掘的统一形式。如设备状态量信息中包含n项信息量,则将该信息转换为一个n维向量:[x1,x2,…,xn]T。
2.3 设备状态评价的数据挖掘方法
基于主成分分析法提取关键信息参量的步骤如下:
(1)将采集到的设备历史状态量集合分为严重、异常、注意、正常四个集合,记为X1,X2,X3,X4。
每个集合的数据集Xi={xi1,xi2,…,xin},其中n表示抽取的样本个数,xij表示数据集Xi中第j个训练样本。
λi1≥λi2≥…≥λik>0
αi1,αi2,…,αik为对应的特征向量。
(3)确定主成分向量数量。设有m个主成分能够表征设备状态,令
(3)
式(13)表示特征值λi1,λi2,…,λim累计贡献90%的置信区间,由此确定m个特征向量作为能够表征状态集的主成分向量αi1,αi2,…,αik。
(4)计算原始设备状态量矩阵在新的m维特征空间中的投影:
Ti=AiXi=[αi1,αi2,…,αim]T·[xi1,xi2,…,xin]
(4)
式中:Ai=[αi1,αi2,…,αim]T表示特征因子矩阵,αi1,αi2,…,αik是λi1,λi2,…,λim对应的特征向量。
(6)对于待评价设备状态信息量y,计算其在各状态集特征空间中的投影:
ωi=Aiy
(5)
计算ωi与所有该状态集信息量在m维特征空间中的归一化投影的距离,取其中的最小值所在的状态集作为该待评价设备的所属状态。
(7)根据上述导则对设备总体评价的规定,可以得到设备整体状态的计算公式为:
(6)
3 算例与讨论
设备状态量参数集合的建立综合考虑了电网公司历史运行信息、实时监测信息、静态台账参数信息等不同类型的参数,在这些参数基础上进行数据挖掘分析,相比于现有的状态评价导则,本文方法具有可信度高、代表性强的特点。通过某测控装置的相关数据对本方法进行了初步验证,而由于电网设备运行环境复杂的特点,参数体系的选择、算法的实用性和准确性方面还需要结合实际情况进一步验证。
(1)从设备台账信息、历史运行信息、监测信息中提取出设备状态量,将状态量以连续型数据或离散型数据表示。其中台账信息包括图纸设计质量、装置制造质量、施工安装质量、投产验收质量等信息。历史运行信息包括家族缺陷、装置缺陷、检修信息等信息。监测信息包括自检信息、监测数据等实时运行数据。表1给出了部分监测信息数据类型。
表1 测控装置部分监测信息
(2)从电网公司历史数据库中抽取采样数据进行主成分分析,如表2所示, 并计算各状态集特征空间。
表2 样本集
测试中设置m=16时可将4个状态集均降维至90%的置信区间。将测试样本投影至各个状态集的特征空间,验证结果如表3所示。
表3 测试结果
从表3结果可以看出,从正常、注意、异常、严重四种状态的样本集中各抽取25个样本作为测试样本,将它们投影在表2计算形成的训练样本特征空间中进行分类,本算法的设备状态评价的准确率均在80%以上,具备良好的效果。
4 结论
本文以设备状态评价作为研究对象,将数据挖掘方法引入到电力设备状态评价中,建立了电力设备状态评估的大数据分析架构,为设备状态评价方法提供了新的思路。同时,数据挖掘技术不断地深入电力企业的各个领域,为将来电力系统健康、安全、稳定的发展提供了更多应用渠道。目前数据挖掘在电力系统中的应用尚处于试探的阶段,随着“数据大爆炸时代”的到来,数据挖掘必然会对现有的统计学方法带来巨大的冲击。
[1] 许婧,王晶,高峰. 电力设备状态检修技术研究综述[J]. 电网技术,2000,24(8):48-52.
[2] 吴杰余,张哲,尹项根. 电气二次设备状态检修研究[J]. 继电器,2002,30(2):22-24.
[3] SAMROUT M,YALAOUI F,CHATELET E. New methods to minimize the preventive maintenance cost of series-parallel systems using ant colony optimization [J]. Reliability Engineering and System Safety,2005,89(3): 346-354.
[4] 宫宇,吕金壮. 大数据挖掘分析在电力设备状态评估中的应用[J]. 南方电网技术,2014,8(6):74-77.
[5] 赵一婕,刘涤尘,吴军. 基于线性判别分析与主成份分析的骨干网架生存性评估方法[J]. 电网技术,2014,38(2):388-394.
[6] 罗玉波. 关于因子分析用于综合排名的一个注记[J]. 西南大学学报(自然科学版),2013,35(4):106-110.
[7] Tan Pangning. 数据挖掘导论[M]. 范明,范宏建,译. 北京:人民邮电出版社,2013.
[8] 严英杰,盛戈皞,陈玉峰. 基于关联规则和主成分分析的输电线路状态评价关键参数体系构建[J]. 高压电技术,2015,41(7):2308-2314.
[9] 赵晓君,郑倩. 基于PCA-KNN聚类的通用在线故障诊断算法设计[J]. 计算机测量与控制,2015,23(8):2762-2765.
[10] 浦路平,赵鹏大,胡光道. 基于PCA和K-均值聚类的有监督分裂层次聚类方法[J]. 计算机应用研究,2008,25(5):1412-1414.
[11] 杨国庆,张宇. 数据挖掘技术在电力设备状态检修中的应用[J]. 上海电力学院学报,2012,28(2):176-180.
[12] 刘宝英,杨仁刚. 基于主成分分析的最小二乘支持向量机短期负荷预测模型[J]. 电力设备自动化,2008,28(11): 13-17.
[13] 廖志伟,孙雅明. 基于数据挖掘模型的高压输电系统故障诊断[J]. 电力系统自动化,2001,25(15):15-19.
[14] 成永强. 基于数据挖掘的设备状态检修[D]. 北京: 华北电力大学,2005.
[15] 王师霜. 二次设备状态评价数据挖掘技术的研究与应用[D]. 北京: 华北电力大学,2013.
A method of power equipment state assessment based on data mining technique
Li Jin1,Gao Shou2
(1. Power Dispatching and Communication Center of CSG,Guangzhou 510663,China; 2. NARI Group Corporation (State Grid Electric Power Research Institute),Nanjing 210003,China)
To improve the accuracy and efficiency of the power equipment condition assessment,a method of power equipment state assessment based on data mining technique is proposed in this paper. The state evaluation model based on data mining is introduced. In this method,the power equipment on-line monitoring information,inventory information,and operation information are collected from equipment history database as the basis of evaluation of equipment parameters. These historical data are classified into different data sets for each data set,then the feature vector is extracted. The data mining technique is used to extract main feature vector as classification of equipment state evaluation. The method provides a new way of thinking for the equipment state evaluation.
data mining; principal component analysis; power equipment condition assessment
TP311
A
10.19358/j.issn.1674-7720.2017.24.021
李金,高寿.一种基于数据挖掘分析的设备状态评价方法J.微型机与应用,2017,36(24):72-75.
2017-05-19)
李金(1979-),男,硕士,高级工程师,主要研究方向:电力系统自动化。
高寿(1982-),男,硕士,工程师,主要研究方向:电力系统自动化。