APP下载

电力网络DCS数据库中的过负荷数据挖掘方法研究

2015-10-26王远敏

电网与清洁能源 2015年11期
关键词:决策树特征提取数据挖掘

王远敏

(贵州省兴义民族师范学院,贵州兴义 562400)

电力网络DCS数据库中的过负荷数据挖掘方法研究

王远敏

(贵州省兴义民族师范学院,贵州兴义562400)

电力网络中的分散控制系统(distributed control systems,DCS)数据库中寄存有海量的电力数据,进行电力系统智能调度和控制。对电力网络DCS数据库中的过负荷数据的有效挖掘是实现电力网络系统过载保护的关键环节。当前对DCS数据库的过负荷数据挖掘采用基于决策树特征分类方法进行特征提取和挖掘实现,在过负荷数据序列的广域子空间中产生大量干扰噪声,挖掘算法的置信度较低。提出一种基于经验模态分解和决策树分类结合的电力网络DCS数据库中的过负荷数据挖掘方法。构建了电力网络的DCS数据库结构模型,在DCS数据库中进行数据流信号模型构建,采用经验模态分解算法对数据信号流进行固有模态时频特征提取,以此特征为基础,采用决策树分类算法实现过负荷数据的准确检测和挖掘。仿真结果表明,采用该算法能有效实现对电力网络DCS数据库中的过负荷数据的特征提取和分类挖掘,误码率较低,性能优越于传统算法。

电力网络;分散控制系统;数据库;数据挖掘

电力网络DCS数据库在煤电厂、火电厂和水利发电厂的发电和供电数据管理中具有广泛的应用。电力网络DCS数据库中寄存了海量的电力数据,其中包括了电网功耗数据、电压数据、用户信息数据以及电网功率数据等,对电力网络DCS数据库中的过负荷数据进行准确有效的挖掘,确保电网安全稳定运行[1]。

电力网络分散控制数据库采用冗余配置和诊断模件集合的方式构成,具有高度的可靠性,DCS数据库支持多种现场总线标准,底层汉化的软件平台具备强大的处理功能,电力网络DCS数据库实现了核电、火电、热电、石化等电网数据的完整监控管理,由于DCS数据库的规模庞大,系统构成复杂,对DCS数据库中的过负荷数据的挖掘具有一定的难度[2],传统方法中对DCS数据库中的过负荷数据挖掘的方法主要有神经网络控制算法、语义特征提取算法、支持向量机数据挖掘算法和时频特征分析算法等,以数据库中的过负荷数据的特征提取方法实现数据挖掘成为未来发展的主要趋势[3],并取得了一定的研究成果,其中,文献[4]提出一种功率谱特征提取的电网数据库的异常数据挖掘算法,实现要有现场控制站(I/O站)构建和数据通信,提高了数据性能,但该算法需要对电网数据库的过负荷数据进行分级管理和调度,增大了计算的复杂性,在干扰环境下的过负荷检测性能不高。文献[5]中,对DCS数据库的过负荷数据挖掘采用基于决策树特征分类方法进行特征提取和挖掘实现,在过负荷数据序列的广域子空间中产生大量干扰噪声,挖掘算法的置信度较低[6-9]。

1 电力网络DCS数据库结构及数据信息流分析

1.1电力网络DCS数据库结构

首先构建电力网络DCS数据库结构模型,电力网络DCS数据库是一个由过程控制级和过程监控级组成级联数据库。电力网络的DCS数据库主要由数据通讯系统、人机接口单元(操作员站OPS、工程师站ENS)、机柜、电源等组成。电力网络的DCS数据库工作结构示意图如图1所示。

电力网络的DCS数据库具备开放的体系结构,具有全网络节点查询能力,可以提供多层开放数据接口。DCS数据库提供方便的组态连接查询能力,与用户自主开发专用高级控制算法结合实现数据管理和调度。

图1 电力网络的DCS数据库工作结构Fig.1 DCS database working structure of the power network

在上述描述了电力网络的DCS数据库工作结构和基本特性的基础上,给出DCS数据库的数据结构及存储模型。对电力网络DCS数据库进行过负荷数据挖掘,根本上来说是对数据库中的异常数据信息进行特征处理的过程,DCS数据库的数据结构模型状态方程描述为:

令A={a1,a2,…,an}为电力网络DCS数据库信息流功率复杂关联规则的属性集,B={b1,b2,…,bm}为过负荷数据挖掘属性类别集,ai的属性值为{c1,c2,…,ck},电力网络DCS数据库体系结构采用动态散列的混合型级联方式进行数据控制,采用一个连通的无向图G=(V,E,W)表示过程监控级,其中V为DCS数据库任何两个节点的关联特征集合,其中V={v1,v2,…,vN},所有级联数据节点都有相同的数据容量r,过负荷数据关联规则矢量模型的边(u,v)∈E,表示电力网络DCS数据库中词频特征之间的关系,W={ω1,ω2,…,ωm}边的权值集合。基于Takens嵌入定理,结合相空间重构算法,采用合适的冗余配置得到电力网络DCS数据库高维数据结构空间为:

式中:x(t)为电力网络DCS数据库信息流时间序列;J为相空间的时间窗函数;m为DCS数据的信息流嵌入维数;Δt为过负荷数据的采样时间滑动窗口宽度。在高维相空间中对电力网络数据库的负荷数据进行特征分析和提取,实现数据挖掘。

1.2数据流信号模型构建

在上述进行电力网络DCS数据库结构分析和DCS数据库高维数据结构空间构建的基础上,在高维相空间中进行电力网络DCS数据库的数据信息流信号模型构建,然后采用信号处理算法实现特征提取和数据挖掘。

1960年代,美国心理学家蒂莫西·利里宣称:“解放自己,调转方向,退出体制。”为此,他号召服用致幻剂。我们也的确因此而看到了很多“画得不像自己老师”的所谓现代艺术家。但是,不要忘记,他们的“不像”里,有着害人的致幻剂成分。

假设电力网络DCS数据库过负荷数据信息流是一组线性调频信号,信号的时间序列函数为:

式中:t为数据采样时间点;x(t)为号幅度信息;τ为时延参数;P为能量密度谱。对电力网络数据库中的数据流信号x(t)的进行短时傅里叶变换,定义为:

式中:h*(τ-t)为时傅里叶变换的系统状态函数,它的实质是加了窗的傅里叶变换。计算电力网络的DCS数据库信号模型的短时傅里叶变换对应的能量密度谱:

式中:f为数据采样频率;|.|表示去欧式距离,通过对短时傅里叶变换对应的能量密度谱计算,正确反映频率与时间变化的关系。根据Heisenberg测不准原理,计算数据信息流的时频分辨率,进一步提高对低频段过负荷数据的挖掘性能,数据信息流的时频分辨率计算公式为:

式中:x(t)为可调窗口的平方可积函数;ψ(t)为Heisenberg基小波函数,参数a和τ有关。通过在信号上加一个变尺度滑移窗来实现对信号频谱上的不同频率成分的特征分析,通过上述处理进行DCS数据库的数据信息流信号模型构建,为进行下一步的特征提取和数据挖掘提供信号输入源函数。

2 过负荷数据挖掘实现

2.1经验模态分解及过负荷数据的特征提取

在DCS数据库中进行数据流信号模型构建和数据库的数据结构分析的基础上,进行过负荷数据挖掘优化设计,分析传统方法可见,当前对DCS数据库的过负荷数据挖掘采用基于决策树特征分类方法进行特征提取和挖掘实现,在过负荷数据序列的广域子空间中产生大量干扰噪声,挖掘算法的置信度较低。为了克服传统算法的弊端,本文提出一种基于经验模态分解(Empirical mode decomposition,EMD)和决策树分类结合的电力网络DCS数据库中的过负荷数据挖掘方法。EMD方法能够直观地显示分解信号所得的若干IMF分量,计算电力网络DCS数据库过负荷数据局部特征时间尺度为:

式中:ykj为数据阵元矢量;N为数据长度,对任意过负荷数据信号x(t),本文采用经验模态分解得到过负荷数据的包络特征为:

式中:a(t)和θ(t)分别为电力网络DCS数据库过负荷数据信息流的HHT频谱包络和相位,对DCS数据库过负荷数据的包络矢量z(t)实行高斯离散采样,经过“筛分”过程,使用EMD方法将信号进行分解,得到对高频分量为:

式中:z(t)为DCS数据库过负荷数据信号的IMF分量;x(t)为DCS数据库过负荷数据的幅度调制实部;y(t)为小波分解尺度,对x(t)与1/t进行经验模态分解卷积,固定频率段的时域波形,得到EMD后的过负荷数据信号x(t)的第n个行固有模态时频特征IMF分量有:

式中:rn为固有模态时频特征的残余信号;IMF分量为cn,弱残余信号rn的幅值非常小,当该值小于预先设定好的值,那么提取的固有模态时频特征即为过负荷数据的信息特征,以此实现数据挖掘。

2.2决策树数据分类

在上述特征提取的基础上,利用训练集建立决策树模型,引入C4.5决策树模型进行过负荷数据分类挖掘,电力网络DCS数据库过负荷数据决策树分类模型如图2所示。常见的数据分类器有BP神经网络分类器、贝叶斯分类器、SVM分类器,而传统的分类器进行过负荷数据分类中,由于在高维相空间中产生大量干扰噪声,分类算法的置信度较低,本文采用决策树模型更有利于电力网络DCS数据库过负荷数据的挖掘和分类。电力网络DCS数据库过负荷数据决策树分类模型如图2所示。

图2中,电力网络DCS数据库的过负荷测试数据集进行8次决策树数据测试,得到过负荷数据固有模态时频特征的主特征决策树分叉图,跟踪属性取值{0,1}映射到决策树中表现为映射值{No,Yes},采用Weka系统默认值推荐实验参数,电力网络DCS数据库的过负荷数据的固有模态时频特征设置类型设置为164类,提取的主特征类型为19类,产生数据伴随状态序列集,分类过程中过负荷数据出现的概率权重为:

式中:β为数据干扰频率;w(epkq)初步的数据筛选后的特征输出,最后得到DCS数据库过负荷数据的挖掘的判别函数为:

式中:α为决策树类别调节系数;W为电力网络DCS数据库的过负荷数据固有模态特征的二叉树分裂类间距离,其取值范围为0≤α≤1。由此实现数据挖掘算法改进。

图2 电力网络DCS数据库过负荷数据决策树分类模型Fig.2 Decision tree classification model of power network DCS database overload data

3 仿真实验与性能验证

为了验证本文算法在实现电力网络DCS数据库的过负荷数据挖掘中的性能,进行仿真实验。仿真实验的软件环境建立在Matlab仿真软件基础上,硬件环境为:IntelCore3-530 1G内存,操作系统为Windows 7。构建电力网络DCS数据库模型,过负荷数据的信号模型表型为一组频带为5~15 kHz、时宽为6 ms的线性调频信号,电力网络DCS数据库体系结构采用动态散列的混合型级联方式进行数据控制,假设DCS数据库信息流矢量长度为N,N=1 024,对电力网络DCS数据库信息流序列连续数据集属性离散化处理,以此为基础构建DCS数据库高维数据结构空间,相空间重构中,时间窗函数J取值为12 s,嵌入维数m取值为4,时间窗口带宽Δt=3 ms。在上述仿真环境和参数设定的基础上,根据电力网络DCS数据库过负荷数据的信号模型偏移程度分析,得到电力网络DCS数据库过负荷数据的经验模态分解EMD结果如图3所示。

图3 电力网络DCS数据库过负荷数据的经验模态分解结果Fig.3 Empirical mode decomposition results of DCS power network database overload data

根据图3中所示的各层EMD分解结果,对数据信号流进行固有模态时频特征提取,得出弱残余信号即为过负荷数据,得到过负荷数据挖掘结果如图4所示。

图4 DCS数据库过负荷数据挖掘结果Fig.4 DCS database overload data mining results

图4中,虚线部分数据序列表示进行经验模态分解和固有模态时频特征提取处理后的残余分量数据,即为本文需要挖掘的过负荷数据,从仿真结果可见,采用本文算法能有效实现对DCS数据库过负荷数据挖掘,为了定量分析本文算法的挖掘性能。采用本文算法进行固有模态时频特征提取挖掘处理后,采用决策树分类器对挖掘数据进行分类,并和传统方法进行对比,C4.5决策树分类下过负荷数据挖的误码率(Bit error rate,BER)对比结果如图5所示,从图5可见,采用本文算法,误码率较低,挖掘精度较高。

4 结语

对电力网络DCS数据库中的过负荷数据的有效挖掘是实现电力网络系统的过载保护的关键环节。当前对DCS数据库的过负荷数据挖掘采用基于决策树特征分类方法进行特征提取和挖掘实现,在过负荷数据序列的广域子空间中产生大量干扰噪声,挖掘算法的置信度较低。提出一种基于经验模态分解和决策树分类结合的电力网络DCS数据库中的过负荷数据挖掘方法。构建了电力网络的DCS数据库结构模型,在DCS数据库中进行数据流信号模型构建,采用经验模态分解算法对数据信号流进行固有模态时频特征提取,以此特征为基础,采用决策树分类算法实现过负荷数据的准确检测和挖掘,研究结果证明,采用本文算法对DCS数据库中的过负荷数据挖掘性能较好,误码率较低,特征分类精度较高,展示了优越性能。

图5 C4.5决策树分类下过负荷数据挖的误码率Fig.5 Bit error rate of the overload data mining under the C4.5 decision tree classification

[1]王曙燕,耿国华,李丙春.决策树算法在医学图像数据挖掘中的应用[J].西北大学学报:自然科学版,2005,35(3):262-265.WANG Shuyan,GENG Guohua,LI Bingchun.The application of decision tree algorithm in medical image data mining[J].Joumal of Norlhwest Universily:Nalural Seience Edlition,2005,35(3):262-265(in Chinese).

[2]饶翔,王怀民,陈振邦,等.云计算系统中基于伴随状态追踪的故障检测机制[J].计算机学报,2012,35(5):856-870.RAO Xiang,WANG Huaimin,CHEN Zhenbang,et al.Detecting faults by tracing companion states in cloud computing systems[J].Chinese Journal of Computers,2012,35(5):856-870(in Chinese).

[3]孔英会,车辚辚,苑津莎,等.基于小波分解和数据挖掘中决策树算法的电能质量扰动识别方法[J].电网技术,2007,31(23):78-82.KONG Yinghui,CHE Linlin,YUAN Jinsha,et al.A power quality disturbance identification method based on wavelet decomposition and decision tree algorithm in data mining[J].Power System Technology,2007,31(23):78-82(in Chinese).

[4]李红升.基于粒子群算法改进电力信息系统的安全研究[J].科技通报,2013,29(4):158-161.LI Hongsheng.Study on improvement of power information system security based on particle swarm optimization algorithm[J].Bulletin of Science and Technology,2013,29(4):158-161(in Chinese).

[5]郭丽.面向PID电力系统信息安全自动控制研究[J].科技通报,2013,29(2):39-41.GUO Li.PID oriented information security in power system automatic control research[J].Bulletin of Science and Technology,2013,29(2):39-41(in Chinese).

[6]杨来,史忠植,梁帆,等.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(5):936-944.YANG Lai,SHI Zhongzhi,LIANG Fan,et al.Parallcl approach in data mining bascd on hadoop cloud platform[J].Journal of System Simulation,2013,25(5):936-944(in Chinese).

[7]张国良,姚二亮,汤文俊,等.一种自适应的GraphSLAM鲁棒闭环算法[J].信息与控制,2015,44(3):316-320,327.ZHANG Guoliang,YAO Erliang,TANG Wenjun,et al.AN adaptive robust loop closure algorithm for graph SLAM[J].Information and Control,2015,44(3):316-320,327(in Chinese).

[8]王进,阳小龙,隆克平.基于大偏差统计模型的Http-Flood DDoS检测机制及性能分析[J].软件学报,2012,23(5):1272-1280.WANG Jin,YANG Xiaolong,LONG Keping.Http-Flood DDoS detection scheme based on large deviation and performance analysis[J].Journal of Software,2012,23(5):1272-1280(in Chinese).

[9]郑海雁,王远方.标签集约束近似频繁模式的并行挖掘[J].计算机工程与应用,2015,51(9):135-141.ZHENG Haiyan,WANG Yuanfang.Parallel mining on label-constraint proximity pattern[J].Computer EngineeringandApplications,2015,51(9):135-141(in Chinese).

Research on Overload Data Mining Method in Power Network DCS Database

WANG Yuanmin
(Guizhou Xingyi Normal University for Nationalities,Xingyi 562400,Guizhou,China)

A mass of power data is stored in the distributed control system(distributed control systems,DCS)database of the power network for the intelligent scheduling and control of the power system.The effective mining of the overload data in the DCS database is a key link in the realization of the overload protection of the electric power network system.At present,the overload date in the DCS database is mined based on the decision tree feature classification method to extract features and realize mining,and this method produces a lot noise in the wide area subspace of the overload data sequence,therefore the mining algorithm is of low confidence.To this end,a method of data mining based on combination of the empirical mode decomposition and decision tree classification is proposed in this paper.The DCS database structure model of the power network is built and the data flow signal model is built in the DCS database,and the intrinsic mode time-frequency feature are extracted in the data signal flow using the empirical mode decomposition algorithm.On the basis of the extracted feature,the accurate defection and mining of the overload data are realized using the decision tree classification algorithm.The simulation results show that the proposed algorithm can effectively extract and classify the overload data in the DCS database of the power network,and the error rate is low,and the performance is superior to the traditional algorithm.

power network;distributed control system;database;data mining

1674-3814(2015)11-0036-05

TP391

A

2015-06-08。

王远敏(1982—),女,讲师,研究方向为计算机应用技术。

(编辑徐花荣)

《贵阳交通智能控制与诱导技术研究》(黔科合J字[2013]2456)。

Project Supported by“Research on Guiyang Intelligent Control and Induction Technology”of Science and Technology Fund of Guizhou Province(J[2013]2456).

猜你喜欢

决策树特征提取数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
Bagging RCSP脑电特征提取算法
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用