APP下载

基于关联规则的一次风机故障预警方法研究

2016-11-11仝卫国

电力科学与工程 2016年10期
关键词:区间风机关联

高 瑜, 仝卫国

(华北电力大学 控制与计算机工程学院,河北保定071003)



基于关联规则的一次风机故障预警方法研究

高瑜, 仝卫国

(华北电力大学 控制与计算机工程学院,河北保定071003)

为了减少发电厂设备故障造成的损失和降低检修费用,基于DCS数据库中的大量运行数据,利用关联数据挖掘的方法发现一次风机各测量量之间隐藏的关系,建立关联规则库,通过当前运行数据与规则库的匹配程度,判断设备是否处于故障形成过程,从而达到故障预警的目的。实验结果表明,该方法能够在设备故障形成早期及时发现问题,提前报警,进而证明基于运行数据的关联规则,可以准确地反映一次风机各测量量之间的关系,并在故障预警中达到良好的效果。

电厂;数据挖掘;关联规则;故障;预警

0 引言

关联规则是指从大量的,看似没有关系的数据中发现潜藏在数据多个属性之间的相互关联或者某种规律,关联规则发现是数据挖掘中最重要的任务之一[1]。火电厂DCS数据库中蕴含着大量的机组运行数据,而这些数据中隐藏着大量不为人所知的知识,关联规则即是设备各测点之间隐含的耦合关系,当故障开始形成时,这种关系就逐渐被打破。据此,本文旨在运用数据挖掘的方法,发现蕴藏在大量数据中的关联规则,从而利用关联规则建立设备故障预警模型,并验证关联规则在设备预警中的有效性。DCS数据库中各测点均为数量型属性,本文采用CA算法将数量型属性划分成若干个优化的区间,从而达到将数量型属性离散化的目的[2],然后用经典的Apriori挖掘算法发现频繁项集并挖掘关联规则。再利用所挖掘出的关联规则建立预警模型,并验证本文所提出的预警方法的有效性。本文采集了某电厂1号一次风机的历史运行数据作为研究对象。

1 关联规则

布尔型关联规则″W⟹Z″的支持率定义为:

其中,Support(W∪Z)为数据库所有记录中包含W∪Z的记录个数,称为W∪Z的支持数;n为数据库的记录总条数。即支持率代表事物在所有记录中出现的频率。

布尔型关联规则″W⟹Z″的信任度定义为:

即信任度代表某事物在已经发生的事务中出现的条件概率。

满足给定的最小支持率(minSup)和最小信任度(minConf)条件的关联规则称为有意义的关联规则,关联规则的挖掘问题就是要从数据库的记录中找出有意义的关联规则。

Aprori算法是一种广度优先算法,用来产生频繁项集。通过对数据库T的多次扫描来发现所有的频繁属性集,在每一次扫描中只考虑包含相同属性个数的所有集合(含有k个属性的集合称为k-属性集)。在第1次扫描中,Apriori算法计算I中所有属性的支持度,生成所有1-频繁属性集L1;然后根据L1确定2-候选属性集的集合C2,从C2找出所有2-频繁属性集L2;然后再根据L2确定3-候选属性集的集合C3,从C3找出所有3-频繁属性集L3;如此下去直到不再有候选属性集产生。算法中采用任何非(k-1)-频繁属性集都不可能是k-频繁属性集的子集这样一个性质修剪候选属性集,有效地减少了候选集支持数的计算量,同时还引入散列树来有效地计算每个属性集的支持数[3]。

2 数据离散化

本文选取了某电厂1号一次风机20个测量量作为关联变量,从DCS数据库中导出该一次风机自2013年8月至2014年3月的历史记录,经数据预处理后将各测点采样间隔统一为5 s,选取其中5 000组运行数据组成待挖掘数据库,测量量信息及数据形式如表1、表2所示,都是连续型属性,如温度、压力、振动等。而Apriori算法针对的是离散型数据,要求每个测量量的取值是有限个,因此,需要将连续型属性离散化。当属性的取值连续变化时,将其划分为若干个区间,然后将每个区间映射为一个值,这样一个连续的量就变为有限个取值。为此,可以用聚类的方法将连续量划分为若干个区间,并要求这些区间能有效反应数据的实际分布情况。

2.1区间划分方法

聚类算法主要分为两大类:硬聚类与模糊聚类。硬聚类有层次凝聚算法、C-均值算法和球型C-均值算法等。模糊聚类算法有FCM算法、关系模糊C-均值算法(RFCM)、模糊竞争凝聚算法(CA)和FC-MDE算法等。

表1 测量量信息

表2 部分测量数据

C-均值和球型C-均值等硬聚类算法,是基于某一目标数据只能被划分到一个类而展开的。例如,C-均值算法可以根据数据的实际分布情况将连续型属性离散化成若干个区间,但C-均值算法的类个数是预先给定的,在迭代过程中不再改变,因此聚类个数依赖于人的经验。

本文采用模糊聚类算法将连续型属性划分成若干个优化的区间,CA算法(竞争凝聚算法)综合了分层聚类与划分聚类的优点,对于预先给定的不同类个数,能够随着迭代过程不断改变类的数目,一些竞争力差的类在迭代过程中不断消失,并最终得到能够有效地体现数据的实际分布情况的优化聚类个数,从而将连续型属性离散化成若干个优化的区间[4]。

2.2区间划分过程

CA算法将记录在连续型属性“一次风机A相电流”上的取值划分成c个区间:把“一次风机A相电流”的所有取值放在一起作为数据集Y,用CA算法对Y进行聚类,迭代过程中不断改变划分矩阵U和聚类中心,矩阵U中每一行的元素即是Y中的每一个取值分别在c个模糊集上的隶属度。根据最大隶属度原则将Y中的元素聚成c类,并取出类中最小、最大的值作为区间的左右端点,这样“一次风机A相电流”就被离散化为12个优化的区间。20个测点通过CA算法划分得到的优化区间个数分别为:9,5,9,20,16,12,9,11,20,11,5,7,7,9,15,13,11,10,20,13。

给每一个测量量对应的所有区间从小到大编号,例如“一次风机入口调节档板开度”的9个优化区间分别编号1-9,这样所采集到的“一次风机入口调节档板开度”每个数据就映射到这9个区间中,另外,鉴于数据挖掘的需要,20个测量量的区间要加以区分,故将20个测量量的序号体现在最终的待挖掘数据库中。例如,“一次风机入口调节档板开度”为55.66,即该值落在1号测量量“一次风机入口调节档板开度”的第4个区间,故将该数据记为104。同样,将20个测量量的数据全部转变为该种形式。

最终得到如表3所示的离散化数据库。

表3 离散化数据库

3 实验验证

3.1minSup与minConf的选取及规则库的建立

为了使挖掘出的规则准确地表达一次风机各测点之间的关系,minSup与minConf的选取是关键。本文采用匹配率作为评价在某一组minSup与minConf参数下关联规则的准确性的指标,并通过多组实验,找到一组最佳的minSup与minConf作为最终故障预警规则库的挖掘参数。

用5 000组训练数据与规则库进行匹配,匹配率mr=k1/k2×100%,其中k1为该组数据符合的关联规则总数,k2为只符合规则前件而不符合规则后件的规则数,mr即表示规则库对该组数据的适用性。mr越大,表示规则更正确地反映了该组数据各属性的内在联系。同理,用所有训练数据的匹配率均值mean来表达规则库对训练数据的平均匹配程度。同时,用各组数据匹配率的方差variance来表达规则库适用于训练数据的稳定程度,方差小即表示规则很好的覆盖所有运行数据,并且匹配率波动不是很大。

通过观察在不同minSup与minConf下均值与方差的变化,寻找一对最佳的minSup与minConf,作为挖掘算法的参数。实验结果如图1、图2所示。

图1 不同支持率下,匹配率均值与信任度的关系

由图1、图2,总体而言支持率数值越大、信任度越高,那么均值越大、方差越小,但支持率和信任度过大都会导致均值骤然降低、方差骤然升高。这是由于支持率和信任度过大导致规则数骤减,降低了规则库的覆盖率,也就是大量运行数据找不到与之相配的规则,反而使匹配率降低。支持率和信任度过小则会导致挖掘时间过长,且规则数过多,会拉低平均匹配率,也就是很多规则并不可信。另外,由于Apriori算法效率不高,需考虑挖掘过程的时间成本。表4为不同支持率下,寻找频繁项集所用时间,支持率越小时,用时越长。据此,本文选择minSup=2%,minConf=95%作为Apriori算法的参数。挖掘出的频繁项集共计14 089条,关联规则共计27 729条,部分频繁项集及关联规则形式如表5、表6所示。

支持率/支持数1%/502%/1003%/1504%/2005%/2506%/300时间/min>1000123261276

表5 部分频繁项集

表6 部分关联规则

对表5所列关联规则进行解释,例如第6条关联规则的意思是:如果1号测量量(一次风机入口调节档板开度)取值落在第1个区间([34.14,41.02]),11号测量量(一次风机后轴承温度2)取值落在第1个区间([28.96,31.96]),18号测量量(一次风机电动机定子线圈温度4)取值落在第1个区间([69.86,73.60]),那么15号测量量(一次风机电动机定子线圈温度1)取值落在第1个区间([73.24,77.29]),16号测量量取值落在第1个区间([72.88,78.48])的可能性为98.88%。

3.2规则库的有效性验证

由挖掘出的所有规则组成规则库,另外选取了风机在2014年7月的一次故障报警前共5 019组数据(经插值处理后各测量量时间间隔统一为5 s)进行规则库的有效性验证。为了避免因不确定因素及随机干扰导致的实时数据偏离正常值,而产生误报警,本文采用滑动窗口的统计方法。设窗口宽度为20,即把包括当前匹配率在内的前20组数据的匹配率取均值,作为当前的匹配率。在实验中,预警阈值选为80%。实验结果如图3。

图3 实验结果

由图3,当运行数据与规则库的匹配率降至80%时即发生报警,较原有系统超限报警时间提前约2.5 h,有效地起到了预警作用。

4 结论

故障往往是一个逐渐发生的过程,在故障早期,各测点值虽均未超限,但实际上设备各测点之间原有的关系正在被逐渐打破,不断恶化。关联规则即是设备在正常状态下各测点之间关系的体现,在故障形成的过程中,原本的关联规则对当前运行数据的适用性逐渐降低,直至低于阈值,发生报警。通过实验,验证了关联规则在故障预警过程中的有效性,且该预警方法不依赖于任何有关设备的先验知识,完全依靠历史数据即可方便地建立设备的“预警模型”——关联规则库。当各参数选择恰当,该规则库能够准确地体现设备的正常状态,故具备良好的预警效果。

[1]王凤良, 富学斌, 许志铭.发电厂一次风机异常振动故障诊断及处理[J].风机技术,2014(3):88-92.

[2]崔建,李强,吴瑕.大型数据库的模糊关联规则挖掘算法研究[J].计算机工程与设计,2011(10):3424-3427.

[3]郭康维.基于相似性建模的锅炉一次风机故障预警研究[D].保定:华北电力大学,2014.

[4]郭嘉美.模糊关联规则挖掘及在工业数据中的应用[D].郑州:郑州大学,2014.

[5]陆建江.模糊关联规则的研究与应用[M].北京:科学出版社,2008.

[6]高明.火电厂送风机故障预警系统的研究[D].保定:华北电力大学,2013.

[7]杨锡运,郭鹏,岳俊红. 风力发电机组故障诊断技术[M]. 北京:中国水利水电出版社,2015.

[8]朱彦廷.连续属性的关联规则挖掘[J].华中师范大学学报(自然科学版), 2013,47(2):178-180.

[9]鲁绪阁,范云霄,钱抗抗.设备故障诊断技术综述及其发展趋势阴[J].矿山机械,2008,35(12):15-18.

[10]SIMON J W,XIANG B J,YANG W X.Condition monitoring of the power output of wind turbine generators using wavelets[J].IEEE Transactions on Energy Conversion,2010,25(3):715-721.

[11]AGRAWAL R, INIELINSKI T,SWAMI A. Database mining:A performance perspective[J].IEEE Transactions on Knowledge and Data Engineering, 1993, 5(6):914-925.

[12]周子煜,文丽书.数据挖掘技术与关联规则挖掘算法探讨[J]. 电子技术与软件工程,2016(14):27-29.

Research of Method to Failure Prognostic of Primary Air Fan Based on Association Rules

GAO Yu,TONG Weiguo

(School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China)

Aiming at reducing the loss and cost caused by equipment failure, by using the method of data mining to find the hidden relationships among each measuring point of primary air fan, a collection of association rules basing on mass DCS operation data in the database are established. By judging the matching degree of the running current data with the rule base, the primary air fan state is analyzed and judged so as to achieve a goal of prognostic. The experimental results show that this method is able to find the problem and give an alarm in time. And then it proves that association rules based on the operation data can accurately reflect the relationship between each measuring point of the fan, and achieve good results in the early prognostic.

power plant; data mining; association rules; failure; prognostic

2016-05-31。

高瑜(1990-),男,硕士研究生,主要从事数据挖掘与故障预警方面的研究,E-mail:285640220@qq.com。

TM614

ADOI:10.3969/j.issn.1672-0792.2016.10.007

猜你喜欢

区间风机关联
解两类含参数的复合不等式有解与恒成立问题
你学会“区间测速”了吗
“一带一路”递进,关联民生更紧
风机折翼“倒春寒”
奇趣搭配
风机倒塔事故为何频发?
智趣
节能技术EPU在AV71风机上的应用
区间对象族的可镇定性分析
TS3000系统防喘振控制在 AV80-14风机中的应用