基于数据挖掘的电站运行参数目标值优化

2015-04-05王秋平陈志强

电力科学与工程 2015年7期

关键词：约简数据挖掘电站

王秋平，陈志强，魏浩

(东北电力大学自动化学院，吉林吉林132012)

基于数据挖掘的电站运行参数目标值优化

王秋平，陈志强，魏浩

(东北电力大学自动化学院，吉林吉林132012)

为提高电站经济性和机组运行效率，降低机组发电煤耗，求取电站机组运行参数最优值是关键技术。以往通过理论计算得到最优运行参数值是在设定的理想环境下得到的，在实际的电站运行过程中难以实现。而数据挖掘算法是从电站自身的历史数据中得到的最优运行参数值，电站机组能够很容易在实际运行中实现该值。通过对比近年来电站常用数据挖掘算法，总结出基于数据挖掘的电站优化运行的主要步骤为关联规则、数据离散化、运行工况划分、粗糙集知识约减。得出以下结论：模糊关联规则挖掘算法是电站数据挖掘中的最主要方法，能够适用于大多数的电站优化目标值挖掘；模糊聚类离散化能够克服边界划分过硬的问题，将电站中的连接参数离散化；粗糙集属性约减能够有效降低数据挖掘的参数维度，提高挖掘效率。同时指出基于数据挖掘的电站优化运行算法将成为电站运行参数优化的主要研究方向。

关联规则；数据离散化；工况划分；知识约简

0 引言

为了保证电厂的经济性，电站机组应尽量维持在最优的工况下运行。然而在实际的运行中，由于外界负荷、煤质以及运行人员的操作等因素常常使得机组偏离最佳工况运行，造成了一定的经济损失。为了维持机组在较优的状况下运行，迫切需要针对不同的外界工况挖掘出机组所能达到的最优运行状态以及最优运行状态下各个可调参数最优运行范围，以此来指导电厂的实际运行。目前普遍是采用数据挖掘算法，从电厂海量的历史数据中挖掘出电站机组在不同的工况条件下达到过的最优值。数据挖掘算法得到的结果虽然可能不是机组理论上的最优值，但却是机组最容易达到的最优值，比起理论最优值更具有实际意义[1]。在电站的数据挖掘参数最优目标值的过程中，广泛应用的数据挖掘方法包括关联规则、数据离散化、工况划分等。

本文综述了近年来采用数据挖掘算法确定电站运行参数优化目标值过程中重要步骤所使用的各类方法，如关联规则、粗糙集约简、工况划分、数据离散化、数据预处理等。

1 电站运行参数目标值优化

火电厂运行的经济性受到多种因素的影响，其中主要有机组负荷、使用的煤质、外界的环境条件以及运行人员的运行操作水平。火电厂运行参数最优目标值反映的是机组不同运行工况条件下，所能达到的最佳运行时的各个可调参数的值，是机组经济性和优化运行的基础。

数据挖掘电站优化目标值是从电站海量的历史运行数据中，通过一定的挖掘算法，挖掘出电站在不同工况下的运行最优值。由于该值是电站的历史记录，所以是运行优化最容易实现的，与传统理论计算方法得到的最优值相比，数据挖掘得到的优化目标值更有实际应用的意义。

目前，通过数据挖掘算法来获取电厂优化目标值的基本流程步骤如图1。

图1 优化目标值获取流程

2 关联规则在电站优化中的应用

关联规则挖掘算法[2]是电站优化目标值挖掘的基础，但传统的关联规则并不能直接应用在电站中，需要对传统关联算法进行改进，常见的应用在电站优化目标值挖掘的改进关联算法如下所述。

2.1 量化关联规则数据挖掘在优化中的应用

Apriori关联规则是最经典的数据挖掘算法，最初是用于描述二进制数据的，对于电厂的连续数据无法适用，因此研究人员提出了量化关联规则算法。

量化关联规则是将连续型数据进行区间划分，即将需要量化的数据划分成不同小区间，每个区间用一个不同符号表示，连续数据属于划分的区间内表示为1，否则为0。这样将连续数据离散化为布尔型数据。然后，再采用布尔型关联规则挖掘算法寻找量化规则。量化关联规则简单易于理解应用，能够将电站中的连续运行参数通过简单的区间划分转换为一个个离散的二进制数据，再利用成熟的Apriori算法，实现电站对连续型参数的数据挖掘。

2.2 模糊量化关联规则在优化中应用

量化关联规则中的数据离散化直接将属于某一个区间内的数据完全划分到该区间内，得到的离散化数据有两个缺点：(1)划分区间的边界过硬；(2)处理具有较高偏度的数据时很难体现出数据的实际分布状况，在划分边界处得到的关联规则不够准确。模糊关联规则的挖掘方法能够解决这两个问题。

模糊关联规则挖掘算法，是将Apriori算法扩展到模糊属性事务中，用模糊集将各个划分好的属性区间进行模糊离散化，得到离散化的数据[3]。模糊离散化中利用边界交织在一起的隶属度函数求取各个连续模糊区间的隶属度值。用隶属度的权值w来代替Apriori的频繁项集的支持度s。之后采用与Apriori类似的算法，删除小于minSup和minConf的项，得到满足最小支持度和最小可信度的关联规则。其中的归一化处理为公式(1)；模糊化处理为公式(2)；权值求取为公式(3)。

(1)

式中：v(i)为记录中的各个真实值。

(2)

式中：Rjk为项目tij的第k个模糊区分；ui(Rjk)为分区Rjk上的隶属度值。

隶属度的权值：

(3)

模糊关联规则解决了数量型关联规则边界过硬和数据偏差大的问题，同时拓宽了传统确定性关联规则的表示应用的方法。利用模糊关联规则表示属性间的关系，更符合人的思维习惯和推理方式，目前模糊关联规则挖掘常常应用在锅炉运行时过量空气系数、排烟温度、排烟氧量等参数的确定。

2.3 增量数据挖掘在运行优化中的应用

实际运行的电厂数据库并不是静态的。当数据库发生变化时，已经挖掘出的规则可能不再适用，因此关联规则需要经常进行维护。采用重新挖掘的维护方式费时费力，因此有学者提出增量式挖掘算法实现更新和原有挖掘规则的维护。针对电站连续数据，牛成林在模糊量化关联规则关联规则的基础上提出了改进的增量式模糊数值型关联规则挖掘算法[4]。

增量式数据挖掘运行优化目标值的基本方法为：首先将数据归一化和模糊离散化，然后计算各个模糊集合的权值，接着利用增量数据挖掘的性质：频繁项的子集也是频繁的；不频繁项的超集也是不频繁的挖掘更新后的频繁项集，最后再通过频繁项集构造关联规则，得到更新数据库后的新的关联规则，其中利用性质更新关联规则是增量挖掘的新颖之处。

增量式关联规则挖掘充分利用原有的挖掘结果，能够避免重复挖掘，提高挖掘效率,常应用在电站氧量最优值的确定上[5]。

2.4 基于动态数据流在优化中应用

增量数据挖掘技术进行挖掘解决了数据库更新后运行优化目标值的增量更新问题。但机组的实际运行的状态与历史数据得来的目标值仍有时间延迟，运行优化目标值无法实现实时更新。基于动态数据的运行优化方法能应对此类问题。

动态数据挖掘的基本思想是：将数据流分割成若干个固定大小的批，计算出每批数据集中各个项的支持度技术，然后采用类似FP-Stream算法加入大于最小支持度和最小可信度的各个项，对FP-stream进行更新。

动态数据挖掘的方法通过加大增量挖掘的频度，解决了挖掘结果与实际运行结果有“时间差”导致的挖掘出的结果偏离当前状态“较远”，挖掘结果不可用的问题。与传统的基于静态历史数据的增量数据挖掘方法相比，该方法在时间响应上更具有优势，目前用该方法研究电站最经济煤种决策[6]。

3 电站关联规则应用的优化技术

关联规则是电站优化目标值确定最为基本的理论，但仅依靠关联规则无法充分挖掘出优化目标值，因此，需要其他理论方法为关联规则的使用提供支持。其中主要包括数据预处理、数据离散化、工况划分、知识约简等重要步骤。

3.1 数据预处理

数据收集是针对不同的优化目标，从DCS中选取出对优化目标有影响的各个参数的历史数据。参数的选取可以通过对锅炉的热平衡公式进行确定。如优化目标是锅炉的燃烧效率，此时就可以选择过量空气系数、风煤比、外界负荷、排烟温度等参数作为需要收集的数据。

由于电站现场有电磁干扰、设备或传感器故障等原因，电站记录的真实数据包含有许多噪声、空缺、奇异等数据，使数据挖掘挖掘过程中面对大量的不统一和存在错误的数据，因此，数据预处理是数据挖掘中必备可少的步骤。数据预处理的过程主要包括数据清理、数据转换、数据规约[6，7]。

3.2 数据离散化

电厂中的参数大多是连续的数值型数据，对数值型数据进行关联挖掘，需要先将连续数值转换为离散值，再用类似布尔型关联规则进行挖掘[8]。目前电站常用离散化方法主要有等宽度法、等频率法和聚类算法等。

(1)等宽度划分离散化。等宽度法将属性的值域划分成具有相同宽度的区间，使得每个区间大致包含相同数目的样本，然后用一个符号来表示这段区间(常用区间中心值)。离散区间的个数k由用户指定，由于区间大小对后期使用关联规则挖掘结果影响很大，一般要求离散化区间不能过大或过小，且要有较好的离散化效果。区间划分必须在挖掘过程中不断摸索改进[9]。

等宽度离散化算法简单，占用时间少，可以依据经验人为设定离散区间[10]。但对于区间存在偏斜极为严重的点非常不准确。

(2)等频率离散化。等频区间离散化法与等宽度离散化方法类似，也是将数值属性的值域划分为K个小区间，不同的是等频区间法要求每个区间的样本数目相等[11]，其性能和特点也和等宽度离散化相类似。

(3)K-means聚类离散化。K-means聚类是一种基于划分的聚类算法，简单地将数据对象划分成不重叠的子集，使得每个数据对象恰好在一个子集中。每个簇的平均值代表这一段数据，以此将这一段数据离散化。

对于电站的大数据集，如果数据是分布较为均匀的，这样划分的结果簇是密集的，且簇与簇之间的划分是明显的。K-means算法具有相对可伸缩性和高效性，常应用在机组负荷和煤质的自然工况划分上。

(4)模糊聚类离散化。以上的划分都是一种硬划分，将某个对象严格划分到某个类中，具有非此即彼的性质。然而对于实际的电站运行参数，它们的数值并没有严格的类划分，在类属性的方面具有亦此亦彼的中介性，研究人员引入模糊集理论来解决划分过硬的问题。

电厂模糊离散化中，最为常用的方法是模糊C均值聚类算法(FCM, Fuzzy C-Means)。该算法中，各个样本不是被唯一的划分到某一类中，而是以不同的隶属度划分到各个类别，将各个类的隶属度扩展到[0,1]，用[0,1]中的数值表示该记录属于不同的类，有效解决了数据划分过硬的问题。

3.3 工况划分

火电机组运行效率会受到许多外界条件影响，这些外界条件人为难以改变，称之为工况。工况的变动会造成机组运行参数和相应指标的变动。火电机组在不同工况下运行特性差异性很大，对应的最优值也是不同的[12]。因此，数据挖掘电站优化目标值之前需要对机组运行工况进行划分，目前工况具有以下几种划分方法。

(1)单一外界负荷工况的划分。电站机组的设计一般都是根据额定负荷进行的，因此机组在额定负荷下经济性最好。负荷的变化会引起许多运行参数偏离基准值，引起机组相应性能的变化[13]。因此，负荷作为工况的划分的方法是选择机组比较常见典型负荷作为机组的工况划分,如将50%，80%，90%，100%等负荷划分为独立工况。

(2)多外界条件的人工划分。外界负荷并不是唯一的影响机组运行效率的不可控条件，煤质和外界环境温度对机组的运行效率也是十分重要的外界因素。于是研究人员使用等宽度法将煤质系数[14]、外界环境温度、负荷分别进行均匀的区间划分。各个划分后的参数区间组合起来定义为不同的工况，每个工况用一个单独的符号表示。

(3)多因素自然工况划分。电厂的典型负荷不一定是其常见的运行工况，煤质用等宽度的方法直接进行划分也缺乏科学性，因此引入了自然工况划分方法，采用聚类算法中K-means算法将负荷和煤质进行自然划分。而对于变化缓慢的外界环境温度仍采用等宽度法进行划分。其中K-means算法的公式为：

(4)

式中：E为数据库中所有对象与相应簇的质心的距离之和；p为对象空间中的一个点；mi为簇的算数平均值。

(4)改进K均值聚类算法的工况划分。传统K-means算法需要首先指定构造的簇数K，而没有可靠方法判断K值是否选取的正确；K-means同时对初值敏感，初始值选取不当可能使结果陷入局部最优解的缺点。文献[15]提出了一种采用均值标准差的方法确定初始聚类中心，通过评价函数自适应调整值改进K均值聚类算法，解决了初值敏感问题；文献[16]提出了一种SOM神经网络改进K均值算法相结合的双层聚类算法，利用SOM神经网络将大量实时数据进行压缩，再利用改进K均值聚类算法将神经元聚类。SOM神经网络改进K均值算法改善了K-means的处理离散点时导致的分类增加问题，降低了数据聚类的计算量，从而降低了运算的时间。

总之，单一的负荷划分简单、高效，有一定的实际应用依据，但划分方法太过粗糙，不能够满足全工况节能优化运行、AGC约束变化[17]。多因素人工划分对于工况的划分更为细致准确，但人为确定负荷和煤质的划分宽度，缺乏科学依据。自然工况划分，遵循了机组运行工况的自然分布规律，考虑了不同电厂运行的客观规律，划分方法物理意义明确其易于工程实现。改进k-means方法具有更高的分类准确率及更强的无监督自学习能力，能契合实际生产规律。

3.4 属性约简

在优化过程中通常会选取一些决策属性显示机组的经济性，如锅炉效率、发电煤耗等。电站中的许多参数对决策参数都有影响，但每个参数影响程度大小不同，如果把每个有影响的参数都纳入到挖掘的对象中，会使得挖掘效率变得极低。因此，需要引入一种方法来降低挖掘的维数。目前应用的较多的属性约简方法如下：

(1)粗糙集属性约简。粗糙集理论的主要思想是在保持分类能力不变的前提下，通过知识约简，得到问题的决策或分类规则；而在优化目标值确定的过程中应用粗糙集，是在保持条件属性相对于决策属性的分类能力不变的情况下，删除其中不必要或不重要的属性[18]。这里主要介绍基于区分矩阵的约简算法。

区分矩阵[19]由Showron提出。区分矩阵约简首先构建出一个差别矩阵，然后通过差别矩阵计计算出各个参数集合的区分函数，区分函数值小的集合将会被舍弃掉，最终保留下较少的区分函数大的集合，这些集合就是约简后的参数集合。

区分矩阵的约简算法清晰简单，但对于有较多影响因素的参数集合，该算法的区分函数庞大，计算复杂。对于改进的基于区分矩阵的约简算法有多种[20]，在这里不再详述。

(2)基于参数的关联性分析。火电厂的生产过程实际上是一个能力转换传递的过程，体现了其内在的物质平衡和能量平衡的关系。这个平衡关系使得整个生产过程中许多参数是有相关性的[21]，变量间的相关关系可以用解析式表达出来。描述变量间相关性的指标采用随机变量的相关系数，变量X、Y的相关系数定义为：

(5)

式中：Cov(X,Y)=E(X-Ex)(Y-Ey)=EXY-EXEY，Var(X)、Var(Y)分别是X、Y的方差。

变量间的相关性可以通过求样本相关矩阵来估计，文献[22]给出了相关矩阵行列进行调整以寻找相关数据块的方法，以此可按照关系数对运行参数重新分组，从而找到具有较强相关性的变量组作为重要的约简属性集。

综述，属性约简能够降低关联规则挖掘的维数，提高关联规则挖掘效率。盲目删除属性方法直观简单、易于理解，但计算过程空间及时间复杂度过高；重要度的约简过程也计算较慢；区分矩阵和区分函数以及他们的改进版本能够较好地处理属性约简的过程，适合电站数据挖掘过程中的使用。目前，电站应用较广的是基于粗糙集的属性约简算法，在锅炉效率的影响参数的约简、发电煤耗影响参数的约简上得到应用。

4 结论

基于数据挖掘的电站优化运行算法是一种与计算机技术紧密结合的定量的优化运行方法。该方法以电站海量历史运行数据为基础，主要应用关联分析法从历史数据中挖掘出符合优化目标的参数运行范围。比传统的依靠理论计算确定优化目标值更符合电站实际运行状态；挖掘出的运行参数优化目标值比理论计算法更容易在电站中指导电站运行。因此，随着计算机技术的不断发展和SIS系统在电站中的广泛应用，电站数据挖掘优化算法将能够不断从电站海量运行历史记录中挖掘出机组在安全、经济、环保、高效条件下的运行规律，为电站的实时优化运行提供指导。基于数据挖掘的电站优化运行算法将成为电站运行参数优化的重要研究方向。

[1]Zhao W J, Liu C. The Optimizing for Boiler Combustion Based on Fuzzy Association Rules[C].2011 International Conference of Soft Computing and Pattern Recognition, Dalian, China, 14-16 October, 2011.

[2]Liu W C, Shi H J, Ma S Q. Algorithm of Weight Fuzzy Association rules[J].Computer Engineering and Design,2010, 31(16):3654-3657．

[3]Li J Q, Niu C L, Gu J J, et al. Energy Loss Analysis Based on Fuzzy Association Rule Mining in power Plant[C].International Symposium on Computational Intelligence and Design, Wuhan, China, 17-18 October, 2008:186-189.

[4]牛成林．增量数据挖掘及其在电站运行中的理论研究及应用[D]. 北京：华北电力大学，2010.

[5]Niu C J, Li J Q, Liu J Z, et al. The application of improved incremental updating association rule mining in optimal oxygen content[C].International Symposium on Computational Intelligence and Design, Wuhan, China,17 October,2008:246-249.

[6]冉鹏．基于动态数据挖掘的电站热力系统运行优化方法研究[D].北京：华北电力大学，2012：1-124.

[7]Han J W, Kamber M, Pei J. Data Mining Concepts and Techniques[M]. New York: Margan Kaufmann Publishers,2011.

[8]Li J Q, Niu C L, Liu J Z. Application of Data Mining Technique in Optimizing the Operation of Power Plants [J].Journal of Power Engineering，2006, 26(6):830-835.[9]翟少磊，黄孝彬，刘吉臻．基于工况划分的电厂经济性指标挖掘[J].中国电力， 2009，42(7)：68-71.

[10]郑茜茜，杨海娅，谷俊杰．基于关联规则的电厂优化目标值确定的研究[J].电力科学与工程， 2010，26(9)：48-51.

[11]张仁杰．粗糙集理论在电站运行优化中的应用研究[D].北京：华北电力大学， 2011：1-44.

[12]李宗山．机组经济运行模式数据挖掘系统的研究与开发[D].北京：华北电力大学，2011：1-61.

[13]Li J Q,Liu J Z.The research and application of data Mining in power plant operation optimization[C].International Conference on Machine Learning and Cybernetics, Guangzhou, China, 18-21 August, 2005:1642-1647.

[14]赵征，刘吉臻，田亮．基于数据融合的燃料量软测量及煤质发热量在线校正[J].热能动力工程，2007，22(1)：42-45,60.

[15]苑一方，孙建平，田婧．改进K均值聚类算法在电厂工况划分中的实现[J].仪器仪表用户，2010，17(4)：54-55.

[16]苑一方，孙建平．基于电厂工况划分的双层聚类算法研究[J].电力科学与工程，2010，26(9)：56-58.

[17]杨婷婷．基于数据的电站节能优化控制研究[D].北京：华北电力大学，2010：1-105.

[18]高俊山，郎平，孙真和．基于改进粗糙集方法的电力系统数据挖掘[J].自动化技术与应用，2009，28(3)：15-17.

[19]苏健．基于粗糙集的数据挖掘与决策支持方法研究[D].杭州：浙江大学，2002：1-121.

[20]陈丹丹．基于粗糙集的电站运行数据分析与运行优化[D].保定：华北电力大学，2013：1-60.

[21]Li J Q，Niu C L, Liu J Z, et al. TanWen.Correlation Analysis of Operation Data and Its Application in Operation in Power plant[C].Fifth International Conference on Fuzzy Systems and Knowledge Discovery,Shandong, China, 18-20 October, 2008:581-585.

[22]李建强．基于数据挖掘的电站运行优化理论研究与应用[D]保定：华北电力大学，2006：1-119.

The Summary of Optimal Operation Parameters in Power Station Based on the Data Mining

Wang Qiuping, Chen Zhiqiang, Wei Hao

(Department of Automation,Northeast Dianli University, Jilin 132012, China)

In order to increase the economy and the operation efficiency of the power plant and decrease the coal consumption of electrical facilities, it is of great significance to get the optimal operation parameter value of power station. The previous optimal operating parameters were obtained by theortical calculation under the ideal environment, which were difficult to achieve in the actual operation of the power plant. However, the data mining algorithm is a way to get the optimal operating parameters from previous data, which can easily obtained in the actual operation. By comparing previous data mining algorithm of power plant in recent years, the paper summarized the main steps of optimal parameters by data mining, which include association rules, data discretization, condition identification and knowledge reduction. In addition, it concluded that fuzzy association data mining is the main method of data mining in power plant, which can be applied to power stations for optimization value mining and fuzzy clustering discretization can disperse the continuous data of parameters in power plant. Rough set theory can reduce the dimension of parameters and improve the efficiency of data mining. Finally, the result shows the optimization of parameter based on data mining algorithm may provide guidence for optimal running future research.

association rules; data discretization; condition identification; knowledge reduction

2015-05-04。

王秋平(1973-)，女，副教授，研究领域为卡尔曼滤波、火电机组数据挖掘，E-mail:18654929296@163.com。

TP274.2

10.3969/j.issn.1672-0792.2015.07.004