大数据挖掘技术应用于汽轮机组运行性能优化的探究

2021-01-11王春平

今日自动化 2021年10期

王春平

[摘要]许多企业的汽轮机组运行性能提升是一项重要工作，其主要是通过采集以往机组运行的相关数据来进行优化，从而完善汽轮机组的不足，这需要运用到大数据挖掘技术。本文通过分析大数据挖掘技术的特点，进一步分析了该技术在汽轮机组运行性能优化过程中的运用。

[关键词]汽轮机组;大数据挖掘技术;性能优化

[中图分类号]TM621;TP311.13 [文献标志码]A [文章编号]2095–6487（2021）10–00–02

Research on the Application of Big Data Mining Technology to the

Optimization of Steam Turbine Unit Operation Performance

Wang Chun-ping

[Abstract]It is an important task to improve the operating performance of steam turbine units in many enterprises. It is mainly optimized by collecting relevant data of previous unit operation to improve the shortcomings of steam turbine units. This requires the application of big data mining technology. By analyzing the characteristics of big data mining technology， this paper further analyzes the application of this technology in the process of optimization of the operation performance of steam turbine units.

[Keywords]steam turbine; big data mining technology; performance optimization

大数据挖掘技术就是从大量的、模糊的、不完全的，以及随意性的数据当中进行挖掘提取，获得隐含性、潜在性的有用信息与知识的技术。在当前许多企业自动化生产水平不断提升的情况下，该项技术的应用变得更为广泛。

1 大数据挖掘技术的特点

（1）适用于大量数据的挖掘工作。这也不是说不适用于小数据量的挖掘工作，一般的数据库挖掘都可运用数据挖掘技术，但小数量的挖掘工作由于数据量较少;因此可人工完成，再加上小数据量往往反映的特性不够全面和可靠，因而大数据量的挖掘将成为未来发展的必然趋势。因此，大数据挖掘技术也是必不可少的。

（2）有隐含性。主要指的是其能够挖掘数据当中隐含的核心知识，不是表面就可发现的数据知识，这种知识具有着较高的运用价值。

（3）新奇性。主要指的是挖掘出的知识往往是前所未有的未知知识，即全新知识。但其是通过相关专业经验获得，同时也验证了经验的可靠性，只有这样的知识能够提升企业的洞察力。

（4）价值性。大数据挖掘技术作用下挖掘的知识往往会直接或间接地给企业带来效益，具有较高价值[1]。

2 关联规则和Apriori算法

2.1 关联规则

关联规则其实是指在一个给定的数据集合当中，对数据项之间关系进行描述且频繁出现的规则知识，这种被发掘的知识就是关联规则。其具体的呈现形式为：A→B，（s，c），在该形式当中，A表示一个数据集合的子集，B表示同个数据集合的子集，但A与B是不相交的状态，而s表示该关联规则当中的支持度，c则表示该关联规则当中的置信度，且置信度和支持度能够表示关联规则的确定性及有用性。例如：若A集和B集成并集关系的条件当中，就有s比例的数据项符合该项条件，而若是在包含A就包含B条件当中，就有c比例的数据项符合该项条件，也就是说s与c都为概率。当给定最小置信度及最小支持度时，假若A集和B集成并集关系的支持度不小于给定的最小支持度，则其为频繁项集，若是该关联规则的支持度不小于最小支持度，同时其置信度不小于最小置信度，则表示A→B的关联规则为强关联规则，这也是数据挖掘分析过程中研究关联规则的关键。

2.2 Apriori算法

Apriori算法是最为典型的关联规则算法，其具体在进行数据挖掘过程中主要是包括了两项程序：①将各项集的支持度与给定的最小支持度进行对比分析，最终获得所有的频繁项集;②将各频繁项集的置信度与给定的最小置信度进行对比分析，最终获得了强关联规则。实际运用Apriori算法时，对频繁项集的数据挖掘主要是依据迭代法进行逐层搜索，一般可以利用前一个已知的频繁项集来生成后一个频繁项集。

随着当前信息技术水平的不断提升，数据库的数据量变得越来越大，而Apriori算法在运用的过程中也体现出一些不足之处，需要改进：①Apriori算法本身的运用程序影响，其在运用时需要反复搜索数据库，且会生产候选集，在数据量不断扩大的形势下，候选集变得越来越多，其挖掘后的关联规则会获得很多的属性项，但许多属性项并没有参与到数据挖掘的核心工作当中，因此产生许多无效候选集，若是对这些候选集不断检索，则会造成资源浪费的情况;②Apriori算法一般是在单节点上运行，其在应当数据量较大情况时经常会出现内存不足的情况，这也会影响到实际的数据挖掘工作，如挖掘速度较慢或难以顺利完成，当前的许多生产数据呈爆炸性增长，因而这项缺陷也导致不能够满足实际需求，对以上两项不足实施改进措施。针对第一点不足可以引进约简理念，即在实际运用该算法之前，对数据库当中的数据进行属性约简，将一些与无关于关联规则的属性项及时剔除，减轻后续检索工作量;而針对第二点不足的改进则可结合运用Hadoop平台，Hadoop平台具有高效性、扩展性、可靠性等优势，其能够进行并行运算，结合其对Apriori算法进行优化，让该算法能够进行并行化的计算操作，同时，并行运算还需要依靠于MapReduce框架，提升计算的效率，以便于处理大量数据，通过这些改进措施可以获得具有高效性特点的关联规则新算法[2]。

3 基于大数据挖掘技术的新算法在汽轮机组优化中的应用

3.1 关联规则算法的优点

优化汽轮机组运行性能主要是研究其目标值的优化，从含义上来看，目标值是决定着汽轮机组的相关性能指标和运行参数，因而优化运行性能也就是以目标值为基础进行优化，以便于进一步指导汽轮机组的运行。当前，在优化汽轮机组目标值的过程中，通常是包括确定设计值、试验最优运行操作、进行变工况状态下的热力计算、确定其最优值方法等方式。在汽轮机组的运行初期使用试验最优运行操作和确定设计值是效果较好的，但随着运行的时间不短延长，其目标值也会发生改变，整个机组状态发生变化，与实际状态之间存在着差异，而变工况的热力计算获得的计算结果是理想状态的值，其与实际也存在偏差，因此也不适用，确定最优值方法的应用是比较多的，但其是计算热电机组运行时的相关参数数据，一般是取性能指标的最佳值，因而运用是比较片面的，因为性能指标的最佳值也可能由于计算有误而产生偏差，以上几种的缺点导致其实际运用于优化汽轮机组时也存在问题，因而产生了关联规则算法这一方式，其主要是基于实际生产运行的数据，在计算的过程中具有着较高的逻辑性，且经过了严格的验证，最终获得了可靠的关联规则，其关联的数据项颇为精准，尤其是在海量数据当中，这种数据挖掘算法十分有效，在本次应用研究当中，算法所应用的对象都是汽轮机组实际工作运行状态中的数据，其支持度和置信度较高，有利于指导优化汽轮机组的性能[3]。

3.2 数据挖掘对象与挖掘目标

本次研究的过程中，选择某电厂规格为1 000 MW的汽轮机组分散控制系统作为数据挖掘的对象，从该系统中取1月9号24：00到3月21号24：00运行的参数数据，共计250个参数，实际采样的周期为30 s，将极少存在的一些缺失值去除，其数据总量为204 459条。大量的数据信息中包含着机组性能指标、运行参数以及负荷之间极为复杂的关系，这些关系也是优化机组时研究的关键，在关联规则算法作用下，将关系挖掘出来做定量化处理，即能够反映该机组的关联规则。选择汽轮机组研究的性能指标时，可选择热耗率作为指标，热耗率能够充分反映出汽轮机组的热经济性，而计算热耗率还能够获得煤耗率与机组实际循环效率。将关联规则算法应用于汽轮机组目标值的优化过程中，挖掘出一项强关联规则，即运行参数和最优性能指标之间的规则，进一步指导优化机组运行，在选择实际运行参数的过程中，还需要充分遵循两项内容：①确保参数与热耗率之间具有着紧密关系;②能够对实际运行进行指导，且在运行时可进行调节，因此，最终确定的运行参数有主蒸汽流量、冷段再热蒸汽压力和温度、热段再热蒸汽压力和温度、汽轮机组的功率、主蒸汽压力和温度、凝汽器真空、给水温度以及给水泵出水压力。

3.3 预处理数据

在预处理数据的环节，主要操作包括数据采集、清洗、集成以及转换。将从系统中提取到的数据筛选，依据上述选择性能指标和运行参数的要求来筛选处理，将一些明显存在坏点或死点的数据及时剔除，然后获取一个参数由多个测点所测得的一组数据，对其进行求和再求平均值，最终只获得一个可靠、准确，且能够反映实际机组运行状态的数据，这些操作完成后也就基本对数据进行了清洗与集成，但这些处理后的数据还需要转换为离散数据，因此还应当进行离散化处理，一般是依据相关知识将连续值域内的数据划分为几个不同的区间，保证分组的过程中不能够出现区间重叠，具体分组时采取两种常用方法：分位数分组法和组距分组法。由于组距分组法可能会因为组距不合适而导致出现样本量差异性大的情况，从而间接导致后续算法运用与建立模型都会受到影响，因而一般采用分位数分组法，这种方法不会出现样本量差异性大的问题，其组数是固定的，且实际分组时依据的原则为各组变量值的总和相近，因而样本量之间也是相似的[4]。

3.4 Hadoop平台配置

在UBUNTU上进行JDK的安装和配置，然后下载一个Hadoop-1.2.1的开源框架并将其安装好，再将SHH配置，同时要确保在平台上各节点进行共享访问的过程中能够安全，最后再将Hadoop平台的环境配置完成，所有的配置基础文件完成以后就可布置HDFS和MapReduce。将上述操作全部处理好后格式化处理HDFS，然后将Hadoop平台启动运行。

3.5 关联规则算法的应用结果

经过数据挖掘与数据的预处理后，将其数据库整理为决策集模式，其中决策属性为热耗率，而条件属性则为11个选择的运行参数，再进行过属性约简处理，最后得出结论.在应用的过程中，发觉冷段再热蒸汽压力和温度的属性没有意义，因此可将其剔除，即可获得9个运行参数，对该属性参数集进行约简处理，缩小了数据规模。将Hadoop平台中的最小置信度设置为80%，而最小支持度设置为0.15 %，对约简处理后的数据采用该算法流程进行挖掘，计算获得最优热耗率的强关联规则，在获得的规则当中区间内，其运行参数的目标值就可清晰得知，最后取区间内的中心值并将其作为优化的目标值即，优化后的汽轮机组运行具有节能减排的效果。

4 结术语

在大数据挖掘技术的作用下，汽轮机组的运行性能优化机制更加有效，大量数据通过分析获得隐含知识，再将其运用于优化汽轮机组的目标值，从而提升其性能水平。由文章分析可知，其具体的优化处理过程包括：确定数据挖掘对象与挖掘目标、预处理数据、Hadoop平台配置，以及分析关联规则算法的应用结果。

参考文献

[1] 赵鹏程，袁国生，马素霞.基于数据挖掘的汽轮机组冷端优化[J].中国电机工程学报，2021，41（2）：423-432.

[2] 贺之豪.数据驱动的汽輪机组性能诊断研究[D].北京：华北电力大学（北京），2019.

[3] 张博伦.基于大数据的汽轮机组状态监测[D].大连：大连理工大学，2018.

[4] 胡念苏，韩鹏飞，张海石.大数据挖掘技术应用于汽轮机组运行性能优化的研究[J].中国电机工程学报，2016，36（2）：459-467.