基于随机森林算法的风电机组故障智能诊断预警模型
2017-07-06韦古强杜冠洲凌俊斌
韦古强杜冠洲凌俊斌
(1.都城伟业集团有限公司,北京 100020;2.国网江苏省电力公司经济技术研究院,江苏 南京 210008)
基于随机森林算法的风电机组故障智能诊断预警模型
韦古强1杜冠洲1凌俊斌2
(1.都城伟业集团有限公司,北京 100020;2.国网江苏省电力公司经济技术研究院,江苏 南京 210008)
文章针对清洁能源企业中风电机组频发问题,在行业内风电机组常见故障以及故障诊断技术进行分析的基础上,对某集团风电机组企业进行实地调研,获取影响故障发生的关键因素,构建故障识别指标体系,采用随机森林算法构建了风电机组故障智能诊断预警模型。
随机森林算法;风电机组;故障诊断;预警模型;故障识别指标体系
风力发电作为新能源产业技术之一,其不污染环境、不消耗化石燃料的特点,在当今世界大力发展保护环境和走可持续发展道路的强大背景之下,已得到社会各方面的全面认可,在过去的几年里,风力发电年增长率都保持稳定上升的势头,已然成为世界公认的增长最快的可再生能源。在我国,大部分风力发电机组主要安装在西部偏远、沿海等风能充足地区,由于自然环境和负荷不稳定等因素,使得风电机组运行故障频出,而机组故障会直接影响风力发电的安全性和经济性。为了实现风力发电的长期稳定发展和提高自身的能源竞争力,就必须实现对风力发电机组故障的提早预判和快速诊断,提高发机组效率,实现企业的经济利益最大化。
1 风电机组故障诊断技术综述
在风电机组故障诊断过程中,想要通过诊断分析达到预定的目标,还必须对风电机组的设备故障诊断方法有所了解。风电机组故障诊断方法大体可以分为传统诊断方法、数学诊断方法和智能故障诊断方法等。所谓的传统诊断方法是指在状态监测技术之上,对其数据进行分析,结合数据挖掘方法对风电机组设备故障进行诊断;数学诊断方法主要是采用一些数据理论基于数学公式,数学模型对机组故障进行诊断,主要包括故障树分析、小波分析、模糊诊断、灰色系统诊断以及分形几何与混沌分析等;智能诊断方法主要是基于数据挖掘的算法,通过算法建立模型实现对风电机组的故障诊断,主要的算法包括神经网络、随机森林、遗传算法、蚁群算法、粒子群算法等。而本文就使用智能故障诊断方法中的随机森林算法实现对风电机组的故障智能诊断。
2 风电机组故障评价指标构建
通过对风电机组常见故障进行分析,可以得知风电机组故障来源是多方面的,每个部件的性能都直接影响风电机组的正常运行,另外,各部件运行参数的采集技术也是受多种因素影响的。通过实际调研,我们选取了影响风电机组故障发生的14个关键因素,涉及风电机组的风轮、齿轮箱、发电机、电气系统、变桨系统等各个部件。具体如表1所示:
表1 风电机组故障评价指标
3 基于随机森林算法的风电机组故障智能诊断预警
3.1 模型概述
随机森林(RF)是一种分类性能良好的组合分类算法,它以决策树回归树作为基分类器,通过装袋(Bagging)的方法生成不同的训练样本集。在决策树的构建过程中,采用随机的方法划分节点样本集。随机森林(RF)可以看作是树分类器的集合,其中x是输入向量,是服从独立、同分布的随机向量。关于分类问题,随机森林的输出为简单多数投票方法的结果;关于回归问题,随机森林的输出为决策树输出结果的简单平均。随机森林算法的具体实现步骤如下:
首先,通过装袋(Bagging)的方法生成k个不同的训练样本集。当样本数据容量很大时,全样本数据中有接近37%的样本未被抽中,这些样本数据被称之为袋外数据(Out Of Bag,OOB),袋外数据用来评价随机森林算法的性能。
其次,每个训练样本集构建一棵分类决策树,k个训练样本集产生了k个分类决策树。设样本的特征数为M,在每棵树的划分节点上,从M个特征变量中随机地选取m(m<M)个特征变量,然后从m个特征变量中选出一个最优的特征变量,依此作为分类决策树节点分裂时的内部节点。每棵决策树的生长都不进行剪枝。
最后,基于构建好的多个分类决策树,对新的未知样本进行预测,依据每个树分类器投票结果的简单多数投票法来决定未知样本的分类结果。
信息熵与信息增益:
信息熵:表示了信息的不确定性(混乱程度),熵越大,信息越混乱,越难预测,则该指标提供的信息量越小,该指标的权重越小,越不重要。对分类系统来说,类别C是变量,它可能的取值是,而每一个类别出现的概率是,因此n就是类别的总数。此时分类系统的熵就可以表示为:
信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。
在分类系统中,属性的选择以及决策树的分裂根据信息增益来进行选择,针对根节点以及子节点选择信息增益最大的属性变量,然后采用递归的方法构建整个决策树和随机森林。针对风电机组故障诊断问题,结合上节监测数据指标,构建基于随机森林算法的风电机组故障智能诊断预警模型。其构建流程如图1所示:
图1 建模流程
3.2 实例分析
为了验证算法的有效性和准确性,本文选取了风电机组故障数据,使用RStudio软件进行诊断应用分析,依据前文构建的指标体系,样本输入属性为13个,风电机组是否正常运行作为输出属性,然后对数据进行分析处理及模型求解。相关参数设置为:随即森林算法选取500棵树,训练样本和测试样本占比为(0.8,0.2),节点随机分裂特征数量设置为5,通过分析,模型结果如下:
表2 模型输出结果
图2 随机森林OOB错判率和决策树棵数
从表2可以看出,针对风电机组是否正常运行,包外数据误差率OOB为2.7%,说明模型的整体分类效果非常理想。随机森林错判率随着决策树棵数的增加不断的减小,最终收敛为一个较小的定值。模型诊断结果分析:
表3 数据诊断结果
通过对测试集的8条数据进行诊断分析,预测全部正确,说明模型的诊断效果比较理想。可以得知:根据测试结果,第1、4、6、8个风电机组正常运行,第2、3、5、7个风电机组发出预警信息,并且应该马上启动相应的预案措施,防止发生更大的安全事故及经济损失。为了提高模型的性能,在实际应用中,应该尽可能收集风电机组更多的历史故障和正常数据,使得模型尽可能覆盖所有情况的特征,并且可以定期一个月对模型训练一次,及时更新模型,不断提高模型的准确性。
4 结论与展望
本文针对新能源风电机组故障频发问题进行分析,构建了风电机组故障智能诊断预警模型,采用随机森林算法对风电机组历史数据进行训练学习,挖掘出影响风电机组故障发生的各因素的特征模式,确定出发生故障各指标的阈值,根据设备实时运行对风电机组进行在线故障诊断预警,为风电机组故障的监测起到一定的技术支撑,从而有效地降低风电机组维修成本,提高风电机组的利用效率。
[1]龙泉,刘永前,杨勇平.状态监测与故障诊断在风电机组上的应用[J].现代电力,2008,25(6).
[2]程洪机,吕振.设备状态监测与故障诊断技术的基本原理与方法[J].山东建材,2000,(4).
[3]杨伟,贾石峰.基于RBF神经网络的风力发电机组故障诊断研究[J].电气传动自动化,2009,31(2).
[4]李永东.中国风力发电的发展现状和前景[J].电气时代,2006,(3).
[5]陈建华,李华,蒋锦峰.电力市场条件下发电设备可靠性与经济性关系探讨[J].中国电力,2001,34(7).
(责任编辑:小 燕)
TH862
1009-2374(2017)07-0197-02
10.13535/j.cnki.11-4406/n.2017.07.093
韦古强(1986-),男,都城伟业集团有限公司副主管,高级工程师,硕士,研究方向:房地产、公共建筑。
A