APP下载

基于XGBoost建模和Change-Point残差处理的风电机组齿轮箱温度预警

2018-10-13王桂松刘瑞华李韶武

电力科学与工程 2018年9期
关键词:轴温变点齿轮箱

王桂松, 郭 鹏, 胥 佳, 刘瑞华, 李韶武

(1.华北电力大学 控制与计算机工程学院,北京 102206;2.龙源(北京)风电工程技术有限公司,北京 100034)

0 引言

风电机组长期运行在室外恶劣的自然环境中,故障率高。齿轮箱、发电机轴承等大部件的故障检修难度大、费用高,高额的运营维护成本降低了风电的经济效益。通过有效方法,实时监测风电机组运行状态,定位状态劣化点,回溯状态劣化原因,做出预防性维修,对于减少风电场运营成本、降低风电机组的运行风险具有重要意义[1]。

齿轮箱是风电机组的重要部件,其结构复杂,包含齿轮、轴承、轴、箱体等多种构件,某一结构的失效都有可能引发齿轮箱的整体故障,进而造成严重的后果[2]。风电机组SCADA数据中蕴藏着风电机组运行状态信息,应用齿轮箱温度数据分析成为近年来国内外风电机组齿轮箱状态监测的主流。BRANDAO.R.F.M等人利用神经网络的方法预测风电机组齿轮箱油液温度以实现对齿轮箱的故障预测[3]。Wang L等使用改进的深度神经网络进行齿轮箱故障预警,预测准确率已高于支持向量机 (Support Vector Machines,SVM)[4]。但依靠神经网络等机器学习算法建立的监测模型存在模型学习时间过长,学习效率过低问题,不适应于在线工程应用。郭鹏等人采用非线性状态估计建立齿轮箱正常工作状态下的温度模型并用其进行温度预测,已具有较高的建模效率和预测精度[5]。刘帅等人将高斯混合模型、动态时间规整及熵权值算法三者紧密结合,提出了一种基于群体多维特征相似性的故障预警策略[6]。祝文颖等人将改进的经验小波变换应用于行星齿轮箱振动信号的解调分析,提出了一种单分量个数的估算方法,解决了经验小波变换中的Fourier频谱划分问题,提高了分析的针对性、准确率[7]。以上学者分别利用深度学习、机理模型、信号分析的方法进行齿轮箱故障分析,在齿轮箱预警领域取得了相应的成果。但以上方法或存在计算效率问题,或存在故障监测时间不确定度问题,即无法给出准确的状态劣化时间点。

本文使用XGBoost算法建立齿轮箱正常工作状态的温度模型。通过XGBoost模型与其它4类模型对齿轮箱温度数据进行回归预测模型实验,结果表明XGBoost模型在齿轮箱温度预测中综合性能要优于其它4类模型。对于XGBoost模型预测残差序列,本文开展了Change-Point算法构建,利用Change-Point技术进行XGBoost模型预测残差序列分析并给出变点,可发现齿轮箱工作异常状态,定位状态劣化时间点,回溯状态劣化原因。

1 XGBoost算法原理

XGBoost方法为有监督学习算法,是一种新的梯度提升实现方法,主要解决分类和回归问题。XGBoost方法自提出以来,广泛应用于金融、医疗等领域[8-9]。该算法基于“提升”思想,通过将一系列“弱”学习机的所有预测结果结合起来,得到“强”的学习模型。与传统的梯度增强回归树(Gradient Boosting Decision Tree,GBDT)算法相比,其优势在于XGBoost对于损失函数进行了二阶泰勒展开,将预测项和正则化项结合起来,通过简化目标函数实现计算资源优化,以权衡损失函数的下降和模型的复杂程度,并得到最优解[10]。同时,XGBoost自动执行并行计算,保证了最优的计算速度。

假设模型有k个决策树,则模型的输出表示为

(1)

式中:xi为数据集;F为决策树函数空间;fk对应独立的树结构和叶子权重。其损失函数为:

(2)

(3)

(4)

式中:gi和hi分别为损失函数的第一阶和第二阶梯度统计。

在移除常数项后,得到目标函数的简化形式为:

(5)

定义Ij={i|q(xi)=j}为叶子j的实例集,可以将式(5)扩展正则化项Ω为:

(6)

对上式进行求导并令求导结果等于0,可得到ωj的最优解

(7)

(8)

正常情况下,枚举所有可能的树结构是无法实现的。XGBoost采用贪心算法,每一次对已有的叶子节点加入一个分割,假设IL和IR是左右子树分数分割后的节点,则分割后的损失函数为:

Lsplit=

(9)

XGBoost算法为了限值树的生长,加入了正则项系数γ,当增益大于γ时,允许节点进行分割,在优化目标函数时相当于做了预剪枝。

2 基于XGBoost算法的风电机组齿轮箱温度建模

2.1 齿轮箱XGBoost建模参数选取

本文采用某风电场1.5 MW机组的运行数据,采样周期为1分钟。其切入风速为3 m/s,额定风速为12 m/s。运用相关性分析方法和风电机组控制机理提取若干与齿轮箱轴温密切相关联的变量,并增加部分分类变量共同作为模型的输入,模型的输出为变量齿轮箱轴温。相关系数的计算公式为:

(10)

式中:x为齿轮箱轴温变量;y为其它变量,包括有功功率、风速等与齿轮箱轴温关联密切的变量;n为数据总量。计算该机组其它75个变量与齿轮箱轴温的相关性系数,部分关联变量的相关系数见表1。

根据表1,齿轮箱池油温、齿轮箱驱动端油温和齿轮箱非驱动端温升变量为强相关变量,不能作为模型输入。选取以下变量作为模型输入参数。

(1)功率、风速、桨叶桨角、高速端转速和齿轮箱入口油温为齿轮箱轴温密切相关联的变量。

(2)环境温度、机舱温度的不同也会导致齿轮箱轴温有较大差异。在不同时刻,即使机组的风速和功率相同,齿轮箱轴承温度同样会受到昼夜温差和季节性温度变化影响。

表1 相关性系数统计表

(3)风电机组运行过程中,当齿轮箱轴温升高,与之相关联的油温升高,油液粘度下降,导致齿轮箱入口油压和齿轮箱滤网入口油压等压力下降。齿轮箱入口油压、齿轮箱滤网入口油压与齿轮箱轴温为负相关。

(4)风机状态、可利用率状态为SCADA数据状态编码,选用风机状态、可利用率状态两个变量作为模型输入参数。

(5)增加是否达到额定功率(达到为1,未达到为0)、是否达到额定风速(达到为1,未达到为0)、是否为停机状态(停机为1,未停机为0)分类变量。

2.2 齿轮箱XGBoost建模参数调优与模型实验

本文采用的XGBoost模型调参选用该风场某机组2014年1月份至4月份正常运行数据。进行数据预处理后,采用建模数据共91 608条,采用测试数据共30 067条。模型涉及线程、树的最大深度、迭代次数参数调优。本文利用栅格搜索与单一参数搜索结合方法进行参数寻优。Bergstra等[11]研究表明,栅格搜索的效果弱于随机搜索,采用栅格搜索进行初步组合参数选取后,固定其它参数不变,先后对主参数进行单一参数搜索以搜寻最优参数,进而提高模型预测精度。在XGBoost建模中,线程参数决定了算法的CPU使用率,CPU使用率进一步决定模型的计算效率,CPU使用率、计算耗时与线程参数关系如图1所示。在线程参数达到8后,CPU使用率达到100%,且计算耗时基本不变,因此本文将线程参数设置为8。

图1 CPU使用率、计算耗时与线程关系图

树的最大深度参数用来避免过拟合,树的最大深度参数越大,模型会学到更具体更局部的样本,该参数会影响模型的预测精度和计算效率。对于XGBoost模型的预测精度引入平均绝对误差(Mean Absolute Error, MAE)、均值偏移误差(Mean Bias Error, MBE)、根均值平方误差(Root Mean Squared Error, RMSE)[12]3种残差分析方法。MAE、MBE和RMSE计算公式如式(11)所示。

(11)

通过对齿轮箱轴温预测值与实际值之间的残差统计分析,给出预测精度。残差统计、计算耗时与树的最大深度关系如图2所示。

图2 残差统计、计算耗时与树的最大深度关系图

由图2可知,在树的最大深度为8时残差最小,模型计算耗时并不会随着树的深度的增加而呈某种特定趋势,而是有一个拟合优值。本文选择的树的最大深度为8,在保证最优精度的同时有较高的计算效率。

弱学习器的迭代次数大小控制算法的拟合优度,直接影响XGBboost模型的计算效率。在模型实验中发现梯度增强回归树(Gradient Boosting Decision Tree, GBDT)、随机森林(Random Forest, RF)两类模型同样含有迭代次数参数,且RF模型物理内存占用受该参数影响较大。图3给出了3种模型计算耗时、物理内存占用率与迭代次数参数选取的关系。

图3 模型计算耗时、物理内存占用与迭代次数关系图

由图3可知,XGBoost模型计算耗时最少,计算效率最高。RF、XGBoost算法均能实现并行处理,实验过程中,选用合适的线程参数,以保证RF、XGBoost模型使用处理器的所有CPU。随着迭代次数增大,XGBoost、GBDT模型内存占用率维持在44%左右;而RF模型内存占用率随着迭代次数的增加不断升高,且计算机出现卡顿现象。XGBoost算法本身考虑了当数据量比较大、内存不够时怎么有效地使用磁盘。如此,在通过大数据量样本建模并监控风电机组状态时,XGBoost可以充分发挥其优势,提高计算效率。

为了验证XGBoost模型对于齿轮箱温度预测的适应性和有效性。在选取合适的建模参数后,采用GBDT、人工神经网络(Artificial Neural Network,ANN)、K-最近邻(K-Nearest Neighbor,KNN)和RF作为类比模型进行齿轮箱温度回归预测。选取两台机组正常样本数据进行模型实验,实验样本分布如表2所示。其中,样本1和样本2选用该风场不同机组1~4月份1分钟平均数据,采用1~3月份数据建立模型,应用4月份数据进行测试。

5种模型在两个实验样本的最终计算结果对比如表3所示。从表3中可以发现,在参数调优后,对比5种模型计算结果可知,XGBoost模型预测精度要明显优于KNN、ANN模型;在该数据量条件下,与GBDT、RF模型预测精度相当,但计算效率更高。结合XGBoost算法原理,数据量越大,XGBoost分类效果会越好。实验结果表明,XGBoost模型综合性能要优于其它4类模型,具有预测精度和计算效率高,资源占用低的特点,证明了XGBoost算法应用于齿轮箱温度预测的可行性和稳定性。

表2 实验样本分布

表3 5种模型在两个实验样本的计算结果对比

2.3 基于XGBoost建模的齿轮箱故障预警

利用XGBoost算法建立齿轮箱温度模型并进行预测,当齿轮箱运行在正常工作状态下,预测残差较小,预测精度较高;当齿轮箱发生故障时,数据特性将偏离正常工作状态,预测残差明显增大。将上述建模方法应用于某机组7月份齿轮箱温度传感器接线故障实例,其中采用该机组1月到5月上旬共194 102条正常数据建模,采用包含故障时段的5月下旬到7月上旬共87 020条数据进行测试。变量与上述模型实验选取变量一致,按照上述参数调优方法,XGBoost预测结果如图4所示。

图4 XGBoost预测结果

在6月10号至7月6号出现XGBoost模型预测残差过大问题。核对风电机组运行日志,该机组在6月27号至7月7号频繁出现齿轮箱轴温变化异常并发出报警。风电场运维人员在7月7号进行故障检修并发现传感器接线松动问题,在紧固传感器接线后齿轮箱轴温恢复正常。根据风电机组控制原理,XGBoost模型较传统阈值限超温报警可提前发现齿轮箱轴温异常。

3 Change-Point算法与残差序列分析

在区域数据平台通过预警模型监测数十个风场上千台机组状态时,如何实现准确的故障自动预警以提前采取相关联的控制动作,是降低风电场运维成本的关键。针对残差序列进行分析处理,采用单一阈值或自适应阈值超限报警方法往往存在时间不确定度问题。为了提高齿轮箱故障预警的可靠性和准确度,本文通过CUSUM控制图构造Change-Point方法,通过Change-Point方法进行残差序列分析。

3.1 Change-Point算法

Change-Point算法是利用一定的统计指标或统计方法,对时间序列的状态进行观测,以便准确有效的估计出变点的位置。变点问题分连续形式和离散形式两种[13],对于风电机组运行数据来说是时间上的连续,如若对样本所有观察点进行变点提取,应采用连续形式。

自20世纪70年代以来,许多统计学家投入到变点问题研究领域,估计和检测变点问题的方法也不断发展完善[14-15],如最小二乘法、极大似然法、累积和法(Cumulative Sum, CUSUM)。CUSUM法是通过对观测值与目标值之差的累积和来描点,因其方法简洁有效,在经济学等领域得到了广泛的应用。假设在一段时间内统计值高于全体均值,高于均值的数据量会持续累积,CUSUM控制图呈现稳步增长趋势;相反,假设在一段时间内统计值低于全体均值,低于均值的数据量同样会持续累积,CUSUM控制图呈现稳步下降趋势。某些数据特性在不能直观地发现显著变化,通过原始数据无法准确定位到变点时间域,而通过CUSUM控制图累加数据特性后可总体定位到变点位置,本文选用CUSUM法实现Change-Point算法。

CUSUM的主要原理为假设数据模型:

xt=u(t)+εt,t=1,2,3,…,n

(12)

式中:u(t)是一个非随机函数;εt为线性过程。考虑比较简单的情形,即u(t)只取两个值:

(13)

式中:u1,u2和k*为未知量。变点k*的CUSUM估计定义为:

(14)

其中:

0≤γ≤1

(15)

图5 Change-Point变点搜寻流程图

使用CUSUM方法确定变点的总体位置,在搜寻变点位置时存在时间不确定度问题。为了解决不确定度问题,算法在实际应用中使用了改进的CUSUM方法[16]。本文使用二分法进行分割搜索,通过CUSUM方法找到变点总体位置后进行二分法分割处理,通过计算置信度的大小定位变点发生区间,继续使用二分法分割,直到准确搜寻到变点时刻。以此方法保证定位时刻精度,算法具体流程如图5所示。本文使用Change-Point方法对XGBoost模型预测残差序列进行变点分析,对变点进行原因回溯,以此分析状态变化点深层次诱因。

3.2 基于Change-Point的残差序列分析

风电机组运行过程中,某些原因导致齿轮箱故障,故障发生在一个持续的时间序列中。通过上述方法构建的Change-Point方法对上述模型预测残差序列进行变点分析。Change-Point每一个数据窗口长度定义为10分钟,将数据窗口精度设置为12,即找到变点的误差为两小时。引导分析限值设置为1 000,引导分析限值为每一次分析的间隔尺度,如第一次分析第1个数据点,则下一次分析第1 001个数据点。置信度限值设置为0.99,通过计算找到变点4个,其残差序列变点分析图如图6所示。

图6 残差序列变点分析图

利用CUSUM控制图统计残差序列的变化趋势,残差CUSUM控制图如图7所示,并对变点进行编号。

图7 残差CUSUM控制图

根据风电机组运行日志,图7中Change-Point1为对齿轮箱散热片进行定期清理的时间点。Change-Point2为6月10号22:35:00,Change-Point4为7月6号1:10:00,分别对应图5中传感器接线松动和紧固传感器接线时间点。Change-Point3是齿轮箱轴温异常超限报警时间点,对应6月27号23:40:00。该方法可准确定位到状态变化时间点,且其CUSUM累积特性可规避因个别孤立的残差较大的点导致的超限误报现象,避免随机因素的影响。核对该风电机组运行数据,在Change-Point2与Change-Point3时间段内已出现数据特性变化异常,只是未触发阈值限而引发报警。相对于机组控制系统阈值超温报警,该方法可提前17天发现齿轮箱轴温异常并发出报警,证明了该方法的有效性。

4 结论

(1)本文基于SCADA运行数据,采用相关性分析法和风电机组控制机理提取与齿轮箱轴温密切相关联的变量,并增加部分分类变量共同作为模型输入。利用XGBoost算法可建立齿轮箱正常工作状态温度模型,进行齿轮箱温度预警。

(2)采用5种模型进行齿轮箱温度预测模型实验,最终得出将XGBoost算法应用于齿轮箱温度预测要优于其它4类模型,具有预测精度和计算效率高,资源占用低的特点。该模型可提前发现齿轮箱轴温异常。

(3)构建了新的Change-Point算法,通过CUSUM控制图实现Change-Point算法,利用Change-Point技术进行XGBoost模型预测残差序列分析并给出变点。在齿轮箱轴温故障实例中,该方法可准确定位状态劣化时间点,回溯状态劣化诱因。

猜你喜欢

轴温变点齿轮箱
某型车转向架轴温监测装置研究
风电齿轮箱轴承用钢100CrMnSi6-4的开发
回归模型参数的变点检测方法研究
基于城际动车组轴温实时检测系统的优化设计
正态分布序列均值变点检测的贝叶斯方法
CR400BF 型动车组达速交路轴温变化规律研究
基于二元分割的多变点估计
独立二项分布序列变点的识别方法
基于光纤光栅温度传感的车辆轴温监测系统
提高齿轮箱式换档机构可靠性的改进设计