一种基于非线性偏最小二乘的风电机组齿轮箱状态监测方法
2022-10-21李雄威郭晓雅李庚达崔青汝
李雄威,郭晓雅,李庚达,崔青汝,伍 权
(国家能源集团新能源技术研究院有限公司,北京 102209)
0 引言
对风电机组进行状态监测,在性能劣化早期阶段及时预警,能够有效降低机组故障和电量损失,提升风电场运行效益[1]。作为风电机组的重要部件,齿轮箱长期运行于变工况变载荷条件下,易发生齿轮表面磨损等问题,若不及时处理将导致严重故障[2]。由于齿轮箱故障停机时间长、维护成本高,一旦发生严重故障往往会造成较大的经济损失。因此,开展风电机组齿轮箱状态监测研究,对于降低机组运维成本、提高可靠性具有重要意义。
风电机组数据采集与监控(SCADA)系统积累了大量包含机组状态信息的数据,基于SCADA数据的齿轮箱状态监测受到越来越多的关注,多种建模方法被应用于基于SCADA数据的齿轮箱状态监测[3]。文献[4]基于具有外生输入的非线性自回归神经网络分别建立了齿轮箱轴承温度和润滑油温度模型,并应用马氏距离方法对齿轮箱异常状态进行监测。文献[5]提出了一种基于长短期记忆(LSTM)网络的齿轮箱故障预测方法,该方法表现出了更好的预测性能,能够较早预测故障的发生。文献[6]提出了一种基于自适应神经模糊推理系统的建模方法,结合人工神经网络和模糊逻辑对异常状态进行诊断,同时基于if-then规则提取异常情况的根原因。文献[7]提出了一种齿轮箱状态监测广义模型,分别采用BP神经网络、径向基神经网络和最小二乘支持向量机建立了齿轮箱状态预测模型,并利用信息熵从预测模型残差中提取有用信息用于故障预警。
人工神经网络能够模拟变量间复杂的非线性关系,被广泛应用于齿轮箱状态监测,但其存在模型拟合参数多、训练时间长、易陷入局部最优解等问题[8]。回归分析能够在一定程度上避免这些问题,从此,其也被用于齿轮箱状态监测。但是,常用的多元线性回归方法在应用中存在着两个问题。一是由于SCADA数据间存在多重线性相关性,使用最小二乘方法可能出现数据量冗余和过拟合等问题;二是多元线性回归方法不能模拟变量间的非线性关系。为解决上述问题,本文建立了一种基于非线性偏最小二乘法(PLS)的齿轮箱状态监测方法,对SCADA数据进行简化和降维,并在模型中构建能够表征非线性关系的输入变量,从而更好地对齿轮箱状态进行监测。
1 数据预处理及建模变量选取
1.1 数据预处理
由于齿轮箱状态监测模型的建立依赖于从训练集数据中学习输入输出的映射关系,因此减少训练集数据错误、提高数据质量很重要。若风电机组在信号采集、传输或处理过程中出现故障,将会导致SCADA采集数据出现异常。因此,本文根据SCADA数据的阈值范围,对超出阈值范围的数据进行剔除,并去除停机点数据。
在限功率条件下,机组发出的功率低于正常状态下的功率值,限功率数据也被认为是非正常状态数据。采用两步无监督聚类对SCADA数据进行清洗。首先,采用对噪声具有较强适应能力的K-medoids聚类算法对SCADA数据进行初步划分,得到若干分段数据类。然后,针对不同簇的聚类结果,选用具有非凸聚类能力的流形谱聚类算法执行第二步聚类。以理论风功率曲线为参考,将不同类中远离理论风功率曲线的类视为异常数据类,从而滤除限功率数据及数据异常值。
1.2 建模变量选取
在齿轮箱运行异常时,齿轮箱油温预测值与实际值残差的统计特性会发生变化,因而将齿轮箱油温预测值与实际值的残差作为监测变量。选择齿轮箱油温作为模型输出,用于对齿轮箱故障进行预警。若将全部SCADA数据用于建模,会增加模型的复杂度和运算时间,需要选择能够代表齿轮箱运行状态的SCADA数据。首先,从SCADA数据中初步选取风速、功率、发电机转速、环境温度、机舱温度、转子转速、U1绕组温度、U1电压、U2电压、U3电压、齿轮箱轴1温度、U1电流、U2电流、U3电流、齿轮箱轴2温度、功率因数、风向、电网频率、电机轴承A温度、对风角度、发电量、叶片角度和电机轴承B温度共23个相关参数。然后,利用相关性分析,分别计算23个SCADA参数与齿轮箱油温的相关性。最后,根据相关性大小,选取用于齿轮箱状态监测的SCADA参数作为模型输入。
假设23个SCADA参数中的第i个参数为xi,齿轮箱油温为y。采用皮尔逊相关系数法进行相关性计算。
式中:r为变量xi和变量y的皮尔逊相关系数;n为样本数量;xij和yj分别为变量xi和变量y的第j个样本;和分别为变量xi和变量y的n个样本的平均值。
2 基于非线性PLS的齿轮箱状态监测模型
2.1 基于非线性PLS的齿轮箱油温模型
PLS方法是一种分析多重共线性自变量和因变量影响关系的统计学方法。它综合了主成分分析、多元线性回归和典型相关性分析的优点,能够对数据进行简化和降维。相比于最小二乘法,PLS方法通过数据筛选和简化能更好地解决数据多重相关性的问题,从而建立更为准确的自变量和因变量间的关系表达式[9]。
式中:m为用于建模的SCADA参数的数量;li,ki,pi和d均为用PLS方法回归得到的系数。
2.2 齿轮箱状态监测与预警
当齿轮箱工作状态正常时,齿轮箱油温模型的输入参数为正常工作区间的SCADA运行参数,模型有较好的预测效果。而当齿轮箱工作状态异常时,齿轮箱运行特性发生变化,导致SCADA参数间的关系发生变化,从而使得模型预测值与实际值的偏差变大。因此,为了监测齿轮箱运行状态,需要计算齿轮箱油温模型的预测值与实测值的残差。设齿轮箱油温的预测值与实测值的残差为R。
式中:yj为j时刻齿轮箱油温的预测值;fj为j时刻齿轮箱油温的实际测量值。
为了在早期阶段对齿轮箱故障进行及时预警,同时避免误报警,需要对残差的分布范围设定合理的上、下阈值。由于残差是一个随机变量,一般服从正态分布,由此设定残差分布的上、下阈值。
式中:UCL,LCL分别为齿轮箱油温的预测值和实际值残差的上界阈值和下界阈值;μ,σ分别为残差的均值和标准差;c为根据实验测试数据确定的系数。
3 实验分析及验证
为验证本文提出的方法的有效性,采用内蒙古某风电场9号风电机组的SCADA数据进行验证。该风电机组的额定功率为1.5MW,采用10min平均的SCADA数据用于建模分析。采集数据的时间为20190101-20190626。该风电机组在6月26日夜间出现齿轮箱故障。为了说明本文提出模型的效果,建立具有一层隐含层的BP神经网络模型并进行对比。本文采用3种指标对两种模型的定标和预测效果进行评价,分别是模型的拟合优度、平均绝对误差(MAE)和预测均方根误差(RMSEP)。
首先,对SCADA数据进行预处理。图1为采用无监督聚类对SCADA数据进行清洗的效果。由图1可知,经过无监督聚类过滤后,能有效滤除限功率数据及数据异常值,从而为建模分析提供了数据质量保证。
图1 SCADA数据经聚类滤除前后的风功率曲线Fig.1 The power curves of the SCADA data before and after the clustering filter
计算23个SCADA参数与齿轮箱油温的相关性,部分结果如表1所示。选择与齿轮箱油温相关的14个SCADA参数作为模型输入量,齿轮箱油温作为模型输出量。
表1 部分SCADA参数与齿轮箱油温的相关系数Table1 Correlation coefficient between several SCADA parameters and gearbox lubricant oil temperature
选取2019年1月份的SCADA数据作为训练集,选取2019年2月份的SCADA数据作为测试集,用于评价非线性PLS模型和BP神经网络模型的定标和预测效果。根据式(2)建立非线性PLS的齿轮箱油温模型。该模型计算的齿轮箱油温的预测值和残差值如图2所示。由图2可知,当齿轮箱正常工作时,该模型的预测值与实际值基本吻合。根据残差分布,选取残差的最大值和最小值分别作为上界阈值和下界阈值,分别根据式(4),(5)计 算c,选 取 计 算 结 果 的 最 大 值 作 为c的取值。根据计算结果,c的取值为4.7。由此得到,残差分布范围的上界阈值为9.3℃,下界阈值为-8.2℃。
图2 基于非线性PLS的齿轮箱油温模型的预测值和残差值Fig.2 Prediction and residuals of the gearbox oil temperature model based on non-linear PLS
非线性PLS模型和BP神经网络模型的定标和预测效果如表2所示。由表2可知,相比于BP神经网络模型,非线性PLS模型的R2由0.85提升到0.9,MAE由1.56℃减小 到1.29℃,RMSEP由2.32℃减小到1.77℃。因此,相比于BP神经网络模型,非线性PLS模型对于训练数据的拟合效果更好,同时具有更高的预测准确性。
表2 两种齿轮箱油温预测模型的定标和预测性能比较Table2 Calibration and prediction performance of two prediction models for gearbox oil temperature
将基于非线性PLS的齿轮箱状态监测模型应用于20190201-20190626的9号风电机组齿轮箱状态监测,结果如图3所示。
图3 基于PLS的齿轮箱油温模型的状态监测结果Fig.3 Results of condition monitoring using the gearbox oil temperature model based on non-linear PLS
由图3可知,第一个预警信号于2019年4月8日4点10分发出,此刻残差值为22.6℃,明显超出上界阈值。而在此之前,残差持续在正常阈值范围内。此时可以判断齿轮箱状态异常,发出故障预警。此后直至齿轮箱发生故障,残差多次明显超出正常阈值范围。2019年6月26日9号风电机组齿轮箱出现故障并停机。由此可见,本文建立的基于非线性PLS的齿轮箱状态监测模型能够提前约两个半月对齿轮箱故障进行有效预警。
将基于BP神经网络模型的齿轮箱状态监测模型应用于20190201-20190626的9号风电机组齿轮箱状态监测,结果如图4所示。
图4 基于BP神经网络的齿轮箱油温模型的状态监测结果Fig.4 Results of condition monitoring using the gearbox oil temperature model based on BP artificial neural network
由图4可知,第一个预警信号于2019年4月28日2点10分发出,此刻残差值为12.2℃,超出上界阈值。此时判断齿轮箱状态异常,发出故障预警。由此可见,利用基于BP神经网络模型的齿轮箱状态监测模型进行判断,能够提前约2个月对齿轮箱故障进行预警。相比而言,本文建立的基于非线性PLS的齿轮箱状态监测模型,能够比基于BP神经网络模型的齿轮箱状态监测模型提前约20d对齿轮箱故障进行预警。
风电机组齿轮箱油温阈值一般设为75℃,当齿轮箱油温超过75℃时,将进行油温高报警。20190101-20190626的9号风电机组齿轮箱油温的变化趋势如图5所示。
2019年6月2日4点30分,齿轮箱油温达到77.4℃,超出油温阈值,发出油温高报警。利用齿轮箱油温阈值进行判断,能够提前约24d对齿轮箱故障进行预警。相比而言,本文建立的基于非线性PLS的齿轮箱状态监测模型,能够比油温高报警提前约8周对齿轮箱故障进行预警,表明本文模型在齿轮箱故障预警上具有较大的优势。
4 结论
本文建立了基于非线性PLS的风电机组齿轮箱状态监测方法,对SCADA数据进行简化和降维,并在模型中构建了能够表征非线性关系的输入变量。根据模型输出结果与齿轮箱油温的残差分布,设置合理阈值,对齿轮箱状态进行监测。采用内蒙古某风场风电机组的SCADA数据对本文建立的齿轮箱状态监测模型进行验证。结果表明,相比于BP神经网络模型,本文提出的非线性PLS模型具有更高的拟合优度和预测精度,且相比于齿轮箱油温高预警能够提前约8周对齿轮箱故障进行有效预警,在齿轮箱状态监测上具有很大的应用潜力。