基于决策树C4.5算法的汽轮机非线性故障诊断研究*
2022-05-10侯国安肖东彩田舟祺
侯国安 肖东彩 田舟祺
(银川能源学院 银川 750015)
1 引言
汽轮发电机组随着工业发展结构日益复杂,发生故障概率也相应增加,并且事故往往产生灾难性破坏,因此,有效的实施设备状态检测及故障诊断,已成为当今社会研究的热点之一[1]。
决策树[2]能够从大量数据中分析出替在规律,获得分类规则。粗糙集可以弥补决策树选择所需属性集困难的缺点。
2 汽轮机常见故障与频率关系
汽轮机通过旋转运行,在长时间的运行过程中必然会引起一系列故障,并且这些故障往往是非线性的,主要有转子不对中、质量不平衡、动静碰磨等。不同的故障所表现出来的频域不一样,通过不同的频域,就能判别不同的故障[3]。
3 基于粗糙集[4~6]的属性约简[7~9]
3.1 粗糙集理论
粗糙集理论可以对不完整资料进行分析推理。粗糙集是在给定的数据集合内建构等价集合,在等价集合中,数据样本具有不可分辨性。
在粗糙集理论中,需要应用基于核或基于差别矩阵的方法对不相关或冗余的数据进行约简。
3.2 基于核的约简[10]
在知识库中,核是属性约简的公共部分,在所有属性约简中是必不可少的,因此,大多数属性约简是先求核,再从其余属性中,测试出能加入核属性集合内的属性。
3.3 区分矩阵的属性约简[11~12]
对于区分矩阵,两个样例相同,区分矩阵元素为空集;不同,就是两个样例的并集。
基于区分矩阵的决策表便于进行相对D核的约简。
4 汽轮机故障诊断的属性约简
对汽轮机进行故障诊断时,首先应用监测设备采集正常与故障状态时的运行参数,由此获取什么样的参数对应什么样的故障类别,构建汽轮机故障诊断数据库。
频域分析法是设备故障诊断经常采用的方法[13],不同的故障对应不同的特征频率。
汽轮机经常出现的故障有转子弯曲、不对中、部件碰磨、质量不平衡、轴承座振动,我们将其频谱在(0.01~0.39)f、(0.4~0.49)f、0.5f、(0.51~0.99)f、f、2f、(3~5)f、>5f频段上进行划分。
1表示质量不平衡;2表示不对中;3表示部件碰磨;4表示轴承座振动;5表示转子弯曲。
由于表中属性是连续值,本文采用等宽区间法进行离散化:1:[0~0.20];2:[0.20~0.40];3:[0.40~0.60];4:{0.60~0.80];5:[0.80~1.00]。
表2中a,b,c,d,e,f,g,h为样本的条件属性,I为决策属性。
表2 离散化表
从表3可以看出,差别矩阵中只有第4行,第3列为单元素c,故c为核属性,也可表示为RED={c}。
表3 离散化后故障样本表的差别距阵
下面是不含c的条件集合:
将所有列进行合取范式化简:∫M(S)=(a∨h)∧(a∨f)=a∨(h∧f)。
所以条件属性的约简结果是{a,c}或者{c,h,f}。
5 基于粗糙集理论属性约简后的决策树分类[14]
如果选择{a,c}作为约简后的条件属性,进行决策树构造。对故障样本应用C4.5算法计算[15]。故障样本的属性值有8个,分别对应5种故障:cl(质量不平衡)、c2(不对中)、c3(碰磨)、c4(轴承座振动)、c5(转子弯曲)。
2)利用属性A1(a)、A3(c)对样本集合进行划分,所需要的信息熵为
3)信息增益为
4)计算A1(a)、A3(c)信息熵如下:
从上面可知,信息增益率“A1”最大,可作为根节点,由表1~2可以看出,当描述属性A1取值为2、3、5时的样本子集均分别对应不对中、碰磨、轴承座振动一个故障类别,因此,可以将这些个样本子集标注为叶结点。通过计算得到该故障样本子集的决策树如图1。
表1 频域下的故障样本表
图1 分类树
对决策树叶节点进行读树,可得规则如表4所示。
表4 规则集
第一条规则“if a=5 then I=4”,表示如果汽轮机转子特征频率a大于0.8000小于1.000,则可能是轴承座松动了。同理,第三条“if a=1&c=4 then I=5”,可解释为如果汽轮机转子特征频率a小于0.2000且特征频率c大于0.6000小于0.8000,则可能是转子弯曲了。
每一条规则都对应着一种汽轮机故障诊断分类。
经过C4.5算法进行计算,8个属性减少为2个或3个,得出了分类规则,也可以以此构建数据库。
6 规则准确率验证
以Matlab为开发平台,构建汽轮机振动故障诊断系统。使用GUIDE创建GUI对象,实现诊断系统人机交互界面。主界面如图2所示。
图2 汽轮机故障诊断系统主界面
“训练诊断模块”是对故障诊断进行训练学习;“诊断”是对某振动特征下的故障进行诊断。
图3是训练界面,可以导入excel表格的训练数据进行训练。
图3 训练界面
图4是诊断界面,可以对设备数据进行故障诊断。
图4 诊断界面
用表5故障诊断测试样本进行测试。
表5 故障诊断测试样本
诊断结果如表6所示。
由表6得出,诊断规则准确率为86.7%。训练数据越多,准确率越高。
表6 诊断结果
7 结语
本文利用C4.5算法进行了属性约简,减少了数据库中数据的数量,提高了设备故障诊断的准确性,避免了一些属性在生成规则时被多次选择的缺点,说明C4.5算法在汽轮机非线性故障诊断方面是可行的。