聚类分析在电力设备玻璃老化中的应用
2023-08-11华北电力大学电力工程学院北京市102200刘钰蕊
(华北电力大学电力工程学院,北京市,102200) 刘钰蕊
变电设备作为变电站的核心部分,其日常维护与管理,对提高变电运行的可靠性与安全性有重大意义,而电力设备中玻璃材料的老化问题正亟待解决。聚类分析是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,在玻璃材料研究领域有良好适用条件,能准确分类总结玻璃化学成分及其风化规律,为后续相关电力设备的维护提供可靠依据。
1 聚类分析算法概述
聚类是将数据分类到不同的类或者簇这样的一个过程,一个类簇内的实体是相似的,不同类簇的实体是不相似的。一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离,类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离[1]。
聚类是一个无监督的分类,它没有任何先验知识可用,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS 等,本文中主要利用SPSS 软件进行分析[2]。
采用聚类分析的方法对电力设备玻璃材料进行分类研究,可以准确清晰地获取玻璃材料的分类概况,为进一步研究其类别规律,解决玻璃老化问题提供依据。
2 聚类分析对电力设备玻璃老化问题的分析
2.1 数据处理与指标说明
对于所获取的玻璃样品数据,关键在于分析玻璃类型与各化学成分含量之间的关系,从而进一步对已有类型的样本进行进一步分类,但是变量过于冗余,因此可以将相关性高的分为一类,对各化学成分进行降维处理,也就是对各个反应产物进行分类合并处理,考虑到高钾类玻璃和铅钡类玻璃性质上的不同,利用SPSS软件的聚类分析功能对高钾类样本和铅钡类样品的相关数据分别进行聚类分析,针对样品中各化学成分的含量进行分类。由聚类分析可知:对于高钾类样品,可以将二氧化硅含量归为一类作为主要化学成分,而将其余化学成分的总含量归为一类称为次要化学成分,从而实现数据的降维。因此在14种化学成分中,只需要考虑二氧化硅含量以及其余化学成分总含量这两类指标与玻璃类型之间的关系,将其作为高钾类样品的分类依据。
对于铅钡类样品:可以将二氧化硅含量、氧化铅含量、氧化钡含量分别归为一类,得到三类主要化学成分。而将其余化学成分的总含量分为一类称为次要化学成分,故只需要考虑二氧化硅含量、氧化铅含量、氧化钡含量以及其余化学成分总含量这四类指标与玻璃类型之间的关系即可,将其作为铅钡类样品的分类依据。
2.2 聚类思路与分析
分析高钾玻璃和铅钡玻璃的分类依据,同时考虑到样品类型和风化情况对于样品化学成分的影响,将高钾和铅钡两种类型的样品进一步细分为高钾未风化,高钾风化,铅钡未风化,铅钡风化四种类型,对这四种类型样品中各化学成分的含量范围进行统计,并绘制多因子箱形图如图1 所示。以此来对比分析风化状态相同时高钾玻璃和铅钡玻璃中各化学成分含量分布的不同以及两者在风化前后各化学成分比例变化情况的差异。
图1 不同类型样品各化学成分分布箱形图
由图1统计可知,在风化状态相同时,高钾和铅钡两种类型的样品中二氧化硅、氧化铅、氧化钡三者的成分含量范围分布均相对集中,且两者无重合部分。即在风化情况一定时,高钾类与铅钡类玻璃中这三种材料的成分含量存在显著差异,所以这三种化学成分在区分不同玻璃类型中起到重要作用。其中,高钾类样品中二氧化硅的含量在风化后急剧上升且无论风化前后,高钾类样品中二氧化硅的含量均高于铅钡类样品。同时可以看出,氧化铅、氧化钡集中分布在铅钡类样品中,在高钾类样品中几乎没有。除此之外还可以注意到,高钾类玻璃风化前氧化钾的含量很高,风化后氧化钾的含量有相对明显的下降,而铅钡玻璃在风化前后氧化钾的含量均相对较低,没有明显变化。
对高钾玻璃和铅钡玻璃进一步进行亚类划分,采用系统聚类法,系统聚类法可以直接对所有项目进行综合比较、分类和评价。系统聚类法中最佳聚类数的选定采用肘部法则。肘部法则的计算原理是成本函数,成本函数是类别畸变程度之和,每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和,若类内部的成员彼此间越紧凑则类的畸变程度越小,反之,若类内部的成员彼此间越分散则类的畸变程度越大。在选择类别数量上,肘部法则会把不同聚类数对应的总畸变程度以图表的形式表现出来,即绘制聚合系数折线图。随着值的增大,平均畸变程度会减小;每个类包含的样本数会减少,于是样本离其重心会更近。但是,随着值继续增大,平均畸变程度的改善效果会不断减低。值增大过程中,畸变程度的改善效果下降幅度最大的位置对应的值就是肘部,依据肘部即可确定最佳聚类数[3]。下面以高钾类样品为例来进行分析。
首先依据前期聚类分析得到的四个指标,采用系统聚类法对处理后的高钾类样品进行聚类,随后根据肘部法则的原理,将聚类数k 从1 开始依次增加,统计总畸变程度与聚类类别数k的关系,绘制聚合系数折线图如图2所示。
图2 高钾类样品聚合系数折线图
由图可知,类数从1增加到3,总畸变程度下降速度较快,类数超过3 以后,总畸变程度变化变缓。因此k=3 为总畸变程度的“肘部”,最佳的样品聚类数即为3。通过结合肘部法则和系统聚类分析,综合分析比较所有项目,可以将高钾类样品进一步划分为三类,分类结果采用柱形图来展示每一亚类各自的特征,其对应的柱形分析图如图3 所示。对于铅钡类样品,其分类的具体过程与高钾类样品相同。
图3 高钾类样品亚类分析图
对于高钾类样品:三种类别中,二氧化硅含量有着相对明显的区别,由第一类至第三类,其二氧化硅的含量呈现下降趋势,故可以依据样品中二氧化硅的含量将高钾类样品进一步分为:高硅、中硅、低硅三类。
对于铅钡类样品:对比五种类别,其二氧化硅的含量有明显的的差异,而随着二氧化硅含量的减少,样品中铅钡的总含量总体呈现上升趋势,且在铅钡总含量上升的过程中,铅钡含量之间的占比大小关系也在发生着变化。由第一类至第五类,其二氧化硅的含量呈现下降趋势,而铅钡总含量总体呈现上升趋势,且铅钡含量占比大小关系发生了大于-近似相等-大于-近似相等-大于的变化,可以认为该五种类别是按照样品风化程度进行划分的。依据以上的分析,可以根据每一类样品的特点将铅钡类样品进一步分为:高硅、低硅、低铅、铅钡、高铅五类。
对于亚分类的结果,可以用图4 的思维导图来展示。
图4 样品分类示意图
2.3 分类结果合理性检验
对通过系统聚类分析得到的亚分类结果进行检验,主要衡量其合理性和敏感性。通过观察分类结果,找出系统聚类分析所分类别的分类方法,故其具有一定合理性。对于其敏感性,采用启用扰动项,设置扰动范围,将结果代回模型进行计算,分析其与原始聚类中心点坐标的欧氏距离,与真实值进行比较得出模型的准确率,设定干扰度变化分别为5%,10%,15%,20%,25%得出当扰动范围为25%时模型的准确率为93.2%,因此在一定程度上反映了分类的准确性[4]。
3 结语
综上所述,聚类分析法在数据降维以及数据分类方面应用广泛,对简化变量以及研究各类因素之间的关系具有一定参考价值。在用聚类分析法对玻璃类别进行分类评价的工作中,反映出了高钾类和铅钡类玻璃在成分含量上的差异,同时揭示了玻璃风化对其成分含量的影响,这对于进一步研究玻璃在不同状态下化学成分的构成规律有一定作用。因此,该方法可为解决电力设备玻璃老化问题提供思路,在电力设备维护方面具有重要作用与意义,将为未来电网的建设与发展作出贡献。