APP下载

类别不平衡的通信基站空调故障诊断

2019-11-09罗方芳郭文忠刘耿耿陈国龙

小型微型计算机系统 2019年10期
关键词:类别基站故障诊断

罗方芳,郭文忠,刘耿耿,陈国龙

1(福州大学 数学与计算机科学学院,福州 350116) 2(福州大学 空间数据挖掘与信息共享教育部重点实验室,福州 350116) 3(集美大学 计算机工程学院,厦门 361021)E-mail:fzugwz@163.com

1 引 言

移动通信系统中的基站通过无线连接技术为移动台提供接入系统的接口.据工信部发布的《2017年通信运营业统计公报》显示,2017年,移动通信基站的总数达到593万,其中4G基站新增86.1万个,总数达到328万个,移动网络覆盖范围和服务能力继续提升[1].由于基站设备需要在相对恒温的条件下才能正常工作,所以移动通信基站中都要加装专用的通信空调,为基站内各种设备的稳定运行提供必要条件.对基站空调各传感器数据进行健康状态评估不仅可以了解设备的运行状况,还可以对异常状态及时报警,以便尽早进行故障排查,尽可能将软故障解决于萌芽状态,避免硬故障的发生而影响通信设备的正常运行.因此,高效的、多维度故障源分析的基站空调故障检测和诊断系统的研究有其实际意义.

空调故障诊断实际上是一个分类问题,目前已有一些人工智能技术应用于空调故障诊断.如将主成成分分析(PCA)法应用于变风量空调传感器故障诊断[2],利用神经网络检测空气处理机组故障[3],综合角度分析法和Fisher判别法应用于空调传感器多故障诊断[4],构建专家规则集进行空调系统故障诊断[5],将SVM应用于螺杆制冷系统故障诊断[6],等等.从这些研究中可以发现,相较于PCA法和专家系统,基于神经网络和SVM的故障诊断模型鲁棒性强,诊断精度较高,但普遍存在两个问题:

1)忽略了训练集中的类别不平衡问题.上述算法均是在训练集类别平衡的假设基础上构建的.然而,数据集类别不均衡现象很普遍,这种不平衡性会使得一些少量样本的故障类型在分类器的训练过程中被视为噪声而遭“吞噬”.与决策树处理方法相比,小类样本识别率低的问题在神经网络类型的故障诊断中更为严重.

2)上述方法大多给出单类的已发生的硬故障诊断结果.空调系统处于亚健康状态时,软故障源通常不是一种,并且一种软故障可能引发另外一种软故障发生.若能检测出仍在继续工作的多维度的软故障并及时预警,可为通信基站空调系统的高效运行提供更坚实的保障.

针对不平衡数据分类已有一些研究,主要可以划分为数据层面方法和算法层面方法两大类.数据层面方法是通过重采样的数据预处理方式来平衡数据集中的样本分布.重采样的代表算法有SMOTE[7]及其衍生方法.SMOTE算法在相邻样本之间通过插值来合成一定数量的正类样本,使得正类样本数量与负类样本的数量相近达到平衡,但易出现数据重叠的现象,并且在样本特征维度高的情况下会合成不准确数据[8].算法层面方式是通过设计特定的分类模型使其对不平衡的样本分布不敏感.一种途径是训练单类分类器,再集成获得最终的分类结果[9].这种方法在标签空间庞大时效率低,并且没有利用负类样本的信息.另一种途径是代价敏感学习[10,11],在训练分类器的时候考虑不同类别样本的错分代价,通过最小化错分总代价来改变样本的空间分布,这种方式综合考虑了正负样本的信息.

基于上述分析,本文设计一个基于单隐层前馈神经网络的基站空调故障诊断系统,针对各个故障模式给出多标签诊断结果.在最小化风险损失的训练阶段,引入非对称阶式损失函数,通过为小样本类别设置较高的截断参数和边界参数来提高小类样本的识别率.另一方面,多标签的分类结果可以为空调维护人员提供软故障排查的故障源的偏序序列.

2 通信基站空调结构

如图1所示,实验对象是目前应用最为广泛的移动通信基站空调系统(非迷你型通信基站),基站空调有内机和外机两部分,中间采用制冷剂管道连接.基站空调主要部件有:全封闭涡旋式压缩机、室外风冷冷凝器、冷凝风机、室内蒸发器、送风风机、电子膨胀阀及控制系统等.

图1 移动基站空调系统示意图Fig.1 Schematic diagram of base station′s air conditioner

本文所设计的故障监测和诊断系统分为离线训练阶段与在线监测分析两部分.离线训练阶段,对数据归一化预处理后,导入基于单隐层前馈多标签分类器进行训练,获得稳定的故障诊断模型.在线监测阶段,系统接收基站空调传感器的数据(温度、湿度、压力等),归一化预处理后输入离线训练阶段所获得的诊断模型,分析当前空调的运行状态.对软故障及时预警排查以提高空调系统的制冷效率.

表1 实例参数及其含义Table 1 Parameters and their meaning of sample

表2 故障模式与样本数Table 2 Fault mode and number of samples

3 算法模型构建

3.1 多标签输出的单隐层前馈神经网络

图2 SLF结构图Fig.2 Structure diagram of SLF

(1)

3.2 基于代价敏感的损失函数风险最小化模型

一般情况下,损失函数的计算是用平方误差损失函数L2,即,l(T.,i,Y.,i)=‖T.,i-Y.,i‖2.L2损失函数实现简单,但存在着一些不适用于类别不平衡数据集的因素.首先,L2损失函数对异常样本不鲁棒,当异常样本的边界(margin)为较小的负值时,损失函数值仍很大.其次,L2损失函数不是单调递减的,依旧惩罚Yji>1的样本xi,从统计学角度分析Yji>1时,故障模式j的分类置信度很高.再者,L2损失函数无差别对待所有的训练样本,在不平衡分类问题中应用效果不佳.

本文采用非对称阶式最小二乘损失函数(asymmetric stage wise least square loss function ASLS)[12]替代L2损失函数,ASLS的定义和迭代规则如公式(2)所示.其中,r是截断系数,δ是边界系数.

(2)

ASLS通过截断参数和边界参数不仅可以给不同类别的样本设定不同的错分代价,还可以使正类样本被错分为负类样本的代价更大.通过边界参数δ的调整,使得正类样本比负类样本更加远离分类边界.当ASLS收敛时的表达式如公式(3)所示.

(3)

对类别不平衡的故障诊断问题,各故障模式的负类样本的ASLS的截断参数和边界参数设置为(γ-,δ-)=(1,1),这样只需调节正类样本的ASLS参数(γ+,δ+).为了提高小类样本的故障识别率,需要特别设置较大的(γ+,δ+)值,并且为了加速收敛,在迭代的过程中可以动态调整ASLS.

目标函数 本文将面向类别不平衡的单隐层神经网络(single hidden layer feed-ward neural network with class imbalance)称为SLF-CIB.采用ASLS损失函数,第t次迭代时SLF-CIB模型可用公式(4)表示.

(4)

其中,Λ是一个对角矩阵,如果Tji=-1,那么Λjj=1;如果Tji=+1,那么Λjj=(r+)/(δ2).

凸分析 SLF-CIB模型通过引入代价敏感的ASLS参数改变了样本的分布,改善了类别不平衡数据产生的不利影响.同时由于施加了截断参数r,对异常样本更加鲁棒,具有更好的稀疏性.对于模型(1),当W或H有一个是固定时,即可转为凸规划问题.SLF-CIB模型在模型(1)的基础上加入了ASLS损失函数.由于在每轮迭代ASLS损失函数均为最小二乘形式,因而在每轮迭代模型(4)仍是凸的.综上,SLF-CIB仍是一个凸规划问题,因而交替方向乘子算法(alternating direction method of multipliers ADMM)[13]可以应用于SLF-CIB的求解.

模型(4)的拉格朗日形式如公式(5)所示.

(5)

在第t轮迭代中,采用ADMM方法获得如公式(6)所示的W(t+1)、H(t+1)、ξ(t+1)、λ(t+1)后,进入t+1轮迭代.

(6)

故障诊断结果输出 当训练完成后,获得稳定的SLF-CIB结构.将未知实例x输入SLF-CIB可得到预测输出Y=[y1,…,yq],对于yi≥0的各分量进行降序排序,得到可能故障源的一个偏序关系.ya>yb⟺ta≻tb,表示故障ta的发生概率高于故障tb的发生概率.最终获得一个故障源的偏序序列[y(1),y(2),…,y(q)],y(1)≻y(2)≻…≻y(q),为基站空调维护人员进行故障排查提供参考.

4 实 验

4.1 标准UCI数据集试验

为了更好地测试SLF-CIB算法的性能,本文对3组不同领域的类别分布不均衡的UCI数据集(Wine、Glass、Abalone)进行测试.数据集的具体信息如表3所示,数据集名称后的(n)中的数字代表少数类的类别.规模为M的不平衡类别数据集的混淆矩阵如表4定义.采用TPR(True positive ratio),TNR(True negative ratio),ACC(Accuracy),AUC(Area under the curve of ROC)指标进行评价.TPR=TP/(TP+FN),TNR=TN/(TN+FP),ACC=(TP+TN)/M.

表3 UCI数据集信息Table 3 Properties of the UCI data sets

表4 混淆矩阵Table 4 Confusion matrix

对比算法有BP神经网络、多类SVM、决策树C4.5算法.各程序均在Matlab2017上部署运行,SVM采用径向基函数作为核函数,参数采用网格计算方法,λ和γ的搜索范围为λ∈{2-9,…,210}和γ∈{2-9,…,25}. 采用增量生长法来确定SLF-CIB算法和BP神经网络的隐层节点数目,从5开始递增,测试学习误差,若误差的变化低于阈值(0.01),则停止增长.SLF-CIB算法输出的偏序序列的第一个分量参与评价指标计算,实验采用五折交叉验证法,实验结果的平均值如表5所示.从表5可以看到,SLF-CIB在大多数的数据集下取得了较高的AUC和TPR.对于存在着极小类样本的数据集Glass、Abalone,SLF-CIB算法与决策树算法的TNR值相近,但TPR值提高了,说明对于小类样本的识别率有显著的提高,进而提高了AUC指标值.

表5 各算法在UCI数据集上的实验结果Table 5 Experiment results on the UCI data sets

4.2 在通信基站空调数据集上的实验

针对通信基站空调故障数据集,SLF-CIB算法各故障模式的ASLS参数设置如表6所示.故障模式2、4、7为少数类(ASLS参数(γ+,δ+)设置较高),其余故障模式均可视为多数类.将SLF-CIB算法与SMOTE决策树算法进行比较,输出的偏序序列的第一个分量参与评价指标计算,实验采用五折交叉验证法,针对少数类正确率和多数类错误率进行分析,对比结果见表7.表7中的“过采样参数”为SMOTE方法在近邻中随机选择的样本数,即过采样倍频.基于SMOTE的采样方法随着过采样参数的增高,在高维的数据集上不仅会产生交叉型的样本还会生成不准确的样本,从而影响故障诊断性能.而SLF-CIB通过非对称的阶式损失函数调整了样本的分布来提高故障诊断性能,在不平衡数据集的处理取得了更好的分类效果.

表6 故障模式与ASLS参数Table 6 Fault mode and ASLS parameter

表7 通信基站空调故障数据集上的实验结果Table 7 Experiment results on communication base station air conditioning data set

5 结 论

本文提出了一种基于单隐层前馈神经网络的多标签分类算法来解决通信基站空调故障诊断中的类别不平衡问题.可以通过为各故障模式灵活地设置损失函数的截断参数和边界参数来改变小类样本的分布,在UCI标准数据集和通信基站空调故障数据集上的实验结果表明所提SLF-CIB算法提高了不平衡数据集的故障诊断精度,特别是提高了小类样本的识别率.并且多标签分类输出的故障模式的偏序序列,为维护人员在软故障排查上提供了多维度的技术支持.但隐层神经元数目的设定目前采用的是生长法实验产生,过程较为耗时,在今后的工作中将进一步优化隐层神经元数目的设定.

猜你喜欢

类别基站故障诊断
比亚迪秦EV充电系统故障诊断与排除
基于神经网络的船舶电力系统故障诊断方法
迈腾B81.8T起动机无法启动故障诊断分析
基于NETMAX的基站网络优化
一起去图书馆吧
5G基站辐射对人体有害?
5G基站辐射对人体有害?
简析基于概率预测的网络数学模型建构
可恶的“伪基站”
选相纸 打照片