基于WSNs的分布式温度异常监测报警系统*
2018-01-26董惠良姜学峰段春立毛科技
董惠良,姜学峰,刘 伟,段春立,毛科技
(1.浙江中烟工业有限责任公司,浙江 杭州 311200;2.浙江工业大学 计算机学院,浙江 杭州 310023)
0 引 言
机房作为数据中心必须24 h不间断正常运行[1]。目前,对于机房环境监测方面的主要研究为针对性的,例如文献[2]采用基于无线传感器网络(wireless sensor networks,WSNs)[3,4]的电力信息机房监测系统,系统采用CC2530芯片、基于ZigBee网络,实现了机房中重要环境参数的采集,并通过服务器端的浏览器/服务器(B/S)系统分析与存储数据,实现了机房的远程监测;文献[5]主要针对信息机房环境监测的需求,设计了一种基于WSNs和Web 3D的信息机房三维仿真监测系统,利用无线模块JN5148组成的WSNs进行数据的采集和通信;其他类似的研究有献[6~9]。
本文针对浙江中烟工业有限责任公司的中心机房设计了一种基于WSNs的分布式事件触发的温度异常监测报警系统。WSNs节点周期采样温度值,根据之前采集设备异常情况时的温度曲线提取异常温度曲线的波形因子[10],利用贝叶斯分类器[11~13]判断设备异常的种类,一旦事件触发器满足触发条件,则将该情况直接报警给机房管理人员。
1 异常情况判别
将WSNs节点部署在机房环境和设备上,传感器节点每秒采集一次温度值,并且记录近期30个温度值,并判断,如果监测到异常情况,直接报警给机房管理员。
研究表明[14,15]服务器的工作温度高于60 ℃时,设备性能会下降且易故障。正常情况下WSNs节点采集的服务器核心部位对应的外壳温度如图1所示,由于机房内制冷设备等作用,服务器设备的正常工作温度通常在30℃左右,当采集次数低于23,设备温度逐渐升高,达到35 ℃时,机房制冷设备开始工作,设备温度降低。
图1 正常温度曲线
当机房的制冷系统故障或服务器负载过重时,机房设备温度会过高。为了获取设备异常情况下(分为提醒异常、警报异常和异常恢复)的温度变化曲线,通过停止制冷控制系统并加重服务器负载的方式模拟设备的提醒异常,温度变化曲线如图2所示;通过停止制冷控制系统、停止散热风扇并加重服务器负载的方式模拟设备的警报异常,温度变化曲线如图3所示;两种异常需要立即前往机房排查,防止故障的进一步恶化。图4为异常恢复情况,当设备温度高于50 ℃,后又因为制冷控制系统或设备散热系统恢复正常工作,设备从异常状态恢复正常。
选择设备核心部件外壳温度为50 ℃作为系统异常阈值,然后分别选取异常情况下30个连续采集的温度构成的波形作为异常温度样本,如图2~图4方框内波形所示。由波形分析,提醒异常的温度曲线升高较慢,且有存在降低的趋势;警报异常温度曲线升高较快,且没有降温的趋势;异常恢复情况温度曲线逐渐降低,最终恢复正常。
图2 提醒异常温度曲线
图3 警报异常温度曲线
图4 异常恢复温度曲线
2 贝叶斯分类器
针对温度异常进行分类判断:提取异常的样本温度波形特征;对特征值进行贝叶斯分类器训练;实时采集的温度值输过贝叶斯分类器判断具体归属,方法如图5所示。
图5 异常情况判断分类
2.1 温度特征值提取
提取的温度波形特征值包括均值Tavg、方差Tv、有效值Trms、峰值指标Tcf和裕度指标Te,设温度数据集合为tp={x1,x2,x3,…,xi,…,x30},则温度数据集合tp的5个特征值计算方法如下:
1)均值
(1)
2)方差
(2)
3)有效值
(3)
4)峰值指标
(4)
5)裕度指标
(5)
2.2 异常分类
根据异常恢复、警报异常和提醒异常3种情况下的样本温度特征值,设S=0表示异常恢复情况,S=1表示警报异常,S=2表示提醒异常,其中,异常恢复情况采集了numc个样本,警报异常采集了numa个样本,提醒异常采集了numr个样本,每个样本均由30个温度数据组成的集合。3种情况的样本占总样本数量如式(6)~式(8)所示
(6)
(7)
(8)
以S=1为例,其他2种情况处理方法一致,对numa个样本分别提取对应的5种特征值,每种特征值的数量为numa,然后分别对每种特征值以gi为梯度进行区域划分,划分梯度如式(9)所示
(9)
式中CVi_max为第i种特征值中的最大值,CVi_min为第i种特征值中的最小值;n为将特征值划分的区间数量,划分后的区间表示为Rj,j∈[1,n]。
分别计算5种样本特征值在每个区间Rj中所占的数量比例,以S=1的均值Tavg为例,其他4种特征值处理方法一致,共numa个均值,用集合Avg={Tavg_1,Tavg_2,…,Tavg_numa}表示,其中均值在区间Rj中的数量为numj,则均值在区间Rj中所占的比例如式(10)所示
P(Avg∈Rj|S=1)=numj/numa
(10)
上述过程根据3种情况的样本计算了先验概率,计算过程在计算机中完成,然后将先验概率和区间范围保存到传感器节点内部,最后利用先验概率对实时采集的温度数据进行判断分类。具体步骤如下:
1)计算待判温度的5个特征值(Tavg,Tv,Trms,Tcf,Te);
2)分别查找5个特征值在3种情况下,每种特征值对应的区间和该区间对应的比例;
3)假设查找后待判断温度的均值、方差、有效值、峰值指标、裕度指标在S=0,S=1,S=2 3种情况下所处的区间对应的比例分别为Pavg_0,Pavg_1,Pavg_2;Pv_0,Pv_1,Pv_2;Prms_0,Prms_1,Prms_2;Pcf_0,Pcf_1,Pcf_2;Pe_0,Pe_1,Pe_2;
4)分别计算待判温度属于S=0,S=1,S=2的概率,计算方法如式(11)
PS_k=P(S=k)·Pavc_k·Pv_k·Prms_k·Pcf_k·Pe_k,
k={0,1,2}
(11)
5)k分别取0,1,2时,计算待判断温度属于S=0,S=1,S=2 3种情况的概率分别为PS_0,PS_1,PS_2,当PS_0,PS_1,PS_2均最大,WSNs节点分别向机房管理员发送异常恢复、警报异常、提醒异常。
3 实 验
本文系统已实际应用于浙江中烟工业有限责任公司的中心机房。实验对S=0,S=1,S=2共3种情况采集的样本数量均为20次,将样本特征值划分为10个区间。
3.1 分类准确率
为验证本文算法对3种异常情况的分类准确率,实验中3种异常情况的验证集均为100个异常温度波形,实验结果如表1所示。
表1 分类结果表
实验结果表明:异常分类算法对S=0情况的识别率最高,因为异常恢复情况的温度波形呈逐渐下降趋势,与其他2种异常的温度波形差别较大,因此,不会对S=0的情况误判。S=1情况的识别率次之,为96 %,其中,误判部分被识别为S=2,因为S=1和S=2 2种异常情况的温度波形均呈上升趋势,且存在部分相似,因此,实验中有4个警报异常(S=1)被判断为提醒异常(S=2)。同样地,S=2中也存在少量温度曲线被判断为警报异常。
3.2 异常通知
当系统判断出设备温度异常时,WSNs节点向机房管理员发送报警提示,如图6所示,包括异常种类、节点编号、发生异常的设备编号和温度,℃。
4 结 论
针对浙江中烟工业有限责任公司的中心机房设计了基于WSNs分布式温度异常监测报警系统,WSNs节点分布式监测各个设备的状态,当设备温度异常时,节点向管理员发送报警提示,并通过实验验证了系统的准确性和实时性。
[1] 魏 翔.网络机房管理与维护的重要意义及对策[J].科技与创新,2017(5):87-88.
[2] 易健翔,秦肖臻,汪秉文.基于WSNs的电力信息机房监测系统的设计[J].计算机与数字工程,2013,41(1):135-137.
[3] 谢 昕,吴 颖,张 磊,等.基于无线传感器网络节点的RFID系统节能研究[J].传感器与微系统,2012,31(6):66-68.
[4] Nayak P,Devulapalli A.A fuzzy logic-based clustering algorithm for WSNs to extend the network lifetime[J].IEEE Sensors Journal,2015,16(1):137-144.
[5] 何 辉,龚成莹,邢敬宏.基于WSNs与Web 3D的信息机房环境三维仿真监测[J].自动化仪表,2015,36(8):49-52.
[6] 吴维农,唐 夲,肖静薇,等.电力信息通信机房智能PDU监测系统的研究与实现[J].机床与液压,2017,45(6):83-88.
[7] 董惠良,王正敏,姜学峰,等.基于WSNs的机房温控系统设计与实现[J].传感器与微系统,2017,36(10):92-94.
[8] 李富强,郑宝周,豆根生,等.基于WSNs的温室温度分布式事件触发控制系统研究[J].现代电子技术,2015(15):15-17.
[9] 吴海龙.分布式机房环境信息集中监测管理系统[J].兰州工业学院学报,2017,24(1):64-68.
[10] 陈玉玲,王华忠,李 实,等.EAST波形数据特征值提取方法[J].计算机工程与设计,2016,37(7):1851-1856.
[11] 张 品,董为浩,高大冬.一种优化的贝叶斯估计多传感器数据融合方法[J].传感技术学报,2014(5):643-648.
[12] Robertson D S,Prevost A T,Bowden J.Correcting for bias in the selection and validation of informative diagnostic tests[J].Statistics in Medicine,2015,34(8):1417-1437.
[13] 王双成,高 瑞,杜瑞杰.小时间序列的动态朴素贝叶斯分类器学习与优化[J].控制与决策,2017,32(1):163-166.
[14] 张振亚,王 芳,屈 岩,等.新型冷板对服务器CPU散热的研究及能耗分析[J].上海理工大学学报,2014(4):317-321.
[15] 黄 胡,黄子昕,基于单片机和kingview的机房温度监测系统设计[J].自动化技术与应用,2016,35(12):131-134.