基于CPS的铁路客运站智能机房监控平台
2022-03-01徐春婕陈瑞凤贺晓玲
徐春婕,陈瑞凤,贺晓玲,王 静,李 君
(1.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081; 2.北京经纬信息技术有限公司 机电装备及系统事业部,北京 100081)
0 引 言
随着高铁建设智能化的发展,采用可视化、物联网、大数据分析、人工智能算法等新技术,对机房相关系统的基础设施资源进行监控和预警,将极大提高故障排查效率,降低运维成本,降低故障发生概率,提高系统可靠性,为铁路客站的正常运营提供保障,具有重要的研究价值和现实意义。
目前车站机房已建设的动环监控系统存在如下问题:①系统功能单一,仅限于动力和环境的监控;②站内各信息系统设备资源独立部署和运用,种类繁多,系统资源利用率不能及时掌控;③机房内部环境复杂,缺乏直观有效的设备链路管理,影响设备整体故障排查和运维管理效率;④系统可扩展性弱,针对其它外接设备接入需求,无法满足监控单元动态创建等多元化要求;⑤电子化程度低,对机房设备信息管理尚采用传统图纸、表格等方式,效率低下。
目前针对机房监控系统的研究主要集中在动力环境监控系统的设计、协议和机房单一设备运维等方面,文献[1]提出一种边云协同的分布式机房动力环境监控系统架构方案,文献[2]设计了一种基于MQTT协议的系统解决方案,文献[3]主要研究机房电源设备运维监控系统,均没有提出针对机房多源设备及环境动力监控等全面智能监控的完整解决方案。信息物理系统(cyber physical systems,CPS)实现物理与信息世界之间的虚实互连,使之具有自主决策、判断和调控能力[4,5]。本文针对铁路客运站机房监控系统中存在的问题,探索新技术在智能机房业务中集成应用及关键技术,为机房经济、节能、协调、高速、安全运行提供技术支持。
1 基于CPS的铁路客运站智能机房监控平台架构设计
铁路客运站智能机房监控平台采用CPS、物联网、大数据、可视化等技术,对机房动力设备(UPS、市电配电)、环境设备(空调、传感器等)、安全设备(防雷)、环境参数(温度、湿度、水浸、烟感)、IT设备(供电、风扇、CPU、硬盘、内存等)、设备链路状态实现远程集中监控管理,实时动态呈现设备告警信息及设备参数,快速定位故障设备,具有设备链路可视化管理、IT设备资源管理、动力环境资源管理、告警联动、电子设备台账管理功能,形成铁路局-车站两级报警及分析管理体系,全面满足对机房运维管控一体化的需求。
1.1 功能设计
从功能角度划分为设备链路可视化、IT设备资源管理、动力环境资源管理、报警联动管理和台账管理。
(1)设备链路可视化管理
将机房内设备、电力线、通信铜缆、光纤等的连接关系及链路拓扑等基本配置信息纳入可视化平台,通过定位机房位置、设备方便的查找相关设备及配线信息,实现设备及线路资源可视化管理,实时更新线路变更信息,保障配线数据的准确性。采用虚拟可视化环境操作设备部署、跳线管理,形成工单或指令,引导现场维护人员进行施工,完成设备部署和跳线配置可视化,保证所有设备及跳线连接信息的实时准确;当设备出现网络故障时,可根据配线数据和线缆连接关系,快速进行线路排查,从而提高运维管理的效率。
(2)IT设备资源管理
实现对服务器、网络设备等性能指标及网络通讯状态的全方位监控,监测交换机、路由器、光端机等通信设备故障、流量、端口状态等指标参数,监测服务器CPU、内存、磁盘、网络流量、系统进程的多种性能指标,监控网络通讯连接状态,实现IT资源监控,使得运维人员能够实时、全面掌握IT设备运行态势,及时预测、响应和处理IT资源故障,对设备部件健康状态监控与告警、SSD寿命估算、硬件设备故障自动电子巡检,为业务维保工作提供强有力的技术支撑。
(3)动力环境资源管理
通过物联网技术实现既有动力环境资源管理,包括环境、动力、门禁、安防等监控,实现环境变量、动力类及安防类数据的展示与智能报警分析。实时监测机房的温度、湿度、漏水等具体数值、配电柜内温度、主要空开温度、UPS柜的温度等,并在异常时发出报警信息;实现配电柜总开关电压、电流、电量等参数监测功能,对机房动力设备进行实时和集中监控,全面了解设备的运行状况,及时发现问题;对机房门禁、防雷、消防等进行监测,实现人脸识别门禁准入及开关监测、视频监控联动抓拍、红外人体感应红外报警、消防控制箱的干接点火警信号状态、智能照明系统等功能,保障机房安全。
(4)智能联动管理
智能联动是平台基于大数据分析监测的各类数据参数进行辅助决策,利用人工智能技术的日志分析智能预警,对检测到预警和告警事件后在平台前端及报警终端发生声光电实时报警等。报警联动的告警输入源可以是各类开关量信号,如检测机房温度是否过高的温度传感器、检查机房湿度是否过高的湿度传感器等,也可以是整个网络系统中各种事件、设备故障、网络异常等告警信息。当出现故障后,通过预置的报警方式生成告警分析统计报告,进行联动控制,并提供主动式故障解决方案。
(5)台账管理
系统具备电子设备台账管理功能。用户可以根据用户权限不同,结合人脸识别技术,查询本站或者全线机房设备台账。
1.2 基于CPS的铁路客运站智能机房监控平台架构设计
根据铁路客运站智能机房监控平台功能需求,平台按层次划分为物理感知层、网络协议层、网络传输层、数据服务层、CPS智能服务层、用户应用层6个层次,其系统结构如图1所示。
图1 基于CPS的铁路客运站智能机房监控平台架构
(1)用户应用层
用户应用层为用户提供友好的用户接口,提供用户需要的各种功能,主要包括:包括设备链路可视化管理、IT设备资源管理、动力环境资源管理、智能联动管理及设备台账管理等。
(2)CPS智能服务层
智能服务层通过对各类数据进行深入分析和挖掘、同时结合辅助决策的人工智能服务库,提供智能化运维和智能联动服务,建立设备和链路可视化服务模型,实现各种资源的在线监控及故障分析和预警等功能,包括资源在线监测服务、监控数据管理服务、网络故障定位服务、设备故障分析服务等。
(3)数据服务层
数据服务层包括基础数据层和数据库中间件,实现数据的存储和发布。
(4)网络传输层
铁路机房设备有多个处于不同网络的信息系统组成,包括安全生产网、客票网、视频网以及进行温湿度采集的无线传感器网络组成,本系统处于安全生产网中,通过网闸和防火墙等隔离设备进行相连。
(5)网络协议层
系统采用ZigBee、SNMP协议、IPMI协议等对机房动力、环境、通信设备、服务器进行数据采集,通过http协议与即有动环系统进行数据接入。
(6)物理感知层
物理感知层通过温湿度等传感器、UPS、机房空调、智能配电柜、网络通信设备、服务器、消防等设备采集相关数据,并在系统报警时,进行自动控制。
2 系统关键技术研究
2.1 多终端适配的网关设计
物联网是将多种感知设备按照约定的协议,进行信息交换和共享,以实现远程数据采集和测量、智能化识别、定位、跟踪、监控和管理的一种网络[6,7]。物联网关实现多种感知网络与基础网络之间的协议转换和数据转发[8]。
本文采用组件化的微服务架构设计多适配终端设备接入的智能网关,包括网关管理服务、协议适配服务和数据处理服务。网关管理服务对网络参数、感知层设备表参数、协议转换等参数进行管理,实现对协议适配服务和数据服务的动态管理与任务协调。协议适配服务具有协议转化和数据包封装与解析功能,集成机房设备的多种通信协议,完成感知数据的格式转换,通过网关管理服务,调用数据处理服务,将处理后的数据封装,并推送数据包到数据服务层;当数据下发时,则完成数据包解析,根据指令完成设备控制。数据处理服务主要实现不同类型感知数据的降噪、补全等数据预处理。
2.2 网络故障自动实时发现与定位
可靠的网络通信是系统安全可靠运行的重要保障,高效、准确地发现和定位网络故障是提高网络可靠性的重要手段。系统通过SNMP协议采集网络通信设备运行数据,所有的交换机和链路构成网络链路拓扑图G=(V,E), 其中V表示图中节点集合,u∈V作为一个节点表示拓扑图上的一台交换机,ui表示交换机u的第i个端口,E表示图中边的集合,边e={ui,vj}∈E表示交换机u和交换机v的ui端口和vj端口的一条链路。
本文采用的网络故障自动实时发现与定位算法通过检测交换机设备端口的当前工作状态标识ifOperStatus[10,11]、发出的数据帧数dotldTpPortOutFrames[9](简记为TPOut)、丢弃的数据帧数dotldBasePortDelayExceededDiscards[9](简记为BPDiscards)、收到的数据帧数dotldTpPortInFrames[9](简记为TPIn),检测交换机设备的工作状态、拥塞异常及丢包异常检测并进行告警。分别计算结点u在 (t,t+1) 时段的拥塞度[9](Congestion)和在边e在方向
(1)
(2)
监测设备端口工作状态值1为正常工作,为0则进行报警;当拥塞度和丢包率大于报警阈值时均产生异常,并记录异常次数,当异常次数达到一定值时,产生报警;最后输出K个时间段内的报警次数。
算法如下:
算法:网络故障自动实时发现与定位
Input:G=(V,E), detCon, detloss,K,LC,LL,LN
detCon是检测的交换机u的拥塞度报警阈值, detloss是检测边e的丢包率阈值,K是检测的连续的 (t,t+1) 个时间段,LC、LL分别是检测到拥塞度和丢包率报警的次数,LN为报警次数
Define:state=0,count=0,count1=0,count2 =0,loss
(1)m=0
(2) whilem (3)SumTPoutt=0,SumBPDiscardst=0 (4) for eachedge(ui,uj) inedge(u): (5) if !ui.ifOperStatus: produce warning,LN++,break //检测u结点每一个端口号状态 (6)SumTPoutt+=TPoutt //计算t时刻u结点各端口发出的帧数和 (7)SumBPDiscardst+=BPDiscardst //计算t时刻u结点各端口丢弃的数据帧数和 (8) Recording the dataTPInvj,t //计算t时刻v结点对应端口收到的数据帧数 (9) sleep(1000) //设置延时时间 (10) for eachedge(ui,uj) inedge(u): //检测计算t+1时刻状态及数据 (11) if !ui.ifOperStatus:produce warning,LN++,break (12)SumTPoutt+1+=TPoutt+1 (13)SumBPDiscardst+1+=BPDiscardst+1 (14) Recording the dataTPInvj,t+1 (15)ifCongestionu>detCon:count++ (16)fori=1 tonum(edge(u)): //分别计算u结点各端口两个方向上对应的丢包率 (17)ifloss (18)ifloss (19)ifcount>LC: produce warning,LN++,count=0 (20) ifcount1>LL:produce warning,LN++,count1=0 (21) ifcount2>LL:produce warning,LN++,count2=0 (22)m++ Output:LN 系统通过exporter组件采集服务器运行信息,利用第三方组件node_exporter、mysqld_exporter等采集服务器CPU、内存、磁盘、I/O、数据库访问量、系统平均负载、缓存系统的数据指标等信息,并记录系统的运行时间等参数。 本系统采用粗糙集理论[10]和模糊综合评价方法相结合,首先采集服务器设备在线运行的历史数据,提取不同阶段的服务器设备状态特征数据,对其特征数据进行属性约简,找出故障发生的规律。在模糊综合评价的过程中引入粗糙集来确定影响服务器运行的指标权重,建立一种综合的服务器设备在线状态评价模型,并对一些主要指标达到较差的时候进行报警。 各因素权重通过粗糙集的属性重要度作为模糊评价指标的权重,属性权重完全由数据本身决定,使得各因素属性权重可能具有一定的片面性。因此,本系统结合专家知识和经验,将历史数据确定的客观属性权重与专家的主观属性权重结合确定指标的权重。 服务器设备状态分析步骤如下: 步骤1 建立因素集。因素集P是影响服务器状态评价因素的集合,包括CPU温度、CPU使用率、系统平均负载、内存使用率、磁盘的使用率、磁盘读写速率、I/O读写时间、数据库访问量等 P={p1,p2,…pn},i=1,2,…n 式中:pi代表因素集P中第i个影响因素。 步骤2 建立评语集,构建信息系统S=(U,A,V,f)。 其中U表示服务器对象的非空有限集;A表示评价指标的非空有限集;A=C∪U,C为条件属性集、D为决策属性集,对数据进行归一化,建立指标决策表;评语集是服务器状态属性做出的评价结果的集合,本文以“良好”、“正常” “较差”和“严重”4个等级来衡量。即 V={v1,v2,…vm}j=1,2,…m 式中:vj代表评语集V中第j种可能的评价。 步骤3 进行属性简约,根据属性重要度,确定指标权重,建立权重集。权重集是反映服务器状态因素集中各状态重要程度的集合,即 式中:ai为因素集中第i个因素的重要程度,则属性pi的权重且归一化作为客观权重Wpi。 属性p1的权重为其在决策集上的重要度 lmp=1-card(posC(D))/card(U) (3) 其中,card表示集合的基数,posC(D) 表示D的C正域。 基于粗糙集的属性权重仅由数据驱动,要求选取的数据具有普遍性和代表性,具有一定的片面性。因此可以对不同类型服务器进行分类,并根据不同的服务器类型根据实际需要对不同要求的服务器确定指标主观权重,确定综合权重 Wp1=W′p1×(1-a)+W″p1×a (4) 其中,经验因子设为a(0≤a≤1), 经验因子取值越大,说明综合权重越重视主观的意见。 步骤4 单因素模糊矩阵 利用服务器设备实时在线数据通过统计的方法,建立第i个单项因素对j级状态评价的隶属程度。形成单因素模糊评价矩阵,记为 步骤5 模糊综合评价 将单因素评价矩阵分别与权重集进行模糊变换,最后形成多因素模糊评价,记为 (5) 智能机房数据可视化表示,某时刻服务器运行情况及链路占用情况如图2所示。 图2 服务器状态监测及链路占用 本文针对京张智能视频分析系统内的5台交换机和10台视频分析服务器及客户端进行了模拟分析。实验间隔本文设置为1 s~15 s,实验中将间隔设置为5 s,针对10条链路分为两组,将2组链路的丢包率分别设为5%、8%、10%和15%。在发包率速率为10 packet/s和30 packet/s发送数据包时,设置detloss=0.1时,报警次数见表1。 表1 链路流量与报警次数关系 实验结果表明报警次数与发包速率成正相关,发包速率越大时越易丢包,报警次数增加。 实验中仅对部分服务器某时间段内5个时间段6个运行参数的平均值进行采集:CPU处在用户模式和系统模式下的时间百分比之和(p1)、内存占用率(p2)、内存的空闲率(p3)、虚拟内存页的导入值(p4)、虚拟内存页的导出值(p5)和磁盘i/o每秒中用于i/o操作的比率(p6),并对采集数据按如下规则进行数字归一化:当p1大于80%需要扩容用严重表示(4)、大于70%小于80%可能存在资源不足用较差表示(3),大于60%小于70%用正常表示(3),小于60%用良好(1),p2内存占用率(已用内存与可用内存之间的比率)大于80用严重表示(4)、大于70%小于80%用较差表示(3)、大于30%小于70%用正常表示(2)、小于30用良好表示(1),p3与之相反,p4(si)和p5(so)值为0用很好表示(1)、不等于0用较差表示3, %util每秒中百分之几的时间用于i/o操作大于80%需要扩容用严重表示(4)、大于70%小于80%说明可能存在资源不足用较差表示(3)、大于60%小于70%用正常表示(3)、小于60%用良好表示(1)。其运行参数所得决策表如下所示。 p2、p3具有相同的分辨能力,因此进行属性约减,最后确定p1、p2、p4、p5、p6的权重各为0.2。由于本组服务器需要向hadoop平台上传视频流,对服务器的限制主要在i/o读写操作,因此专家给出的主观权重为 (0.1,0.1,0.05,0.05,0.7), 选取经验因子a=0.8, 根据式(4)得出服务质量指标的综合权重为 (0.12,0.12,0.08,0.08,0.6)。 本文通过对某时间段内每间隔1小时5台服务器的运行状况数据见表2。 表2 服务器运行状态数据 根据式(5)得出服务器的状态为 (0.58,0.28,0.35,0.54,0.27), 均小于0.6,服务器状态均为良好。 本文针对车站机房已建设的动环监控系统存在的问题,构建了基于CPS的新一代智能机房系统,保障了车站各系统的安全运行。本系统通过网络故障自动实时发现与定位技术,实时监控系统网络通信状况,将模糊评价方法与粗糙集理论结合起来,提出了一种服务器状态评价方法,将客观权重与专家评价结合起来,使服务器状态检测方法更加科学合理。而在服务器状态的预测预警是下一步研究的重点。2.3 服务器设备在线状态分析及故障预警
3 模拟仿真及分析
4 结束语