基于动力环境与数据分析的集团客户机房运维监控系统
2018-12-04王华肖荣军
王华 肖荣军
中国移动通信集团江苏有限公司
0 引言
随着集团客户市场全业务的快速发展,运营商需要考虑集团客户机房设备、机房运行环境情况的监控,保证机房在优良的环境下工作。依托运营商的天然网络覆盖优势和机房运维技术储备优势,将集团客户侧的动力环境变量进行远程智能监控,将获取的数据进行统计,通过一定的算法分析、告警匹配规则等,实现集团客户业务、设备的主动性维护。对集团客户的运维效率的提升具有重要意义和作用。
1 集客机房动力环境运维监控系统概述
1.1 机房动力环境监控运维系统必要性
在信息化建设中,机房运行处于信息交换管理的核心位置。机房内所有设备必须时时刻刻正常运转,否则一旦某台设备出现故障,对数据传输、存储及系统运行构成威胁,就会影响到全局系统的运行。如果不能及时处理,更有可能损坏硬件设备,耽误业务系统正常运转,造成不可估量的经济损失。因此需要保障机房内的设备运行在标准的、合适的、稳定的机房动力环境中,这些保障涉及电源、UPS、空调等监控和维护,而动力环境监控系统在信息化机房中属于基础设施,能够让IT设备为核心业务运行提供强有力的保障,所以动力环境监控非常有必要,它是精细化管理要求的集中体现。
1.2 机房动力环境监控介绍
随着网络信息化和机房建设的迅猛发展,作为机房正常、稳定运行基本保证的空调、电源等设备的运行状况以及机房环境的安全状况也日渐凸显出其重要性。由于许多重要机房是24小时不间断运行,而管理人员很难保证时时刻刻对机房情况进行监控,因此通过技术手段实现24小时不间断监控显得非常必要。机房动力环境监控系统通过通信和软件的集成,可以实现对机房环境和UPS、机房空调、发电机组等设备的集中监视,并实时采集报警信息发送给相关的管理人员。
2 集团客户机房监控业务需求及描述
2.1 动力监控需求描述
主要通过配置传感器来监控机房单相、三相市电的供电和恢复供电情况,针对机房的市电停电进行监控,能及时准确地把停电和来电的时间和信息通知管理人员,通过后台数据算法分析机房供电质量和能源利用情况。
2.2 环境监控需求描述
对环境的温湿度进行实时监控,进而了解空调设备运行情况,保证设备在合适的电子环境下运行,防患于未然。环境温湿度的监测首先实现环境告警,亦对采集的温度信息、告警信息统计、分析,总结出运维规律,便于管理。
2.3 漏水监控需求描述
对机房的漏水情况进行监控,实现对客户的技术场地不同环境和地点的监控,尤其对无人值守的小面积机房或机柜实现远程无人值守的告警和掌控。因为无人值守且长期高负荷运转,空调肯定有各种情况发生,空调漏水亦是其中一个很普遍的现象。
2.4 UPS等供电设备监控需求描述
对供电设备开关机状态、电流、电压等参数的远程监控,包括220VAC、48VDC、240VDC、600VDC等供电设备,实现设备参数异常和阈值越限上报,定期提供区域性的统计分析,进而随时了解机房的负载和负荷的运转情况。
2.5 安防类监控需求描述
对安防类的信号比如主动红外对射,被动红外微波双鉴,门磁信号的监控。
2.6 其他类监控
其他类的模拟量和开关量的监控,需要下行控制的开关量(包括简单的联动控制,时间编程控制等)远程控制类的需求,以及精密空调等智能设备的监控管理。
3 集客机房运维监控方案介绍
3.1 专线方案机房动环系统
(1)专线方案拓扑图
图1 专线方案拓扑图
(2)系统描述
根据客户侧采集器接入方式,专线方案系统拓扑图所示:主要应用场景是一些采集量涵盖比较齐全的机房。机房包含智能采集设备、开关量设备、模拟量设备。如果从专业角度划分,又可主要分为环境量采集模块和智能设备采集模块。环境量是指机房温度、湿度,烟雾探测和漏水探测;智能设备包括精密空调、UPS电源、开关电源、油机等,通过智能采集服务器UPT设备采集各传感器和智能设备数据,经网络实时上报到紫图监控平台。当机房有告警产生时,平台首先会弹出相应告警对话框,显示告警机房、告警设备、当前告警值及当前告警的开始时间。其次平台会将告警短信通过无线短信猫发送到指定维护人员的手机上。
3.2 无线接入方案机房动环监控系统
(1)无线接入方式方案拓扑图
图2 无线方式方案拓扑图
(2)方案描述
根据客户侧采集器为无线接入方式所示:无线接入方式主要的应用场景是一些采集设备涵盖量相对较少(主要以一些开关量设备或较少的模拟量设备或接入信号),需求相对较简单的机房。虽然是简易版,但在功能的实现上仍然可以保证需要监控的设备当有告警后能在第一时间知晓。这是因为简易版所用的无线控制器也可以将一些模拟量设备、开关量设备接入进去,当有告警时会通过GPRS或者NB-IOT UDP方式上报平台,亦可以短信的方式直接发送给相关机房负责人员。简易版中平台侧的相关显示和告警的处理与专业版系统一致。数据同样是传输到移动的客户监控管理平台,平台软件的功能都可以满足。
3.3 集客机房运维监控平台
数据的采集、监控、统计、分析,必然依赖上述两种传输方式的实现,依据客户的需求,加上对客户专业化的引导,从而满足机房监控的需求,最终实现简化客户机房的运维管理、效率的提升和正确执行安全生产规范。
图3 运维方式展现图
本方案采用智能手机APP软件和服务级综合管理软件平台双重方式管理,包括数据展示、统计、分析、告警信息的推送和远程控制等。达到及时化办公运维和随时性移动运维相结合的运维管理的目的。
图4 手机端平台展示图
图5 客户端平台展示图
(1)平台基本功能
通过传感器终端上报的监测数据进行统计分析呈现:活动告警信息、历史告警查询、采集数据统计分析、关联分析、预防性维护预测等;通过曲线、图型、列表,辅以图标、颜色、等级,在电脑web界面、手机APP软件上实现,且可以实现消息推送。
具体实现功能如下:
1)安全稳定的数据采集和动态展现;
2)权限的分配、地域的划分等;
3)多途径通讯,本地告警推送和平台告警推送互为备份;
4)远程控制设备运行及状态确认返回;
5)及时获取故障告警信息,查询历史告警信息;
6)多工种人员远程使用,包括主管,专家,值班等;
7)结合平台数据分析提供合理的机房治理维护建议。
(2)平台扩展功能
整套机房的动环监控运维系统建设基于物联网理念下的数据采集技术,数据采集只是实现整套系统的主体框架方式,最终目的在于更科学高效地运用采集到的“数据元素”,通过数据统计分析手段将这些元素重新拼接为机房运维工作中的“工作个体”,通过数据可视化形象具体地展示给维护人员。“数据元素“包括原始采集的信号、告警、时间、事件等,把原始的“数据元素”作为“生”数据,通过科学算法进行“适当加工”(比如逻辑的运算、时间的演算、字段关联、自学习的应用和等)和传统人工运维经验的糅合,将原始的“生”数据变成“熟”数据,达到智慧运维、智能管理的目的。
举例如下:
1)房间温度和空调开启当下关系时间轴线;
2)对电流经过若干组合后若干可能状态,过滤后的最终状态综合值等;
3)其他由专家提出的各种逻辑运算后的综合告警运算信号实现等。
(3)平台智能巡检
集客机房的巡检管理。巡检对保证设备稳定运行,提升用户感知具有重要意义。随着全业务规模的不断扩大,切实要求转变以往采用纸质化巡检模式存在的监督和管理困难的现状,研究电子化巡检手段。远程运维管理终端具有远程巡检按钮,巡检执行时触发该按钮,终端将巡检时间、巡检地点、所巡检的设备等信息实时上传到管理中心,管理中心可按照要求输出巡检报表。方案可实现巡检人员终端的经纬度管理,通过集团客户机房巡检按钮的签到等手段实现智能巡检业务。
4 集团客户场景应用分析
4.1 标准客户机房应用
针对政府、银行、保险总部等大型/重点集团客户,通过集团客户需求收集及主动推介等方式拓展业务。业务监控终端可作为独立产品组网,运营商维护人员参与制定机房监控一揽子解决方案,为集团客户提供客户侧设备监控、市电整体检测评估、温度、湿度、无线信号质量、烟感等一体化服务。
4.2 微小偏远客户机房应用
针对中小企业客户,远程监控终端作为公司企业网关产品的一个功能模块,可根据客户实际需求选配,以满足中小企业机房及设备监控需求。目前苏州地区针对中小企业客户监控试点情况是:在集团客户业务接入机房内安装一台监控主机,主机上接有市电、温度、水浸、烟感等传感器(传感器种类、数量可根据客户需求选装),传感器将市电及环境量等实时信息传送给监控主机,监控主机通过GPRS网络将监控数据上报到中心服务器,可供维护人员浏览。由于监控主机上尚留有其它干接点通道,所以下一步还将研究将网络接入设备的传输、运行等状态信息上报监控主机。
5 结束语
集团客户机房部署实施动力环境与数据分析运维监控系统,可以实现集团客户侧业务接入机房、集团客户自有机房的设备监控、动环监控等,通过对机房业务监控实现主动性维护,及时发现故障,提高集团客户的满意度;同时可提高运营商公司对代维厂家巡检、设备厂家售后维护的管理能力,实现自动巡检。集团客户机房动环数据分析运维监控系统由远程运维管理终端和管理中心组成,接入设备发生异常情况时,远程运维管理终端通过无线或有线网络将告警信息发送给维护人员和管理中心,及时响应处理;或者维护人员通过手机访问系统,实时获取相关信息。系统给机房动环运维带来了新的发展机遇,数据分析技术将会对未来动环系统发展及运行带来革命性变化。