智能微型数据机房边缘云综合监控系统设计
2021-06-04蔡幸波祝可颖
蔡幸波, 祝可颖
(浙江德塔森特数据技术有限公司,宁波 315000)
1 系统概述
随着数字新基建的启动,以及5G和边缘云技术的普及,智能微型数据机房建设数量日益增长,大量数据机房处于二十四小时不间断运行状态。通过对智能微型数据机房需求的调查,笔者发现,数据机房建设地理位置较为分散,有些分散建设在城市各栋大楼中,还有些建设在海岛、高山等偏远地带,存在数量大、规模小、地远分散、人员管理不便等情况,造成机房运维人力成本高、管理困难、安全性低等问题。智能微型数据机房边缘云综合监控系统能够提高机房的管理效率,减少运维费用,使机房运行更安全高效。因此,构建一套完整的智能微型数据机房边缘云综合监控系统(以下简称“综合监控系统”)是十分有意义的。
2 设计思想
综合监控系统设计是计算机技术、通信技术、自动化技术、人工智能技术的融合。管理人员可远程对机房设备进行监测、控制和管理,实现对机房高效便捷的运维。综合监控系统自身具备高可靠性和智能处置能力,遇到机房故障自主采取及时有效地处理,方便机房管理人员留有充足时间赶到现场更换设备进行维护。2020年国家标准GB/T 51409-2020 《数据中心综合监控系统工程技术标准》发布,因此综合监控系统的设计在遵循国家相关标准的基础上,更注重突出智能微型数据机房分布式、无人值守、边缘云运维的需求特性。
综合监控系统采用模块化设计,实现了模块的独立性,达到了快速部署、降低运维成本的目的。系统各模块设计双活互备同时具备健康监控功能,实现了系统的高可靠性,能够在降低成本的同时,实时保障监控系统稳定高效地运行。通过遥测、遥信、遥控、遥调和实时报警管理,实现对机房供配电模块、冷量模块、安防模块等基础设施运行状态的实时监控并记录历史数据,通过IT设备的SNMP协议和IPMI接口,实现机房IT设备的参数查看、工作性能跟踪和日志分析等功能。通过远程集中监控技术,结合智能联动参数配置,使设备智能化,遇到设备故障,系统能够在第一时间做出基本判断并处理,减少故障损失。
3 系统构成
综合监控系统由机房监控系统和边缘云平台两大系统构成,前者由数据采集模块和智能管控模块两部分组成,后者由数据传输模块、动环监控模块、IT设备监控模块、3D可视化监控模块和数字化运维模块五部分组成。综合监控系统由多个单点机房监控系统构成并分布式部署,图1所示为系统组成示意图。
图1 边缘云平台综合监控系统示意图
整体系统具备如下特点。
(1)部署方便,运维成本低:系统整体采用模块化设计,降低了系统的复杂程度,每个设备可作为单独的模块,系统整体可上机架安装,仅需占用机柜1U高的空间,可简化系统调试,方便设备实施安装及维护拆卸,从而减少人工费用,降低了运维成本。
(2)安全可靠性高:系统软硬件采用模块双活互备实现了高可靠性,当任一模块的服务停止时,由另一模块接管,以保证机房监控服务的正常运行。系统对机房设备运行异常实时检测,遇到故障迅速告警且对基础故障进行智能判断处置,确保机房健康稳定高效运行。
(3)管理高效率:系统通过远程集中监控、3D可视化管理和数字化运维,实现边缘云平台智能集中管控,实时监测整个数据中心机房的运行状况、智能事件记录和声光语音报警,简化机房管理人员的维护工作。
4 模块设计
4.1 机房监控系统
智能微型数据机房数量众多且区域分散,设计要求机房监控系统安装维护方便,系统可靠性高,具有机房异常智能联动处置能力,满足机房无人值守需求。
机房监控系统硬件采用一体化控制板设计,数据采集模块和智能管控模块的硬件设备设计在一块PCB板上,以简化配件安装,减少连接线,提高硬件设备的可靠性。硬件系统的CPU选用工业级ARM处理器,操作系统选用成熟的开源操作系统或符合国家安全认可的操作系统,如乌班图系统或麒麟系统。系统具有双电源输入,控制板设计双网口,内置短信电话报警装置。具体模块设计如下。
(1)数据采集模块设计
数据采集模块的软硬件设计都需考虑冗余特效,以保证系统的可靠性。在硬件端口设计时,可采用多个RS232、RS485以及DI信号采集端口,2个标准以太网口,考虑工程接线通用性,端口全部采用标准RJ45接口。在软件功能设计时,数据采集模块设计支持Modbus、SNMP、Web Service、BAC net、IPMI、OPC等多种标准化协议和接口。
通过Modbus和SNMP协议采集机房基础设施的空调、配电、UPS、智能PDU、温湿度、烟感、水浸等设备,同时可对空调、配电、UPS、智能PDU等设备进行参数配置。通过SNMP协议和IPMI接口采集并管理服务器、交换机、存储等IT设备。
采用Modbus RTU协议的多个采集设备可以设计成Bus总线方式与数据采集模块连接在一起,以提高系统可靠性,也支持设计成环网方式与数据采集模块连接。
(2)智能管控模块设计
智能微型数据机房的智能化不仅仅体现在可通过Web端与手机App来控制设备,即软件与设备之间的联动,还可以在边缘云集中监控平台设置告警联动,实现设备与设备之间的智能联动。具体实现方式如下。
1)“软件-设备”联动:在保证软件和设备已经成功建立通讯的情况下,通过Web端或手机App上相应的提示操作发送控制指令,系统软件做出安全分析判断后将获取到的命令信息传给设备做出相应动作。如当冬夏季环境温度变化,管理人员可以远程根据需要设置和关闭空调制冷。此外,在智能化安防方面,当有人在门口呼叫时,可以通过系统远程控制球机的转动,以调整监控视角,确认人员后可在系统上远程控制门禁设备开门。
2)“设备-设备”联动:系统实时采集机房设备和环境的数据,当一项或多项监控数据达到预设的联动阀值时,系统可以触发反向控制命令,通过SNMP或Modbus协议经数据采集连接线或专用设备控制接口,向机房设备传递一个命令。如当遇到雷电等异常天气,可触发系统上防雷设置的告警阈值,系统通过联动设置关闭受雷电影响的设备;当空调异常时,可触发联动设置中的告警阈值,打开应急风扇并关闭相关基础设施和IT设备。
智能管控模块设计的“软件-设备”及“设备-设备”的智能联动,实现了智能微型数据机房在无人值守的情况下,能够第一时间处理机房的异常情况,减少机房的意外损失,极大地提高了机房的可靠性。
为进一步提高监控系统自身的可靠性,机房监控系统采用双活设计,支持热备方式部署,其设备连接网络拓扑图如图2所示。
图2 智能微型数据机房监控拓扑图
考虑Modbus等采集协议在同一时间点只支持一台上位机采集数据,设计两台互备的机房监控系统做心跳检测和工作时序控制,确保数据采集不会单点重入,当单点出现故障时,也不会遗漏任何时序的采集点数据。
4.2 边缘云平台
纳入边缘云平台集中监控的机房节点数量较多,要求边缘云平台具备高可靠性、高可用性、高安全性。边缘云平台各功能模块采用分布式多点冗余热备设计(图3),在达到数据中心监控系统双活设计目标的同时具备负载均衡功能,以满足边缘云平台几十万机房监控节点的高并发接入需求。
图3 边缘云平台模块分布式冗余结构
边缘云平台需具备开放性、易维护和可扩展性,平台设计采用微服务架构,各模块间信息传输采用消息中间件。具体模块设计如下。
(1)数据传输模块和存储设计
智能微型数据机房分布区域广,网络连接条件受限,存在部分机房节点短时间断网的可能性,设计数据传输模块有数据传输断点补全功能。考虑智能微型数据机房在实际建设中往往在不同时间段分批次投入应用,设计数据传输模块能快捷规范对接机房节点,后续机房节点加入平台对系统整体集中监控不产生影响。
设备监控数据实时采集处理后不再需要修改,设计采用时序数据库存储监控数据。系统平台信息需要增/删/改维护及高安全性,设计采用关系数据库存储平台信息数据。
(2)动力环境监控平台设计
动力环境监控平台会将UPS、供配电、精密空调、智能PDU、电磁阀、漏水、温湿度、消防、门禁、视频、防盗报警、蓄电池、新风等子系统集成在一个动力环境监控平台上进行节能优化、集中控制管理。不仅包括对智能微型数据机房的能耗数据监测、统计和能效优化建议,还提供优化调节控制系统,进行有效的智能节能优化控制。展示界面能清晰地展示当前数据机房整体能耗状况、PUE等关键能效指标,可实时显示关键子系统的能效分布状况,查询任意时段的能效历史曲线。
监控平台设计3D仿真监控功能,具备机房3D建模、设备和数据3D展示、在3D界面故障定位和自动巡检,支持在同一个浏览器窗口中查看机房、微模块、机柜的3D视图,可以真实展示UPS、空调等基础设施设备安装位置。
(3)IT设备监控平台设计
IT设备监控平台设计包括服务器设备系统、存储设备系统、网络拓扑系统、数据库系统、中间件系统等进行实时监控管理。以上各子系统集成在一个IT设备监控平台上进行集中控制管理,满足“集中监控、集中维护、集中管理”,为用户直接提供与应用相关的集中监测的能力、手段和工具。
IT设备监控平台实现对在各个机房运行的服务器、存储设备、网络系统、设备以及安全系统等的监测和管理:可以对IT运维系统网络节点进行远程配置,并能实时监控各节点的性能状态,一旦出现故障便能自动及时报警;能够进行高度的自动化管理,尽量减少人为干预,避免由于人员操作不当引起的系统故障;帮助IT运维系统管理人员采集、统计和分析来自网络各方面的报警信息和故障信息,准确预警、定位网络中的故障,出现网络故障时可以快速响应,同时为系统的长期规划提供统计依据。
(4)数字化运维模块设计
边缘云平台提供数字化运维功能,对智能数据机房日常运维活动进行智能化管理,设计功能包含:资产管理、电子巡检、运维知识库等。
资产管理设计支持各类基础设施及IT设备,包括机架、服务器、存储、网络设备、UPS、PDU、空调等设备,并呈现一个资产统一视图。系统支持全局的设备查找定位,可根据模糊条件进行设备检索。查询条件支持基于设备名称、设备型号、位置、序列号、条形码、安装日期等设备属性。
电子巡检设计支持移动App巡检功能,可在手机等移动终端上处理机房巡检等事项;支持机房巡检计划制定与路线规划;支持用户设置巡检任务;支持生成机房巡检类报表,并发送给相关人员。
运维知识库包括基础设施和IT设备运维知识库,大多数常见问题及其解决方案都可以从知识库中简单、方便获取,提升工作效率,降低设施设备维护成本。系统关联资产管理模块中的设备分类,支持自定义设置各类设备标准操作内容、操作步骤和安全注意事项。