APP下载

数据中心一体化智能运维管理平台建设研究

2021-09-17徐友恒

中国管理信息化 2021年18期
关键词:机房数据中心运维

徐友恒

(新疆油田公司数据公司,新疆 克拉玛依 834000)

0 引言

我国信息技术经过快速发展,在各行各业中有着重要应用。例如,大数据、云计算、区域链、人工智能和物联网等新技术在人们生产生活中的应用越来越广泛。这些新技术的应用极大地推动了社会发展,而在此过程中,数据中心是不可或缺的。因此,数据中心的数量越来越多,规模也越来越大。这就对数据中心的运营和机房基础设施的运维管理提出了更高的要求。因此,提高数据中心运营水平非常重要。基于此,本文对数据中心一体化智能运维管理平台的建设进行了研究。

1 数据中心运维管理概述

1.1 数据中心运维管理技术概述

随着数据中心不断发展,其运维管理技术也在不断发展。通过研究,其发展可以分为三个阶段,分别是被动运维阶段、主动运维阶段和智慧运维阶段,具体分析如下:①被动运维阶段。在这一阶段,运维管理的流程还没有完全建立,相关技术手段还不成熟,主要通过人工现场巡检的方式对数据中心机房进行检查,通过手工对机房和设备的信息进行记录。②主动运维阶段。在这一阶段,相关工作人员针对供配电、制冷、不间断电源和空调等配备了遥测、遥控模块,建立了集中式远程监控平台以及事件、应急和变更等标准管理流程,使运维体系不断完善,运维管理水平不断提高,平台化、可视化和流程化的管理也得以实现。当前我国数据中心的运维管理基本上处于这一阶段。③智慧运维阶段。在这一阶段,物联网、大数据和智能技术等的应用实现了人、技术、流程和数据四要素的有机融合,此阶段的数据中心运维管理特点是自动化和智能化。

在实际应用中,数据中心机房的作用是非常重要的,其需要承担很多功能,包括数据存储、业务系统计算以及网络通信等。因此,保证机房基础设备安全、稳定运行是非常重要的,直接影响了业务系统能否稳定、持续运行。随着大数据、物联网和云计算等技术的快速发展和应用,数据中心的计算量、存储量和带宽需求都得到了明显提升[1]。在这样的背景下,数据中心的体量不断增大,机房设备数量不断增加,这加大了数据中心运维管理的难度,并对监控巡视、故障发现和处置等都提出了更高的要求。此外,由于城市不断发展、城市内的运营成本不断提高,同时城市规划对数据中心运行等造成限制,当前大数据中心朝着中西部地区迁移,而这些地区缺乏机房基础设施运行维护方面的高级人才,这给数据中心的运维管理工作增加了难度。在这样的背景下,相关工作人员通过应用智能化技术来提高运维管理的智能化、自动化水平就显得尤为重要。此方法不仅可以提高数据源中心的运维管理效率,更好地保证其正常运行,还可以降低数据中心的运营成本。

1.2 数据中心基础设施管理现状

随着信息化技术不断发展以及企业的信息化建设不断开展,数据中心基础设施运维管理方面的疏漏也在不断扩大,影响了信息化系统的正常运行,主要体现在以下两个方面。①系统日趋复杂化,管理效率较低。由于机房对冷量和功率的需求是不断变化的,而采用人工测量和感知的方式是无法准确了解这一变化的,这就导致不能及时根据出现的变化对系统进行调整,进而导致管理效率较低。②高密度地向电源和制冷系统施压,影响其可用性。当前,数据中心普遍采用高密度能耗架,这个设施需要对电源和制冷资源进行良好配置。为了满足其要求,运维管理人员需充分了解布局,提高容量的利用效率。面对如此复杂的形势,单纯依靠人工手段就很难做好运行维护工作。当出现过载的情况时,设施很难实现提前预警,不能很好地保证数据中心安全运行。

2 数据中心智能化运维管理的需求

数据中心智能化运维管理应满足以下几方面需求。①可用性要求。在机房内应有备用电力、空调设施。当电力或者空调设施出现故障后,备用电力、空调设施会自动运行,保证机房能够保持正常运转。②安全性要求。在出现火灾等突发的安全事件后,系统可以对这些问题进行准确判断,并且能够自动报警,采取可以实行的应急措施,将安全问题造成的影响降到最低,保证机房运行安全。③经济性要求。企业经营的最终目的是营利。因此,保证机房运行的经济性能是非常重要的,这就需要降低能源的损耗,要求数据中心的智能运维管理系统能够根据环境温度对制冷机组的运行方式进行智能调节,根据热点区域对出风大小进行智能调节以及对照明系统进行智能调节,降低能耗。④无人化要求。对智能化管理而言,需要尽可能降低人员的使用量。企业可通过机器实现对机房的管理,通过智能化的管理防止人为失误造成的影响,同时降低运维管理人员的劳动强度[2]。

3 数据中心运维管理智能化技术的实现途径

3.1 一体化智能运维管理平台

一体化智能运维管理平台集成了多种系统,包括监控、巡检、自动作业和服务管理等,其通过人工智能技术来对这些系统进行控制,从而实现对机房运行情况的分析、对故障的预警,还具有自动操纵、排除故障隐患的功能。在运行过程中,该平台能够将监控系统、巡检系统、运维服务系统以及自动化作业系统等信息收集起来,对这些信息进行集中存储和分析,然后可通过大数据技术来分析、处理数据,对系统运行情况进行预判,并基于分析的结果对各系统的运行进行调整或者发出警报。各系统和运行平台之间的关系如图1所示。

图1 智能运维管理平台与机房各系统的关系

运维管理平台的主要结构有管理层、通信层和设备层。其中,系统设备层的主要功能是实现设备信号的产生以及操控,而设备主要是各种传感器、控制器以及仪器仪表等,其在工作过程中的功能是采集相关信号以及按照系统的指令进行系统操控;系统的中间层是通信层,主要用于统一不同机房设备的接口信号、通信协议和数据格式,起到信息传递的作用。系统的上层部分是管理层,这是平台最为核心的部分,设备层收集到的机房基础设施运行的各种信息都会被集中到管理层,并进行存储、处理和展现[3]。在这一层中,相关工作人员可通过大数据技术和智能技术等对收集到的数据进行分析,并根据分析结果来判断数据中心运行情况,采取针对性的措施进行处理。除了上述功能,平台还具有人机交互功能,实现人机交互数据的分析、处理和应用,同时还支持编程建模,这样智能平台可以随着智能化技术不断发展而升级,不断提高系统智能化程度。

3.2 机器学习建模与预测

以“局部热点”事件为例,机器人通过学习建模,将引发机房内局部温度上升的火灾、空调系统和IT 系统等相关要素特征化。基于这些信息,机器人可以判断各参数和温度上升之间的关系,并根据这些关系建立数学模型[4]。在实际的运行过程中,若出现了上述热点事件,机器人将获取的各要素数据与历史数据进行比对,验证系统出现的问题,并对事件的起因进行分析,启动控制程序对事件进行控制。在整个控制过程中,机器人会对该热点事件进行持续性侦察,根据实时结果来决定下一步措施,直至热点事件消失。

3.3 智能机器人的应用

数据中心的大部分运维工作都是重复性的,包括设备的定时开关机、系统日志的审查和审计以及数据的备份和恢复测试等。对于这些工作中的大部分工作内容,智能机器人都可以通过远程操作完成,这样不仅效率更高,还可以有效降低错误率,提高运维工作的质量。在大型数据中心机房的运维管理工作中,巡检的工作量比较大,比较容易出现漏检问题,而通过智能机器人巡检的方式代替人工巡检,可以有效解决这方面的问题。智能巡检机器人应用了很多先进技术,包括机器视觉、自动跟随、激光雷达导航、远红外热成像以及多传感融合等。基于这些先进技术,可以实现对数据机房内的设备和环境的不间断巡检,包括报警指示灯、温度、噪声、异味以及仪表读数等[5]。一旦出现问题,工作人员可以迅速报警,从而实现故障的快速排除。

4 结语

数据中心具有非常重要的作用,做好其运维工作十分重要。智能技术的发展为提高数据中心运维工作提供了新的技术支持。通过应用智能化技术,相关工作人员可以构建出一体化智能运维平台,从而有效提高数据中心的运维水平。通过应用这一平台,能够更加高效地对数据中心进行管理,保证数据中心安全、稳定运行,同时有效降低运维成本。因此,未来一体化智能运维平台在数据中心运维中会有越来越广泛的应用。

猜你喜欢

机房数据中心运维
酒泉云计算大数据中心
运维技术研发决策中ITSS运维成熟度模型应用初探
民航绿色云数据中心PUE控制
基于ITIL的运维管理创新实践浅析
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造
基于云计算的交通运输数据中心实现与应用
Overlay Network技术在云计算数据中心中的应用
谈有线电视前端机房的防雷接地