DCIM系统与数据中心基础设施管理研究
2022-05-23胡贵龙
胡贵龙
中国移动通信集团江苏有限公司
0 引言
DCIM数据中心基础设施管理是一座沟通关键基础设施和IT设备之间的桥梁,通过一整套包含硬件设施、传感器和特定软件的管理平台与工具,实现覆盖数据中IT关键设备(服务器、存储、网络、虚拟机)和场地基础设施(配电、制冷、布线、机柜)等所有关联系统的对象(安全、管理、环节)进行容量规划、集中监控、准确处置、智能管理、预测模型、成本控制等功能,成为数据中心管理的主流趋势,推动更高效、更效益、更环保的数据中心建设。
1 DCIM系统建设概述
1.1 背景分析
在中国当前高速信息化技术蓬勃发展的背景下,数据平台建设将是中国整体经济社会信息化发展的重要基础。数据网络平台基础设施影响着数据平台建设的安全、快捷、环保与稳定,怎样合理保护好大型数据中心的机房安全,及时发觉危险隐患和消除故障问题,从而减少企业管理成本费用,提升运维效能,实现节能减排,已逐渐成为公司运营关注的重点。数据网络平台基础建设运维与智能管理人员通过简单的人机界面设计,使各种运行监督管理软件功能集中在同一软件系统平台,极大地简化了用户的运营工作。该数据中心基础设施管理体系不但能保证数据中心经济、高效、协调地高速运行,还可以提升数据中心用户的生产效率,从而减少设备运营费用,达到最优化的管理目标,并给用户带来全方位、高效、安全、舒心、便捷的综合服务。
1.2 必要性分析
对日益发展壮大的数据中心运营而言,目前主要面临如下问题:
(1)管理效率低。数据中心的稳定性和效率取决于日常运营和维护管理的效率。目前,大多数数据中心监测和管理系统都很复杂,每个系统的独立性导致信息孤岛,自动化和智能程度不够,劳动力高度依赖。
(2)资产管理难。数据中心管理着许多服务器、交换机以及其他信息设施,包括打开和关闭IT资产、维护和库存。如果缺乏智能资产管理,则需要大批员工。
(3)容量使用率低、能耗较高。数据中心机架上架率低或者设备功率密度小,导致机架容量及电力容量使用率低。而大型数据中心的制冷系统缺乏有效的监控与制冷参数动态调节,引发制冷耗电量大,导致PUE和运营成本较高。
因此,通过研究一套数据中心基础设施系统(DCIM),集成容量管理、机房资产管理、能效管理,将大大提高数据中心系统的效能和优化运作能力。如图1所示。
图1 DCIM系统架构图
1.3 DCIM系统建设的内容
1.3.1 容量管理
提供2D可视化的实时容量监控能力,将数据中心的电源、制冷、空间、机柜、接线和网络等项目的容量状况通过各种图形仪表展示出来,并根据资产管理系统内的变更情况自动更新,支持容量情况快速查看;提供3D建模仿真能力,以可用容量、容量策略、设备布局、电力保障、空调制冷、网络连接等信息为基础,通过用户自定义部署原则、智能搜索、放置和预留功能,智能化模拟新增设备的布局及容量影响,支撑最适合部署方案输出。
1.3.2 机房资产管理
资产装置(包括机柜、服务器设备、交换机和其他设备)的虚拟现实系统仿真模式,创建三维展示模式,逐层定位到机房、机柜与IT设施,直观呈现信息的对象和位置属性;建设基本企业固定资产配置管理模块,结合RFID技术建立基本企业固定资产信息管理,动态阅读并自动更新设备所有信息内容,通过资产定位与追踪的流程化管控功能,实现设备位置及移动信息变更的规范化与自动化,改善机房的设备管理。
1.3.3 能效管理
从体系的全过程出发,遵循系统管理原理,通过实施一套完整的标准、规范,在组织内建立起一个完整有效、形成文件的能源管理体系,注重建立和实施过程的控制,使组织的活动、过程及其要素不断优化,通过例行节能监测、能源审计、能效对标、内部审核、组织能耗计量与测试、组织能量平衡统计、管理评审、自我评价、节能技改、节能考核等措施,不断提高能源管理体系持续改进的有效性,实现能效管理方针和承诺,达到预期的能源消耗或使用目标。
2 基础设施管理现状
2.1 使用离散的管理工具
数据中心管理是一个专业综合体系,但目前数据中心管理人员往往依据各人习惯采用一系列离散的,不专业的工具对数据中心进行维护。这种管理方式的优点是获取方式简单,成本相对低廉,但是却带来了更多的问题。首先对数据中心管理者而言,没有一个统一的视图获取所需信息;其次维护多个离散、不专业工具增加了数据维护代价,甚至在新老数据保持同步时彼此发生冲突;最后不同系统间的数据难以关联和共享,在数据分析和业务预测时尤其困难。
2.2 场地设施(Facility)和IT分开管理
很多企业使用ITSM管理工具进行数据中心管理,这种工具有自己的管理功能,这些功能相对独立,并且必须满足某些标准,但其实际管理内容和数据中心的现场设备关系不大,因此导致了管理不全面的问题。同时很多企业将IT设施与设备的管理分成了不同的部门,尽管这一职责分配提高了人员管理和权责划分,保证了相当程度的专业化,但是增加了部门间的沟通成本,降低了数据中心运维的效率,甚至提高了数据中心发生事件的风险。
2.3 基础架构和高新技术匹配困难
为适应企业可持续经营发展的需要,减少企业总体经营成本,增加业务灵活性,新一代的数据中心系统在IT架构设计上更加弹性化,采用了更多如虚拟化和模块化等高新技术,使得UPS和空调等基础设施更难与服务器、存储、网络等IT基础架构协调。传统机柜中使用的服务器设备总量一般不会过多,功率密度不会过高,当前的负载波动也不会过大。而在云时代,虚拟化使得负载可以在服务器之间动态迁移,爆发性访问的特点也使得IT设备的功耗波动大且频繁,随之而来的是对供电和制冷容量的动态需求。刀片服务器的大量应用使得单机柜的功率密度轻松突破10KW,不恰当的设计维护会导致局部热点甚至宕机。
3 数据中心基础设施管理的价值
3.1 为节能提供决策指导
数据中心的电费支出在运维费用中占据着非常大的比重,因此提升电力效率已经成为了数据中心的核心竞争力。通过DCIM系统,不仅可以监测环境数据中的PUE等关键能耗指标,还可以随时监测IT设备和基础设施设备中的能耗变化,还能够使场所服务设施和IT设备进行相互匹配,使制冷与供热系统随着IT设备的需要变化而调整工作状况,从而真正实现了按需而动,以达到最佳的能耗利用率。DCIM通过对这些数据进行分类、管理与分析,为管理运维提供更加精准合理的操作方法和运营参考意见,甚至对部分故障做出预先诊断,从而使运维变得更主动、更高效,极大地提高数据中心的安全性和运作效率。
3.2 对流程进行协调管理
人力和流程也是数据中心运作与保护过程中必须考量的关键因素之一。对正常工作时间研究表明,70%的数据中心安全事件都是人为因素导致的。DCIM工具可用作数据中心更新和业务流程管理的平台。在实施数据中心更新时,DCIM工具可用来管理和审批数据中心变更涉及的人员和业务流程中的各种操作。举例来说,如果将服务器置于机架上,则DCIM工具可利用所收集的历史数据来匹配电源、制冷、存储和网络。在实施前,携带和其他资源审查和批准每个步骤,并在系统上执行模拟练习。它还可与API、母公司管理平台以及ITSM工具中的过程管理系统相结合,以增加变更的可靠性和减少执行时出错的可能性。
3.3 优化应急预案,指导应急处理
保证数据中心的可用性,一方面依靠完善的系统架构和有效的运行保护,减少问题;另一方面采取合理的紧急演习和全面的灾难恢复程序模拟,降低事件出现频率,减少事故持续时间。一个完善的DCIM工具,不但能够支持数据中心日常运作与维护管理工作,还能够支持管理者管理特定事项,例如管理水平的提高。
3.4 优化容量管理
数据中心在设计时考虑余量提高可靠性,服务器运行达不到设计的铭牌功耗,因此机架容量不能够被充分利用。DCIM以每1U位都是宝贵资源,尽可能提高设备利用率,延长数据中心寿命,提高投资回报率为目标,提供追踪电量、制冷、空间、承重等容量、管理供电和网络等连接关系、数据中心可视化建模等精细化能力,使得用户摆脱过去手摸、眼看等粗放的判断方式,实时了解每个机架和整个数据中心的资源消耗情况,提高资产利用率,延长数据中心的寿命,节约投资。
4 结束语
国内数据平台的构建工作正全面启动,各类数据资源公司不断向数据平台服务市场施压。后期工程建设阶段的运营服务日益受到各界重视,而数据中心管理软件也日益受到了电信运营商的关注,DCIM代表着各种综合基础设施管理方式与方法,可以协助数据平台的管理者、经营与维护管理人员进一步提升数据平台设施的管理与运作效能。