基于DCIM的高校数据中心运维管理实践
2020-02-26班艳丽
班艳丽
摘 要:DCIM 是一种能够将场地基础设施和IT 设施纳入统一平台进行监控管理的工具,为消除数据中心监控信息孤岛、实现监控管理一体化提供了全新的思路。文章阐述了DCIM系统在上海财经大学数据中心运维管理中的具体应用,详细介绍了数据中心资产管理、容量管理、变更管理、电源管理、环境管理、能源管理六大模块的精细化管理,并结合实际工作经验,总结了DCIM系统在数据中心运维管理中的建设价值。
关键词:数据中心;DCIM;运维管理
中图分类号:TP393 文献标志码:B 文章编号:1673-8454(2020)01-0054-04
一、引言
随着信息技术的发展,高校数据中心的规模越来越大,设备数量已经从数十台发展到数百台、上千台。由于高校数据中心专职运维管理人员普遍较少,运行规范相对盈利性运营商数据中心有所欠缺。实现数据中心运营管理的体系化、标准化、规范化、流程化,保障数据中心安全、稳定、可靠、节能、低成本运行成为高校数据中心发展的必然趋势。
二、DCIM的概念
数据中心基础设施管理DCIM(Data Center Infrastructure Management)是数据中心运维管理领域最近几年兴起的一个热点。DCIM 是一座沟通场地基础设施和IT基础设施之间关系的桥梁,通过一整套包含特定硬件和软件的管理平台与工具,对数据中心内的IT关键设备(如服务器、存储、网络等)、场地基础设施(配电、制冷、布线、消防等)以及人和制度(运维计划、SOP、EOP、MOP)等实施监控和统一管理。实现信息技术和设施管理的综合集成,能够帮助数据中心运维管理人员更高效地运营数据中心。
高校数据中心一般存在多套监控管理子系统,如电力系统、消防安防监控、空调监控等,但是普遍情况下这些子系统都是独立进行数据采集、统计分析,仅完成某一项功能。如要获取数据中心整体成本管理、能效管理、容量管理等信息,则需要对这些子系统的数据进行整合、挖掘分析,才能对数据中心的实际运维管理产生价值。DCIM系统则通过对各子系统的数据进行整合处理,进行数据挖掘分析,可以实现数据中心资产管理、电源管理、环境管理、容量管理、变更管理及能源管理等多项功能,为数据中心运维管理人员提供科学决策的依据。
三、数据中心DCIM建设与运维管理实践
以上海财经大学数据中心为例,原数据存储机房2004年建成,主要存放网络核心设备和基础网络服务器,并接受校内各院系、部门服务器托管的申请。原有机房设在学校教育技术大楼的三楼,无论是机柜容量、楼层设计承载力与消防安全等指标,均已不能适应学校教育信息化发展。学校于2012年新建了一个绿色、环保、节能和安全的数据中心,新的数据中心位于教育技术中心大楼的一楼,机房共部署8列52个机柜,机房内配置了智能PDU、智能KVM等DCIM基础构件。随着DCIM系统逐渐成熟,2015年我校启动相关DCIM系统建设项目,将信息技术和设备管理结合起来对数据中心关键设备进行集中监控、集中管理,并通過最近几年的运维管理,逐步实现IDC机房的现代化、精细化管理。
在DCIM项目实施过程中,我校逐步部署用于IT设备管理的软件(DcTrack系统)和用于场地基础设施管理的软件(PowerIQ系统);每组机柜安装AMS-42资产条,每台设备通过资产标签贴AMT与资产条AMS进行链接;机柜内安装配置温湿探头(每个机柜内的进风口上、中、下三个点采集温度,中间点采集湿度);同时每组列头柜安装EMX汇聚设备,与上述每个机柜内的温湿探头及资产条AMS进行物理连接。DCIM系统拓扑如图1所示。
通过项目的最终部署完成,上海财经大学DCIM系统可实现资产管理、变更管理、容量管理、电源管理、环境管理、能源管理六大模块的精细化管理。下文将对六大模块进行详细说明。
1.资产管理
高校数据中心的资产是学校重要的信息来源及教学支撑设备。由于建设时间和周期的关系,很多高校数据中心的管理员可能都难以弄清楚自己有哪些资产、每个资产由谁拥有、这些资产是如何与网络连接的及资产的维护情况如何。很多数据中心借助软件系统(如Excel或Viso)进行手工登记和修改,使得实时性和时效性低、使用效率低下,易出现信息过时、不准确和不完整的情况,对数据中心运维管理人员来说非常痛苦,往往需要花费大量的时间去维护数据,保持数据同步,甚至新旧数据还有可能发生冲突。基于DCIM的资产管理系统,有效消除了数据中心资产管理中的手工操作、非实时更新和“先做后变更”等管理盲点,提高了资产管理的精准化和智能化。
基于DCIM的资产管理系统可以详细记录设备的品牌型号等硬件信息,以及设备是如何安置及连接的、设备的资产负责人/单位、设备的维护状态等信息。并且支持多种数据导入方式:SNMP发现、使用图纸导入楼层对象(如AutoCAD、VISIO)、使用电子数据表的导入向导(如Excel)、Web 服务 API、手工录入等。另外通过部署资产条及资产标签,系统可自动侦测到机柜内的 IT 设备连上资产标签,标签所拥有的唯一资产ID及所安装的相关IT设备将被登记到统一的数据库中。当由于添加或拆除某一IT设备而对资产标签进行变动时,自动报警并在事件日志中产生一条事件记录。
DCIM提供的精细化、图形化管理功能,支持对电源、网络链路可用端口的查询,确保在部署阶段就能够一目了然地明确正确的连接方法,进而减少安装错误。使数据中心运维管理人员摆脱了过去手摸、眼看等粗放的判断方式,可实时对供电和网络等连接关系进行管理。
资产管理中的可视化设备网络管理及电源管理,极大地提高了运维管理人员的工作效率。网络管理支持网络链路的追踪功能,即从服务器网卡开始,沿着布线直至端点服务器,跟踪每一跳的端口使用情况,如图2所示。
同样,电源路径支持监视从主UPS到设备电源及二者之间所有节点的电路路径,通过端到端的方式查看可用电源,可防止添加到某一电源插口的设备超出电源链路内任何一个断路器的极限值,进而可提高正常工作时间。
2.容量管理
传统的数据中心里,运维管理人员几乎不可能精确地了解在特定时间点上,到底拥有多少容量、哪些容量正在使用中、哪些容量已经计划被使用、如何更好地利用这些容量以及预测何时将用尽这些容量。为新IT服务确定最佳托管位置的日常任务极具挑战性。 对于数据中心而言,每1U的容量都是宝贵的资源,因此尽可能提高设备的利用率,才能有效提高数据中心资产的利用率。
基于DCIM的容量管理可为运维管理人员提供精确的信息及预测和分析工具,可以详细地分析整个数据中心还有多少空间、电力、网络资源可用,何处有空间可安置新设备,预测机房资源何时将被全部用尽,分析如何善加利用现有资源。机柜内有多少电、多少空间、温湿度、承重均可可视化查询。机房运维管理人员可通过设备的型号或者需要的条件,智能搜索可上架机柜位置。可以充分利用这些信息,更高效地做出决策。
3.变更管理
人员操作和流程规范也是数据中心运维管理过程中需要重点考虑的因素之一。UPTIME的调查显示,在以往的数据中心安全事故中,人为因素占据高达70%。由于高校数据中心专职运维管理人员普遍较少,在数据中心运维管理过程中往往缺乏规范化、流程化的管理手段,无法通过将具体事务(如日常巡检、事故处置、更换配件、设备上下架、资产调拨报废等)标准化、流程化的手段来规范管理人员的日常工作,在事前规避风险、事后进行快速处置方面存在不可控因素,因此急需对规范、流程、制度、岗位职责等方面进行优化。
基于DCIM的变更管理,主要分析移动、增加、移除设备会造成哪些影响,以及谁是变更负责人、变更何时完工、如何知道变更已正确地完成。在数据中心运维过程中,采用基于角色的流程管理,将运维管理人员分为:申請人员、审批人员、操作人员三类,其中申请人员仅需将设备的型号、U数、所需电源、网络等信息提交至系统,审批人员可根据DCIM里提供的信息分配设备位置、电源连接、网络连接等信息,并派发工单至操作人员。即使操作人员对数据中心电源规划、网络链路情况不了解,也可以根据工单里的信息,轻松完成设备的上架、变更等操作。通过严格的工作流程,确保每一步的流程规范可查询,降低了数据中心运维管理过程中随意化操作的风险,使整个运维管理更为直观、可控,管理流程如图3所示。
4.电源管理
数据中心电费的支出在运维费用中占了相当大的比例,因此,实时查看IT设备和基础设施设备的能耗,降低综合能源消耗及运维成本,在整个数据中心运维过程中是非常重要的。
基于DCIM的电源管理,可分析当前数据中心已使用了多少电、还剩多少电可以用、如何确保上线及可靠度、如何安置高密度设备等信息。可通过仪表盘和曲线图的方式查看用电情况和温湿度(展示内容可定制),并根据要求生成各种分析报告,并且支持通过耗电数据、电源容量预测趋势图等方式来确定当前和未来的限值,分析负荷数据的趋势。从而帮助数据中心运维管理人员有效定位空载或者低负载的服务器,以便对这些资源进行负载整合或者下架。同时结合IT设备的生命周期管理及服务器的能耗数据,帮助运维管理人员提前做出规划和预算,进而淘汰一些老旧却又能耗较高的设备,使数据中心更加节能增效。
5.环境管理
高校数据中心的运行需保证为IT设备提供合理的工作环境,以确保正常工作时间及满足能效要求。运维管理人员需要监视并确保流入IT设备的空气温度和湿度是在有关标准和规范建议的范围内(如ASHREA、GB-50174、GB-50462、GB-50243等)。在保持关键任务系统正常工作时间的同时,最大程度地提高能效。
基于DCIM的环境管理,可有效管理热点(hot spots)、分析如何节省能源、如何提供及维护一个安全的环境给所有的设备。通过在每机柜内部署上、中、下三个点的探头进行微环境数据采集,可以监测到机柜内三个不同点的温度和湿度,并根据要求可以查看任意时间段各机柜内的温湿度,通过算法行程及时更新、自动变化的温湿度图,实现微环境的管理与分析。后期如有需要,还可以增加气流、气压、机柜门开合等探头。如图4所示。
6.能源管理
为了满足低投入、多产出的愿望及克服资产限制,要求高校数据中心运维管理人员拥更好的信息,以有效地管理数据中心。基于DCIM的能源管理可帮助运维管理人员分析如何节省能源、目前能源的总花费、谁正在使用多少能源、如何提供及维护一个安全的环境给所有的设备。根据需求,分析需要的测量数据,如功率、电流、电费、温湿度、碳排放数据等;并可根据需要,分析生成各种能源信息报表,支持学校可持续性发展绿色计划,用于学校报告、趋势分析和管理等。
四、DCIM项目实施难点
DCIM理论和框架在我校项目落地实施时也存在一些难点,主要体现在两个方面:
1.项目实施初期的数据梳理工作
项目实施初期,需要对数据中心设备的基础数据进行大量校对与清查。主要包括电源连接信息(从设备依次至PDU、配电柜、UPS等连接信息)、设备信息(包括设备品牌型号、名称、安装位置、U数等信息)和网络连接信息(从设备至配线架、网络交换机等连接信息),需将准确数据批量导入到系统中。当DCIM系统建设完成后,维护人员只需按照规范进行简单的数据维护,就能轻松实现数据中心资产信息的准确管理。
2.数据中心运维制度管理
DCIM系统建设完成后,为确保设备信息准确,需要数据中心所有运维管理人员改变已有的流程和工作习惯,严格按照设备上线/变更流程进行操作。而在DCIM系统上线初期,运维管理人员对新的规范执行也不是一步到位,而是一个持续改进,不断适应,直至完全按照规范操作的过程。
五、基于DCIM的数据中心运维成效
DCIM上线运行4年来,通过与我校历史数据对比发现:数据中心资源定位查找的准确性基本提高了20%;运维管理人员进入机房的频次大约减少30%;资源的实时情况掌握度提升40%;报告及报表80%改为自动化导出。DCIM系统实现了数据中心基础设施资产信息的统一管理,实现了数据中心多应用全方位数据的统一自动收集,为数据中心运维管理提供了基础数据支撑。
通过DCIM的能源管理,可以更加针对性地进行能耗管理与调配,实现机房供电优化、制冷优化、容量管理优化及节能降耗的效果,优化了能源使用,提高了成本效率。通过DCIM的资产管理,提高了数据中心设备自动化管理水平,使数据准确性、及时性得到提升,日常频繁的资产清查工作压力得到释放。通过设备连线关系的展现与管理,方便了维护人员进行故障排除、信息查询、操作指导等工作。通过规范数据中心的工作流程,大幅提高了工作效率,实现了数据中心综合运维管理能力的提升。
六、结束语
在信息集中共享和大数据的时代,数据中心后期的运维管理也越来越引起重视。DCIM系统在整个数据中心运维管理中起到了积极作用,可以在一定程度上保障数据中心机房运行的安全,为业务稳定、高效、低能耗发展奠定了基础。DCIM系统有效提升了数据中心的运行效率,将孤立存在的各个数据中心监控及管理系统进行有效整合,实现了数据中心信息的互联互通与融合,为未来大数据挖掘奠定扎实基础。
参考文献:
[1]黄锴.数据中心基础设施管理DCIM 综述[J].智能建筑与城市信息,2012(11):39-41.
[2]黄锴,潘秀青.迈向DCIM时代的数据中心智能网络布线管理[J].智能建筑与城市信息,2012(5):32-35.
[3]何新年,安真,叶雷霖.DCIM与数据中心基础设施管理[J].电信工程技术与标准化,2016(4):46-50.
[4]任华华.IDC运营的大数据分析与DCIM[J].工程建设标准化,2016(5):70-74.
[5]丁聪,沈巍.数据中心DCIM统一运营支撑系统建设需求分析[J].电信技术,2017(8):111-115,123.
(编辑:王晓明)