数据中心机房管理效能提升的方法研究
2022-12-21郭天兵
郭天兵
(太原理工大学财经学院,山西 太原 030024)
近年来,随着全球经济的快速发展,数据中心机房也进入了高速建设期,大型数据中心机房的规模呈几何倍上升趋势。数据中心已逐渐成为现代企业之间竞争的资产,但是随着数据中心机房的快速扩张以及对于机房可靠性、可用性要求的提升,数据中心机房管理方面的问题也随之显现。尤其是2017年以来,全球经历了不少自然灾害,使得数据中心机房的管理人员开始重视机房的灾难恢复管理工作,数据中心机房的故障应急处理能力取得了长足进步。同时由于低碳环保理念的深入,对于数据中心机房节能、减排的要求越来越高,这对数据中心机房的管理者提出了新的挑战,需要一套完整的方法体系用于提高数据中心机房的管理效能,帮助数据中心机房更好的运营。
1 数据中心机房管理的主要工作
数据中心机房管理的主要工作包括机房的运维管理、安全管理、应急管理和文档管理几个部分。每个部门均与数据中心机房管理效能的提升有着直接的关系,明确数据中心机房管理的主要工作,能为其寻找到管理效能提升的最优方法奠定基础。
1.1 机房运维管理
机房基础设施的运维管理在其所有管理内容中的占比最高,涉及数据中心电力、空调、安防、服务器、存储、网络和综合布线等多个系统。运维管理工作主要是针对数据中心机房的基础设施进行监控,发现异常及时进行处理和上报,并根据设备的维保要求,制定相应的预防性维护计划。常规作业在机房基础设施运维管理中的占比较大,其主要涉及日常运行、维护和保养等基础类操作。各系统功能、性能进行测试类操作。按相关标准操作程序,对机房基础设施运行日志、记录等数据进行记录。另外一些作业相应也属于运维管理的范畴,如故障响应、服务响应以及变更响应等。
1.2 机房安全管理
机房安全管理主要是针对机房中的人、财、物进行管理。对人进行相关的安全培训,通过多维度、多方式的宣贯安全内容,让机房管理、运维和进行机房作业的相关人员时刻绷紧安全基线,保证机房内部财和物的安全。机房安全管理包含的细节很多,小到机房人员进出、设备上下架的登记,大到机房用电、消防安全以及防灾减灾等工作。既要保证设施、设备的物理安全,还要防止社会工程学、远程攻击等信息事件对于机房安全的破坏。
1.3 机房应急管理
应急管理则是针对数据中心机房内可能发生的问题,做好应急预案和应对措施,并定期组织人员开展相应的应急演练并做好纪录。当紧急事件发生时,需要依据对应的流程进行处置,处置完成后,需要记录应急管理的过程并上报。
1.4 机房文档管理
文档管理包含了机房巡检、维护和故障处理的记录与报告等原始记录,也包括了机房中各类设备的档案、技术文件等内容,甚至还囊括了机房建设的原始图纸。文档管理质量的高低决定了机房管理执行的效率,可以有效减少机房人员的培训时间,规范机房常规运维和应急处置的流程。
2 数据中心机房管理中存在的问题
数据中心机房由于涉及的系统、设备和软件众多,加之多数数据中心机房尚未形成有效的效能管理体系,仅将数据中心机房的管理简单理解为不出大问题,使得数据中心机房管理中仍然存在不少细节被忽视,导致部分数据中心机房的管理效能不高。
2.1 数据中心机房的管理制度不完善
虽然不少数据中心机房已逐步建立和规范了各个系统的管理制度,但是对于一些细小的环节仍然存在制度不完善,缺乏相应的处理流程或者流程执行不到位等问题。另外机房管理制度中仍有不少规定不明确,致使部分操作无法实际执行。数据中心机房中的设备更新较快,但是管理制度的更新速度较慢,存在着一定时间的延迟,致使部分新设备出现问题时,产生无操作规程、没有制度参考的局面,不利于问题的解决和闭环。
2.2 数据中心机房的预防性维护不到位
数据中心机房要提高其可靠性和可用性,必须要从做好日常的维保工作和预防性维护工作抓起,减少基础设施和各类设备的故障频次和时间。但是现在大部分数据中心机房仍然采用被动式的维护策略,不仅故障响应时间难以得到保证,维护的质量同样大打折扣。由于事前没有充分的准备,在故障发生后很难在第一时间找到合适的备品备件,代替品品质堪忧,造成设施、设备的稳定性不及预期。
2.3 数据中心机房的节能减排效果不佳
由于数据中心机房的设计往往设计了较大的预留,使得部分数据中心的能源效率指标与设计值相距甚远。一些数据中心机房后期的进度远低于设计进度,数据中心机房的机柜闲置率过高,能源效率低下,这与当前国家有关部门对于数据中心的要求差距较大。部分数据中心机房由于建造时间长,机房密封器件存在不同程度的损坏,机房管理人员未认真清查原因,也是导致数据中心机房节能减排效果不佳的另一重要原因。
2.4 数据中心机房的应急演练频次不足
由于众多原因,现有的数据中心机房很难按照要求完成各项应急演练。虽然制定了不少的应急演练方案,但是未经过真实的环境进行测试,也未进行过桌面演练等环节。这些都是因为应急演练频次不足造成的,可能造成在突发事件发生后,机房的应急人员和流程达不到预定效果,进一步使得机房的可靠性和可用性降低。
3 数据中心机房管理效能提升的方法
3.1 完善数据中心机房的制度体系和考核机制
完善数据中心机房的制度体系并不是一句简单的空话,必须形成长效的制度体系闭环机制。数据中心机房的制度体系种类繁多,要从顶层管理制度入手,明确数据中心机房各个岗位的职责和分工,将制度体系的完善工作落实到人。当数据中心机房的设施和设备发生新增、变更或者减少时,相应的制度和操作规程必须进行对应的改变。制度体系的分类和界限必须要有清晰的界定,如运维管理、安全管理、应急管理和文档管理包含的制度需要结合数据中心机房规模的大小和管理模式进行分类,根据系统和设施的复杂程度编写相应的制度流程。制度流程需考虑数据中心机房的实际情况,以事实为依据,真正做到制度流程能落地。在数据中心机房管理的制度体系中,应该明确制度更新及闭环的考核机制,通过考核机制提高管理人员的积极性,让完善制度体系能够快速推进。如通过考核机制明确制度更新的时间限制,在时限以内完成可以给予一定的奖励,若超出时间限制过多,就需要给予一定的惩罚,让机房管理人员能将此当成一项重点工作,持续不断的进行推进。
3.2 做好数据中心机房的设备维保和预防性维护工作
数据中心机房由多个系统构成,每个子系统中又有不同型号的设备,这些设备的维修、保养时间不同,需要形成专门的维修保养台账。台账中应清晰记录设施、设备购买的时间和质保事项,通过设置到期提醒的方式提醒设备的管理人员,定期对设备进行维修、保养并按时检查设备的状态。通过信息管理系统收集设施、设备的运行数据,定期与行业同类设备进行比较,得出其状态结论。设施、设备的管理人员应该根据其使用寿命和运行状况,有计划地开展设施、设备的预防性维护工作。如机房的铅酸电池寿命一般为3~5年,电池使用3年后,应每3个月对电池进行一次全面的检测,同时启动预防性维护工作,分批次预防性更换各组电池,以确保数据中心机房的正常运行。数据中心机房的设备维保和预防性维护工作应该在规章制度中得到明显的体现,制度的常态化运行能为数据中心机房管理效能提升提供较大的帮助。同时通过常态化的管理能减少许多不必要的设备故障维修活动,能尽可能的减少数据中心机房的不可用时间,最大减少数据中心机房的人员配置,提高人均工作效率。
3.3 提高数据中心机房的能耗管理能力
众多周知,数据中心机房是能耗大户,提高数据中心机房的能耗管理效能为其节省较大的经济支出,同时也能为国家的低碳减排工作做出贡献。提高数据中心机房的能耗管理能力需要从以下几个方面入手。一是在数据中心机房建设初期,精确计算机房中设备、设施的能耗,提高机房中机柜空间的利用率,对机房中的空间布局进行统一的设计,尽量将闲置机柜化零为整,定期对机柜的空置位置进行盘点。二是要根据设备的运行情况和外界的温湿度状态动态调整机房的送风温度值,确保设备能够正常运转的基础上,尽可能的减少机房的能耗消耗。三是对机房的管理需更加严格,在设备下架后,需第一时间在机柜中安装盲板,避免机房内部气流受阻导致的冷量受损。同时需要对机房的照明进行控制,在保持机房照明量足够的情况下,尽量减少能源消耗。四是通过改造的形式,建立数据中心机房余热回收系统,将机房空调机组的余热进行回收,为办公区域提供热水。最后是利用机房室外的空余场地,新建光伏等新能源发电系统,利用太阳能等清洁能源,实现数据中心的部分自我供电,减轻当地电网的压力。
3.4 提升数据中心机房人员的专业素养
与其他岗位相比,数据中心机房的工作人员流动性偏高,需要加强内部制度、操作规程和应急流程的宣贯和培训工作,定期组织各系统专业知识的培训。通过严格的文档管理,让新进员工快速熟悉数据中心的各项操作规程,提高员工个人的工作效能。同时要加大机房人员各系统交叉学习的力度,如定期组织全员的培训,请各系统的负责人介绍所负责系统的相关知识和流程,还要加大换岗培训的力度,通过对数据中心各岗位的学习,使数据中心机房的工作人员具备胜任两个或者更多系统的工作能力。当前数据中心机房知识的更新速度也在不断增加,对于新知识需要定期的吸收和消化。为了提高数据中心机房的管理效能,必须以新媒体作为新知识传递的载体,充分拓展员工的碎片化学习时间,让其掌握新的工作方法和技能,进一步提升自身的工作效率。
3.5 规范操作流程增加应急演练频次
由于人员流动频繁,部分数据中心虽然建立了各系统和各动作的操作流程,但是执行情况尚不能令人满意。对于流程规范性的监督考核机制和方法不全面,缺乏一些技术手段对不规范的操作进行实时监控的手段。数据中心机房的管理人员更多的是追求数据中心运行的稳定性,对于一些新的方法和手段不敢轻易尝试,导致某些不规范的操作流程很难得到改变。
数据中心机房应以制度和技术手段为双抓手,通过操作系统日志、视频等记录,发现操作流程中的不规范之处,并定期对问题进行汇总分析,在下一阶段的工作中针对性的采取相应措施,防止类似问题的多次发生。
同时要让数据中心机房的应急演练方案不仅停留在纸质文档层面,需根据制度的要求,按规定完成应急演练。应急演练的场景要尽量真实,人员配置需按照方案要求予以配置。小部分数据中心机房已经建立了自身的数字孪生系统,可根据需求对应急事件进行模拟仿真,尤其消防安全事件采用仿真的方式进行应急演练更为合适,这样也能对各项应急预案的完善工作起到很大的帮助作用。每次应急演练完成后应及时整理相关文档并做好文档管理工作,为数据中心机房管理效能的提升积累经验。
4 结语
数据中心机房管理效能的提升需围绕人员、设备和技术三个方面进行。在提高管理运维人员综合素质的同时,也要加强设备的更新和技术的改造,将数据中心机房当成一个整体的系统,平衡协调各系统之间的关系,不断寻找各系统管理运行的最佳方法,以推动数据中心机房可靠性和可用性的不断提升。