APP下载

大型数据中心运维管理标准化应用推广

2023-01-31陈金会

通信电源技术 2022年20期
关键词:文档数据中心运维

陈金会

(中国电信股份有限公司云计算贵州分公司,贵州 贵阳 550003)

0 引 言

数字经济已成为国家发展的重要经济支柱。作为数字经济的底座,超大型数据中心迎来了快速发展阶段。数据中心内基础设施、维护人员不断激增,传统的基站式维护模式已不再适应新的维护需求。通过对标国际运维标准,对数据中心运维管理体系优化、提炼并全方面覆盖,提高维护管理人员技能,明确运行维护标注,落实培训演练,有效管控运行质量,从而使园区网络基础设施实现永续运行。

如何更加深刻理解超大型数据中心运维管理体系,就需要对涉及影响永续运营的各项因素进行识别、分析、制定措施、审视、固化等。下面在人员组织、运行与维护、流程管理、培训、协调与管理5个方面给予具体阐述。

1 合理人员组织是永续运维的保障

数据中心交付使用前,管理者需要综合考虑数据中心如何高效运行,尽快提供产品服务。人员组织是支撑基础设施永续运维的基本保障,规划需要什么专业人员、这些专业人员的管理架构、各自工作职责是什么、需要什么资质等。

1.1 组织架构

结合信息园数据中心特点,以专业管理为线条,形成网络及IT专业、电源专业、暖通专业三大基础设施专业。每个专业设专业主管2名,互为A/B角色。3个专业各自委托第三方专业维护团队实施维护代维服务,代维团队设置项目管理员2名,分别为项目经理和技术经理,同时互为A/B角色。专业主管直接对口管理代维团队,提供业务支撑、技术指导及考核。制定组织架构如图1所示[1]。

图1 组织架构

1.2 岗位职责与资质

根据组织矩阵中不同的岗位,制定相应的维护职责矩阵,分为一级职能、二级职能、三级职能,如图2所示。职责矩阵中设定现场维护岗、经理岗、主管岗、运维部经理、设备厂家,明确各岗位人员在维护职责矩阵中的实施内容,做到各岗位分工明确。

图2 数据机楼网络及IT维护职责矩阵

根据专业的划分,专业人员的工作职责有不同的要求,需制定完善的岗位说明书。岗位说明书包括岗位职责、工作难点、工作禁忌、职业发展、生理要求、知识经验、综合素质等几方面。达到条件的人员在岗位说明书上签字认可,同时直管的领导认可签字。岗位说明书如图3所示。

图3 岗位说明书

不同岗位根据国家行业标准,应考取相关从业资格证书,如网络及IT应具备HCNA、HCNP、CCNA,电源专业具备高低压电工证,暖通专业应具备高压电工证、制冷工证、登高作业证[2]。岗位资质配置如图4所示。

图4 岗位资质配置

1.3 工时核算

数据机楼投产后,具体要配置多少人,就需要核算工时。基础设施涵盖暖通、电源大量设备,根据行业及企业维护标准,规定了不同设备的维护内容和维护周期。维护内容包括操作类和非操作类,维护周期包括月度、季度、半年度和年度,估算每个设备的维护周期内容的耗时,统计数据中心基础设施设备清单,汇总完成全年度的所需总工时。按照《劳动法》关于人员劳动工时的相关要求,剔除固定法定节假日,可计算出完成既定维护的人员配置数量,具体流程如图5所示。

图5 工时核算流程

1.4 人员管理

为高效管理数据中心各岗位人员,应制定针对数据中心应用场景的管理制度。制度从人力资源需求、人员上岗流程、人员离岗流程、人员考勤管理、人员绩效管理等5方面进行规范,覆盖了数据中心不同人员管理场景,如人员调动、人力资源申请、人员上岗确认、人员离岗确认、月度考勤、月度绩效考核等。

2 标准化运行维护流程

运行维护是数据中心持续开展的活动,分为日常运行和预防性维护两大模块[3]。

2.1 日常运行

日常运行维护工作是每天固定执行的维护工作,是运行维护的基础单元。

(1)排班值班。为规范维护人员日常维护规范行为,制定人员排班交接班制度,从职责、流程(排班及变更)、工作程序等方面规范排班行为。制定交接班管理制度,明确现场维护人员、值班长、项目经理、专业主管等不同岗位的职责,明确分工,层层落实责任。

(2)巡视巡查。为达到巡视巡查标准化,制定机楼巡视手册涵盖路线图、设备巡视标准作业程序(Standard Operating Procedure,SOP)、巡检记录表。设备运行状态进行可视化展示,便于巡视人员快速、准确地判断设备运行状况。柴油发电机巡视手册如图6所示。

图6 柴油发电机巡视手册

(3)标准化指导书及现场配置指导书。为规范数据中心人员操作规范性,避免因人员操作失误导致业务中断,要求制定标准化操作指导书。结合数据中心设施设备清单,针对每一类型设备编制SOP。该文档规定了操作人员具备条件、配置工器具、预计耗时、回退措施等,图文并茂,步骤清晰。标准化操作指导书如图7所示。

图7 标准化操作指导书

数据中心拥有庞大的设备数量,不同设备存在不同整定值配置,电源从10 kV高压设备、低压设备、不间断系统、列头柜设备建立标准化配置文档,暖通建立设备轮询、温度送风回风定值、湿度定值、温湿度告警阈值等标准化配置文档,实施清单化管理,可及时掌握配置状态、计划更新等,如图8所示。

图8 暖通SCP

2.2 预防性维护

开展预防性维护,对基础设施主动维护,可较早发现设备问题隐患、及早介入处理,避免因设备故障引发业务中断。

(1)维护作业计划手册(Maintenance Operational Procedures,MOP)针对数据中心设施清单,针对不同的基础设施设备,按月度、季度、半年度、年度等维护内容,制定年度作业计划,并把维护工作计划分配到下一年度的52个日历周中。针对不同类别基础设施设备,制定MOP。手册包括维护内容、维护要求、影响客户、维护工具、维护前提、人员防护及风险评估等内容。MOP实现了维护作业标准化、可视化,如图9所示。

图9 MOP手册

(2)应急管理体系。为明确数据中心发生故障时应急处置的组织架构、各岗位职责,建立保障和恢复应急工作机制,提高应对突发事件的组织指挥能力和应急处置能力,保证应急指挥调度工作迅速、高效、有序地进行,满足突发情况下系统保障和恢复的需要,确保安全运行。应制定应急管理制度,包括应急组织架构图、各部门在应急管理工作中的职责、各岗位人员职责、应急管理流程等模块,如图10所示。

图10 应急管理制度

(3)关键指标检测。数据中心关键指标预防性检测是预防性维护的重要项目,针对电源系统,开展数据机楼外部防雷检测、内部防雷检测。每年度开展柴油发电机组的润滑油、柴油质量检测,确保油品质量合格。针对暖通系统,每月开展冷却水水质分析,确保冷却水指标符合标准,减少对水系统的不利影响。同时针对电气系统的关键开关、电气连接点、电缆等进行周期性温度测试和大数据分析,确保关键点温升处于政策范围内[4]。

3 科学规范的流程管理

数据中心业务连续运行,需对其进行不间断运维管理。通过对运维事件进行变更管理,消除潜在的应用风险,并将暂时无法找到原因的故障纳入问题管理。数据中心供电容量、制冷容量总是有限的,需定期开展容量分析及负载管理,做到资源有效利用。

3.1 事件管理

在数据中心正常运营过程中出现的任何导致或可能导致服务中断或服务质量下降的情况称为事件。制定事件管理制度,把事件分为特大、重大、严重、一般4个等级,形成基础设施事件分级清单(电源、暖通),明确了不同事件等级处理时限、处理原则、上报流程、处理程序、事件关闭、事件升级机制等,同时根据园区运营维护人员组织,赋予各岗位人员在事件处理过程的岗位职责。

3.2 问题管理

问题是指在数据中心运营过程中出现的,导致一个或多个事件产生的根本原因还没有诊断出来。问题管理的目的是在事件发生时尽快找出产生的根本原因,防止事件重复出现;确认问题后,举一反三,对同类设备进行排查,开展纠正性维护,避免同类事件重复发生;维护人员通过积极主动实施问题管理,对潜在事件进行预防和纠正,从而减少事件的发生,降低数据中心的运营风险。按问题引发或可能引发事件的程度,将问题定级为高风险问题和普通级问题。数据中心项目经理、技术主管、管理者等不同岗位人员应对问题管理承担不同职责,同时制定问题管理流程。

3.3 变更管理

变更是指在维护过程中对系统(硬件和软件)或服务进行的所有改变,包括设备增补、移除,设备运行状态的改变,设备的启停和切换,运行参数和配置参数的改变,流程和标准的修订,其他修改。实施变更管理是为了确保以受控的方式去评估、批准、实施和评审所有变更,阻止未授权的变更发生,使得变更风险降至最低。同时,将与变更相关的突发事件的影响降至最低,确保所有变更过程都可被追溯。通过制定变更管理制度确定变更的分类,如按发起方和使用场景不同分为内部变更、客户变更,按变更的紧迫性分为计划类变更、紧急变更。根据变更事项视其影响面及对运行安全和人身安全的风险,实行分级管理,从高到低依次分为1~4级。此外,需要明确变更启动流程、变更时间窗口、变更前导时间等,如图11所示。根据园区运营维护人员组织,赋予各岗位人员在变更管理过程的岗位职责。

图11 变更流程

3.4 容量管理

容量管理的目的是有效管控机架 U 位、机架电量、机房制冷量,进一步保证设备运行安全,更好地服务客户。制定机柜容量统计表,实时掌握机柜内U位、实时用电功率、用电量,避免机柜用电负荷超容,使机柜空间得到高效利用。制定空调末端、制冷机组供冷容量管理表,实时掌握用冷需求、冗余、备份等,使其性能达到最优,避免能源浪费。用电方面落实不间断电源系统容量统计分析,避免不间断系统超容,对负载率较低的不间断系统采取节能措施。将容量分析纳入月度例会开展统计、分析、管理,采取快速举措,如图12所示。

图12 电力容量分析表

4 按计划开展培训管理

数据中心基础设施类型众多,设备迭代更新快,迫使维护人员不断学习新知识、新技能以满足工作的需要。为加强园区运行维护人员培训工作,结合运行维护工作特点,结合公司和个人职业生涯发展规划,坚持以培训育人、留人,运行维护人员培训工作规范有序的进行。按照园区业务发展和岗位需要,对运行维护人员进行管理知识、技术和业务、操作技能、安全管理、政治理论、企业文化、职业道德、行为规范等方面的培养和训练活动,是对员工进行有目的、有计划的培养和训练活动。员工培训按类别分为新员工上岗培训和在职培训,按业务执行角色分为内部培训和供应商培训。

内部培训流程如13所示,外部培训流程如图14所示。

图13 内部培训流程

图14 外部培训流程

5 规划协调,做好统筹

规划协调管理外部环境,做到数据中心文档的标准化,统筹好用电节能,加强同客户沟通交流,做好业务机房的进出入管理,使数据中心各项工作高效运行。

5.1 文档管理

为提高数据中心文档处理工作的效率和质量,使之规范化、科学化、制度化,对部门的文档格式、编制、编号、审批、发布、归档等文档管理的工作流程和作业标准作出明确规定。

根据园区组织架构,明确岗位职责。运行维护部负责人是部门文档审批的责任人,对于部门所有文档的发布、修改、废止进行审批。综合管理岗负责部门文档的管理和归档工作,负责处理部门内部及外部对于文档的调用、归还、修改、发布、废止的申请和审核工作,负责对新发布及修改文档按照本办法进行统一编码和审核,负责部门内部基础管理文档的起草工作。各专业维护主管技术型、操作规定规范、现场管理流程类文档起草的第一责任人,也是文档执行的监督者和执行人,是调用、归还、修改、发布、废止的发起者。

按文档的重要程度分为一级文档、二级文档、三级文档,同时明确了文档的标识、编号及控制、编制、审核、发布、借阅等流程。

5.2 节能管理

为加强水、电、油等能源使用的管理,保证数据中心安全运行,需做好节能管理,提高能源利用率。管理节能有助于加强管理和宣传,提高全员的节能意识,在能源采购、管理、使用的各个环节杜绝浪费,提高能源使用效率。技术节能通过合理可行的技术手段提高设备能效,在达到运营目的的同时减少能源消耗。制定数据中心水电消耗及电源利用效率(Power Usage Effectiveness,PUE)分析,实时掌控用能数据,建立数据中心水电台账、发电机用油台账,以月度为更新周期,如图15所示。

图15 数据机楼水电消耗台账

5.3 机房出入管理

为保障数据中心运行安全,严格控制人员及物品进出机房,营造良好的机房工作环境。按进出机房的需求进行分类,如施工、维护、故障处理、外来参观、临时业务通知类,明确现场维护人员、项目经理、技术主管等岗位职责,明确人员进出入机房管理、物品进出机房管理流程、人员进出登记本填写要求,如图16所示。

图16 进出机房流程图

5.4 工具仪表管理

从数据中心永续运营的角度出发,规范专用仪器仪表与工具的使用管理,提高仪器仪表与工具精确度、准备度及使用效率,延长其使用寿命。从仪表的使用和仪表的管理两个维度,落实具体实施细则,明确维护人员、项目经理、技术主管、管理人员等各自职责,确定了部分精度较高仪表的校验周期、保存方法。工具仪表的借用归还流程等,如图17所示。

图17 工具使用与采购流程

6 结 论

通过本次运维标准化的推广应用,使信息园区运维管理流程得到全面升华,真正能够指导现场实际维护工作。随着“东数西算”工程的启动,势必会给信息园区带来快速发展新机遇,一方面通过夯实基础运维管理流程,在新交付的机楼可以继续延用、扩展;另一方面,运维流程的固化需要自动化手段给予支撑,在后续的运维管理手段方面逐步嵌入运维管理流程,实现运维管理标准化、自动化、智慧化的运维目标。

猜你喜欢

文档数据中心运维
酒泉云计算大数据中心
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
Word文档 高效分合有高招
配电线路的运维管理探讨