数据中心运维管理体系初探
2019-10-31杨高攀王倩
杨高攀 王倩
摘要:本文以A公司数据中心主机房运维管理为讨论对象,通过对主机房所涉及的各类基础设施、电子信息设备的具体运维内容、运维体系、流程管理体系、沟通管理体系的研究分析,论述了在数据中心主机房运维工作中应该关注的要点,以期对同类工作有所助益。
关键词:数据中心;主机房;机房运维;ITIL
中图分类号 TP308 文献标识码:A
文章编号:1009-3044(2019)22-0019-02
开放科学(资源服务)标识码(OSID):
A Preliminary Study on Operation and Maintenance Management System of Data Center
YANG Gao-pan, WANG Qian
(Baoji Cigarette Factory of China Tobacco Shaanxi Industrial Co.,Ltd., Baoji 721000 , China)
Abstract:This paper studied Company As Date Base computer room, analyzed its hardware condition, and its Operation system of Content, System,Process,Communication,expound key points in Operation job of IDC, expected to be helpful for such jobs.
Key words: Data Center; Computer Room; operation and maintenance management; ITIL
在我国社会经济发展过程中,没有信息化就没有现代化,而数据中心作为信息化的基石,没有数据中心就没有信息化。数据中心建设好后该怎样具体运维,怎样让数据中心稳定、可靠、安全、高效地运行,并在质量、成本、效率、安全等方面为业务系统提供坚强后盾,已成为运维部门关注的重点,本文以A公司数据中心主机房运维工作为讨论对象,通过对主机房所涉及的各类基础设施、电子信息设备的具体运维内容、运维体系、流程管理体系、沟通管理体系的研究分析,论述了在数据中心主机房运维工作中应该关注的要点,以期对同类工作有所助益。
1 A公司数据中心主机房概要
1.1 A公司概况
A公司属于轻工业生产制造企业,其产品线丰富、产品受用群体庞大,年工业总产值百亿元,公司内部有众多的业务领域,各业务领域均有相对应的信息系统予以支撑,用户群数量较大、活跃度及并发量均较高,公司内各类流水线对信息系统的实时性和可靠性等均有较高要求,总之A公司的信息化及自动化程度均属于所处行业的先进水平, A公司所有的信息系统归纳为四大类,分别发力于数据分析、业务管控、制造执行、基础保障,基于A公司的信息化及自动化特点,其数据中心运维部门在公司内部的作用就至关重要,运维工作的质量和效率将直接影响到公司的生产经营目标,所以有必要在本文中将A公司数据中心运维过程的经验和教训进行分析研究,以期为今后类似的工作提供解决方案。
1.2 A公司数据中心
A公司的数据中心(Data Center)是一棟建筑物的一部分,主要由主机房、辅助区、支持区和行政管理区等功能区组成。主机房(Computer room)是主要用于数据处理、设备安装和运行的建筑空间,A公司在主机房内配置了空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统)、安防系统(防雷接地系统、消防系统、视频监控系统、门禁系统)、综合布线系统、智能网络管理平台、服务器主机群、服务器虚拟化系统、网络安全类软硬件系统(病毒网关、安全审计、入侵检测、入侵防御、运维审计、日志管理等)、环境监控系统、虚拟化系统、存储管理系统、备份系统等,对上述各类软硬件系统运行与维护构成了A公司运维部门的基础性业务工作。
1.3 运维体系
A公司的运维体系,一是基于本公司的战略规划、信息化发展规划、运维发展规划、人力资源规划、软硬件系统架构、数据中心特点等指导性文件,发布了规范化的数据中心运维体系标准文件。二是成立了一支专业化的运维团队,团队成员专业主要包含:企业管理与标准化、服务器、网络、信息安全、软件工程、安防、电气、弱电、暖通等,团队成员除在专业技术领域擅长外,同时兼备了制造企业所需要的管理能力。三是加大资金投入,A公司已经意识到信息化在生产制造过程中的积极意义,在设计研发、原料采购、仓储运输、订单处理、生产制造、批发和零售等环节,大力引进云计算、大数据等信息化技术,用以推进传统制造向数字化、智能化转型。四是加大宣传力度。A公司虽然只是一个商品制造企业,但是其在公司内部提倡全体职员进行互联网思维,宣传贯彻中国制造2025,突出“互联网+”“智能化+”对于日常业务的引领与提升,已将信息化、智能化提升至公司战略层面。五是加强运维部门人员的职业技能培训,走人才引领的发展道路,A公司历来重视信息化专业技术人员的培训工作,建立了一套职业晋升体系,通过培训与鉴定,可以充分激发运维人员的工作主观能动性,团队氛围积极向上。
2 运维基础工作分析
2.1 基础设施的运维工作概况
A公司数据中心主机房基础设施的具体工作由三大类组成,即状态监控、预防性检查、常规作业,简述其工作内容如下。
空调系统的运维内容有:精密空调系统的环境温湿度、出风温度、回风温度、加湿罐状态、加湿罐阳极棒、压缩机状态、高低压压力、冷却水压力、滤网灰尘、室内机漏水检查、室外风机运转,新风系统的风压和风速、上下水等。
电力系统的运维内容有:供配电系统的电流、电压、功率因数、有功功率、无功功率、谐波、接地电阻、零序电流、导线及器件的发热、防浪涌器件等,不间断电源的输入输出电压电流、频率、负载率、温度、电池充放电电压、外观、通风等。
安防系统的状态监控内容有:防雷接地系统的浪涌保护器、避雷器状态、接地电阻等,消防系统的控制系统状态、探头污染、管道开关、气体灭火器容器压力、灭火器有效期等。
视频监控系统的状态监控内容有:监控录像记录信息的完整和真实性、存储状态、云台状态、监控死角、照明情况等,门禁系统的自动报警功能、门禁与视频监控联动状态、防触电、防短路和开路、门磁、门禁授权等。
综合布线系统光纤、铜链路状态、线缆标识与拓扑图等。
2.2 电子信息设备的运维工作概况
主机房内的服务器群、网络设备、网络安全设备、存储设备等的主要运维工作为三大类,即状态监控、预防性检查、常规作业,简述其主要内容如下。
服务器主机类:设备机身和各类板卡运行状态、电源、CPU峰值、内存峰值、文件系统空间、IO读写、网络端口、与存储的链路性能、微码版本、RAID信息等。
网络及安全设备类:端到端时延变化、链路端口、链路负载百分比、路由条目变化、软件配置变动审计、设备日志审计、负载均衡、应用流量管理、上网行为、网页防篡改、WEB防火墙、APT检测、木马检测、无线AP、日志审计、网络审计、运维审计、数据库审计等。
3 运维的流程管理体系
A公司对于数据中心的运维工作,设计了总体的管控流程,包括每一个流程动作的触发条件、工作规范、成果等,保证流程所涉及的每一个人都有规范统一的理解和标准的操作,同时可以实现对运维工作的量化管理与考核,规范化流程包含了:统一服务台管理、事件管理、问题管理、变更管理、发布管理、配置管理、知识库管理、系统管理、角色授权管理等。
统一服务台管理。运维部门设置统一的对外服务接口,用于处理用户服务请求、知识库维护、运维服务工单派发、进度跟踪、服务回访等,这样设置有助于管理决策层人员做对整个运维部门的工作进行绩效管理,进而对运维人力资源配置、资金支持等进行优化调整。
事件管理。服务台和工单指定人员能够快速响应软硬件故障或服务请求,按规范记录事件,对事件的影响度和紧急度进行评估,进而对事件分级,能够有效提高整体运维工作效率,提升用户满意度。
问题管理。有主动管理和被动管理两个维度,主动问题管理重点关注数据中心基础设施和电子信息设备的运行质量及趋势,分析并找出潜在隐患加以预防修复,防止其发生。被动管理关注突发事件的解决,及事后的排查分析,找到问题根源并彻底解决。在数据中心主机房运维过程中,运维人员大部分精力应放在主动管理方面,努力使数据中心的对外服务透明化。
变更管理。在数据中心主机房内,始终坚持的原则是在最小风险范围内,高效经济的实施变更。A公司将变更分为三级,即常规变更、标准变更、重大变更,所有变更均进行请求登记,经过评估和授权后才付诸实施。
发布管理。建立规范的发布过程,控制发布风险,提高发布成功率。首先确认发布的可追溯和安全,只有经过测试并授权批准的内容才能发布。第二考虑发布的时间和范围规划,与用户确认试运行期间。第三对发布信息的备份进行妥善安置,并更新配置管理数据库。
配置管理。该管理的总目标是提供一个统一的、一致的过程来管理运维各流程所涉及的所有组成部分。该管理过程统计所有的数据中心资产,为其他管理流程提供准确统一的信息,是事件、变更、发布管理的基础,配置项记录的完整性和正确性得到维护和确认,所有的数据存储在配置管理数据库中。
知识库管理。运维过程中的所有事件均在统一服务台管理中入库,入库的过程按照已划分的角色、确定的流程进行,在经评估批准后发布。设置知识库管理可以实现知识共享及转化、避免知识流失、提高运维的响应效率,当知识库积累到一定量时,可以进行大数据分析,进而发现潜在问题,预测分析,帮助拟定未来的工作重点、计划及预算等。
4 运维的沟通管理体系
A公司为确保运维工作效率和管理质量,制定了包括会签制度、例会制度、汇报制度、专项会议制度等在内容的沟通管理体系。
会签制度。在运维过程中,当出现涉及重大业务变更事件时,运维部门会组织召开由各业务部门负责人及业务骨干参加的协调会议,当双方达成业务及技术的一致后,经批准授权交由技术人员实施。
例会制度。定期组织运维部门例会,会上对运维工作过程中的技术与管理问题进行面对面沟通协调,确定解决方案和工作计划。
汇报制度。运维部门的管理人员有1至2个,但技术人员会有很多,所以技术人员的工作进展情况,必须定期向管理人员汇报,A公司建立该制度能使管理人员全面把控运维整体工作进展和质量,同时能提升技术人员在本单位的管理能力。
5 结语
现阶段我国各个行业中数据中心的建设依然处于快速的发展阶段,其中运维体系的规划和设计在数据中心建设过程中占据着重要的角色,运维体系的搭建应同数据中心的规划设计同时开展,这样有助于数据中心在交付运营之后的运维工作可靠有效地开展,才能让数据中心稳定、可靠、安全、高效地运行,并在质量、成本、效率、安全等方面为业务系统提供坚强后盾。
参考文献:
[1] GB50174—2017,数据中心设计规范[S].
[2] 陈永青,张正培.数据中心机房建设和运维中的色标辅助管理[J] .中国金融电脑,2018(6):42-48.
[3] 费晰,胡璋,杨海. 关于提升卫星发射中心远程数据机房运维保障水平的若干思路[J] .中國航天,2018(6):31-33.
[4] 张亚军,张金隆,陈江涛. 基于ITIL的H企业信息化运维服务的管理与研究[J].数字通信世界,2019(2):244-245.
【通联编辑:王力】