APP下载

某大数据中心运维管理体系研究

2020-10-20向阳奎雷金红孟波刘田间丁闯

中国新技术新产品 2020年14期
关键词:运维管理管理体系

向阳奎 雷金红 孟波 刘田间 丁闯

摘  要:借鉴“互联网+”先进理念,综合运用云计算、大数据、物联网、人工智能等技术,构建了“云-网-端”架构的某大数据中心平台,打造了“物理分布、逻辑一体、架构一致”的装备运用体系;基于大平台+微服务架构,实现了数据同源、服务解耦,形成一个面向各级单位装备运用的开放共享的环境,研究大数据中心运维管理工作的标准化、规范化、流程化,为备战打仗的综合信息服务提质增效。

关键词:大数据中心;运维管理;管理体系

中图分类号: TP308          文献标志码:A

1 运维管理指导理念

该大数据中心运维管理是以ITIL和ITSS理念为指导,参照地方政务云数据中心,结合实际,开展运行维护体系建设,ITIL是IT服务管理的国际标准,ITSS是借鑒吸收质量管理原理和过程改进方法后形成的符合我国国情的国家标准[1]。

以服务台、事件管理、问题管理、配置管理、变更管理和发布管理等基本流程为依据,构建本大数据中心运维流程管理[3]。运维管理应该覆盖运维制度和流程、运维组织和队伍、、运维工作流程、运维技术服务平台等全要素内容。

2 运维管理体系

在大数据中心运维管理的总体规划下,通过标准的制度管理、人员管理、流程管理以及高效的技术管理体系建设,构建标准化、规范化、流程化、高效率的运维管理体系,实现对机房运行环境、服务器集群、网络设备、安全防护设备、云平台等整个运行系统的统一监控、维护与管理,打造一体化的规范高效运维管理体系,从根本上提高运维效率与维护质量[5]。该大数据中心的运行维护体系建设主要涉及制度、人、技术和对象等4类因素。

3 运维技术体系架构

大数据中心正常运转是以完善的运维体系为基础,通过运维体系持续运作实现大数据中心安全、稳定、高效、低成本运行的运维保障目标。

运维体系包括运维技术、运维流程、运维团队、运维工作、运维绩效、标准规范和规章制度等7个部分。运维体系以运维技术为支撑、构建标准化运维管理流程,通过专业化的运维团队完成大数据中心的运行维护保障工作;运维标准规范和运维规章制度在运维过程中持续完善和持续改进,并为运维工作提供工作指导和约束,运维绩效对运维工作进行全方位的考核评估,涉及制度、人和技术等各个方面,促进运维管理工作持续优化改善,达到最优效果[4]。

4 运维管理体系架构

运维管理体系架构包括3个方面:监控体系、控制体系、流程体系。其中监控体系是提供快速业务故障响应与支持的自动化平台,并对IT环境实现全面监控,控制体系的目标是实现对运维效果与效率的管控并满足法规遵从的要求,流程体系的目标是确保为业务提供高质量的运维服务并降低运行风险。从监控体系的技术架构上看,分为数据采集、数据处理和数据呈现3个层次。

4.1 运维管理控制体系

这里主要是从IT治理的角度实现运维治理,主要是从运维的控制(包括运维治理的模式、绩效考核制度、管理制度和成本控制体系等),运维的管理信息透明(包括运维的报告机制和手段等)以及运维的责任和职责(包括岗责体系等)3个方面进行管控。

4.2 运维管理流程体系

运维管理的流程体系是参照业界最佳实践ITIL (信息技术基础架构库)并符合ISO20000 国际标准管理框架要求,其中运维管理的最佳实践符合运维管理服务生命周期管理的发展要求,流程体系包括服务战略、服务设计、服务转型、服务运维和服务改5个部分。

4.3 运维管理监控体系

运维管理的监控体系是通过IT流程管理平台,IT服务管理平台和IT操作管理平台3个部分的自动化实现和有效集成实现基于最佳实践的组织人员结构,运维管理流程,数据信息流转和技术高效支撑的融合体现[2]。从监控体系的技术架构上看,则分为数据采集、数据处理和数据呈现3个层次。

5 运维组织架构及职责

运维团队要拥有专业的技术人才、涵盖平台各个部分,面向保障大数据中心高可用性与安全性的运维目标,以规范、严密的流程以及配套的运行保障平台来支撑和维护整套运行保障服务体系。

基于大数据中心的网络信息体系的正常运行涉及多种复杂技术的组合,包括基础设施、APP应用和安全运维等,需要根据运维工作划分,精心设计运维工作岗位,并组织运行维护队伍。大数据中心运维团队架构如图2所示。

主要职责是完成大数据中心的软硬件基础设施运行维护、各类资源规划及管理、数据中心各类应用软件的集成和管理、紧急事件的应急响应、重大活动保障、数据中心现场管理、运维制度建设、安全保障、文件资料管理、对外协调、运维工作持续改进以及上级领导安排的其它各项运维工作,具体完成11项工作。1)负责软硬件基础设施运行维护,包括基础设施、网络、基础云平台和基础系统等。2)负责各类资源规划及管理,包括云平台软件资源、数据产品资源、服务器硬件资源等。3)负责数据中心各类应用软件的集成和管理,包括应用软件配置管理、第三方应用集成入云、后端服务的调用和升级、应用运行状态和数据监控、软件版本和补丁发布的配置管理等。4)负责紧急事件的应急响应,包括IT设备故障应急、基础设施应急处理、网络故障应急处理、病毒攻击应急处理等。5)负责重大活动保障支撑,包括参观接待、演训活动、演示汇报支撑等。6)负责运维制度建设、包括数据采报制度、安全保密制度、应急响应制度、入网审批制度等。7)负责安全保障建设,包括网络安全维护、入侵检测系统维护、防火墙维护、防病毒系统维护等。8)负责文件资料管理,包括文件资料登记造册、日常文件使用登记、借阅登记手续办理等。9)负责对外协调,包括供应商协调、第三方技术支持服务协调等。10)负责运维工作持续改进,包括知识库的建立和维护等。11)负责上级领导交办的其它工作任务的解决完成、记录和反馈。

参考文献

[1]李劲.云计算数据中心规划与设计[M].北京:人民邮电出版社,2018.

[2]林子雨.大数据技术原理与应用[M].北京:人民邮电出版社,2017.

[3]李鹏.IT运维之道[M].北京:人民邮电出版社,2019.

[4]姜才康.大数据系统运维[M].北京:清华大学出版社,2018.

[5]钟景华.中国数据中心运维管理指针[M].北京:机械工业出版社,2017.

猜你喜欢

运维管理管理体系
对质量管理体系不符合项整改的理解与实施
基于KPI的绩效管理体系应用研究
控制系统价格管理体系探索与实践
可靠性管理体系创建与实践
构建“四点一线”的项目预算管理体系