APP下载

管家式集约化运维关键技术研究

2017-03-09何文金刘江李冬

微型电脑应用 2017年12期
关键词:集约化管家运维

何文金, 刘江, 李冬

(国网信通产业集团 安徽继远软件有限公司, 合肥 230088)

管家式集约化运维关键技术研究

何文金, 刘江, 李冬

(国网信通产业集团 安徽继远软件有限公司, 合肥 230088)

针对国网集中式部署运维应用现状,以集中式部署信息系统运维为研究对象,通过分析国家电网公司运维特点和发展趋势,探索优化配置运维服务资源,创新运维服务模式,以集约化监控、故障预警、自动恢复为切入点,提升服务质量,提高服务效率和业务可靠性,改善用户体验,推进运维管理集约化和智能化。

集中式部署; 运维服务模式; 服务质量; 用户体验

0 引言

随着公司SG-ERP的建成,信息系统逐步实现集中部署,信息资源集中化程度更高,系统架构更加复杂,资源配置更加集约,系统承载压力大幅增加,传统的运维模式与集中部署后的运维模式存在较大差异,对运行管理工作提出更高要求。

国网公司信息化的发展,促使信息系统规模、服务用户数日益增加,信息系统间集成关系日趋复杂。[文献1]在企业信息系统运维实践中,经常有业务问题找不到故障。主要是当前监控系统是分离监控业务系统组成部分的工作状态[2]。[文献3]云计算技术逐渐成熟,大规模集群在企业部署与应用,使企业IT架构越来越复杂,对运维人员技能的要求越来越高,对运维工作也带来极大的挑战和困难。[文献4]传统的运维模式沿袭了多年前的保守运维体系,被动式运维。[文献5]传统手段无法精确定位故障。已无法满足日益复杂的IT架构运维,主要表现在:

一是人员成本偏高。运维工作中的操作多为手工作业,不仅重复性工作量大,而且存在误操作风险,管理难度大,而随着企业IT结构的越来越复杂,又不得不投入更多的人力。

二是自动化程度低。现有模式只有发生故障或影响业务连续性时才会被发现,并非是主动预警、修复,所以IT运维往往陷入“救火队员”的角色中,故障报警此起彼伏,恶性连锁反应持续发生,还会导致企业对IT运维的满意度大幅降低[5]。

三是随着计算、存储资源的池化,资源利用率提升,以往人工更新、检测和故障排除的模式,在面临虚拟化的成千上万甚至更庞大的资源管理时,将更加困难。[文献6]云环境中的主要功能之一是用户可以要求服务,通常是通过自助服务门户实现的。他们可以从中选择各种不同类型的服务。

本文根据文献研究成果,引入管家式保姆理念,研究分析国内外先进的运维管理经验,开展集中部署信息系统运维差异性分析,研究设计管家式集约化运维管理模型,提出管家式运维体系。通过管家式运维实现对系统运行状态统一集中监测与评估、故障分析与辅助定位、故障自动处理、自动化巡视巡检、故障预警等,开展信息系统集约化监控、故障预警、系统自动恢复技术及相关系统研究,以支撑IT服务敏捷、快速的部署,高效、按需分配资源,安全稳定运行,固化运维管理流程,减少重复劳动,提高工作效率和规范性,支撑信息系统运维工作从设备监控向全面监控延伸,从手工操作向自动操作演进,从被动响应向主动服务转变,促进运维规模、服务水平和工作效率提高。

1 研究目的与意义

本课题通过研究分析国内外企业及国家电网公司的运维特点和发展趋势,探索优化配置运维服务资源,创新运维服务模式,以集约化监控、故障预警、自动恢复为切入点,提升服务质量,提高服务效率和业务可靠性,改善用户体验,推进运维管理集约化、自动化及智能化,具体目标如下:

1)解放管理资源:分离出非关键工作,用管家建立“防火墙”;

2)提升服务质量:统一管理、作业、流程、质量标准体系和主动服务。

3)提高服务效率:管家主导,其他服务商配合,接口统一,责任明确。

4)丰富经验储备:通过继远管家作为媒介,共享其它项目上成功的经验。

5)优化运维流程:管家式运维服务模式下,运维流程的设计和管理将打破服务商和项目组的界限,对整体职能做统一界定,运维流程整体性更强、端对端扁平化管理趋势更明显。

6)提高运维黏性:通过管家对全业务质量监控,提升系统安全性和业务可靠性,增强客户对团队的信赖,并因其无可替代的品质而值得依赖。

2 管家式集约化运维关键技术研究

2.1 集中部署信息系统集约化运维差异性分析

通过研究分析国内外企业运维特点和新技术发展与应用趋势,发现企业信息系统运维业务均强调了集约化、扁平化、资源配置管理及自动化管理的发展目标,而集约化、扁平化、自动化管理的实现基础往往离不开信息系统软硬件的高度集中,本次调研工作就集中部署及分散式运维的差异性进行了全面的分析,梳理出集中部署信息系统运维工作存在以下几个方面的问题与不足:

1)人员成本偏高运维工作中的操作多为手工作业,不仅重复性工作量大,而且存在误操作风险,管理难度大,而随着企业IT结构的越来越复杂,又不得不投入更多的人力。

2)自动化程度低。现有模式只有发生故障或影响业务连续性时才会被发现,并非是主动预警、修复,所以IT运维往往陷入”救火队员”的角色中,故障报警此起彼伏,恶性连锁反应持续发生,还会导致企业对IT运维的满意度大幅降低。

3)随着计算、存储资源的池化,资源利率用提升,以往人工更新、检测和故障排除的模式,在面临虚拟化的成千上万甚至更庞大的资源管理时,将更加困难。

为了解决上述问题,通过管家式运维实现对系统运行状态统一集中监测与评估、故障分析与辅助定位、故障自动处理、自动化巡视巡检、故障预警等,开展信息系统集约化监控、故障预警、系统自动恢复技术及相关系统研究,以支撑IT服务敏捷、快速的部署,高效、按需分配资源,安全稳定运行,固化运维管理流程,减少重复劳动,提高工作效率和规范性,支撑信息系统运维工作从设备监控向全面监控延伸,从手工操作向自动操作演进,从被动响应向主动服务转变,促进运维规模、服务水平和工作效率提高。

2.2 集中部署信息系统运维发展趋势研究

集中部署信息系统运维管理发展方面,在信息化建设初期,单个业务系统主要以售后服务模式为运维核心,侧重于解决问题;信息化建设中期,企业多业务系统运维主要以流程管理为核心,侧重于提高工作工作效率;信息化建设完成后,企业内的业务系统运维则需要对整个运维资源(人员、技术、流程、资源)进行统筹管理与管与分配,形成信息运维标准体系,促进运维服务自动化。企业经历了运维发展过程中的各个阶段, IT系统架构逐渐走向标准化、模型化,通过运维管理平台,可以对运维服务进行集中的远程自动化监控。能够收集运维过程中所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运维支撑体系。逐步由被动式、高成本的运维模式向高效率、低成本、规模化的集中式运维模式发展,具体体现在以下几个方面:

1)规划规模化

为了确保运维服务模式能够适应不同的运维环境,各企业能在运维体系架构设计时便充分考虑到标准化、模型化,新增业务资源可通过定制进行完成。

2)服务自动化

通过自动化技术,提高日常巡检、故障告警、故障排除等运维服务的工作效率,以达到自动化运维的目标,运维模型的设计过程中重点要考虑自动化批量处理能力。

3)管理智能化

通过运维管理模型规范运维人员和服务商的工作流程和协调配合,并以平台工具进行信息查询、告警管理等操作。智能化:使用新技术,提升运维管理方式的处理效率,引入嵌入式自动化架构,实现智能终端APP化管理。

4)监控平台化

国内外各企业的运维管理基本都设计了符合各自企业特色的运维管理平台,通过管理平台化监控运维服务过程、运维服务质量及运维服务交付等,实现对运维服务的全方位监控。

5)运维组织扁平化

信息技术的发展和运维管理支撑系统的建设完善,使运行维护组织管理的扁平化成为可能,管理的扁平化可以简化生产作业流程和管理流程,增强运行维护工作的灵活性和适应性,提高工作效率,降低运行维护成本。

2.3 建设管家式集约化运维管理模型

未来,运维管理模式的建设方向是一体化集中管控模式。针对国网公司集中部署模式已逐步完成的运维管理现状,为了提升国网公司运维服务服务质量,提高服务效率和业务可靠性,改善用户体验,推进运维管理的集约化、自动化及智能化。考虑组织特点和未来的发展方向,以及基础设施、应用的大集中模式现状,逐步尝试融合私有云,集中化的运维管理模式来支撑国网公司的运维管理。借鉴IT运维管理发展趋势,结合国内企业的现状特点,以统一的技术工具平台为支撑,以“管家式服务”为理念,遵照统一规范的运维流程执行,明确出人员角色,建设集约化运维管理模型,涵盖组织模式、管理制度、管理流程、绩效考核、知识 管理、技术支撑等内容。

1)组织模式

为了实现一体化集中管控的运维管理,将运维管理团队、运维执行团队到后台支持团队3个方面进行统一,按照业务 设立统一的运维团队,为用户提供统一的IT 运维服务。

2)制度规范

管理制度体系分为 “信息化运维管理办法”、“各服务管理流程序文件”、 各信息系统项目根据具体情况再制定实施细则和操作指南以及表单4个层次。

3)管理流程

建立统一的服务管理流程,包括分别面向用户的服务支持流 程,如事件、问题等流程。以及面向客户服务交付流程,如容量管理、可用性管理等流程。

4)绩效考核

绩效考核从IT运维管理体系的目标出发,按照组织、流程和岗位角色分解, 形成“IT运维组织KPI关键绩效指标—流程KPI—角色岗位KPI”3层相互关联的绩效考 核指标体系。

5)知识管理

整合知识资源,建立一套“统一、集中”的运维知识管理平台,以便为总部及所属企事业单位IT运维工作提供支持。

6)技术支撑

建立集中统一的运维管理平台,包括服务流程平台、监控平台、知识管理平台等。

3 创新与技术难点

运维主动式管理:随着业务系统对网络的依赖日趋加深,看似轻微的系统故障很有可能威胁到整个公司的运作,而如果IT部门只是从报修电话中体现价值,总是做“事后诸葛亮”是很危险的。如何借助于管家式集约化技术手段,提前预测业务系统潜在的安全隐患,及早缓解潜在风险,成为主动式运维管理的一个难点。

故障自动化处理:故障处理效率不高,人力成本攀升苦不堪言。首先,一线的IT运维人员无法第一时间得到故障通知,而被动让故障处理再陷泥潭,定位故障源头的难题让这种局面恶化。其次,设备和业务系统日常巡检依靠人力难以维持,工作量过大可能会造成巡检工作敷衍了事,还会留下运维“死角”。

IT运维与业务脱离:IT运维与业务脱离,无法用非技术化的数据向业务部门表述IT战略及IT资源的分配状况,业务部门也无法直观的看到系统健康状况。

而管家式集约化运维管理模式能够对整个IT资源进行统一管理,而通过管家式集约化管理模型的建设,实现从操作调度到基于最佳实践的标准化流程的统一管理。从被动服务向主动服务转变,从粗放管理向精细管理转变,从单项优势向整体优势转变,从运行管理向全生命周期管理转变。

4 总结

本课题借鉴“管家式保姆”先进理念,研究国内外先进的运维管理经验及信息技术发展趋势,结合国网运维管理现状,整合运维服务资源,改变以往被动式、低效率、高成本的运维服务模式,研究集中部署信息系统运维差异性分析、管家式集约化运维管理模型,实现服务主动式、专业化、自动化、可定制、高标准的要求。

[1] 吴舜,许大卫,魏征,等.基于用户体验的信息系统主动运维平台[J].电信科学,2015,31(3):222-229.

[2] 姜旭,许国平,王珂,等.商业银行应用系统主动运维规范研究[J].金融科技时代,2016(2):40-43.

[3] 陈康,郑维民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1137-1148.

[4] 闻屏.构建全链路监控打造面向大客户的主动运维服务新体系 [J].中国通信,2016,18(22):162-163.

[5] 吴舜,许大卫,魏征,等.基于用户体验的信息系统主动运维平台[R].中国电机工程学会电力信息化专业委员会,2016.

[6] ZDNet.应对四大挑战:实现云环境下的主动运维[J].Network & Information,2011,25(10):279-280.

ResearchonKeyTechnologiesofButlerIntensiveOperationandMaintenance

He Wenjing, He Wenjing, He Wenjing

(State Grid Communication Industry Group CO., LTD Anhui Jiyuan Software CO., LTD, China, Hefei 230088)

According to the national network of centralized deployment operation application, the centralized deployment information system maintenance is taken as the research object. Through the analysis of the national Power Grid Corp operation characteristics and development trend, the optimal allocation of service resources, innovative service model to intensive monitoring and fault warning and automatic recovery is used as the starting point, to improve service quality, service efficiency and the service reliability, to improve user experience, and promote intensive and intelligent operation and management.

Centralized deployment; Operation and maintenance service mode; Service quality; User experience

1007-757X(2017)12-0078-03

何文金(1978-),男,漳州人,工程师,研究方向:电力行业信息化。

刘江(1982-),男,涡阳人,工程师,研究方向:电力信息化工作。

李冬(1984-),男,阜阳人,助理工程师,研究方向:电力行业信息化。

TP311

A

2017.10.21)

猜你喜欢

集约化管家运维
秋季蔬菜集约化育苗生产技术指导意见
郁小文的猪管家
运维技术研发决策中ITSS运维成熟度模型应用初探
做自己的小管家
基于集约化的电费电价管理措施探析
风电运维困局
探究县供电企业财务集约化实践分析
杂乱无章的光伏运维 百亿市场如何成长
伤口“小管家”
基于ITIL的运维管理创新实践浅析