APP下载

建立“大运维”体系 支撑数字化改革

2021-10-23田国伟

中国信息化 2021年10期
关键词:大运运维整体

田国伟

一、“大运维”的重要性和必要性

随着数字化改革的不断创新与推进,以单个体传统的业务系统为对象的小运维方式已经不能适应数字化改革的推进步伐,跨层级、跨地域、跨系统、跨部门、跨业务等多跨协同场景越来越复杂,从平台衍生出来的应用越来越丰富,运维需要保障的范围随之扩大,“大运维”应运而生。所谓“大运维”,即整体运维,包含由多个系统组成的整体大平台及平台上衍生的各类应用的整体运维,是对整体成效负责的全生命周期的运维。以浙江 “互联网+政务服务”平台为例,该平台由50+子系统协同组成,背后是20+服务开发厂家,而由平台上衍生出的各类三方应用1000+,各系统之间存在复杂的多跨链路和接口调用关系,具有统一化、标准化、规范化的大运维体系保障尤为重要。

二、“大运维”的挑战与思路

面对多厂家多业务系统组合而成的大平台,不同的系统架构,不同的开发语言,参差不齐的人员技能的现状,对外需整体输出一套稳定的平台服务于政府的整体数字化改革,如何保障日常运维工作的顺利进行、监测线上各系统的运行状况、保障整体系统的稳定运行及突发事件的处置以及为线上各系统的稳定运行提供可靠的数据支撑等是大运维面临的挑战。

大运维要站在全局视角统筹运维的整体工作,制定统一的运维规范、流程和制度;明确运维责任和边界;建立完善的运维协同机制,将整体大平台的运维工作连成网;统一运维管理工具,支撑各项运维工作,沉淀运维数据;通过综合汇聚多样化的运维运行数据,即时感知和预警各系统的运行状况,从而保障整体平台的稳定运行。

三、“大运维”的创新与实践

大运维的总体目标定义为“安全、稳定、高效”,整体系统无中高危安全风险,无数据信息泄露;整体系统服务达到规定的服务可用度(SLA);整体系统服务资源申请规范,使用合理有效。

为实现运维的整体总目标,需要制定一套完善的大运维体系做好保障支撑,并不断在实践中打磨和总结完善这套体系,才能有效地支撑整体平台的运维服务。整体大运维体系包含了四大部分。

(一) 运维核心体系制定

整体定义四个核心体系。

1. 指标体系:整体大运维从稳定、安全、高效三个层面定义运维指标,稳定分为可用性、可运维性、可管理性三个方面,可用性从故障数量(按照P1-P4进行故障分类)及故障影响时长定义整体服务可用性SLA指标;可运维性从故障发生的监控覆盖度、监控有效性及监控报警响应时长定义指标;可管理性从变更工单覆盖度及巡检覆盖度定义指标;安全分为安全态势、安全能力两个方面,安全态势从系统安全事件数、安全防护数定义指标,安全能力从安全检查覆盖度、安全监控覆盖度、风险隐含改进率、时间处理达标率来定义指标;高效从基础资源实际资源最大和平均百分比占用率来定义指标,CPU利用率不低于30%,内存利用率不低于40%,磁盘利用率不低于50%。

2. 工作体系:整体定义运维工作体系,定义运维管理组、运维工作组、运维安全组、运维执行组等并规范各组织职责和人员;运维管理组由省局分管领导、部门负责人,集成单位领导和集成单位技术负责人组成,负责制订运维工作规划;审核并发布运维相关制度,进行重大运维事项决策,对集成单位运维工作进行考核评估;运维工作组由省局项目负责人、集成单位运维负责人组成,负责制定运维工作计划,统筹落实运维工作方案,协调整体运维管理工作;依据相关沟通机制,定期就运维相关工作进展向运维管理组汇报;不定期对信息系统运维人员、日常运维工作、系统架构稳定性、安全风险等开展监督检查;运维安全组由省局安全负责人、集成单位安全运维负责人组成,负责信息系统安全运 维管理工作,提出安全运维工作规范和制度,并推进安全运维工作的执行。

3. 规范体系:整体从人员、资源、安全、故障、变更、巡检、重保、监控、考核等多项定义运维管理规范,提升运维质量和效率,保障系统的稳定性和安全性,对所有业务系统进行指导和督查作用。

4. 考核體系:整体根据各系统场景,制定运维考核细则,考核从监控报警、系统故障、服务支持三个层面综合评价运维服务质量,在监控报警方面,按照发生故障的监控覆盖度,监控有效性及故障响应时长是否达标作为考核重点;在系统故障方面,按照事前梳理好的业务场景和核心系统定义,根据故障发生的时长和故障实际的影响范围进行故障等级判断,设定P1-P4四个等级,其中P1等级最高影响范围最大,根据全年服务可用度进行故障时长拆分,对超出故障允许时长外的情况进行考核;在服务支持方面,分为运维类工单问题闭环率、驻场人员考勤、人员服务态度、归属自身系统的资源使用率是否达标、线上操作是否存在违规操作、核心接口请求率是否达标、数据库慢查询治理及安全风险问题是否及时修复为考核重点,定期考核通报、晾晒,同时根据考核成绩进行约谈、奖惩,对年度考核不达标低于最低分数线的服务开发单位启动退出机制。

(二)运维保障团队组建

根据业务属性组建运维专项人员保障,对所有服务安排7X24值班监控人员,第一时间发现和通告报警信息,提升故障及时响应率和缩减故障影响时长;对所有终端用户反馈的问题安排客户服务人员,积极响应和归类下发反馈的问题,建立问题闭环和回访机制,提升客户服务满意度;对所有接入到总平台的应用安排技术支持人员,提供技术对接服务,规范应用的接入标准;对所有应用系统安排运维人员,做好日常系统服务保障;对整体平台安排运维开发人员,规划设计和开发统一运维管理平台,为整体大运维提供运维工具支撑;对所有系统安排安全运维人员,建立运维安全规范,提升系统、数据安全保障能力;对所有接入总平台的系统厂家安排运维管理人员,管理日常厂家运维工作,审查系统风险,提升系统稳定性。

(三)运维管理平台筹建

统筹规划设计和开发统一应用运维管理平台,平台作为运维管理统一入口,实现各类运维数据的快速查询,对所有线上的运维数据进行实时的汇总、统计和分析,为线上稳定性的运行提供可靠的数据支撑,通过平台实现。

1. 运维平台统一化:通过和统一应用运维管理平台的对接,实现各项目系统运维过程中涉及的多套系统、平台、工具等统一入口化,一个账号可查询到多套系统多个平台的运维数据,实现运维管理统一、易用。

2. 运维服务标准化:通过平台的对接,实现各类审批流程标准化、在线化,将复杂的各类运维流程规范进行标准化对接和输出,实现运维整体流程标准、可用。

3. 运维数据可视化:通过和各类平台、工具的对接,将线上的运维数据进行实时汇总展示分析,把不直观的运维数据通过图形等方式将运维数据实时呈现,实现运维整体数据透明、可视。

4. 运维监测自动化:通过和各业务系统的后台对接或人工配置等方式,实现对线上各系统的站点、页面、接口、在线事项等信息按照指定的规则进行服务自动化7X24监测,根据不同的后台规则进行告警分类并自动下发到相关负责人,实现报警信息及时、有效。

5. 运维服务可管理化:通过线上运维数据的实时汇总分析,对线上数据进行可视化分析后,对整体运维的稳定性和可用性提供数据支撑,提前发现线上问题,为运维提供可靠的数据支撑、判断。

(四)运维技术保障强化

定期对线上系统开展运维事前、事中、事后全流程服务审查保障。

1. 事前运维体检:大运维管理单位通过定期的系统稳定性审查,对全业务系统的服务开展事前运维体检,重点加强对系统资源使用、服务网络调用、上下游依赖关系调用、系统性能评估、服务部署架构合理性、服务配置优化等评估审查;在监控方面,加强对基础资源、网络请求、接口请求、服务主动监测等报警信息的完善,提前发现和预警线上问题;在日常巡检方面,建立完善的巡检制度和巡检范围,对核心服务或核心功能进行定期巡查,提前预防问题的发生,针对重大活动,提前制定完善的服务重保方案及应急响应,组织协调人员进行7X24服务保障。运维服务开发单位进行运维资产信息归属认领,配置服务监控报警,执行线上变更方案申请,进行服务日常巡检及故障线上应急演练。

2. 事中应急处置:大运维管理单位根据日常制定的应急预案启动应急响应机制,拉通干系人,协助对故障进行快速问题排查定位和恢复,并在故障处置过程中定期做故障通告。運维服务单位进行监控报警排查分析,根据故障场景进行应急预案启动,进行服务快速恢复。

3. 事后故障复盘:大运维管理单位对故障发生的故障详细描述、故障排查过程、故障影响范围进行讨论复盘,制定故障的临时和长期解决方案,根据故障等级定义,对故障进行定级定责,输出完整性行运维报告。运维服务开发单位执行故障修复计划。

在整体大运维的服务过程中,根据已发生的故障不断定期进行经验总结,提炼故障原因,并对故障的原因进行分类,定期对服务开发单位人员进行运维故障总结会,对全项目系统进行举一反三排查检测,避免类似故障的发生。

四、“大运维”的成效

今年2月,浙江全面开启数字化改革。数字浙江技术运营有限公司在浙江省大数据发展管理局的领导下,建设了“大运维”体系。通过“大运维”体系化的建设与实践推进,围绕浙江一体化智能化公共数据平台,颁布关于信息系统的运维管理规范12项,有效指导了运维的全流程服务过程,实现了运维流程审批全在线化。纳入大运维的体系管理后,全方位梳理审查系统风险问题,对系统运维部署方案、服务系统存在的单点问题、性能问题、架构设计问题、服务配置参数优化问题、系统内核参数问题、服务监控预警问题、日志分析等问题进行集中审查评估整改。经过体系化的治理后,稳定性提升明显,提前主动发现和推进各业务系统安全风险1000+,全年各类运维在线流程审批2600+,整体服务可用度全年同季度对比,故障总数量下降66%,故障总时长下降78%,为浙江数字化改革提供了可靠的运维保障。

五、结语

随着新技术日新月异的发展,大运维体系也要在保障的前提下不断地做创新和探索,从传统的运维方式上做变革转换,从被动救火式向主动精细化转型,主动分析,主动优化,驱动开发,提前发现和解决风险问题;从问题驱动向价值驱动转型,以用户体验、服务满意度、促进业务更好发展;从人肉操作运维向自动化运维转型,通过运维平台工具,实现运维自动化,提升运维工作效率和质量;从依靠经验向智能化驱动运维转型,结合运维在线数据分析、知识库、机器学习技术等促进运维智能化发展。

在整个数字化改革的过程中,大运维还有很长的路要走,通过技术的不断演进,体系的不断打磨,运维服务的不断提升,我们将会提供更加夯实的运维保障服务,为数字化改革添砖加瓦。

猜你喜欢

大运运维整体
大运之力
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
关注整体化繁为简
设而不求整体代换
台北市民对世大运“无感”
十二星座5月整体运程
如何选择整体法与隔离法
电子政务甲方运维管理的全生命周期