APP下载

新集中化模式下的IT运维发展思路探讨

2022-03-02张亚辉陈建新米广勇

数字通信世界 2022年1期
关键词:集中化运维资源

李 林,张亚辉,陈 森,陈建新,米广勇

(中国移动通信集团设计院有限公司山东分公司,山东 济南 250000)

0 引言

运维集中化已经不是一个新鲜的词,从ITIL引入中国开始,传统离散的各自为战的运维模式就受到了很大的冲击,运维逐渐由小团队合作,向集中化的融合式团队发展,运维实现了简单的标准化和统一管理,运维关注点不再是一个简单的主机故障或者存储故障,而是逐渐转移到业务运营上来,如何让系统变得更加稳定,更加健壮,成为了后时代运维的目标。

1 运维集中化发展

新时期信息技术的快速发展,使运维内容变得更加丰富。云计算的弹性伸缩能力、容器化的快速部署和隔离优势、微服务技术异构灵活部署、DevOps及CI/CD相关技术的研究应用以及大型资源池的持续建设上线,都对运维提出了新的要求。硬件、架构及技术的统一使得运维变得简单,庞大的业务和基础资源规模以及种类繁杂的云原生技术布局应用又使得运维变得复杂,运维人员运维的资源量级明显提升了,这是运维效能的体现,服务的内容逐渐变得简单,分工更加细化,专业的人做专业的事情,这是组织的优化。

在这种背景下,大集中团队再次产生分化,向专业集中的集中化团队转变,分工更加细致且整合更加合理,不仅保留了原有的运维生态,新的集中模式实质上是基于当前业务和资源的特点而进行的尝试,运维专业化程度加强,但是运维管理却走在了相对的路线上,运维管理逐渐向运营和开发融合,协作更加频繁,复合型运维人员的需求在增加。

最后,随着专业分工更加明晰,信息技术和智能化、线上化研究应用的普及,运维效能也走在的变革的关键口,企业要想在“自动驾驶”方面走在前列,必须进行统一规划和布局,在IT服务的每个关键节点发挥上层组织管理和技术的引领作用,否则,在人工成本不断压降,资源受限,企业加速发展的时刻,必然会引发重大问题。

2 现状问题分析

2.1 管理无法有效跟进

根据技术应用现状,管理的优化经常是落后于技术的应用,当新的技术应用生产后,企业管理制度和相关的规范流程尚未经过实践的检验,新技术的应用本身又要消耗一定的资源去适应,管理成本和时间成本如果无法及时投入,管理优化及其他跟进提升的支出被无形中压缩,导致后期管理一直是处于“凑合”的状态,集中化的效果以及新技术的作用完全无法发挥,甚至让人产生还不如过去的认知。

2.2 技术上运维集中化本身未发生变革

运维集中化不只是一个组织或者管理的命题,它也是一个技术命题,集中化的运维自带技术背景。我们经常面临的问题是,没有人关注是否需要技术对集中化进行支撑,简单的认为只是人或者资源凑到了一起,管理上发生了变化而已,这恰恰是非常要命的。

集中化必然是公司或者业务发展到一定程度后的产物,它的存在就是要解决企业不断增加的成本问题、组织混乱冗杂职责不明问题、管理交叉分工不清问题、新技术迭代运维能力不足问题、运维手段落后效能低下问题等,以上这些是阻碍企业发展的重要因素。

集中化后,资源高度集中,所需的管理成本成几何倍数增加,且交付质量却是逐步下降的,这是集中化的诟病,但是,集中化的好处也是显而易见,集中化带来的不仅有资源,更多是一种思维上的变革,它引导着管理者向更高效更先进管理模式运作,而运维集中化运营模式的变革才能引起技术上的变革,大多数企业还停留在资源堆积和优化上,而由集中化引起的技术革命才是我们的追求,我们不为集中化而集中化。

2.3 运维不再单单是运维

得益于云原生在ICT各领域的快速应用和发展,业务和应用的实现变得相对简单,而DevOps、容器等的应用使得运维与传统IT运维有了极大的不同,我们不再仅仅追求服务器CPU使用率是否超过指标,不再关注单个设备是否发生了重大故障,我们更加关注的是应用和业务运营是否良好,PaaS层是否稳定,资源调度是否合理,能否实现计算弹性伸缩、服务治理和应用灰度发布等能力。

业务价值的实现需要运维更多地参与到整个生产链条中来,需要与需求、设计、开发、测试、部署、上线等有更多的交互和合作,共同完成整个业务的持续集成和发布。集中化运维不能再固守“地盘”,它需要敞开“怀抱”,与开发、测试、需求等深度合作,让业务更加可靠稳定,让团队保持活力,但这有赖于技术的革新来释放运维人员的精力,让人回到更有意义的岗位,充分发挥主观能动性。

3 新模式下运维发展思路探讨

3.1 顶层设计实现数据治理

用顶层设计的思路,纵观全局,打通底层数据,消除数据和应用烟筒,实现企业数据和服务治理,这是一条必经之路,也是最困难的路,它需要企业有大决心和高投入。

在调研过程中,我们发现企业的很多底层数据存放在各个不同的平台,提取使用存放非常困难,管理职能隔离、制度制约、流程束缚、数据壁垒、执行困难的现象普遍存在,如果不能尽早解决,那么在企业高速规模化发展的时候,必将成为企业发展的短板。所以,企业要想花费较小的代价解决上述难题,就需要在开始显现的时候,以“开天辟地”的勇气和决心,以上从下,革新全公司的运营体系,融合现有的治理技术,实现企业发展所必需的数据标准化、数据集中化、数据共享的能力,可以引入中台的能力,实现服务、能力和数据的治理,让不同的用户根据不同的权限方便地获得所需要的服务和数据[1]。

根据公司组织实施培训的实际案例来分析一下公司治理中遇到的问题。

表1 原始培训耗时记录表

如果能够打通底层数据,建设好内部的培训平台,将视频会议数据接口打通,内部数据可以进行良好互通和共享,将极大的减少我们在综合事务、重复过程及不必要流程上付出的精力和时间,通过实验,我们得出以下结果:

表2 治理后的培训耗时记录表

通过治理,可以使我们的应用和平台真正发挥其应用的作用,数据质量提升,数据的提供有了统一的接口,相互之间统一调度,使我们的工作效率提升了接近70%,数据质量、完整性、一致性、可靠性有了保障。

市场竞争的加剧,成本的透明,对企业自身的健壮性提出了更严苛的要求,哪个企业运营的更好,就可以有更大的机会活下去,所以治理体系是企业发展必将经历的关键阶段,只有体系完善,才能保障企业更“强壮”,更“健康”,才能更好地切入市场,才能有更大的动力调整“船头”。要想用最小的代价完成企业转型升级,顶层设计宜早不宜晚,治理体系的建设更加刻不容缓。

3.2 建设集中化运维平台实现IT换人

随着数字中国概念的提出,新技术的应用将会大大提前,在IT运维领域,技术革命必将来临,而且会很快到来。为实现企业转型发展,跟上时代步伐,企业一定绕不过“IT换人”这个点。

通过近些年对国内企业的研究发现,人工增长极为迅速,企业利润空间进一步被压缩,人工成本已经成为企业发展的沉重包袱。在人力和资源有限的情况下,如何保障企业的高速增长,如何实现企业的转型发展,改善企业的资源投入模式,这正是我们要解决的问题,而包括云原生的云产品体系在内的新技术快速布局和应用,以及我们在运维领域常年深入实践的经验为我们提供了实现的可能。

通过总结经验,发挥在IT运维行业领域的积累优势,借助云原生产品体系,打造一套融合资源弹性控制、应用智能编排、开发效能一体化、持续发布、智能运维运营功能的集中化平台,这不仅实现从需求到开发,从开发到上线,从上线到运维的整个IT服务链建设,还提供了故障智能定位、数据智能分析、业务智能恢复、管理智能服务等数智化运维能力[2]。

通过云原生和集中化运维平台,打造基于数智化的基础设施联合、数据整合、业务聚合、服务融合的价值服务体系,可以为企业注入新的动能和活力,为集中化建设和集中化运维赋能。

下面是基于云原生的运维服务体系设计:

图1 基于云原生的集中运维平台架构设计

图2 基于云原生的集中运维平台功能设计

3.3 打造基于流水线的IT服务生态链

在应用交付过程中经常出现应用BUG、代码错误、数据丢失等一系列问题,我们需要跳出具体问题的范畴,从源头从整个链条去思考这些问题出现的根本原因。为此,为保障服务高质量可持续,在整个系统建设的过程中,引入DevOps一体化理论和CI/CD流水线模式,可形成敏捷开发,持续集成的良好循环。

我们需要从每个环节入手,确定每个环节所需要的输入、输出和范围,为整个过程建立规范和流程,为每个节点设立细则,将每一个步骤进行精细化管控,保障系统上线前的质量,以防多次上线不成功或者上线后系统故障频发。

系统交付后要发挥集中运维优势,做好运维规范化管理,特别是问题管理和需求优化管理,不仅能减少故障的频发次数,更可以为系统持续迭代建设赋予生命力。

如上面第二点讲到的,还需要为开发、部署、运维等提供面向用户的操作平台,以平台为基础,整合打通数据,将资产资源和运维管理数字化,将业务运营智能化,以标准化的过程管控能力为抓手,才能真正让IT服务实现流水线模式,更可以将原生产品体系凝聚为一个统一的生态服务链,真正为企业自动驾驶提速赋智[3]。

图3 开发运维流水线模式

4 结束语

技术的不断革新推动着管理体系和模式的变革,“IT换人”的持续推进以及企业对效能提升的重视,会不断促使企业IT运维向智能化的方向前进,不管这个变革是从上而下还是自下而上,过程必定是曲折的,也必定会历经艰难的抉择,因为资源总是有限的,我们不能等量变引起质变,要提前布局和思考企业下一轮的增长动能在什么地方。面临运维靠人堆,产值濒临上限,资源处处掣肘的困境,如何让为智能化而付出的成本发挥其应有的价值,才是企业下一步要花大力气解决的方向。■

猜你喜欢

集中化运维资源
高速公路智能运维平台
基础教育资源展示
一样的资源,不一样的收获
运维技术研发决策中ITSS运维成熟度模型应用初探
资源回收
做好绿色资源保护和开发
商贸流通业对我国产业结构合理化与集中化的影响
内蒙古移动故障管理系统运行成效分析
配电线路的运维管理探讨
基于一体化的变电标准运维模式