APP下载

基于云平台的新型电力系统运维管理研究

2023-05-30国家电网有限公司信息通信分公司杜静杨猛田思涵

科技创新与品牌 2023年4期
关键词:链路运维监控

文 / 国家电网有限公司信息通信分公司 杜静 杨猛 田思涵

引言

新一轮的科技革命和产业变革席卷全球,实体经济与数字经济深度融合[1],国家作出数字中国、新型基础设施等重大战略部署,加速推进企业数字化转型,并指出要探索构建适应企业业务特点和发展需求的“业务中台”“数据中台”等新型IT 架构模式,加快形成集团级数字技术赋能平台。因此,电力系统建设也朝着云上微服务架构快速演进[2]。为满足业务快速迭代的需求,系统检修频率激增,对运维人员的技能水平要求越来越高,运维面临的痛点难点问题日趋严重,有必要对运维管理问题开展深入研究,提供更佳的问题解决方案[3]。

一、运维管理面临的挑战

(一)建设服务支撑运维能力不足

虽然企业已经出台多项通用制度,规定了数字化项目建设的工作职责、流程要求,但由于可研、设计、测试、运维承担主体不同,各自执行的标准与规范不统一,部分项目技术路线执行不刚性,如果在上线前期出现架构不合理等问题,则难以整改。此外,部分系统建设存在系统设计对运维支撑能力考虑不足、系统应用日志可读性较差等问题,严重影响系统异常排查效率。

(二)全链路监控能力不足

巡检监控能够先于用户发现平台运行问题,争取问题消缺时间,是运维管理的核心工作。目前,各专业监控工具存在多、小、散的特点,云上用户无法整体感知云平台PaaS 层、IaaS层,以及相关云外主机、安全、网络等软硬件设备运行状态,跨专业临时协同排查时效率低、沟通成本高;同时,云上系统集成关系复杂、耦合性大,缺乏共享业务能力的固化沉淀,上层业务与下层应用组件、基础平台组件关联关系不明晰,且微服务数量大、调用链路长,这些都给系统问题的排查定位增加了较大难度。

(三)系统瓶颈主动发现能力不足

以往,我们主要依靠压力测试来发现系统瓶颈。但压力测试主要在测试环境开展,而测试环境的节点规模、压测并发量及业务数据均与生产环境存在较大差异。考虑脏数据的影响,生产环境的压力测试目前也只能开展点对点查询类的并发测试,这会导致压力测试结果并不准确,更无法有效确定系统全链路各环节的性能瓶颈及缺陷。

(四)运维知识沉淀及共享能力不足

运维人员沟通交流渠道较少,人员技能水平差异较大,相同故障在不同业务系统中重复发生,整体协同支撑机制较弱,运维经验未能有效沉淀及共享,全网运维力量未能发挥合力。

二、运维管理问题解决方案

(一)建立统一技术管控标准,强化建运协作管控机制

1.全面梳理分散在建设、运行阶段的规章制度、标准规范和技术要求,结合在长期运行工作中沉淀积累的系统部署规范、安全基线配置、集成规范、微服务设计原则等技术要点,统筹制定覆盖系统全生命周期的统一技术架构管控标准,确保衡量尺度一致性,全生命周期管控统一性。

2.运维关口前移,从可研编制、需求审查、概设评审、安全防护方案制定、系统研发测试等关键环节入手,由运维人员提前介入、参与把控,及时发现问题、解决隐患,及时提出运维支撑功能及日志输出标准等非功能性需求,提高系统自描述、自监测及自恢复能力。

(二)建立统一全景监控共享平台,强化运维数据价值挖掘

1.基于智能一体化运维支撑平台,汇聚、整合各专业、各层级运维监控数据,打造公司级统一全景监控共享平台,建立信息化职能管理部门牵头的运维数据管理体系,打通各专业监控数据壁垒,各专业部门分层维护治理,企业级共享共用,确保运维数据灵活接入、可用好用。

2.基于全景监控共享平台数据支撑,开展运维数据智能分析应用,以微应用形式快速构建以业务为视角、业务-平台纵向关联、总部-省侧两级贯通的全链路可视化监测场景,增强业务异常感知能力及故障定位效率;结合人工智能[4][5]、大数据等技术加强运行状态及应用日志关联分析,深入挖掘系统运行监测分析数据价值,开展“系统画像”及“业务画像”,分析系统健康状态和运行特点,精准绘制业务潮汐图,实现系统精益运维。

(三)建立全链路压力测试平台,强化瓶颈缺陷主动发现能力

明确系统响应时间、处理能力、吞吐量、并发用户数、内存使用率等各项性能指标,依照大型互联网企业压测经验,结合企业业务特点,构建全链路压力测试平台,在生产环境以核心业务场景为试点开展全链路、高并发压力测试,最大程度模拟用户真实并发请求流量,有效探知系统真实负载能力,及时发现系统性能瓶颈及缺陷,主动提前开展优化消缺,确保系统能够可靠支撑业务运营活动。

(四)建立运维交流支撑平台,强化知识沉淀及共享

1.建立运维交流支撑平台,具备丰富编辑形式、高效分享交流和互动次数、贡献排行、热门文档,以及点赞排行等功能,为全网信息运维人员提供一个便于日常运维交流、经验分享的公共平台,激发运维人员相互学习、主动分享的积极性,发挥高水平运行人员能力,持续沉淀运维经验知识。

2.建立企业级运维知识库,制定全生命周期的知识管理流程,覆盖知识上传、知识筛选、知识审核、知识入库、知识反馈、知识更新六大环节,对知识进行全生命周期管理,构建知识库生态化运营机制,为知识的高效利用和价值发挥打好基础。

结语

云上微服务架构的电力系统性能突出,但运维难题也日益凸显,研究微服务架构系统的运维管理技术也变得越来越重要。云计算、大数据、人工智能等新技术的愈发成熟助力智能化运维的发展,运维管理将趋向于集、管、控一体化。本文详细探讨运维管理策略,提出建立统一技术管控标准、统一全景监控共享平台、全链路压力测试平台、运维交流支撑平台,从技术标准管控、运维工具支撑、运维人员能力等多方面强化提升,确保电力系统安全稳定运行。

猜你喜欢

链路运维监控
家纺“全链路”升级
The Great Barrier Reef shows coral comeback
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于ITIL的运维管理创新实践浅析
PDCA循环法在多重耐药菌感染监控中的应用
基于3G的VPDN技术在高速公路备份链路中的应用
高速光纤链路通信HSSL的设计与实现