APP下载

电网信息化业务运行监控存在的问题及对策

2019-10-21陈利

科学导报·科学工程与电力 2019年37期
关键词:问题对策

陈利

【摘 要】电力是国家的主要能源之一,在电网公司中信息系统业务量不断增长,相关系统的数据量也呈现爆发式增长趋势,部分系统已无法满足日益增长的数据处理需求,存在响应延时、服务中断等现象,给业务运行的健壮性带来严重挑战;数据量持续增长,导致硬件资源开销增大,系统性能下降,影响业务稳定性,同时给运维工作造成极大压力;此外,部分核心系统硬件配置已达顶配,已无法通过提升硬件解决性能问题。

【关键词】电网信息化;业务运行监控;问题;对策

引言

电网企业在信息系统应用性业务运行监控方面的技术手段相对薄弱,无法深入到业务应用内部,难以监控业务流程的每个步骤,从而阻碍了故障的快速定位、诊断和优化,IT运维人员不能精准到感知最终用户的体验,不能实时掌握业务运行状态。为了使IT运维人员需要快速、准确定位系统性能瓶颈(硬件层面、软件层面),缩短故障恢复时间,确保业务不间断。同时对于应用开发人员也需要追溯业务功能及性能数据库,合理评估系统健康状态,量化IT运维部门工作。

1业务运行监控现在存在的问题

1.1缺少对业务管理系统业务运行层面的监控分析手段及指标

目前的运维工具没有针对业务管理系统业务运行进行专业的监控和分析,业务运行情况的监控和分析处于空白状态。由于缺少全过程的业务运行监控,故障事后分析诊断条件不足,缺少故障现场溯源数据及相应技术规范及指标,大多情况下只能对设备日志、交易日志等进行分析,很难拿出有力的证据进行取证,另外即使有故障现场数据,问题分析人员面对海量的数据问题分析定位仍需要消耗较长的时间。

1.2缺少对用户业务操作的真实体验的监控

对于用户业务操作的真实体验缺少系统的监控和数据支撑。公司现阶段的信息化建设,投入了很大精力在IT系统的建设和对IT基础架构的维护上,但即使部署了最先进的基础架构,并不间断地监控PC、网络、服务器、数据库等的性能,用户还是会抱怨系统运行缓慢,不能及时发现哪个业务操作响应慢,IT运维人员也很难向用户解析清楚问题原因在哪。

1.3处于被动运维

公司应用系统结构复杂,各功能模块分布在相对独立的子系统,通过多个子系统再组合成多环节、长交易链条的完整的应用,很容易出现某个环节与其他环节的处理能力不匹配导致性能瓶颈,此类业务应用的性能问题经常发生且难于发现和定位。因此,目前多数IT运维处于“被动式”管理,运维人员并非是应用系统的使用者,经常是接到投訴电话之后才知道系统出现了问题,再去寻找问题根源,管理十分被动。

1.4IT环境复杂,定位问题困难

现阶段公司IT环境日趋复杂,每个企业级应用系统都部署在庞杂的基础架构上,并且与多个外部系统对接。当问题出现时,发现问题很困难,更谈不上快速定位、解决问题。监控不全面,缺少故障现场溯源数据,事后分析诊断条件不足,难以做到全面诊断且效率低,网络尤其被动,常常面对指责难以举证。

2业务运行监控解决方案

2.1问题分析

当前的电网企业业务,从物理上,涵盖多个系统多台物理服务器的应用;逻辑上,包含多个应用逻辑部件的应用系统——不论从业务逻辑还是数据传输,应用都跨越多个资源环境,然后才组合成业务系统。大多数复合应用为前端用户提供复杂的业务系统(B/S架构的Web应用),应用中的通用部件又可能被不同应用系统以各种形态相互互连或重用,单个用户请求可能贯穿甚至多次贯穿系统,业务请求对应的返回数据可能来源于多个子系统。前端的应用界面隐蔽了应用后端的这种复杂构架,但是不论后端的子系统发生何种异常——不论来自业务请求的异常、系统资源的异常还是应用内部逻辑和代码的异常——用户都无法完整发出的交互请求。正是由于复合应用系统的“复合”特性(业务逻辑和数据传输跨越多个资源环境),从优化其性能和可用性角度来看,它难以设计、难以构架、难以测试、难以管理;传统分立的块状系统管理工具和方法论也很难很好的对它进行管理和优化。

2.2解决思路

2.2.1模拟用户交互监控

(1)完全站在用户的角度;(2)监控交互的可用性,交互的总体相应时间,交互在各个资源上的相应时间;(3)定时,定量监控IT系统对业务服务的支持水平与服务质量。

2.2.2通过“解剖”交互,查找,定位故障根源,

为资源级故障诊断指明方向(1)对用户交互进行解剖,直到最基本的部件;(2)对发生问题时记录的上下文信息从应用开发角度进行分析。

2.3解决方案

基于这样的思路,电网企业提出包含以下3点的解决方案。(1)采用对J2EE的应用程序进行实时监控和历史数据分析,发现并且报告J2EE应用的健康度。监控贯穿整个应用流程,如应用程序服务器、中间件适配器、传输协议、数据库、并且能够监控后台如CICS、IMS等主机系统。收集应用程序请求周期的数据,然后存储到监控数据库,数据包括请求开始,结束的时间,所用的中央处理器时间等等,并且能够通过一层层的递进跟踪找到每个类,每个方法的响应时间,中央处理器时间,从而定位发生交易失败、响应恶化的请求,并找到应用程序需要改进优化的地方。(2)采用端到端的应用监控,跨节点,粗粒度监控响应时间,从而找到问题的根源。图1能很好的展示端到端的应用监控作用。当一个应用跨越多个节点,出现不可用,或者响应缓慢的时候,第一步是需要知道慢在哪个节点上(哪台机器上),然后才能去诊断为什么那个节点会慢。以图1为例子,通过应用的拓扑图和每个节点上的响应时间,我们能很快的定位到“潜在出问题”的节点上。进而通过ITCAMforWR/DB/MSG来查看容器的性能指标找到问题根源。(3)采用用户终端视角搜集响应时间。所监控的响应时间是指从客户端发起请求到服务端返回整个交易所消耗的时间:响应时间=客户端运行时间+网络时间+服务端运行时间。监控获取HTTP协议的响应点来实现对Web服务器的无侵入式监控,它不需要在Web服务器中安插任何代码,而是通过获取每个IP包的拷贝做协议栈分析来获得具体的响应时间,因此,理论上可以支持任何HTTP服务器。图2是所度量的响应时间。其中图2编号分别代表:(1)浏览器向Web服务器发出页面请求;(2)服务器接收请求;(3)服务器发出第一个包;(4)浏览器请求第一个嵌入式对象;(5)服务器发送页面HTML的最后一个包;(6)服务器发送最后一个嵌入式对象的最后一个包;(7)浏览器接收最后一个嵌入式对象的最后一个包。

结语

社会经济不断发展,科学技术水平不断提高,越来越多的智能化融入到人们的日常工作及生活当中。电力作为国家经济发展的重要支柱,积极地开展电力行业与智能技术的相关融合是十分有必要的。顺兴时代发展,丰富信息化平台,提高智能服务化水平,提出有效的相关应对策略,共同推进我国电力行业信息化水平的不断提高,助力各行各业发展,为促进我国电力行业不断发展有着十分重要的影响。

参考文献:

[1]宋义华,班孝明.应用性能管理分析与研究[J].金融科技时代,2018.

[2]翁壮.基于HTTP2协议的Web应用优化及性能测试[D].北京工业大学,2018.

[3]李辛鹏.基于智能电网的企业信息化建设分析[D].山东大学,2019

[4]殷科.智能电网视域下的电力营销信息化建设[J].中国管理信息(旬刊),2019(12)

[5]王甜,徐晖,魏理豪,等.电力信息安全保障体系建设研究[J].广东电力,2019,23(5):38-42.

(作者单位:国网鄂州供电公司)

猜你喜欢

问题对策
LabVIEW下的模拟电路实验教学创新对策
提高中小学音乐欣赏教学质量对策探讨
“深度伪造”中个人隐私的保护:风险与对策
走,找对策去!
我国货币错配的现状及对策
避开“问题”银行股
演员出“问题”,电影怎么办(聊天室)
韩媒称中俄冷对朝鲜“问题”货船
溶解度计算错误种种和对策
“问题”干部“回炉”再造