APP下载

基于运行监控场景的大数据应用探究

2020-12-05国网宁夏电力有限公司电力调度控制中心徐建忠

电力设备管理 2020年2期
关键词:运维监控故障

国网宁夏电力有限公司电力调度控制中心 徐建忠 李 桐 苏 波 杨 宏 孙 原

随着当今信息从发展过度不断加快,大数据运维是各行各业运维管理的重要方向之一,电力企业也不例外。电力企业运维故障监控工作很多时候需要邀请多位运维专家进行事故检测与根源排查。安全运维是整个运维管理工作中非常重要原则之一,如何进一步优化电力IT运维监控管理,是电力企业当前需要解决的首要问题。

1 场景类型的研究与分析

运行监控类场景。主要作用是对应用系统具体运行状况进行实时监控。对网络层面、系统层面以及应用监控层面,电力企业一般都会采取运维成熟的监控产品来实现企业的正常运转。而大数据处理技术能够运用在业务交易级别对其实施监控。采用流数据处理技术,对应用交易日志开展信息、数据的实时采集-汇聚-过滤-关联-计算-发展。依靠大数据弹性分布式构架以及强大计算性能方面,监控指标可以通过时间维度、指标维度以及业务维度的同时汇集进行计算,实现大数据交易监控颗粒由粗犷到细化的整体监控。

性能容量类场景。一般而言,性能数据主要通过大数据系统监控平台对其相关信息进行采集并展现出来,但跟数据的交易类型相割裂,很难通过数据的交易量的变化对其性能数据开展关联性分析,进而找到数据运营的规律所在。因此,大数据系统作为一个平台,对运维数据进行汇集,通过对数据标识资源标签进一步实现数据之间的关联显示,为进一步发现应用数据吞吐量跟资源消耗二者存在的规律提供可行性的数据分析依据。对于以往历史性数据,可充分使用大数据技术对其应用模型进行训练与测算,推测出性能资源的消耗方向,进一步完善历史数据基线的告警信号,为大数据下的电力资源配置以及年度信息容量规划提供充足依据。

分析决策类场景。事故前的预测,一是通过大数据处理技术对大量运维数据开展模式化处理,二是数据之间的关联度分析。由此找到事故出现的预兆与发生的规律,争取在下次故障来临之前做好预防以及补救措施,尽可能的避免故障的发生、缩小故障发生所引起的损害范围以及降低小故障转化为大故障发生的机率等诸多情况,提供可靠、精准的判断;事故发生中的定位,主要发生在故障发生过程中,怎样在告警信号发出后及时、精准、有效的找出故障的位置以及根源能力。通过数据资源之间的汇聚,大数据技术充分运用之下高度实现故障报警自动化识别的基本定位。通过数据的集汇,在大数据处理能力的帮助下,高效找到故障告警信号的自动化识别与定位。能够大幅度降低故障排除所用的时间以及各方面资源的投入力度,进一步提升业务之间的关联性。

科技优化类场景。这类场景的立脚点比较高,通过对运行数据从整体上进行综合分析,对生产的环境以及应用框架提出合理化建议。比如:通过对电子商务不同物品的交易量进行分析,可发现客户对不同商品的喜爱程度,进而推测客户的喜好,通过对同类产品不同销售渠道的处理时间进行研究与分析,根据分析结果进一步改善客户体验的方式或者渠道,通过对多活架构主机交易情况的分析,进一步通过对各种交易链接交易所消耗的时间计算并发现数据应用群体交易处理的难关等。

2 基于运行监控场景的大数据应用中存在的问题

2.1 事故发生前的故障预测

就当前情况而言,运维管理中存在诸多潜在风险点的挖掘以及系统故障预测功能方面有待升级优化。其一,现行运维的基础结构随着时代的需求越来越复杂,所涉及到的平台逐渐增多,大数据的形态多种多样,数据的存放比较分散,数据保存质量以及规范性不足,难以实现高效整合;其二,不同运维数据所生成的维度以及颗粒度“井喷”,现行的运维平台没有吞吐大量数据以及数据计算的能力,各类运维数据的整合以及数据预测性分析很难完成,非常容易造成“救火式”运维形式的出现。运维管理场景监控在当前还没有很好的实现一个由被动向主动预防的转型,需要下一步将数模型逐渐渗透其中,对运维场景进行故障预测与检验,构建运维监控管理自身的主动预防能力。

2.2 事故发生中异常情况的识别

运维安全程度高低非常重要,特别是针对一些电网企业,运维安全是其重要生命线,对运行监控针对异常事件以及突发故障的及时识别能力要求非常高。其一,企业对运维系统分析数据结果的时效性要求逐渐提高,传统的离线场景计算已经远远不能够满足当下的计算要求,迫使传统的离线计算场景逐渐向当下计算场景靠近;其二,随着时代信息化的高速发展,产生了更多的不同类型、不同颗粒度下的运维数据,企业所能收集到的运维量不断提高,企业对于运维数据自身的处理能力要求越来越高,对其重视度有增无减。如何有效借助大数据所拥有的处理能力,及时有效的实现快速处理多种数据的能力,同时识别运行中存在的风险以及故障,成为企业运维管理工作中一大新的挑战。

2.3 事故发生后的根本原因分析

在传统运维管理过程中,面对负载多变的监控业务以及问题诊断,一般都是依靠运维人员的技术以及经验来找到事件与指标二者之间的关系,进一步对故障位置进行定位。在故障实施定位中,同时再集合多为运维专业人士进行诊断的时候,已经在时间上造成了浪费。

在实施诊断的过程中,其一根据专业人士的专业技能与工作经验开展对故障的检验,但是存在一定程度上主管随意性,面对当今迅速更新变迁的大数据时代,多种多样的运维新型系统以及新故障、新风险不断出现,单纯的依据运维专业人员的技术与经验对故障位置进行定位;其二、随着当今运维场景的不断变化、场景的复杂程度越来越高,不同系统以及平台的高度集成,在传统运维管理情况下,事故的定位精准度越来越低、定位的及时性越来越差等缺点逐渐暴露出来。假设进一步提高事故发生之后根本原因分析的能力,IT运维管理必然要由粗放式向精细化方向发展,同时借助大数据的处理能力,对事故发生后根本原因的分析过程进行自动化改革,最大限度的节约人力资源,将事故发生后根本原因分析的精准度以及处理速度进一步提高。

3 基于运行监控场景的大数据应用中存在问题的对策

3.1 利用周期性分析技术完善事前故障预警机制

周期性分析与指标性能、故障警报、日志纪律等是依据周期性而发生的规律性,主要作用于运维实施挖掘分析以及数据中反复事物的挖掘。周期性分析可充分运用在指标基线预测当中。IT运维服务系统的服务商应用周期分析可以在运维大数据平台中根据已有额程序衍生出更多运维大数据。例如充分运用大数据所拥有的自动化筹集资料以及学习业务的运行规律而生成的指标动态预警基本警戒线,能够摆脱以往“经验式”的故障运维警戒线模式,有效提高运行监控的精准度。

在业务高峰期出现阶段,为求IT系统的稳定,一般运行做法是根据相应业务部门提交上来的业务量以及上涨的预估值,继而对IT系统基本性能增长的百分比进行判断。举例来讲,假设预估下一年第一季度的业务上涨量有可能达到45%,进而保障业务水平处于高峰期的时候IT系统的承载能力是多少。这样的IT运维决策严重缺失实际数据支持,存在风险较大,如果IT投入较少,极有可能造成整IT业务系统运营服务系统的崩溃,反之就会造成网络系统资源的一种浪费。如果通过周期性分析为基础的指标基线预测的优质在这里充分体现出来,通过进一步对历史性运维数据的了解与分析,预测未来一段时间(一周)内有关数据的各项指标数值的变化趋势图,运营商的运维工作人员可以依据基线预测来对业务高峰期的相关IT数值指标的可能运行状态进行预测,进而做到预防工作,深层次保障业务处理系统的平稳性以及安全性。

3.2 加强大数据实时计算的处理能力

数据是解决运维效率,提高运维自动化、智能化水平的核心所在,电力企业应该致力于调度、数据故障处理以及质量调优等多个场景当中,积极实现大数据处理的自动化,进一步完善大数据搭建的平台建设,充分发挥大数据平台的支撑作用。提升运行效率,进一步完善运维大数据本身的自动化以及智能化水平,最终达到运维大数据的告诉处理,高效应对运维故障中数据井喷现象的发生。针对离线数据进行分析,Hadoop相关数据云计算平台可以充分利用数据挖掘计算方法高效实现对大量数据广域运维系统数据开展高效处理。实时数据分析,在流处理模式之下的大数据处理技术的重点在于产生数据实时计算同时可以将结果充分表现出来。

3.3 运用相关性分析技术加强对运维数据的根因分析

相关性分析主要应用于跨业务软件系统、跨软件与硬件设备以及跨自动化数据工具等所产生的多个指标之间内部存在的关联性,主要应用在运维故障根本原因的挖掘以及发现潜在故障原因等模块。数据相关性分析法可以运用在告警根本原因的挖掘方面,有助于专业运维工作人员高效搜索到告警信息具体是从哪里生发出来的。

例如:A、B两个服务器在某些业务上存在关联性,A服务器Tomcat由于CPU的占据比例较高,发出告警信号;B服务器上面的Oracle死锁数不断增长,进而发出告警信号。针对历史运维告警数据,同时对其开展大数据关联性研析,发现这两个貌似没有任何联系的指标竟然在同一时刻发出告警信号的概率超过90%;在相关性分析挖下可以发现,可以跟A服务器上面的Tomcat在同一时间发出告警信号这一指标的还有C交换机上面某个端口流量与A服务器上面URL协同响起的时间,发生的几率分别为85%以及80%。通过成分运用大数据技术开展实时学习、研究与分析的基本特性,运维工作人员能够依据相关性发生的概率在最短的时间内挖掘告警信号发出的位置以及原因,从而进一步完善运维关系库与知识库,尽可能的降低人工排查过程中人力、物力以及财力方面的支出,从根本上将潜在的故障风险排除,保障电力系统稳定、安全的运营。

4 项目必要性

安全性分析:本项目是以计算机和数据通信网络为基础的应用系统,不采取安全保密措施与网络系统连接的任何终端都可能导致安全隐患,所以管理信息系统安全保障工作对提高社会信息化水平具有深远的现实意义。本项目实施全过程无需现有网络设备及其他电器设备停电,不影响网络设备运行,亦无需采取过渡措施。保证原有系统正常运行,采用逐步升级过渡的方式。

效能与成本分析:本项目的完成,可以对变电站的设备运行、监控数据的存储-分析-可视化展示,进一步完善变电站设备监控数据相应的管理以及分析机制,提高设备状态评估和预测的准确性,通过预警预判,提高对设备运行状态的认知,可有效开展设备消缺与检修,同时电网分析将更具有针对性,可有效配置系统备用和通过方式调整,保障电网及百日运行安全,确保调控一体安全高效运作,降低设备事故、电网事故的概率及发生的后果,为公司带来不可估量的经济效益和社会效益。

政策适应性分析:根据调监2016年出台的第57号《基于监控数据的变电站设备运行大数据分析功能需求规范(2016版)》以及《216年出版的124号《基于监控数据的变电站设备运行大数据分析系统功能需求规范等三项规范》以及2019年运行监控场景的大数据提出了推广变电站设备运行大数据分析与应用,公司“十三五”行动计划中示范工程单位实现在所有地调上线运行。因此需要对国网宁夏电力调度控制中心调度控制系统变电站监控大数据分析改造,实现地调监控大数据全面覆盖,从而满足上述文件的要求。

猜你喜欢

运维监控故障
GE LOGIQ P5 彩超故障维修2例
The Great Barrier Reef shows coral comeback
冬奥项目训练监控方法的研究——TRIMP、sRPE在短道速滑训练监控中的应用
Z140型堵渣机故障分析及处理
基于无人机的监控系统设计
基于量化的风险监控预警机制探索与实践
2012年奔驰S600发动机故障灯偶尔点亮
故障一点通
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用