APP下载

探索基于大数据分析技术的智能运维体系

2019-10-14钟茂年

数字通信世界 2019年9期
关键词:运维体系智能

钟茂年

(中兴通信股份有限公司,深圳 518057)

整体而言,我国互联网金融的发展起步较晚,运维体系有很大的改进空间,将大数据技术融合到智能运维体系中,可以挖掘数据的潜在价值,并且实时进行监控,做好事前预测和事故处理工作。针对传统运维方式的不足之处,本文从新的角度对智能运维体系进行了研究,具有一定的积极意义。

1 大数据分析技术智能运维体系的构建

目前,IT 运维环境日益复杂,需要管控的对象日益庞大,传统的运维体系在应用过程中显得捉襟见肘,所以需要应用大数据分析技术构建智能运维体系。

1.1 采集

本文以某工商银行的管理系统为例,并且采访了相关的专家,根据专家的意见,确定了模型的数据范围,比如登录日志、交易日志等,以2017年1 ~12月的数据为主要参考对象,在此基础上进行了加工处理,并且分为登录、登出、失败、交易和异常五大指标,然后对这些指标进行汇总,建立了相关的时间序列。

1.2 探索

在对数据进行探索时,需要将数据进行分类,比如分为训练集、验证集等,并且对五大指标进行观察,可以选择10分钟为一个时间粒度。经过探索发现,工作日的上午和下午都会有两个波峰,趋势相似,但是幅度有所区别,而非工作日,比如周末、法定假日等,交易量明显减少。如果系统出现故障,那么交易量会急速下降,而当故障解除后,交易量会逐渐回到正常水平。因为系统日志记录存在一定的误差,也没有对出现异常的原因进行分析,加上登录失败可能是由于密码错误引起的,所以本文以登录、登出和交易这三大指标为主要研究对象。

2 大数据分析技术智能运维体系的拓展

2.1 开发

首先,要对数据进行预处理和预分析,可以通过数据的集合,观察系统亚健康状态时变量的情况和特征,找到规律。一般而言,系统发生故障时,系统变量会有所降低,而且在故障发生之前,这种降低已经出现,只是比较缓慢,需要经过多个周期。

其次,要建立参考区间,对历史数据进行全面的分析,确定不同时间段内变量的波动区间。为了保证序列能够进行对比,我们需要将数据进行统一的处理,形成标准数据。公式为Vit=Iit/ηit,其中Iit 指的是t 时刻第i 个变量的输入值,而ηit 指的是标准化系数,也就是均值,而Vit 指的是经过处理后的变量值,也是频数相对率。

再次,因为变量标准化需要获取当日均值,而在进行实时监控时,要引入因子指标,计算出不同时刻频数占总频数的比值。一般而言,上班时间开始时,系统的变异系数相对较低,约等于0.2。

最后,在预警信号的产生方面,需要对变量的相对值和边界值进行加权计算,这样能够提高信号的准确性。对于一些突发式的故障或者是黑客的攻击等,该系统并不适用,所以在应用的过程中,还要具体情况具体分析。

2.2 检验

在对智能运维体系模型进行检验时,需要做好概念的分析工作,比如系统故障,假设15个工作日,其中有8次波形异常,而系统亚健康状态发生时间在波形异常之前,如果缺乏记录,就会影响频数最低点记录的真实性,而且会产生较大的误差。至于波形异常,包括波形显著上升、显著下降和平稳时间过长三类。经过检验,发现故障点共有13个,有10次识别成功并且进行了预警,而波形异常情况共有20次,有18次成功识别。在对信号进行统计后,发现智能运维体系的准确率为77%,漏报率为23%,而且预报的平均时间比故障时间提前了将近半小时,能够很好地保证系统运行的效果,并且为故障的及时解决争取到了宝贵的时间[1]。

2.3 应用

大数据分析技术智能运维体系的流程如图1所示,在模型应用过程中,发现能够准确预测和判断系统的亚健康状态,尤其是在2017年10月份,系统运行出现高峰,在这一期间运维体系发挥了得天独厚的优势,对故障进行了多次预警,帮助和协调工作人员顺利完成维护工作,减少了可能出现的损失。

图1 大数据分析技术智能运维体系

3 大数据分析技术智能运维体系的优化

为了保证智能运维体系达到最佳效果,对所有故障都能够进行准确的判断和预警,需要从以下三方面入手:

第一方面,扩大数据来源。在数据采集方面,要打破纵向和横向的局限,扩大数据的周期,比如选择十一五期间某银行的数据,这样可以减少系统用户行为受到季节或者是特殊日期的影响,从而保证结果的真实性。另外,可以对数据进行分类,分为管控数据、配置数据、作业数据、容器数据以及集成数据等,同时还要做好故障的定位工作。

第二方面,丰富算法规则。可以引入新的变量,然后结合关键指标的变化情况,建立决策树或者是使用神经网络算法,提高预测结果的精度,降低外界因素的干扰。如果输入和输出存在正相关的关系,那么就可以对向量进行分解,然后调节各个分量之和的参数,让最终结果能够接近真实结果,如图2所示。

第三方面,结合专业经验。在对数据进行定量分析和定性分析时,不能停留在表面,而是需要与大数据领域的专家进行沟通和交流,并且根据故障发生的场景,总结出故障的特点,然后形成模型,这样能够保证当再次发生同样的故障时,可以及时采取既有的故障解决措施进行解决[2]。

图2 神经算法

4 大数据分析技术智能运维体系的保障

4.1 定位

对于金融机构而言,如果想要保证大数据分析技术智能运维体系正常运行,需要做好定位工作,尤其是要明确智能运维体系的特点以及能够取得的效果。另外,还要注意执行的方式,是选择个性化还是侧重于安全,是兼顾效率和安全,还是强调体系的整体性。从客观角度看,随着大数据分析技术的日益成熟,智能运维体系在金融机构日常运行和管理的重要性日益凸显,所以安全问题逐渐受到人们的重视,所以在明确体系定位上,既要从整体角度考虑问题,也要确保体系的安全[3]。

4.2 规范

对于智能运维体系所需要和涉及的信息,要做好统一工作,比如用户信息、口令信息等,并且做好监控和管理工作,尤其是要做好实时更新工作。在信息认证方面,众所周知,身份认证十分关键而且必不可少,如何对用户信息进行集中管理,是一项十分艰巨的任务,稍有不慎,可能会与监管工作存在一定的冲突,而且进行改动时,可能涉及密码保存的形式,所以需要认真考虑。另外,在流程和权限方面,也要从全局的角度考虑,避免对整个金融机构的运营产生不良影响。虽然智能运维体系能够起到很好的预警作用,但是由于金融机构的活动众多,客户广泛,所以必须要规范金融活动的流程,而且要明确工作人员的责任,做好分工,比如在授权方面,需要金融机构领导批准和签字,工作人员未经许可,不得从事权限以外的活动。

4.3 人员

无论是管理人员,还是技术人员,都要提高自身工作水平和素质,保障智能运维体系的稳定运行。在过去很长一段时间内,由于工作人员水平低下,导致金融机构蒙受损失的情况时有发生,所以要对这类人员进行培训,提高他们的能力,打造素质过硬的员工队伍,同时也要做好宣传工作,让智能运维体系深入人心,在机构和单位内部形成良好的氛围和环境。只有工作人员了解智能运维体系的特点,才能真正提高运维水平,并且提高服务水平。

5 结束语

综上所述,基于大数据分析技术的智能运维体系在应用过程中取得了很好的效果,提高了系统预警的质量,保证了系统的稳定运行,极大地减轻了工作人员的负担和压力。但是在具体的应用过程中,还有很大的提升空间,所以在未来的发展中,智能运维体系还需要不断丰富内容和形式,与时俱进。

猜你喜欢

运维体系智能
构建体系,举一反三
运维技术研发决策中ITSS运维成熟度模型应用初探
智能前沿
智能前沿
智能前沿
智能前沿
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
配电线路的运维管理探讨
“曲线运动”知识体系和方法指导