基于大数据平台的通信设备故障预警系统研究与实现
2015-01-01
0 引言
电力系统中已有的通信系统,信息运维综合监管系统(IMS)、综合数据网网管、信息运行管理系统(MAS)、北塔系统、安全准入系统、杀毒系统、通信管理系统(TMS)、视频监控系统等,这些系统对信息通信调度运行等业务的稳定运转发挥了重要作用,为电力通信网提供保障,但同时存在系统架构不统一和可扩展性差的缺陷,部分业务功能重叠、集成接口众多、各专业系统之间业务和数据融合度较低、维护成本较高等问题,导致系统的实用化程度还有待提高。
随着信息通信设备的监控种类逐渐增加、数据类型日益丰富和获取途径的逐步完备,公司信息通信设备所监控的数据量快速增长。数据种类多、数据量大、更新速度快,使得传统的数据分析方式遇到问题,因此与大数据技术结合成为必然的趋势。
1 关键技术
1.1 大数据技术
Hadoop是一个并行海量数据处理的云计算框架,是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。它可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,既可以自定义MapReduce算法,又支持开源项目Mahout当中的各种算法,而且可以和R语言结合的RHadoop也提供了大量的数据挖掘算法,是当今时代的主流。
1.2 专家系统
专家系统是一类具有专门知识和经验的计算机智能程序系统,通过对人类专家的问题求解能力的建模,采用人工智能中的知识表示和知识推理技术来模拟通常由专家才能解决的复杂问题,达到具有与专家同等解决问题能力的水平。专家系统的核心是知识库和推理机。一般说来,一个专家系统应该具备以下三个要素:
(1)具备某个应用领域的专家级知识;
(2)能模拟专家的思维;
(3)能达到专家级的解题水平。
2 预警系统总体设计
2.1 系统总体架构
系统的总体架构如图1:
(1)任务层
辽宁省电力大数据应用支撑平台系统提供了两大数据处理引擎:一是数据分析引擎,负责业务指标数据的采集、规则配置、信息处理与发布,支持数据库、Shell 脚本等方式的统一采集配置功能。二是服务模拟引擎,提供统一的主动探测框架,支持HTTP、短信、Socket、其它定制化的服务模拟配置和处理机制。
(2)数据处理层
功能层是电力大数据应用支撑平台系统的配置平台,通过流程化、图形化、高灵活性的配置功能,实现不同的功能要求,满足不同的业务需求。功能层与服务层相结合,实现业务数据探测、采集、处理、和发布的端到端流程。
(3)数据展现层
展现层为使用功能层、服务层产生的业务数据,根据客户要求实现多样化的界面逻辑,对业务指标、主动探测结果、稽核报告、告警信息等进行集中展示。
图1 总体架构图
2.2 系统的功能体系结构
本文设计的通信设备故障诊断预警系统,根据功能主要分为系统管理模块、网络监控模块、故障管理模块。系统管理模块主要包括用户管理、权限管理、日志管理三个部分。实时监控模块主要实现系统的告警和性能状态的实时监控功能。
故障管理模块主要实现故障信息采集、故障呈现、故障查询与统计和知识库规则管理等功能。
3 系统详细设计与实现
3.1 故障知识库的实现
故障知识库是整个系统的核心部分,决定着整个系统的正常运转。知识库中存放各种知识和经验,用一条条规则的形式展示出来,有这些规则进行推理。其中的核心部分是决策表。其中包含有异常特征和故障原因,每一行表示一个真实的专家诊断案例。
由决策表总结出决策规则。当得到新的故障信息时,通过推理机可以由已知异常特征推算出某种故障原因的可能性(概率)。
其中典型的方法为贝叶斯网络。
建立决策表(一个包含故障特征和故障原因的二维表)。属性约简,寻找每个故障原因的所有相关特征。
根据历史故障特征对每个故障原因建立相应的朴素贝叶斯网络。
3.2 故障推理模型
构建好故障知识库后,规则对象的推理的过程如下:
(1)当网络正常运行时,系统不需要进行故障诊断,所有的规则全部存储在告警规则数据库中;
(2)网络运行异常时,将导致网络告警的出现。告警信息与知识库中的规则相匹配,若匹配成功,则调用推理函数执行该条规则。
(3)系统将告警写入网络日志,修改某些状态;
(4)构造上下文,存取推理过程中的告警信息、网络资源信息和规则列表信息;
(5)根据更新后的上下文建立新的规则对象,对规则数据库进行查询操作,寻找匹配的规则;
(6)调用新规则对象的推理函数,重复执行 3~6 步,直到所有匹配规则都被执行。
3.3 功能模块设计
本文的核心功能是实现通信设备的故障诊断与预警。通过建立故障知识库,对历史故障的统计与分析,采用相应的算法,达到故障预警的功能。所以对历史故障统计成为预警系统的重点之一,历史故障统计功能是根据监测系统对整个通信系统监测结果进行从单个主机在24 个小时的各个时刻内发生每种异常级别的次数的统计、分析、挖掘。
故障诊断的具体流程如图2:
图2 故障诊断流程图
图3 故障定位展示图
为更清晰的展示故障信息,在故障定位功能中,采用机柜、网络、业务系统三个方向进行可视化展示,构建相关拓扑结构图;发生故障的主机 IP地址报警,根据相关拓扑结构图,能够准确定位到相关的机柜、业务系统以及相关集群信息等。其中机柜维度故障定位展示如图3,图中红线表示出现故障定位指示。
历史故障统计功能是根据监测系统对整个通信系统监测结果进行从单个主机在24 个小时的各个时刻内发生每种异常级别的次数的统计、分析、挖掘。以视图的形式从异常出现的次数及其时刻和三天内异常出现的原因及其比重进行展示,从而得出最有参考价值的分析结果。图4表示故障统计信息展示。
图4 历史故障统计展示图
4 结束语
本系统充分利用大数据在数据处理、共享融合、分析挖掘、可视化展示等几个方面的先进技术,结合信息通信运维工作内容和数据特点,重点完成如下工作:
(1)梳理整合运行资料、北塔监控告警、运维监控日志、运行事件分析、客服与用户上网行为等数据,将静态拓扑数据与动态监控数据和实时监控数据相融合,增加了监控数据的分析和统计维度,从更多的视角挖掘数据价值,对故障定位和快速处理决策提供支撑。
(2)以hadoop架构为基础,搭建大数据平台,全面提升了海量运维数据的处理能力和处理时效性,为今后的运维数据全面融合、实时计算和挖掘分析打下基础。
(3)通过对运维数据的梳理和分析,设计实现设备故障诊断模型算法和故障处理专家知识库,并结合可视化展现技术,对与数据的多维度展现和快速组织专题分析,能够让运维人员更直观快速进行故障定位。