基于广义回归神经网络的电网信息系统日志数据分析技术研究
2017-08-08邹保平黄文思张文晋韩泽华程仲汉
邹保平,黄文思,张文晋,韩泽华,程仲汉
(国网信通亿力科技有限责任公司 福建 福州350003)
基于广义回归神经网络的电网信息系统日志数据分析技术研究
邹保平,黄文思,张文晋,韩泽华,程仲汉
(国网信通亿力科技有限责任公司 福建 福州350003)
针对目前电网信息系统处理日志数据量大且系统处理速度慢的问题,根据现有数据处理系统以及基于神经网络的数据分析方法,通过利用Flume数据采集系统、主从结构模型HDFS和并行编程模式的MapReduce综合支持的数据调用程序,优化传统的广义神经网络算法,提高系统分析数据做出响应的速度。最后选取电网信息系统的部分样本进行实验测试:较其他数据处理算法来说,GRNN算法数据处理响应时间提高近52%,处理结果的准确性提高10%左右。
日志数据;广义回归神经网络;电网信息系统;MapReduce
日志数据分析根据不同业务的具体需求,产生不同的数据分析架构[1]。目前,国内外都对日志数据采集及分析技术已经进行的比较深入的研究[2-3],提出了基于数据挖掘的日志采集及分析技术如ISS公司的SLM(Secure Log Manager)可将 Windows,Unix,Linux等多种操作系统的日志文件进行统一存储和管理[4-5]。通过对日志数据分析技术20余年的研究,国内外研究 人 员 提 出 了 K-Means、FCM、SOM 聚 类 算 法 、Apriori以及基于神经网络等日志数据分析算法[6]。但神经网络的不稳定结构影响了它在判断系统问题源方面的作用。因此本研究致力于日志数据基于广义回归神经网络的分析[7],利用数据采集系统Flume进行日志数据采集,建立主从结构模型HDFS和并行编程模式的MapReduce综合支持的数据调用程序,改进传统的广义神经网络算法(GRNN)的结构层,优化算法流程,提高电网系统数据分析的速度以及准确性。
1 神经网络下的日志数据分析
1.1 广义回归神经网络
广义回归神经网络(GRNN)是Donald基于径向函数神经网络[8]提出的一种新型神经网络,其优点是在样本数据量小的前提下,输出结果也可以收敛[9]。它的结构形式一般有输入层、隐含层、输出层三层结构,信号从输入层节点输入隐含层节点,随后信号在隐含层节点经过作用函数的作用产生局部响应,在接近作用函数核心范围时输入信号产生大量输出,后经过输出节点的简单函数处理输出。具体的算法步骤为:
第一步:在输入层节点输入j维的输入向量(x1,x2,…,xj);
第二步:利用非参数密度估计法PDF估计器,确定隐含层的辐射状作用函数f(x)的具体表达形式,处理输入向量(x1,x2,…,xk);
第三步:将第二步输出的信号向量(x1,x2,…,xk)传递给输出层的非线性简单函数处理;
第四步:计算神经网络各层次节点传播以及反向传播的误差,判断计算误差是否在误差允许范围之内。如果为假,则转入第二步;如果该判断命题为真,则结束算法。
1.2 日志数据分析技术
数据获取技术的不断发展带来数据量不断激增,使得数据的数量以及种类都在剧增,分析数据价值也成为热点[10]。日志数据按照分析的实时性可分为实时分析和离线分析,其根本区别在于时效性[11]。实时性分析要求系统在数秒内反馈上亿行数据的分析结果,这主要依靠包含大量传统关系型数据库的并行处理集群,亦可采用HDD的架构等较高配置的软硬件,像EMC的Greenplum、SAP的HANA等。离线数据分析是指通常利用工具采集日志数据并导入专用的分析平台分析,普遍应用于电力行业的各业务系统。
面对大量数据,由于数据格式转换的成本太高,传统的ETL工具像 Scribe、Kafka、Timetunnel、Chukwa等在性能上无法满足分析需求。Hadoop是Apache旗下的一个开源分布式计算平台[12-13],其核心是主从结构模型HDFS和并行编程模式的Map Reduce,用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。HDFS允许用户以文件的形式存储数据,文件在内部相当于被分割为若干数据块,并且存放在一组DataNode上。其中,NameNode负责执行系统文件的空间操作以及数据块映射到具体DataNode的过程工作,DataNode则需负责处理系统客户端的文件读写请求。NameNode与DataNode统一调度进行数据块的创建、删除和复制工作。根据上述分析,HDFS体系的结构示意图如图1所示。
图1 HDFS体系结构示意图
2 日志数据分析算法
2.1 电网信息系统日志数据的收集存储以及调用
针对整个系统的各业务操作系统产生的海量日志数据,为了满足更高性能的需求,研究大型数据中心系统对海量日志数据的采集和传输技术[14-15],避免采集系统的单点失效等情况的出现显得尤为重要。目前应用广泛的分布式日志数据的采集技术主要有:基于Syslog协议的日志数据采集技术、基于SNMP协议的日志数据采集技术、基于OPSEC协议的日志数据采集技术以及基于开源分布的日志数据采集技术。电力行业的数据中心要收集所属的业务系统的重要设备运作过程中产生的各类运行日志、事件日志、用户使用日志以及出现的错误日志等日志数据,并根据日志数据的格式、内容等属性对日志进行分类整理,建立统一的日志模型。其主要用到的是基于开源分布式日志采集系统Flume,研究大量日志数据的高速采集存储过程,形成采集器Agent、收集器Collector、存储器Storage三层架构系统,如图2所示。
文中对于数据的处理是基于分布式基础框架Hadoop分布式存储与处理框架 MapReduce,它致力于实现大数据的并行处理,具有有效分割海量数据的优势以及扩展性和系统可重用性。利用MapReduce调用HDFS中存储的日志数据,首先根据程序配置具体信息,设置输入输出类型以及对应的Mapper和Reducer信息,预设主机地址、Zookeeper端口号、JobTracker信息等,具体的调用代码如下:
图2 基于Flume的日志数据采集系统框架
2.2 电网信息系统日志数据的神经网络分析算法
在这里,改进传统的广义神经网络算法的结构层,形成包含输入层、模式层、求和层与输出层四层神经元结构的新框架。首先假设网络算法的输入信号变量是 X=(xi)n×1,其输出层对应的输出信号变量Y=(yj)k×1,各层中的简单分布单元的神经元数目就是输入信号变量的维数。输入层通过神经元将输入信号传递给模式层,取修正参数为σ,则其传递神经元的传递函数为:
模式层中经传递函数处理过的信号依次传输到求和层,其连接权值和为1,设模式层的第i个神经元与求和层中第j个求和神经元之间的连接权值为oij,随后求和层利用以下两种求和函数对传输进来的信号进行加权求和,即:
输出层将求和层的求和输出相除,可得神经元j的输出结果 yj,yj=sd/snj。
以上是改进广义神经网络的理论分析,具体算法描述如下:
Step1:初始化神经网络,输入信号xi到处理神经元路线节点j;
Step2:依照路线序号Iq=i搜寻线路网拓扑结构表中与模式层的路线节点j相对应的节点tj;
Step3:取每条路线Iq=i中的k个神经元节点t1,t2,…,tk,输入信号xi经过传递函数作用输出信号变量为pi,共n个变量作为要考察的相关变量。当i≤n时,转至 Step2;当 i>n 时,进入 Step4;
Step4:确定模式层的第i个神经元与求和层中第j个求和神经元之间的连接权值oij;
Step5:在求和层对Step3中处理产生的n个输出量利用两种方式进行求和处理,分别输出求和结果 sd、snj。当 j≤k 时,重复该步骤;当 j>k 时,进入Step6;
Step6:求和层的神经元节点输出sd、snj的比值,即为神经元节点j的输出结果yj,直至j=k,得到输出信号向量 Y=(y1,y2,…,yk),算法结束。
3 实验与分析
本次模拟实验选取电网系统内的5台分管不同业务项目的计算机业务节点机组成。在电网信息系统管理的日志数据库中选取一个UCI数据集,该样本集合包含Class1、Class2和Class3 3个分类类别,每个类中含有377 598条日志数据,每条日志数据有14个属性。电网信息系统中的日志数据经过开源分布式日志采集系统Flume的采集以及系统内部整理,数据以以下存储格式存储在计算机系统,如表1所示。
表1 日志数据在计算机系统中的存储格式
对于抽取的数据样本分别利用K-Means、FCM、SOM聚类算法、Apriori算法以及GRNN算法,进行计算速度以及结果准确性测试,对于100次实验结果分析整理得到其计算响应时间和准确度计算结果见表2所示,其中tmin、tmax、tavg分别表示系统数据处理的最短、最长以及平均响应时间。
表2 不同算法对于日志数据处理响应时间(s)以及准确度(%)
从表2可知,对于电网信息系统中存储的多个用户日志数据,本文改进的广义回归神经网络算法(GRNN)调取以及分析日志数据集响应的平均时间以及处理结果的准确性明显高于其他算法。
另外,对于各种算法分析处理日志数据集的响应时间用折线图来表现其大小,见图3所示。
图3 各算法处理日志数据集的响应时间比较/s
以上测试结果说明,证明广义回归神经网络算法对于分析海量日志数据工作具有明显优势。在处理样本日志数据过程中,其数据处理平均响应时间较以往算法提高近52%,处理结果的准确性提高近10%,因此可以说GRNN为电网信息系统等这类数据系统处理日志数据提出了一条有效的途径。另外系统需要调整的参数比较少,操作简单,计算速度快,这样对于有利于系统中心对于各个业务操作系统反映的日志数据给出快速准确的处理结果,以便及时响应用户日志数据反应的问题,提高电网信息系统的整体工作效率。
4 结 论
文中针对传统神经网络算法以及其他算法处理类似电网信息系统大量日志数据存在的处理速度慢以及算法结构不稳定得到问题,保存原有算法的优点,利用引进功能更为先进的数据采集技术,形成采集器Agent、收集器Collector、存储器Storage三层架构系统,另外利用并行编程模式MapReduce调用主从结构模型HDFS中存储的日志数据,优化传统的广义神经网络算法,分析形成了电网信息系统这类数据系统处理日志数据的途径算法GRNN,提高系统分析数据做出响应的速度。
[1]李德新.基于数据挖掘的网络日志分析 [J].电脑知识与技术,2011,7(25):6074-6078.
[2]申德荣,于戈,王习特,等.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803.
[3]邓宾.网络安全日志数据分析系统的探究 [J].网络与信息工程,2014,3:43-44.
[4]师金钢,鲍玉斌,冷芳玲.基于MapReduce的关系型数据仓库并行查询[J].东北大学学报自然科学版,2011,5(5):626-629.
[5]刘春静,刘枫,张曙.基于阵列接收数据合并的宽带DOA算法 [J].系统工程与电子技术,2101,32(7):1380-1383.
[6]张国锁,周创明,雷英杰.改进FCM聚类算法及其在入侵检测中的应用 [J].计算机应用,2009,29(5):1336-1338.
[7]张贞凯,田雨波,周建江.基于改进广义回归神经网络和主成分分析的宽带 DOA估计[J].光电子·激光,2012,4(23):692-697.
[8]杨金玲,曹先革,曹先密.径向基神经网络GPS高程转换方法[J].地理空间信息,2010,8(6):65-66.
[9]王新志,祝明坤,曹爽.基于广义回归神经网络的GPS高程转换 [J].大地测量与地球动力学,2011.31(6):113-116.
[10]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.
[11]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,2011,48(1):45-54.
[12]郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012,7(7):37-42.
[13]陈吉荣,乐嘉锦.基于MapReduce的Hadoop大表导入编程模型[J].计算机应用,2013,33(9):2486-2489.
[14]周康,李觊,董科军,等.一种基于Thrift的日志收集分析系统 [J].科研信息化技术与应用,2015,6(2):19-27.
[15]王正也,李书芳.一种基于Hive日志分析的大数据存储优化方法 [J].设计研究与应用,2014,11(35):94-101.
Analysis of data network information system logs based on generalized regression neural network
ZOU Bao-ping,HUANG Wen-si,ZHANG Wen-jin,HANG Ze-hua,CHENG Zhong-han
(State Grid Info-Telecom Greate Power Science and Technology Co.,Ltd,Fuzhou 350003,China)
In view of the grid system processing large volumes of logs data and slow processing speed in the current,based on existing data processing systems,and data analysis methods based on neural network,by using the Flume data acquisition system,the main structural model from HDFS and parallel programming mode MapReduce support integrated data calling program to optimize the traditional generalized neural network algorithm,and to improve the system for analyzing data to respond speed.Finally,select some samples of grid information system to carry out experimental testing:compared with other algorithms for data processing,GRNN data processing algorithm response time increased nearly 52%,to improve the accuracy of the results of about 10%.
log data;generalized regression neural network;network information system;MapReduce
TN393
:A
:1674-6236(2017)13-0114-04
2016-05-26稿件编号:201605259
邹保平(1971—),男,福建龙岩人,高级工程师。研究方向:数据中心,大数据。