对网络通信异常行为识别方法的相异度分析
2017-08-30张芸
张芸
(滨州技术学院, 滨州 256603)
对网络通信异常行为识别方法的相异度分析
张芸
(滨州技术学院, 滨州 256603)
为了对网络通信异常行为进行有效地识别,提出了一种基于相异度分析的识别方法,以该方法的数据基础为Netflow网管数据,并对具体的实现步骤进行了设计。通过实验分析,证明了采用该识别方法能够对网络中通信行为异常、突发流量异常以及异常网络攻击等表征现象进行实时监测,并且取得了良好的效果,使网络运营单位的服务质量和网络安全支撑服务能力取得了有效的提高。
相异度分析; 网络通信异常; 识别
0 引言
现阶段,网络安全技术已经取得了突飞猛进的发展,产生了一系列的安全措施,比如入侵防御系统、入侵检测系统、防火墙等,然而网路防范和网路攻击是共同发展的。在网络安全事件发生之前,怎样才能够快速地、及时地发现网络异常行为,已然成为了目前一个重要的研究课题[1]。基于此,本文提出了基于相异度分析方法的网络通信异常行为识别法,下面本文进行进一步分析。
1 算法分析
1.1 基于地址的网络通信行为的空间分析
1.1.1 地址相异度分析方法
NetFlow实际上就是一套网络流量统计协议,路由器通过服务种类、协议类型、目的端口号、目的IP地址、源端口号、源IP地址和路由器输入界面等这些控制信息来对NetFlow流进行区分[2-3]。当路由器无论何时接收到新的数据包的时候,路由器就对数据流中的这些控制信息进行检查,对此数据包是否已经是任何已经记录的NetFlow流进行判断,如果不存在,那么将产生一条新的记录;而在存在的情况下,那么将新收集的数据包相关信息整合到相应的NetFlow流的记录当中去。
根据IPv4地址格式将网络通信中的两个地址进行划分,分析地址的相异度,同时,以四元组的形式进行表达,两个地址之间的实际差异并通过各个属性值的差异进行比对[4]。因为IP地址属于点十分制格式,并且每个隔点之间存在着差异,这就意味着地址类别是不同的,此外,高位数值的差异意味着网络范围的显著差异,故而,我们可以抽象描述地址的相异度,同时展开量化分析[5-6]。
1.1.2 基于地址的平均相异度分析
地址相异度的提出,为下一步进行质心分析提供了理论依据。如果,在某一时间片Δt内,一个网络节点a同时和n各目的地址存在网络通信行为,那么我们可以将目的地址的集合记为B,然后,通过相关计算公式,就得到了节点a和集合B的n个元素之间地址相异度,此时,我们可以再将相异度标记为一个新的集合C,那么,我们就能够通过计算,得到节点a到所有n个目的地址的平均相异度[7-8]。
1.2 基于地址的网络通信行为的时间分析
为了对相异度之间差异的表征进行计算,然后,提出了偏移方差σ,主要指的是某一时间间隔Δti内,节点a和该时间间隔内全部目的地址的平均相异度与整个时间系列T下的平均相异度之间的差距。
2 框架设计
扩展的Netflow数据采集系统的总体架构如图1所示。
图1 系统整体架构
该系统主要包含数据收集器和采集代理两部分。本文采用Netflow数据作为训练集的数据来源,创建合理的训练集,然后通过协议生成法来进行构造。所谓的协议生成法指的是通过程序对各个协议的通讯模式进行模拟,并利用流量记录的方式,将制定行为的网络流量特征保存下来,这样一来就构建了已知的不同类别网络行为的训练集合,在一定程度上以此种训练集能够有效地降低误报率。通过协议生成法对网络通讯进行模拟后,将由路由器生成的有关netflow数据收集起来,这样一来就实现了训练集的构造。具体步骤如下所示:
(1) 对训练集数据中的时间信息和地址信息进行提取和预处理。
(2) 将相关数据信息导入数据库,同时按照相关算法计算有关导出属性。
(3) 选择一个科学合理的时间长度,并对各个源IP地址所对应的各类数学参数的值进行计算。
(4) 将全部时间长度的数学参数进行计算,并计算偏移方差的值。
(5) 建立各个源IP地址的基本对照集,同时供验证使用。
(6) 选取某一时间间隔的网络数据,分别代入模型,验证结果。
3 实验分析
本文选取的实验数据为某个时间区间一台网站服务器的NetFlow数据,并对该时间区间内的主机NetFlow数据在1h内的访问信息进行了解,在这个时间段内IP地址通信对的IP地址和主机连接次数构成信息。通过利用本文所提出的基于地址和时间相异度分析法,来比较和分析该网站的访问情况。通过实验我们得出了某主机近十天内10-11点之间的地址差异度距离对照值,如表1所示。
表1 主机近十天内10-11点之间的地址差异距离对照值
通过计算进而就得到了该主机的地地址相异距离平均值,如表2所示:
由表1、表2 分析,我们得到某主机在某时刻内地址差异分析图,如图2所示。
表2 主机10-11点之间的地址差异距离
图2 地址差异分析图
由图2可知,在10:25-10:45之间的距离数值远远超过了差异度的可信 区间,同时和对照曲线存在着显著区别,因此,我们就能够判断出该时间点内的主机流量有异常,进而推断出此时间段的网络行为存在异常。
4 总结
针对网络通信异常行为的识别,本文提出了基于相异度分析法,实现了互联网运营单位支撑保障能力以及服务质量的提升,然而,令人遗憾的是该方法仍然存在着诸多亟待解决的问题,比如计算复杂、模型优化等等,在未来的研究过程中需要进一步地充实和完善。
[1] 荆涛沼,李俊. 基于相异度分析的网络通信异常行为识别方法[J].微电子学与计算机,2014,31(6):12-15.
[2] 肖宇,许炜,张晨,等.社交网络中用户区域影响力评估算法研究[J].微电子学与计算机,2012,7(7);58-63.
[3] 郭小芳,李锋,刘庆华.一种有效的多元时间序列相似性度量算法分析[J].江西师范大学学报(自然科学版),2013,37(1):56-59.
[4] 邓冠男.聚类分析中的相似度研究[J].东北电力大学学报,2013,33(02):156-161.
[5] 温祥西,孟相如,马志强,张永春.小时问尺度网络流量混沌性分析及趋势预测[J].电了学报,2012, 40(8):1609-1616.
[6] 高波,张钦宇,梁永生,等.基于EMD及ARMA的白相似网络流量预测[J].通信学报,2011, Vol. 32, No.4: 47-56.
[7] 张宾,杨家海,吴建平.Internet流量模型分析与评述[J].软件学报,2011, 22(1): 115-131.
[8] 吴桦,龚俭,杨望.一种基于双重Counter Bloom Filter的长流识别算法[J].软件学报,2010,Vo1.21, No.5: 1115-1126.
[9] 曹军威,万宇鑫,涂国煌,等.智能电网信息系统体系结构研究[J].计算机学报,2013, 36(1):143-167.
[10] Ye W, Cho K. Hybrid P2P traffic classification with heuristic rules and machine learning[J]. Soft Computing, 2014:1-13.
Analysis of the Abnormal Degree of Network Communication Distinguishing Behavior
Zhang Yun
(Binzhou Technical College, Shandong 256603, China)
In order to identify the abnormal behavior of network communication effectively, this paper proposes a recognition method based on dissimilarity analysis. The data base of the method is Netflow network management data, and the concrete implementation steps are designed. Then, through the experiment analysis and analysis, it is proved that this method can be used to monitor the phenomena such as abnormal communication behavior, sudden traffic anomaly and abnormal network attack in the network, and obtain good results, so that the network service unit's service quality and Network security support service capacity has been effectively improved.
dissimilarity analysis; network communication anomaly; recognition
张芸(1980-),女,山东五莲人,山东省滨州市技术学院,大学学历,中级职称,研究方向:网络通信。
1007-757X(2017)08-0079-02
TP311
A
2017.01.28)