APP下载

基于社区挖掘的网络业务监控方法

2016-07-04王永程褚衍杰

关键词:监测

王永程,褚衍杰

(盲信号处理重点实验室,四川 成都 610041)



基于社区挖掘的网络业务监控方法

王永程,褚衍杰

(盲信号处理重点实验室,四川 成都 610041)

摘要:网络业务监控通常应用于大型企业级网络监控,通过分析企业网中承载的业务数据,实现对网络中业务类型及不同业务对应的终端分布情况的监测。提出了一种基于社区挖掘的网络业务监控方法,该方法的输入为企业网中IP通联数据,通过构建IP通联图,并基于IP通联图进行社区挖掘,输出IP通联社区,每个社区代表一种业务类型,社区内节点代表相应的业务终端。通过对某大型跨国企业网络数据的实证分析,发现与传统业务监控方法相比,该方法不仅能够有效发现各业务网络,实时监控业务网络状态,且能对网络中出现的新业务进行预警。

关键词:网络监控;社区挖掘;业务网络;深度包检测(DPI)监测

0前言

网络业务监控一直是网络管理、网络监控邻域的重要内容。随着网络业务越来越呈现出多样化、复杂化的特点,对于网络业务的精细化分和监测成为学术界和工业界的重点研究课题。

传统网络业务监控方法包括早期的端口识别[1-2]、深度包检测(deep packet inspection,DPI)[3-6]以及基于机器学习[7-10]的业务识别、监控方法。端口识别是IP网络发展初期常见的业务监控手段,但随着越来越多的业务采用动态端口、端口伪装以及端口封装等规避网络监控的方式后,端口识别手段已经不再适用。DPI深度包检测[3-6]是目前应用最广的一类方法,该方法通过分析数据包载荷中的特征字段来识别业务。大多数协议含有一个或多个用于区分不同协议的字段,且这些字段通常是公开和易于分析得到的,这样通过检测和匹配这些字段就可以识别相应的业务,如HTTP协议的GET,POST等字段。DPI检测与端口识别本质上是一样的,都是确定性方法,区别在于前者利用的字段信息更多、更准确。然而,DPI检测方法仍不能解决私有协议业务、加密流量下的业务识别。利用机器学习的方法来识别网络业务是近几年的研究热点,如业务聚类研究[7],朴素贝叶斯用于业务分类[8],贝叶斯网络[9]以及SVM方法[10]等。这类方法不涉及具体的业务承载内容,只需要特定的统计特征,不足之处在于业务识别的性能与机器学习方法的选择依赖性大,且往往计算复杂度较高。

本文提出利用复杂网络邻域的社区挖掘技术[11]来识别网络业务的方法,该方法的输入为网络中的IP终端通联数据,基于这些通联信息构建IP通联图,通过社区挖掘技术,输出IP通联社区,每个社区代表一种业务类型,社区内节点(IP节点)代表相应的业务终端。方法假设每个IP终端只运行一种业务类型,显然这个假设在公众通信网中往往不合适,故这个方法适用于特定行业的专用网络。我们有针对性地选取了某大型跨国企业网络数据进行实证分析,网络终端都是该公司的办公终端,每一终端运行的网络业务不超过2种,实验结果发现与传统业务监控方法相比,该方法不仅能够有效发现各业务网络,实时监控业务网络状态,且能对网络中出现的新业务以及异常业务进行预警。

1网络业务监控总体框架

1.1应用场景描述

基于社区挖掘的网络业务监控涉及的应用场景如下:在公司专网内的各路由器处,部署网络数据采集器以及IP通联元数据提取和预处理软件。各采集点输出的IP通联记录格式为四元组{t,IPsrc,IPdst,proto},其中,t为时间戳,表示IP包采集时刻,IPsrc为源IP地址,IPdst为目的IP地址,proto为IP包头内的协议字段,利用proto可以对前端输入进行过滤,如只对TCP包所承载的业务感兴趣的话,可以只分析proto=6的IP通联记录。

这里我们采用集中处理模式,即各采集点的通联记录统一传输到集中处理中心,通联元数据的采样间隔T可由用户自定义,由于在特定采集间隔内,具有相同源地址、目的地址以及协议类型的通联数据包只产生一次记录,且集中处理中心会进一步去重,故通联元数据的传输对网络带宽的影响基本可忽略。

用户既可以对多个时间段的IP通联记录分别进行网络业务分析,进而监控网络业务的动态变化情况,也可以长时间持续收集IP通联记录,进行一次性业务分析。

1.2网络业务监控总体框架

如图 1所示,网络业务监控总体分2大部分,第1部分是各数据采集点IP通联元数据的采集和预处理,第2部分是集中处理中心的网络业务监控引擎,完成数据收集去重、数据筛选、IP通联图构建以及社区挖掘算法,最终输出各业务网络。这里业务网络指由运行相同业务的IP终端形成的通联图,是整个IP通联图的子图。社区挖掘算法我们采用基于邻域相似性的社区划分方法[11],下节将对该方法进行详细介绍。

图1 网络业务监控总体框架Fig.1 Framework of network service monitoring

2基于邻域相似性的社区挖掘

IP通信网络具有大量的节点和复杂的连接关系,具有和其功能相适应的结构特征,如小世界、无标度、高积聚系数和组织结构等特性。这些特性从不同的层面揭示了网络的相关特征,对于分析和判断网络的功能、演化特性具有重要的意义。业务网络结构从网络通信拓扑的角度来理解就是指内部紧密、外部松散的耦合模式,与传统的社区结构概念类似。如图 2是一个简单的示意图,其中,节点表示IP,边表示IP之间具有通信关系。基于IP通联图的网络业务监控就是利用IP通联关系实现图中社区结构的自动发现。

图2 具有3个社区的简单网络Fig.2 Simple network with three communities

2.1IP通联图的构建及社区结构的度量

IP之间的通联关系是一种关系型数据,可以建模为图模型,IP作为图中的节点,IP之间的通信关系作为图中的边。

设网络G=(V,E),具有n个节点,m条边,即

(1)

(2)

其邻接矩阵A=(Aij)n×n定义为

(3)

(4)

以及

(5)

(6)

对于社区结构未知的网络,模块度度量了网络不同划分方式的差异。因此,社区发现问题可在一定程度上转化为寻求网络的某个划分,使其具有最大的模块度取值。

2.2基于邻域相似性的社区划分方法

首先定义网络的邻域为

(7)

它表示与节点Vi的距离不超过α的点的集合。其中,dist(Vi,Vj)表示顶点Vi,Vj之间的最短距离。如果α=0,它只有一个点,即Vi本身Cover(Vi,α)={Vi};如果α=diameter(G),其中,diameter(G)表示图的直径,它包含G中全部的点,即Cover(Vi,diameter(G))=V。

α为控制参数,在实验中,α的取值从0开始逐渐增大至diameter(G),我们取使得模块度为最大值时对应的α为最佳α取值。

我们的社区发现过程是自下而上的,开始时每个节点都属于单独的划分,即

(8)

(9)

每次合并2个最相似的成员集合,不妨设合并编号为i与编号为j的非空集合,新的集合编号设为j,此时编号为i的集合为空集,可以从划分中删除。即按照(10)式更新划分。

(10)

此时,按照(11)式更新合并得到的集合与其他集合的相似性

(11)

(11)中,Ni表示合并前编号为i的集合所含的顶点数目。

(12)

即第i个划分由n+1-i个不同的集合所构成。然后比较这些划分的模块度取值,将取值最大的输出,作为社区发现的结果。

(13)

注意,上述过程是对特定的α来进行的。为了获得更好的结果,我们让α从0开始逐渐增大,来获取最大的模块度取值。最终的结果可表示为

(14)

Input:IPgraphG=(V,E)

4.H←newHeap()

5.for(Vi,Vj)∈E

6.Sij=sim(Vi,Vj|α)

7.H.insert(Sij,i,j)

8.endfor

9.whereH.isnotEmpty()

10.i=H.popMax(),j=H.popMax()

14.ifSik>0orSjk>0then

15. Sik=Ski=0

17. H.update(Sjk,j,k)

18. H.delete(Sik,i,k)

19.endif

20.endfor

21.ifQ>Qm

22. Qm=Q

24.endif

25.endwhile

3实验分析

为了验证该技术的有效性,利用某大型跨国企业网络2015年1月至2015年6月的IP通联数据,构建IP通联图,该图中有5 000多个节点,数十万条边,应用邻域相似性的社区划分方法对网络业务进行挖掘,图3为实验结果图。从图3中可以明显看出几大主要的网络业务,分别用椭圆曲线标明,通过人工验证,对主要的业务进行了标注,考虑到隐私性,专用业务用私有业务进行标示。椭圆内的社区结构模块度强,与外部社区的联系很少,说明该网络中的主机(即图中的一个节点,对应一个IP地址)大多仅负责单一的功能,如VOIP业务、FTP业务等,这符合专用网络的特点。仅有少数主机与外部社区有通信联系,说明该部分主机同时负责多种业务。另外可以发现,在图3的左下方存在未知业务社区,这部分业务未在该网络事先约定的业务列表中,属于异常现象,从而说明本文提出的网络业务监控方法能够有效发现网络中的新业务,而利用DPI检测等方法将无法发现此类新业务,这一功能对网络监控而言具有重要意义。

图3 网络业务发现结果图Fig.3 Network service discovery results

我们对图3中的VOIP业务社区进行了细粒度的分析,对其进行放大处理,得到图4所示的VOIP业务社区图。从图4中可以明显看出,该业务的通信分成了模块度强的2个社区,经过对2部分社区涉及到的网络数据的人工分析,发现图4中右方的社区属于正常的VOIP业务通信,而左侧方框内的部分并不是真正的语音业务数据。这2种数据都采用相同特征的端口,且用于识别VOIP业务的数据包载荷中的特征字段也相同,如果采用DPI检测方法,将无法发现框内的异常业务。上述现象表明,本文提出的网络业务监控方法能够发现异常业务通信社区,从而识别出异常业务。

图4 VOIP业务社区图Fig.4 VOIP community result

4结论

本文提出了一种基于社区挖掘的网络业务监控方法,该方法不仅能够有效发现各业务网络,实时监控业务网络状态,且能对网络中的异常业务及出现的新业务进行预警。基于某大型跨国企业网络数据的实证分析,证明了该方法的有效性。

参考文献:

[1]张治斌,谭静.基于K均值与决策树的P2P流量识别研究[J].计算机工程与设计,2014,35(03):798-802.

ZHANG Z B, TAN J. Research of P2Ptraffic identification based on K-Means and decision tree[J]. Computer Engineering & Design, 2014, 35(03):798-802.

[2]KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: Multilevel Traffic Classification in the Dark[J]. ACM Sigcomm Computer Communication Review, 2005, 35(4):229-240.

[3]SEN S, WANG J. Analyzing peer-to-peer traffic across large networks[J]. IEEE/ACM Transactions on Networking(ToN), 2004, 12(2): 219-232.

[4]LUCHAUP D, DE C L, JHA S, et al. Deep packet inspection with DFA-trees and parametrized language overapproximation[C]// INFOCOM, 2014 Proceedings IEEE.

Toronto: IEEE Press, 2014:531-539.

[5]BREMLER A, HARCHOL Y, HAY D, et al. Deep packet inspection as a service[C]//Proceedings of the 10th ACM International on Conference on emerging Networking Experiments and Technologies. New York: ACM Press, 2014: 271-282.

[6]SHIN S, JUNG J, BALAKRISHNAN H. Malware prevalence in the KaZaA file-sharing network[C]//Proceedings of the 6th ACM SIGCOMM conference on Internet measurement. New York: ACM Press, 2006: 333-338.

[7]ZENG Y, CHEN T M, ZENG Y, et al. Classification of Traffic Flows into QoS Classes by Unsupervised Learning and KNN Clustering[J]. Ksii Transactions on Internet & Information Systems, 2009, 3(2):134-146.

[9]AULD T, MOORE A W, GULL S F. Bayesian neural networks for internet traffic classification[J]. Neural Networks, IEEE Transactions on, 2007, 18(1): 223-239.

[10] YUAN R, LI Z, GUAN X, et al. An SVM-based machine learning method for accurate internet traffic classification[J]. Information Systems Frontiers, 2010, 12(2):149-156.

[11] XU L, ZHENG X, YI D Y. Community Detection by Neighborhood Similarity[J]. Chinese Physics Letters, 2012, 29(4):48902-48905.

Research on network traffic monitoring based on community minging

WANG Yongcheng,CHU Yanjie

(National Key Laboratory of Blind Signal Processing,Chengdu 6100412,P.R.China)

Abstract:Network traffic monitoring is usually applied to large enterprise network in monitoring traffic types and correponding terminals through the analysis of traffic data in network. We put forward a network traffic monitoring method based on community mining, with the IP communication data as input. This method constructs IP communication graph to mining IP community output IP communities. Each community represents a traffic type where nodes represent the corresponding service terminals. Through empirical analysis of the network data of a large multinational enterprise, the method can not only effectively discover the network traffic types, monitoring the network state in real time, but also give early warnings for new emerging traffic type.

Keywords:network monitoring; community mining; service network; deep packet inspection (DPI) monitoring

DOI:10.3979/j.issn.1673-825X.2016.03.024

收稿日期:2015-11-17

修订日期:2016-04-28通讯作者:王永程407541127@qq.com

基金项目:国家自然科学基金(61372076)

Foundation Item:The National Natural Science Foundation of China (61372076)

中图分类号:TP393

文献标志码:A

文章编号:1673-825X(2016)03-0426-05

作者简介:

王永程(1987-),男,山西人,博士研究生,主要研究方向为网络测量、数据挖掘。E-mail:407541127@qq.com。

褚衍杰(1983-),男,山东人,博士研究生,工程师,主要研究方向为数据挖掘、智能信息处理。

(编辑:田海江)

猜你喜欢

监测
特色“三四五六”返贫监测帮扶做实做细
水土保持监测
交通运输部对ETC运行情况进行监测
基于STM32的心率实时监测系统
二月全国互联网安全监测
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
学习监测手环
奶牛酮病的监测及防治
脑室内颅内压监测在老年颅脑损伤中的应用