APP下载

基于业务感知的空天地一体化信息网络流量分类技术

2015-06-23顾成杰江同洋

中国电子科学研究院学报 2015年5期
关键词:网络流量信息网络路由

顾成杰,江同洋,潘 鑫

(1.中国电子科技集团公司第38研究所,合肥 230088;2.中国人民解放军空军航空大学,阜新 123100)

专 题

基于业务感知的空天地一体化信息网络流量分类技术

顾成杰1,江同洋1,潘 鑫2

(1.中国电子科技集团公司第38研究所,合肥 230088;2.中国人民解放军空军航空大学,阜新 123100)

为了提高空天地一体化信息网络的可管性和可控性,提出了基于业务感知的空天地一体化信息网络流量分类技术。设计了具有业务感知功能的认知路由节点,并在基于机器学习的网络流量分类模型基础上,针对空天地一体化信息网络环境中存在大量噪声和网络流量中存在过多的冗余特征属性,将具有特征有效度的模糊支持向量机(FW-FSVM)用于网络流量分类领域。实验结果表明,该技术能有效地提高网络流量分类精度且分类稳定性较高,为空天地一体化信息网络建设提供可靠服务质量和安全策略保证。

业务感知;空天地一体化;流量分类;QoS

0 引 言

空天地一体化信息网络是由多颗不同轨道上、不同种类、不同性能的卫星形成星座覆盖全球,通过星间、星地链路将地面、海上、空中和深空中的用户、飞行器以及各种通信平台密集联合,以IP为信息承载方式,采用智能高速星上处理、交换和路由技术,面向光学、红外多谱段的信息,按照信息资源的最大有效综合利用原则,进行信息准确获取、快速处理和高效传输的一体化高速宽带大容量信息网络,即天基、空基和陆基一体化综合网络。

现代高技术条件下的战争是体系对体系的对抗,是武器装备体系总体作战能力的较量。武器系统之间、武器系统内各子系统之间以及单个装备之间,必须相互紧密配合才能形成一个有机的整体发挥作用。在美军近些年数次对外的战争中,空天地一体化信息网络将预警探测、信息处理、指挥控制和武器平台有机地连为一体,提供实时、稳定的信息传输,使美军的作战发挥出优良的整体效能。因此,空天地一体化信息网络是形成这种整体合力的“聚合剂”和提高整体作战效能的“倍增器”[1]。

空天地一体化信息网络也是一个庞大的非线性动态多变的复杂系统,网络中业务种类繁多,网络环境动态多变,网络缺乏自适应能力,不能根据网络环境的变化自适应地做出反应,网络的动态性和不确定性使得对其管理和控制越来越困难[2]。迅速准确地感知网络环境信息是空天地一体化信息网络得以发挥作用的基础。空天地一体化信息网络需要及时地感知当前的网络环境中业务的信息,这些信息将用于后面的规划、决策等认知处理过程,以判断当前网络是否能满足用户的要求,如果不能满足就要采取相应的重配置手段来保证达到用户要求[3]。因此,对网络流量进行准确地分类是空天地一体化信息网络管理与控制的基础,在此基础上才能够解决动态多变网络适应性差、全网效能低的问题,有效提高网络资源利用率,保证网络端到端的QoS。

1 业务感知

空天地一体化信息网络要求具有“安全性、可生存性、可控性”,其在规划、建设、运营和维护的过程中,必然要对网络设备、网络业务以及网络性能进行监测和管理,来了解网络设备是否符合入网规范、业务的开通能力是否满足发展要求、业务的QoS是否满足要求。空天地一体化信息网络中业务种类丰富多样,不同业务对QoS的需求不同,而如何准确高效的区分各种不同类型的业务流,涉及到业务感知领域。只有对网络进行业务分类,了解各业务的种类性质的基础上,才能高效监测、分析、控制、管理网络,才能使网络做到“可管、可控、可测”。所以业务感知技术作为空天地一体化信息网络实施服务质量策略和安全策略的基础,具有重要的研究意义。

基于IP分组技术的网络中各种业务种类丰富多样,业务感知技术是将网络中不同的业务流进行区分的技术。传统的通信网络只能简单传送各种业务,但难以同时实现多业务的服务质量保证,常常为了一些重要业务的服务保证而建设专网,如视频专网、信息传输专网等。相对于传统网络,空天地一体化信息网络为了满足不同作战任务的通信要求需要提供更强的智能性,这里的网络智能不再是简单的访问控制和标记,而是体现在业务的动态感知、带宽严格保证、带宽动态调整三个方面。

业务感知含有三方面的概念:感知对象、感知方式以及感知结果[4]。感知对象可以是数据包,或是业务流;感知方式可以是通过协议解析,或是通过分析流量特征,或两者结合;感知结果即感知行为所需要的结果,即相应的分类需求。业务感知技术包括对业务的分类技术、业务特征提取技术,分别对应于业务感知技术感知主体的确定,以及感知的具体手段。

2 基于业务感知的空天地一体化信息网络流量分类技术

2.1 认知路由节点

区别于传统网络只提供尽力而为的服务,空天地一体化信息网络目标是要保证用户端到端的QoS,通过在节点中加入认知功能,使网元可以动态地自适应环境变化,从而提高整体网络的性能。本文提出一种具有业务感知功能的认知路由节点,如图1所示。认知路由节点分为认知层和数据层。认知层包括业务感知模块、策略选择模块和路由决策模块;而数据层负责对数据分组的封装和调度转发等。该认知路由节点可以收集网络资源使用情况、业务QoS需求、网络流量分布等信息,并根据相应的策略选择实现对业务流的动态路由,从而保证端到端QoS。其中业务感知模块负责获取认知网络环境中各种业务流的信息,并将业务流的需求映射为认知网络的端到端QoS需求,策略选择模块可以根据策略库动态地选择相应的路由策略,路由决策模块则负责路由的构建和更新。认知路由节点在计算数据分组路由时,需要网络拓扑和链路可用带宽等网络负载的详细信息,依据网络环境信息和业务需求,并根据策略选择来进行网络资源的分配。

整个空天地一体化信息网络中的路由器主要由边缘认知路由器和核心认知路由器构成,如图2所示。其中边缘认知路由器部署有业务感知模块,对网络中的业务进行分类,并为IP分组打上不同的DSCP标记,所有边缘认知路由器都能采集网络的状态信息并上传给核心认知路由器。核心认知路由器包含有数据处理模块、推理学习模块、决策模块和策略下发模块,它将采集得到的信息进行处理、推理、学习并进行决策,边缘认知路由器根据核心认知路由器下发的策略对不同的业务进行区分并根据策略库中的知识执行自适应管理。

图1 认知路由节点

图2 认知路由模型结构

业务感知可以由边缘认知路由器根据业务流的特征、流标记以及流统计阈值来独立完成,也可以与业务管理服务器配合,从而保证系统具有强大的智能处理能力和业务灵活性。本文将经过边缘认知路由器得到的业务感知结果用一个四元组来表示(业务流类别,源地址,目的地址,带宽要求)。该四元组可以表示为网络流量特征矩阵P(Ck,Sk,Dk,Bk),其中通过业务感知将业务流分为K类,K=1,2,…,K,业务流类型为Ck;Sk、Dk分别为第k类业务流的源地址、目的地址,Bk为第k类业务流的带宽要求。当前网络中业务流的种类、分布情况和带宽需求可以用网络流量特征矩阵P来表示。

2.2 基于机器学习的空天地一体化信息网络流量分类模型

网络流量的精确分类也是分析网络用户行为、检测网络异常行为和提高网络QoS等行为的前提和基础。因此网络流量分类引起了学术界的很大关注,近些年有不少相关研究。许多传统业务都使用由IANA分配的常用固定端口,端口分析法可以直接根据端口号进行精确分类[5]。但目前很多P2P应用采用随机端口或动态端口,这样使得端口分析法失效或分类精度很低。特征字段法根据已知的应用层载荷的特征字符串来进行匹配,但不能分类未知的或者特征字符串已被更改的网络流量,而且不能分类应用层加密的特征字段[6]。随着越来越多的网络应用采用动态端口、伪装端口和应用层净荷加密,导致基于端口和特征字段的网络流量分类方法失效[7]。所以利用机器学习方法进行网络流量分类成为网络测量的一个重要研究方向。

网络流量分类是一种典型的多元分类问题,可以抽象为:已知网络流样本集合S,样本X={x1,x2,…xn},其中x1,x2,…xn分别是集合S上定义的对应网络流特征A={A1,A2,…An}的值,类变量C的取值范围为{cj|1≤j≤m,m是正整数},目的在于利用机器学习算法构建网络流量分类模型f:X→C,并根据此模型对类型未知的网络流进行分类。基于机器学习的网络流量分类方法流程如图3所示。

图3 基于机器学习的网络流量分类模型

2.3 具有特征有效度的模糊支持向量机

目前在网络流量分类研究方面,大多是采用已成熟的机器学习方法进行网络流量分类,很少专门针对网络流量的动态、多变等特性对相关算法进行改进。但由于真实环境中的网络流量存在大量噪声,并且根据网络流量统计特征分析得到的特征属性数目庞大,同时也存在大量冗余特征属性,所以使用传统的SVM进行网络流量分类还存在一定局限性。我们在分析网络流量特性的基础上,针对网络流量中存在大量噪声和样本点中存在过多冗余特征属性,设计了一种具有特征有效度的模糊支持向量机(FW-FSVM)。该方法通过引入模糊因子,可以有效地消除噪声或野值样本对分类精度的影响,同时引入特征有效度,构造特征有效度核函数,消除弱相关特征和冗余特征对分类精度的影响。

定义1 模糊因子μi对于样本集中任意样本点xi,存在一个与之对应的模糊因子μi,0≤μi≤1,反映样本点分布和存在的不确定性。

记样本集S正负样本的均值点为O+、O-,则以φ=O+-O-为法向量,则分别过O+、O-的两个类内超平面为:

此时,正负类中的样本点到各自类内超平面的距离为

取L+=max{li+}、L-=max{li-}分别表示正负类中的样本点距离其所在类内超平面的最大距离,我们以此定义模糊因子为

其中δ为调节因子,以保证0<μi≤1。

支持向量机虽然根据不同样本赋予不同的模糊因子,达到了消除噪声和野值样本对分类精度的影响,但隐含了待测样本中各维特征在分类中发挥同样的作用,没有考虑不同特征对分类精度的影响。因此提高SVM的抗弱相关特征或冗余特征是本文研究的又一个重要方面。由于待分析样本的各个特征对分类精度的贡献各不相同,本文通过引入特征有效度来量化样本各个特征与分类精度的相关性,来解决弱特征或冗余特征对分类精度的影响。定义2 特征有效度对于样本中第i个特征,存在一个与之对应的特征有效度,用来表征样本中的某一特征对分类精度的影响程度。如果某一特征ti的区分类别能力越小,则特征有效度的值就越小。

假定任意特征ti可以将训练样本集S划分为S={S1,S2,…Sq},其中Si所包含的样本数为则特征ti划分的类的条件熵为

则熵的变化量定义为特征ti的的信息增益Gain(ti),即

向量G=(Gain(t1),Gain(t2)…Gain(tn))表征样本中各个特征的特征有效度,则特征有效度定义为

其中i=1,2,…n,eGain(ti)为调节因子。若某一特征ti的信息增益Gain(ti)越大,则表明对分类的贡献就越大,即特征有效度fit就越大。

定义3 特征有效度矩阵P特征有效度矩阵P表示样本n个特征的特征有效度。

定义4 特征有效度核函数K′(xi,xj)已知K是模糊支持向量机的核函数,P是n阶线性变换矩阵(特征有效度矩阵),其中n是样本特征的维度,则特征有效度核函数

本文选用径向基核函数,所以特征有效度核函数K′可以表示为

本文所提出的具有特征有效度的模糊支持向量机(FW-FSVM)一方面通过引入模糊因子,消除噪声或野值样本对分类精度的影响,另一方面引入特征有效度,消除弱相关特征和冗余特征对分类精度的影响。其构造步骤如下所示:

步骤1:计算待测样本集合中样本均值点O+、O-,得到正负类内超平面φT(x-O+)=0、φT(x-O-)=0;

步骤2:计算正负样本点到各自类内超平面的距离li+和li-;

步骤3:计算样本点到类内超平面的距离,得到模糊因子μi;

步骤4:利用模糊因子μi构建模糊支持向量机(FSVM);

步骤8:用特征有效度核函数K′(xi,xj)替换步骤4构建的模糊支持向量机(FSVM)中的核函数K(xi,xj),得到具有特征有效度的模糊支持向量机(FW-FSVM)。

2.4 实验结果与分析

为了验证本文所提出的方法的有效性,采用剑桥大学Moore教授等人使用的网络流量实验数据集,记为 Moore_Set。该实验数据集中共包含了377526个网络流样本,被分成10种类别,每种类别所包含的应用名称、每类网络流的数量和所占比例见表1。

表1 实验数据集统计信息

Moore_Set中每条网络流样本都是从一条完整的TCP双向流抽象而来,包含248项属性,其中第1项属性和第2项属性分别是该流的源端口号和目的端口号,为了避免端口信息对分类精度的影响,本文没有采用这2个属性。同时由于本文所提出的算法涉及距离度量,还必须对数据进行规范化处理。网络流量统计特征属性反映业务流的本质,能以此来区分不同的业务流。一般情况下,特征属性越多,越能精确地区分不同的业务。但获得特征属性不仅需要大量CPU计算时间,而且占用较多的存储空间。有时过多特征甚至会影响学习质量,导致分类精度下降[8]。为了解决上述问题,本文采用CFS(Correlation-based Feature Selection)[9]特征选择算法取得该样本集的最优特征属性集S。S={流持续时间,流的总分组数,流的总字节数,分组大小平均值,分组大小中值,分组大小方差,分组大小最大值,分组大小最小值,分组到达时间间隔中值,分组到达时间平均值,分组到达时间间隔方差,分组到达时间间隔最大值,分组到达时间间隔最小值,分组净荷平均值,分组净荷中值,分组净荷方差,分组净荷最大值,分组净荷最小值}。

为了验证本文所提出的FW-FSVM应用于网络流量分类中的有效性,本文实现了基于Libsvm软件包的C++程序,并采用Matlab7.0进行数值计算。由于支持向量机方法只能处理二分类问题,本文采用“一对一”方法构造k(k-1)/2个二元分类器,来处理k元分类问题。实验中采用径向基核函数,设定惩罚因子C=512、核参数γ=0.03125。对于所选用的数据集 Set,我们首先在数据集 Set中混入0.1%的孤立样本(代表噪声或野值),然后均分为两个数据子集Set1和Set2。Set1和Set2中样本类别比例与所选用的数据集Set保持一致,其中Set1作为训练集,Set2作为测试集。为了使实验结果更加可靠,对每个数据集Set重复抽样、训练和测试10次,分类精度取10次实验结果的平均值。试验采用普通 PC机,操作系统为 Windows XP Professional(SP2),其中CPU为Intel Pentium 2.66 GHz,内存为DDR-667 2G。图4为FW-FSVM网络流量分类系统部署图。

图5是采用FW-FSVM方法得到的接收者操作特性(ROC,Receiver Operating Characteristic analysis)曲线[10],显示出其中4种业务的正确肯定率TP和错误肯定率FP间的平衡关系,可以反映FWFSVM分类器的性能。从图5中可以得出,本文所提出的FW-FSVM分类器工作在ROC曲线的左上角,具有陡直的上升曲线。对于WWW、BULK、MEDIA和P2P等业务来说,其正确肯定率TP大多维持在0.75~0.85之间,错误肯定率FP处于0.03~0.05之间,处于比较理想的范围,说明FW-FSVM分类器具有较好的稳定性,可以准确分类网络中的各种业务。

图4 FW-FSVM网络流量分类系统部署图

图5 接收者操作特性曲线ROC

表2为本文所提出方法与文献[11,12,13,14]所提出的网络流量分类方法实验结果对比情况。这5种方法所采用的训练集和测试集均来自Moore_ Set,实验参数取值范围保持一致,其实验结果具有一定的比较意义。从表4中可以看出,本文所提出的FW-FSVM的分类平均准确率最高,且最稳定。C4.5和SVM也表现出较好的分类效果,K-Means和NBK分类效果较差。由此结果可以得出,FWFSVM可以有效提高分类精度,并且具有稳定性强的特点。

表2 与其他方法的实验结果对比

3 结 语

空天地一体化信息网络是根据现代战争对军事通信的新需求建立的,通过采用各种先进网络技术连通陆基、海基、空基和天基的多种探测传感器、武器平台、指挥机构和作战人员,完成不同系统间的集成,最终形成各兵种通信网络之间的互联互通,从而提供多种业务、多种功能的综合服务。但由于其接入形式多样、网络业务复杂、异构和泛在等特点,为了提高可管性和可控性,对网络流量的精确分类成为空天地一体化信息网络实施服务质量策略和安全策略的基础。

针对空天地一体化信息网络环境中存在大量噪声和冗余特征属性,本文将FW-FSVM应用于网络流量分类中。大量实验结果表明,FW-FSVM能很好地提高传统SVM的抗噪能力,同时能够消除冗余特征属性对分类精度的影响,有效地提高网络流量分类精度。如何提高空天地一体化信息网络环境中网络流量分类方法的实时性仍需要进一步研究。

[1] 熊年生.基于分布式检测的雷达组网探测技术研究[J].雷达科学与技术,2012,10(4):363-366.

[2] Agoulmine N,Balasubramaniam S,Botvitch D.Challenges for autonomic networkmanagement[C].First Conference on Modeling Autonomic Communication,Dublin,Ireland,2006,pp:1-20.

[3] 顾成杰,张顺颐,孙雁飞.基于业务感知和策略选择的认知路由算法[J].通信学报,2011,32(11):168-175.

[4] 顾成杰,张顺颐,孙雁飞.基于业务感知的认知网络QoS自适应控制技术[J].中兴通讯技术,2011,17(1):49-52.

[5] Nguyen T T,Armitage G.A survey of techniques for internet traffic classification using machine learning[J].IEEE Communications Surveys and Tutorials,2008,10(4):56-76.

[6] Callado A,Kamienski C.A survey on internet traffic identification[J].IEEE Communications Surveys and Tutorials,2009,11(3):37-52.

[7] Este A,Gringoli F,Salgarelli L.Support vector machines for TCP traffic classification[J].Computer Networks,2009,53(14):2476-2490.

[8] Zehang Sun,George Bebis,Ronald Miller.Object detection using feature subset selection[J].Pattern Recognition,2004,37(11):2165-2176.

[9] S.Durga Bhavani,T.Sobha Rani,Raju S.Bapi.Feature selection using correlation fractal dimension:Issues and applications in binary classification problems[J]. Applied Soft Computing,2008,8(1):555-563.

[10]Witten IH,Frank E.DATA MINING:Practical Machine Learning Tools and Techniques[M].New York:SFMorgan Kaufman,2005.

[11]Moore AW,Zuev D.Internet traffic classification using Bayesian analysis techniques[C].International Conference on Measurement and Modeling of Computer Systems,Alberta,Canada,pp:50-60,2005.

[12]Yang Y X,Wang R,Liu Y,et al.Solving P2P traffic identification problems via optimized support vector machines[C].Proc of IEEE/ACS International Conference on Computer Systems and Applications,Amman,Jordan,pp:165-171,2007.

[13]Wang R,Liu Y,Yang Y X,Zhou X Y.Solving the applevel classification problem of P2P traffic via optimized support vectormachines[C].Sixth International Conference on Intelligent Systems Design and Applications,Jinan,China,pp:534-539,2006.

[14]Erman J,Arlitt M,Mahanti A.Traffic classification using clustering algorithms[C].Proceedings of the 2006 SIGCOMM Workshop on Mining Network Data,Pisa,Italy,pp:281-286,2006.

顾成杰(1985—),男,安徽合肥人,博士,高级工程师,主要研究方向为雷达总体设计、协同探测技术和未来网络;

E-mail:gcjnupt@126.com

江同洋(1985—),男,江苏徐州人,博士,工程师,主要研究方向为雷达总体设计、目标跟踪和多源信息融合;

潘 鑫(1987—),男,江苏盐城人,主要研究方向为航空飞行与指挥,飞行仿真与雷达仿真。

The Network Traffic Classification Technology of Air Ground integrated Information Network based on Service Awareness

GU Cheng-jie1,JIANG Tong-yang1,PAN Xin2
(1.No.38thResearch Institute of CETC,Hefei,230088,China;2.Air Force Aviation University of PLA,Fuxin 123100,China)

In order to improve the controllability of the air ground integrated information network,the network traffic classification technology of air ground integrated Information network based on service awareness is proposed.The cognitive routing node with service awareness function and network traffic classification model based on machine learning are designed.Since there are much noise and redundant features in network traffic,novel fuzzy support vectormachinewith featureweighted degree(FW-FSVM)is applied in network traffic classification.Experimental results show that this technology has higher accuracy and stability of classification.It can provide guarantee for the construction of the air ground integrated information network in QoS and security policy.

Service Awareness;Air Ground integrated Information Network;Traffic Classification;QoS

TP393

A

1673-5692(2015)05-485-07

10.3969/j.issn.1673-5692.2015.05.007

2015-07-25

2015-09-27

猜你喜欢

网络流量信息网络路由
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
铁路数据网路由汇聚引发的路由迭代问题研究
多点双向路由重发布潜在问题研究
一种基于虚拟分扇的簇间多跳路由算法
路由重分发时需要考虑的问题
电力信息网络双通道故障自动探测策略探究
AVB网络流量整形帧模型端到端延迟计算
河南省交通运输厅信息网络监测预警系统
信息网络环境下提高网络统战工作效果的探讨