APP下载

基于支持向量机的P2P流量管理模型设计

2015-02-13杜经纬

关键词:超平面向量流量

杜经纬

(运城学院计算机科学与技术系,山西 运城 044000)



基于支持向量机的P2P流量管理模型设计

杜经纬

(运城学院计算机科学与技术系,山西 运城 044000)

对P2P的网络流量进行识别是P2P研究领域中的一个重大难题,为了实现对其管理,提出了一种基于支持向量机(SVM)的P2P流量分类管理模型.首先获取P2P网络流量数据,然后将获取的样本数据输入SVM并对SVM进行训练,最后将测试样本数据输入SVM进行P2P流量分类管理.仿真实验证明了该方法具有较高的检测率和较低的漏报率.

支持向量机;流量;P2P;训练

随着互联网的进一步普及,点对点的网络(peer-to-peer,P2P)[1-3]作为一种全新的互联网技术目前已经得到飞速发展,Ipoque在2008—2009年的P2P研究报告中指出,P2P的业务流量目前在互联网的业务应用中占据了主要成分,达到总量的69.95%.[4]不过,P2P的应用虽方便了人们的日常生活,却也同时造成了巨大的带宽消费和网络拥塞,降低了网络的性能和服务质量.[5]因此,对P2P的网络流量进行识别成为网络流量识别中的一个重大难题[2].

薛凯等[6]提出一种基于小波变换和ESN的P2P流量预测模型,将原始的P2P流量分解为不同尺度的高低频分量,对根据不同分量特征匹配不同参数的ESN模型分别进行预测,并将多路预测的结果整合进行输出.支持向量机(Support Vector Machine,SVM)是一个浅层的二分类器,能用于解决P2P流量问题.郭伟等[7]提出用时间代价作为标准的双SVM构造分类器,采用K均值聚类算法来快速生成具有标签的样本集,将有标签的样本集作为SVM的训练样本,通过构造的双SVM分类方法快速进行P2P流量识别.刘三民等[8]提出了一种基于K均值聚类算法和SVM的P2P流量识别方法,将标签样本作为数据集,采用K均值算法训练聚类器,根据最大后验概率分配簇标签,用投票机制集成无标签样本标签信息,并结合原始标签样本来训练SVM.这些研究主要涉及网络安全预测和防御的相关工作,往往仅根据网络的物理特性或通信双方的具体内容来进行安全预测,没有考虑语义信息,不能准确地对网络的安全事件进行高效预测.为克服以上方法的不足,笔者设计了一种基于SVM的网络安全事件预测方法.

1 基于SVM的P2P流量分类管理模型设计

基于SVM的P2P流量分类管理模型如图1所示.从图1可以看出,基于SVM的P2P流量分类管理模型的过程为:(1)用网络信息提取模块提取网络数据流中的信息;(2)首先,将网络数据信息转换为网络连接记录,并经过数据预处理模块对这些信息进行处理,从而得到网络P2P流数据;然后,用网络P2P流数据作为样本数据训练SVM;最后,将分类结果作为流量管理的分类结果.

图1 基于SVM的P2P流量管理模型

2 模型实现

2.1 最小二乘支持向量机

最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)由最小二乘方法和 SVM相结合而形成,即建立一个类别之间的超平面,并以最大化类别到超平面的距离为目标来训练分类器.

2.2 基于SVM的流量分类

在获得P2P的网络流量数据后,将其作为样本数据,并输入SVM进行训练,得到目标方程的参数值,此时将测试的样本输入到训练好的SVM就能获得样本的分类.由于一个SVM仅能进行2类样本的分类,因此对具有n种类别的样本,需要构造n(n-1)/2个SVM.

假设样本数据为{xi,yi}(1≤i≤n),n表示样本总数,xi∈Rd是维数为d的输入向量,yi∈R是对应的输出,yi的值为+1或-1.超平面的形式为wTφ(x)+b=0,使得

(1)

其中:φ(x)表示低维映射到高维空间的非线性变换;w为超平面的法向量;b为偏差.这2类的分类间隔为2/‖w‖,故要使分类间隔最大,就要求‖w‖最小或‖w‖2/2最小,因此满足(1)式并且与超平面最近的向量为支持向量.

现在,2分类的优化问题可以表示为

yi(wTφ(x)+b)-1≥0 i=1,2,…,n.

(2)

要使‖w‖最小或‖w‖2/2最小,就要求最小化‖wTw‖,即目标函数f可以表示为

(3)

将(3)式中c和ξi分别表示惩罚因子和松弛变量,通过拉格朗日乘子法进行求解.假设拉格朗日乘子为λi,(2) 式对应的优化问题可以表示为

(4)

LSSVM对函数的估计可以表示为

f(x)=sign(λiyiK(xi,xj)+b),

(5)

其中K(xi,xj)=φ(xi)φ(xj)为核函数,sign为基本符号函数.

2.3 核函数的选择

3 仿真实验

将选取的100 000条数据记录作为实验数据集,对基于SVM的网络安全事件预测方法进行验证.测试数据集一共分为4组.数据集包含训练样本数据集和测试样本数据集,训练样本和测试样本如表1所示.

表1 训练样本和测试样本

将表1所示的样本数据输入到SVM模型进行训练,得到训练好的SVM模型,然后将测试样本数据输入到此SVM模型中,进行分类,最后用检测精度、误报率、漏报率来描述检测性能.检测精度为分类正确的样本数与总样本数的比值,误报率表示非P2P样本被认为是P2P的样本数与非P2P样本总数的比值,漏报率为P2P样本错认为是非P2P的样本数与P2P样本总数的比值,实验结果如表2所示.从表2可以看出,基于SVM的网络安全事件预测方法具有较低的误报率和较高的检测精度,是一种合适的P2P流量管理模型.

表2 实验结果

4 结语

设计了一种基于SVM的P2P流量管理模型,将P2P网络流数据作为样本数据对SVM模型进行训练,实现对P2P的流量管理,并通过仿真实验证明了基于SVM的网络安全事件预测方法的有效性.由于SVM的性能在很大程度上取决于核函数的选择和参数的设置,因此,下一步的工作就是用自适应的方法选择核函数和核函数参数,以进一步提高P2P的流量管理性能.

[1] CHEN Zhenxiang,YANG Bo,CHEN Yuehui,et al.Online Hybrid Traffic Classifier for Peer-to-Peer Systems Based on Network Processor[J].Applied Soft Computing,2009,9(2):685-694.

[2] 袁雪美,王 晖,张 鑫,等.P2P流量识别技术综述[J].计算机应用,2009,29(S2):11-15.

[3] SILVIO VALENTI,DARIO ROSSI,MICHELA MEO,et al.Accurate,Fine-Grained Classification of P2P-TV Applications by Simply Counting Packets[C]∥Proceedings of the First International Workshop on Traffic Monitoring and Analysis.Berlin:Springer-Verlag,2009:84-92.

[4] WEI Yongtao,WANG Jinkuan,WANG Cuirong.Network Traffic Prediction Based on Wavelet Transform and Season ARIMA Model[J].Lecture Notes in Computer Science,2011,6 677:152-159.

[5] 徐周李,姜志宏,莫松海,等.基于应用层签名的P2P流媒体流量识别[J].计算机应用研究,2009,26(6):2 214-2 216.

[6] 薛 凯,周亚建,平 源,等.基于小波变换和ESN的P2P流量预测模型[J].计算机工程与设计,2013,34(4):1 147-1 152.

[7] 郭 伟,王西闯,肖振久.基于K均值和双支持向量机的P2P流量识别方法[J].计算机应用,2013,33(10):2 734-2 738.

[8] 刘三民,孙知信,刘余霞.基于K均值集成和SVM的P2P流量识别研究[J].计算机科学,2012,39(4):46-48.

(责任编辑 向阳洁)

Design of P2P Traffic Management Model Based on SVM

DU Jingwei

(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000,Shanxi China)

Network traffic recognition of P2P is one of the significant problems in P2P research.A classification management model based on SVM for P2P is thus proposed for its management.Firstly,the data is obtained from P2P network traffic;then the obtained sample data is input to the SVM for training;finally,the test sample is input to the SVM to realize its classification.The simulation experiment shows the method in this paper has the high detection rate and low false negative rate.

support vector machine;traffic;P2P;training

1007-2985(2015)04-0026-04

杜经纬(1979—),男,山西芮城人,运城学院计算机科学与技术系讲师,硕士,主要从事计算机网络与信息安全研究.

TP393

A

10.3969/j.issn.1007-2985.2015.04.007

猜你喜欢

超平面向量流量
冰墩墩背后的流量密码
向量的分解
全纯曲线的例外超平面
张晓明:流量决定胜负!三大流量高地裂变无限可能!
涉及分担超平面的正规定则
聚焦“向量与三角”创新题
寻找书业新流量
以较低截断重数分担超平面的亚纯映射的唯一性问题
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线