APP下载

基于SVM增量学习的P2P流媒体流量识别策略分析

2015-05-29滕翠梁川邓秀娟

电脑知识与技术 2015年10期
关键词:识别

滕翠 梁川 邓秀娟

摘要:网络信息化时代,对于网络中的不良流量信息进行有效的监控,然后采取有效的措施对不良流量进行抑制,对于促进网络安全和网络服务水平具有重要的意义。当前的P2P流媒体流量是网络流量监控的重点和难点,需要进行广泛研究。该文首先对当前的P2P流媒体流量的识别技术进行一定的介绍,然后对基于SVM增量学习的P2P流媒体流量识别中涉及到的一些算法、机制等进行分析,希望相关论述能够促进人们对于P2P流媒体流量识别技术重要性的清晰认识,提升人们的网络安全意识。

关键词:SVM;P2P;增量学习;识别

中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2015)10-0192-03

科学技术水平的进步,尤其是网络技术的发展,给人们的生活方式带来了巨大的变革,极大的促进了人们的生产生活面貌。但是,由于近年来的对等网络(Peer-to-Peer)技术的发展,产生了许多的P2P应用,这些应用的使用给一部分人带去巨大的商业利润的同时,也给网络的安全造成了严重的危害。据有关部门的统计分析,在整个互联网的总流量中,P2P占比已经达到七成,而且P2P在网络中占据的流量正在以每年350%的增长率增长。这样情况的存在,首先使得带宽被极大的消耗,从而引起网络的堵塞;其次是,由于开放式的结构使得互联网中的病毒、木马、色情信息等形成了无限制的传播;最后,则是由于这种现象的存在,使得传统的互联网中的非对称流量模式被打破,使得网络服务供应商的利益受到严重的损害。因此,不管是从网络的监管部门还是网络的运营服务商,都希望对网络中的P2P流量进行合理有效的监控。在P2P流量的监控中,主要的步骤是流量的采集、对流量的识别和对流量进行监视控制。在这个环节中,流量的识别处于最重要的地位,因为只有对流量进行有效正确的识别,确定异常的P2P流量,才能帮助后续对这些P2P流量进行监视和控制。由于流量识别的重要地位,因此在网络测量领域,研究P2P流量的识别是广泛研究的问题。目前,对于P2P流量的识别,研究者已经研究出不同的方式进行识别,各种方法有其特点,不过总体而言,对于我国的P2P流量识别监控都起到了重要的帮助。笔者结合当前的基于SVM增量学习的P2P流媒体流量识别方法进行一定研究,对其中的识别策略进行分析,希望能对P2P流量识别技术的发展起到一定的促进作用。

1 P2P流媒体流量识别技术

当前,针对P2P流媒体的流量识别,虽然方法种类比较多,但是采用到的技术还只有基于应用层签名的识别技术、基于行为特征的识别技术和基于机器学习的识别技术三类。如下将对这三类技术进行简要的介绍,以期能够对P2P流媒体的流量识别技术有一个简单的认识。

1.1 基于应用层签名的P2P流媒体流量识别技术

基于应用层签名的流媒体流量识别技术,目前对于其研究主要是依据部分学者对PPLive、QQLive、UUSee、PPStream、SopCas这几种主流的P2P流媒体平台的应用层签名特征进行分析,提出基于各自签名特征设计的专用识别技术,然后基于实践论证的方法对这种基于应用层签名的流量识别技术进行验证,进而确定这种方法有效。例如,有学者主要通过对IPTV的一些数据进行分析,对通信系统在运行时存在的地址、协议定义和数据传输三个方面的具体特征,然后提出一种基于对三种特征进行结合的识别方法,由于这种方法只能识别到应用层的信息流,因此这种方法只能适用于非加密的流量。其他学者研究的基于应用层签名的流媒体流量识别技术,能够识别的流量也只能是那些没有加密的流量。虽然这种方法简单可行,但是这种方法对于那些加密流量P2P流量的识别将会失效。

1.2 基于行为特征的P2P流媒体流量识别技术

目前,采用基于行为特征的流媒体流量识别技术,主要是PBS(Periodic Behavioral Spectrum,周期行为谱)方法。这种方法主要是对不同应用流量由自相关函数(ACF)和离散傅里叶变换(DFT)产生的频域结果周期特征,最终对周期特征进行解析,利用相关差异性来识别不同的应用。在实际的应用中,这种方法的识别精度较高,但同时也存在着不同应用具有相同周期特征的现象。因此,可能会对未来的有效正确识别带来一定的影响。

1.3 基于机器学习的P2P流媒体流量识别技术

近年来,在对P2P流媒体流量识别技术的研究中,基于机器学习的识别技术成为了主要的研究方向。有的学者提出一种Abucas方法,这种方法采用的原理是在短时间窗口内统计发送不同长度数据包的节点数量来构造Abucas特征,然后采用SVM(Support Vector Machine,支持向量机)训练出分类模型,然后借助分类模型,对流量进行分类然后识别。采用Abucas方法,提出的依据IP和Post进行分流的思想,对于P2P流媒体能够进行有效的精细识别,但是,如果P2P流媒体应用运行主机连接的节点较少时,采用这样的方法识别精度将会大大降低。

2 基于SVM增量学习的P2P流媒体流量识别策略分析

2.1 基于SVM的反馈学习机制

在网络数据流量的识别中,反馈学习是一种重要的提高识别效率的方法。反馈学习在P2P流媒体流量识别中占据有明显的优势,主要有两个方面:一方面是能够对因为初始训练样本集不完备导致的分类算法学习不充分的问题,另一方面是对P2P应用不断变化使得训练样本并不能立即得到调整改善优化的问题得到有效解决。在平常我们讨论的流媒体流量识别的训练过程,根本性的要点就是将分类算法应用于对训练样本进行学习,然后创立对应的支持向量库,这种操作是一次完成的,但是在实际的分类训练过程中,由于系统并没有对支持向量库进行改变,因此,这种形式的样子根部无法有效识别P2P。但是,在基于SVM的反馈学习中,这方面的问题都得到了有效的解决。在基于SVM的反馈学习中,主要进行了两个过程,一个过程是进行反馈判断,另一个过程是优化反馈样本。在其中的反馈判断阶段,其采用的的具体机制是:在识别系统运行一段时间后,采取进行人机交互的方法对相关信息进行反馈判断,然后再对识别的结果进行具体的衡量,如果识别出来的样本与用户判断的样本不一致,则表明这个过程中的有关样本信息已经包含在了支持向量库中,这个时候,就不需要进行反馈。

2.2 基于SVM的增量学习算法

将样本和SVM样本组合成新的训练集,然后对其加以训练,从而实现增量学习的方法就是基于SVM的增量学习法。由于在P2P流媒体流量识别的实际应用中,不仅需要保证识别的准确度还需要考虑识别的速度,因此,采用上述的增量学习算法的方法显然具有较高的优势。对于采用这种基于SVM增量学习算法的P2P流媒体流量识别技术,其算法的具体机制和步骤如下:

步骤一:采用初始的训练集进行训练,得到SVM的初始分类器A,对于A的支持向量,用Asv表示;

步骤二:将新增的样本集和Asv集构成新的训练样本集,进行继续训练,训练之后能够得到一个新的支持向量集,称为新的分类器B和新的支持向量Bsv。

步骤三:令Bsv=Asv,然后重复步骤二的工作。

2.3 基于SVM的反馈增量学习算法

由前述基于SVM的反馈学习机制和基于SVM的增量学习算法的结合,便能够形成对P2P流媒体流量进行有效识别的基于SVM的反馈增量学习算法。在基于SVM增量学习的对P2P流媒体流量识别的系统中,其最终有效发挥作用的机制就是基于SVM的反馈增量学习算法。系统在运行时,需要进行反馈判断的样本就是自动保存的样本,在反馈判断过程中采用的方式为人机交互,然后采用支持向量机的增量学习算法来实现对反馈样本的优化。

2.4 基于SVM增量学习的P2P流媒体流量的有效识别

从前述对基于SVM增量学习的算法、反馈机制结合形成的基于SVM反馈增量学习算法,对于P2P流媒体的流量进行了有效的识别。在实际的应用中,由于需要新增P2P样本,而且这些新增的样本全部被加到已有的P2P样本中进行再次的重新训练,但是,由于在实际条件中,如果训练子集的P2P样本和增量P2P样本集存在较大的分布变化时,需要进行两类支持向量的转化,对此,为了更好的实现识别的效果,有学者采用基于多SVM分类器并行的学习方法,在实践中,这种方法不仅将学习问题的规模进行了大大的减小,而且也对增量学习的时间复杂度降低。因此,基于多SVM分类器的训练方法,有针对性的将每层的支持向量进行合并,然后重新加入到各组P2P训练样本的反馈增量进行重复的训练,大大的改善了SVM分类器的性能,对于复杂的P2P流媒体的流量识别起到了很好的识别效果。

3 总结

在P2P流媒体流量的识别中,采用基于SVM增量学习的系统进行识别,不仅对于识别的精度有着较大的提升,而且对识别的时间也大大缩短。在实际的应用中,这种方法取得了很好的效果,是当前对于P2P流媒体流量进行有效识别的主流方法。由于P2P流媒体流量的识别工作所面临的困难不断更新,因此,相关学习算法和机制仍需不断完善,以期能够有效促进P2P流媒体流量识别技术能够发挥真正的作用。

参考文献:

[1] 李进.基于SVM增量学习的P2P流媒体流量识别方法研究[D]. 长沙:国防科学技术大学,2010.

[2] 贺阳.P2P流媒体业务流量分析与识别[D]. 北京:北京邮电大学,2012.

[3] 盘善荣.基于SVM的P2P流量识别方法研究[D]. 长沙:长沙理工大学,2009.

[4] 杨楷.P2P流媒体识别技术研究[D]. 郑州:解放军信息工程大学,2013.

[5] 刘振天.局域网监管中的P2P流媒体流量识别与阻断技术研究[D]. 北京:北京工业大学,2012.

[6] 李进,张鑫,王晖.用于P2P流媒体识别的类增量学习算法[J].计算机工程,2011(20):154-156.

[7] 徐周李,姜志宏,莫松海,等.基于应用层签名的P2P流媒体流量识别[J].计算机应用研究,2009(06):2214-2216.

[8] 袁雪美,王晖,张鑫,等.P2P流量识别技术综述[J].计算机应用,2009(S2):11-15.

[9] 毕孝儒.适于P2P网络流量识别的SVM快速增量学习方法[J].现代计算机,2014(15):3-6.

猜你喜欢

识别
青岛市中山公园园林树木易混淆品种识别