APP下载

宽带流量分析方法探讨

2016-08-04林波

科技传播 2016年13期
关键词:统计流量分类

林波

摘 要 网络流量的具体内容通常不可知,通过网络流量分析可以获得网络流量的各项统计数据,发现流量的访问规律,结合网络管理的各项手段发现网络中存在的问题或流量可能对网络产生的不良影响,并为下一步制定或修正网管策略提供依据。

关键词 流量;分类;检测;统计;分析

中图分类号 TN91 文献标识码 A 文章编号 1674-6708(2016)166-00104-01

近年来宽带网络一直保持高速增长,光纤到桌面已基本实现,但网络中巨大的流量会对网络产生怎样的影响,这些流量是如何构成的,始终是一个问题。通过对宽带流量的分析我们可以知道流量的源头和目的、知道协议分布、知道端口情况、知道通信经营指标等、当然最重要的还有数据的安全性。

不同的网络,不同观察点,不同时间的网络流量因网络规模,业务种类,用户构成和使用习惯的不同而不同,甚至受突发事件的影响,网络流量在体量规模,构成成分和比例上都有所不同。一个好的流量分类分析系统,应满足部署位置上的可移植性,流量规模的可伸缩性,时间演进的自适应性。这时系统不仅需要采用先进的分类技术,也需要代表性的训练数据集来确定系统运行参数。数据集主要采用2种方式:PCAP格式和NETFLOW格式,前者捕获的是包级记录,后者则是关于流级得统计信息记录。

宽带流量的分析和检测首先要进行流量的采集,这项工作可以通过交换机或路由器的镜像端口实现,也可以通过光缆分光的方式实现。对捕获的数据进行计算和统计,并把统计数据写入数据库,定期形成网络性能和流量参数的报表,用作分析的依据,在形成足够数量的报表数据后,可以分析数据和系统性能变化的趋势,判断网络是否存在瓶颈,并依据经验,形成经验数据库,使网管系统具备学习的基础和能力。在出现告警或异常情况时,可用来分析对比,判断是否出现了网络的攻击和入侵,判断恶意数据出现的源头和特征,足够数量的数据报表也可以指导各类应急预案的制定,在出现异常情况时可按照事先拟定的规则进行处理。

对于宽带流量的分析和分类,系统需要进行统计模型的学习,统计模型的学习可以分为监督学习和非监督学习方法。所谓的监督学习是需要使用已经标注过的数据集合作为经验知识,对宽带流量的参数和算法进行训练;而非监督学习则不需要使用已经标注过的数据集进行训练,只是根据相关算法对宽带流量集进行汇聚。对数据集的训练过程中需要由经验丰富的专家参与,并进行大量的基础数据分析工作,网络经验数据集是流量分析的重要构成因素。在实际分析过程中,由于宽带核心网络的流量巨大,所以高性能的预处理路由器和大规模刀片服务器必不可少。为了提高分析效率,可以只分析单向流量,并且在预处理过程中将IP数据报文的载荷去掉。但由于各种网络协议不断演进,加密的流量不断增加,各种新应用不断出现,网络数据集的标注也变得越来越困难。

网络流量的分类和分析中对于标准协议的分析最为准确,可根据TIP/IP协议簇中标准的服务端口号对流量报文进行匹配,并根据端口号的不同将流量对应为不同的应用。非标准协议可以使用DPI(深度包检测)在应用层对流量进行特征字符串的分析匹配,由于不同的应用在TCP/UDP的数据包中包含特征字符串,因此在掌握的不同网络应用的特征字符串后,可以将网络流量精确的分类和匹配,缺点是需要消耗较多的系统资源。但很多网络应用的特征字符串难找易变,代表性差及加密度高等问题,也导致误检率和检全率下降。流量分析监控和网络应用的发展一直是不断演变的矛盾。

基于协议的分类方法需要分析每种协议的特定的行为特性,标准的通信协议易于掌握,私有协议比如P2P或VOIP等基于软硬件客户端的应用则会有较多的变化,或进行加密使用就会影响流量分析的效果,甚至无法识别。有时同一应用软件的不同版本间也会出现不同的流量特征,即版本的变化会造成协议特征的变化。另外,网络中的单向流量、数据的时延、抖动都会对流量分析的算法产生影响。以上这些因素都是流量分析的难点和痛点。

运营商的骨干网络逐渐向扁平化发展,网络出口的数量增加和结构日趋复杂,及动态路由算法的大量使用,使得网络流量在多条链路或多个不同ISP之间动态调配,导致在某个观察点只能得到部分流量,这对于依赖双向流量特征的分析方法无法实施。基于P2P的应用目前也在不断扩大,P2P的发展使得应用和传输分离,应用端点和传输分离,打破了原有的B/S或C/S的传统传输模式,多源头并发传输使得流量特征模糊化,使得数据采集的有效性无法保障。还有一些网络应用为了逃避被检测到,常常采用已知协议的方法,例如FTP、HTTP、POP3等,由于IP地址的区分,冒用已知协议并不会影响正常网络通信,但给流量分析带来很大难度。

宽带网络流量分析不仅可以使我们可以清楚的知道网络流量的内容,还可以为网络建设、网络优化、运营管理、网络安全保障提供依据和手段。同时,网络应用在不断推陈出新,各种私有化的协议和加密方法不断出现,且由于用户接入带宽的不断提高,核心网流量呈几何速度增长,这些因素在客观上也大大增加了网络流量分析的难度和成本。现有的网络流量分析再次面临挑战,网络流量的分析研究工作需要不断深入进行。

参考文献

[1]Nader F.Mir.计算机与通信网络[M].潘淑文,等,译.北京:中国电力出版社,2010,1.

[2]余浩,徐明伟.P2P流检测技术研究综述[J].清华大学学报,2009(4):610-620.

[3]彭芸,刘琼.Internet流分类方法的比较研究[J].计算机科学,2007,34(8):58-61.

[4]汪立东,钱丽萍.网络流量分类方法与实践[M].北京:人民邮电出版社,2013.

猜你喜欢

统计流量分类
冰墩墩背后的流量密码
张晓明:流量决定胜负!三大流量高地裂变无限可能!
分类算一算
寻找书业新流量
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
2008—2015我国健美操科研论文的统计与分析
五位一体流量平稳控制系统