网络流量检测方法研究
2020-08-04许朝晖
许朝晖
摘要:当今互联网发展迅速,网络应用涉及到人们日常生活中各个领域,导致网络管理成为目前的重大难题。网络流量分类在网络管理方面具有至关重要的作用,不仅提高网络质量,同时保障网络安全正常运营。
关键词:网络管理;流量分类;网络安全
中图分类号:TP393.08 文献标识码:A 文章编号:1007-9416(2020)05-0052-02
0概述
近年来,针对各种类型的网络流量异常检测国内外学者发表了许多论文及方法。参考Ahmed等的研究成果,提出了基于端口匹配、基于负责匹配、基于主机、基于机器学习等四类方法。但最为关键的分类技术是基于网络流量分类。网络流量分类技术是网络安全及管理的基础,通过将流量分类至规定的应用类型。因而网络流量分类技术在目前网络安全及管理领域具有决定性作用。网络流量分类技术:
1基于端口匹配分类方法
基于端口匹配分类方法通过获取端口信息并将端口号映射对不同应用分类,这种方法是目前最快最简单的流量分类方法。通用端口号0-I1023是由互联网地址编码机构分配,例如:端口80为HTTP协议应用端口,端口20.21是FTP通信,25、110号端口是常用电子邮箱协议端口,此外49152-65535为动态端口。
基于端口匹配分类方法优势在于效率快,计算复杂度低。早期研究者只需要要提取数据包头相关联的特定端口号,并和LANA库中TCP/lP端口号匹配。但缺点在于目前网络技术发展迅速,网络应用数目增多,混合端口、伪装端口的出现以及其他应用,该类方法降低了准确性和可靠性。目前]Pv4技术逐渐转型lPvl6,越来越多的单位将多个内部地址转变为一个外部公网地址,端口地址的转变(NAT)也大大降低了该类方法的有效性。面临当今开放性的互联网时代,用户个人隐私和大量重要数据存储在网络上,加密技术受到了人们的关注。由于原始数据转变成随机模式,使解密过程变得更为困难导致无法对流量特征进行识别。Petr Velan等人总结了有关加基于特征和负载的密流量的分类方法。
Thomas Karagiannis等人研究表明基于端口匹配的分类方法使用随机端口和伪装端口准确性大幅度降低,尽管基于端口匹配分类方法针对目前P2P应用准确性较低,但是效率快计算复杂度低,方便实现是这种分类方法最大的优势。
2基于深度包检测的分类方法
基于深度包检测的分类方法出现于上世纪90年代与基于端口匹配分类方法不同,不仅摆脱了非标准端口和随机端口的问题依赖,而且可以准确有效对具体类型进行分类识别。主要通过比较数据包和特征字符串,检测应用层有效负载内容来对流量进行分类,这种分类方式基于正则表达式匹配的方式。很多文献中又将这些字符串称为指纹,字符串主要存储在预定义的数据包中,因此也称预定义的字符串叫指纹库。
此外,深度包检测方法与基于端口匹配类方法相比针对P2P应用识别准确性要更优。Subhabrata send等人发现识别P2P应用可以通过应用层识别特征字段,并且在性能上面用五种P2P协议检查对比发现:此类方法具有扩展性,能够实现在绝大部分条件下小于5%的FP和FN。
深度包检测方法缺点主要表现在以下四个方面:
(1)计算复杂度较高。在处理大量数据检测是需要对字节进行逐个匹配,因此占据大量计算时间。面临现如今高速网络的时代,检测速度已经无法满足实时性需要。
(2)无法处理加密流量。目前开放性的互联网时代,用户个人隐私和大量重要数据通过加密或者协议封装存储在网络上。这种字符串匹配和正则表达式匹配的方式已经无法检测。
(3)获取指纹流量难度变得越来越困难。流量指纹需要通过匹配指纹库,由于匹配流量的唯一方式就是它,因而对于网络管理来说每出现新的流量就需要提取并添加已经变成了非常困难的任务。
(4)面临未知流量。因为深度包检测方法是一类匹配指纹库的方法,一旦出现指纹库未发现的指纹,这类方法就无计可施。从而引发现如今在网络攻击领域类突出的“Oday”攻击事件,由于目前很多检测系统是基于指纹匹配分类方法,攻击者依靠着这类方法的局限性:无法对未知指纹进行识别拦截,绕过入侵检测系统攻击主机。
3基于行为特征的分类方法
基于行为特征的分类方法是一类不基于端口和负载的分类方法,通过解析行为特征识别应用从而实现分类识别。所谓的行为特征指的是类似于通信主机使用的传输层协议在一段时间间隔内产生的流量行为模式,Karagiannis T在文献[2]中提出后BLlNC分类方法。该方法主要通过收集与主机产生反映傳输层行为的信息并解析,再将一个或多个应用程序与主机联系,产生对流量进行间接分类的结果。从Karagiannis T提出的结果数据报告中发现,使用该类分类方法可以将接近80%甚至90%的流量进行分类,并且可以保证准确性能够达到95%以上。基于Karagiannis的研究结果,熊刚等人在此基础对主机行为管理提出加密P2P流量实时分类方法。最后的实验数据表明,在流量分类的流量及准确性上与Karagiannis T的研究结果比较都是优于之前的实验结果,同时优化实验过程使计算更优,性能更高。
4基于机器学习的分类方法
有关机器学习相关技术理念是始于上世纪90年代Frank J提出的当前人工智能与入侵检测与未来的发展方向,这是机器学习技术在网络领域的首次运用。基于机器学习的分类方法原理是不同的应用类型取决于传输层的特征流识别,从而分为监督学习和无监督学习两大类。监督学习通过与训练集样本建立网络流特征关系对标记的样本数据进行流量分类,以贝叶斯、SVM、C4.5决策树、K近邻为代表。而无监督学习的典型检测方法是聚类,建立分类模型然后基于分类模型对新样本分类。该类方法无需标记数据根据相似性来分类。最为常见的聚类算法可以分为常规聚类和协同聚类:K Means、DBSCAN和AutoClass。Jeffrey Erman等人为了比较这三种聚类算法更优,通过收集两所大学公共网络数据进行验证,最终实验结果表明AutoClass聚类算法准确性更高更优。
一种Tom Auld等人提出流量分类器无须目标源、主机地址或端口信息基于贝叶斯神经网络,通过对当天的流量分类分析发现准确率能够达到99%。ID3和C42.5是决策树算法的典型代表,在一篇关于基于c42.5决策树的网络流量分类研究中表明:利用C42.5决策树网络流量方法与稳定性较高的朴素贝叶斯方法相比较更适合处理大规模流量分类。实验内容是通过训练后的数据进行重新构建分类模型,然后对未知网络流样本进行匹配分类模型,从结果数据显示C42.5决策树网络流量方法更具优势。
与经典机器学习分类方法比较,支持向量机流量分类方法具有更高准确性。支持向量机sVM分类方法是一种将正负样本之间最大化分隔平面的流量分类方法。近几年关于基TSVM的网络流量检测的研究国内外学者发表许多观点,Hu在2003年发表了一篇基于SVM的网络异常检测方法。为验证支持向量机流量分类方法具有更高准确性VapniK首次提出,同时Zhu Li等人发表的支持向量机算法对流量进行分类的实验数据表明无偏差训练和测试样本准确性都可以达到96.9%,此外基于支持向量机分类方法F-measure值更优,支持向量机sVM分类方法更具有可靠性。
Jun Zhan等人用四种方法通过F-measure值度量对两个数据进行每一类性能测试来验证最近邻分类方法是否会被数据集大小影响。通过实验数据表明,分类的准确性由每类F-measure影响。
关于BP算法存在缺陷问题,谭骏等人利用双粒子群算法优化神经网络初始权值动态确定神经元隐藏个数对基于BP神经网络的流量分类进行改良优化。最终的实验数据表明,改良的BP算法比传统算法相比更好同幅度增长14.3%,同时识别uDP协议准确率较高。
5结语
网络流量进行分类是网络流量检测的前提关键,选取正确高效的网络流量分类方法是重要步骤。目前的流量分类技术主要以机器学习技术为主,传统的机器学习分类技术基于统计和行为。如何改进检测方法提高网络流量分类效率,对于目前国内外研究人员仍有不断进步的空间。