网络业务流识别研究综述

2017-03-10宋龙高朱从喜

网络安全技术与应用 2017年12期

关键词：端口号网络流量端口

◆宋龙高朱从喜

（华信咨询设计研究院有限公司浙江 310014）

网络业务流识别研究综述

◆宋龙高朱从喜

（华信咨询设计研究院有限公司浙江 310014）

互联网的蓬勃发展出现了多种多样的网络运用功能，但与此同时也爆发严重的安全危机。分类和识别互联网流量能够营造安全可信的互联网环境，保证各项网络服务功能可以正常发挥作用。

网络业务流；文献研究；网络技术

1 网络流量分类和识别的意义

1.1 便于网络管理

网络管理员能够通过网络流量的分类和识别，了解到当前网络的运行状况，及时进行设备的抢修和拥塞链路的疏通。同时可以帮助管理员明确当前的网络结构，根据网络流量的分析结果进行网络结构的科学优化和补足设计[2][3]，防止出现扫描式的修补和投资。

1.2 便于安全检测

网络流量能够察觉到各种病毒信息，受到不同病毒信息影响时网络流量会呈现出不同的变化趋势，因此分类和识别网络流量能够分析不同的病毒信息，如木马、僵尸[5]、分布式拒接服务攻击[1]等等。而且网络流量的识别和分类，能够让网络提供商加强网络安全的监管力度，保证用户的个人隐私。

1.3 合理配置流量工程

虽然当前的网络应用较多，但是在众多网络应用中，少部分应用占据大多数流量，甚至会影响内存导致其他网络应用无法正常发挥功能。ISP为了实现网络流量的合理分配，根据不同用户的需求提供针对性的网络服务。通过网络流量的识别和分类可以了解不同应用的实际运用情况，了解网络应用的未来发展状况的发展潜力，采用预期性的路由政策，保证网络流量资源的合理配置。

2 网络流量分类和识别发展现状

网络流量的分配和识别，能够了解当前网络业务的开展状况，进行网络结构的科学优化和补足设计，及时进行设备抢修和拥塞链路的疏通，提高服务质量等。如今越来越多的学者专家开始进行网络业务流精确识别和分类研究，这是当前的热门研究方向，目前在众多学者专家的努力下取得了骄人的成绩。当前业界内权威的方法有四种，分别为：主机行为法、端口分析法、深度包检测（DPI）流识别法以及流统计特征的识别方法。

早期互联网地址指派机构（Internet Assigned Numbers Authority，IANA[7]）颁布了端口映射表，成为指导人们识别和分类网络业务流的准则，可以进行网络业务流的分类。操作基础是SYN包或TCP，根据端口号确定网络业务流，这是较为基础和简单的操作方法[2]，也是当时业界内使用较多的方法。但是随着新技术的发展，这种原理简单、操作简便的识别方法，已经不能满足当前的社会需求，而且弊端也逐渐显露，P2P的应用也让它逐渐被时代淘汰[10][11]。临时端口无法得知动态端口号信息和IANA信息。很多P2P应用是基于动态端口或隐藏端口，因此防火墙难以实现有效的阻隔，当前的互联网环境下这种分类方法已经逐渐丧失竞争优势。

3 网络流量分类和识别的国内外研究综述

二十一世纪初Moore[3]等人通过IANA列表信息确定端口的分类标准，实践后发现获取的分类结果拥有低于七成的准确率。Williamson[4]等人通过实证测试了解端口号流量的识别情况，发现近6成的流量无法进行有效识别。

在当前的互联网环境下，端口号网络流识别方法已经逐渐丧失竞争优势，为了满足当前的流量识别需求，众多学者专家和网络工作者希望能够研发出更加精准的识别方法，能够提高网络流量分类的准确率，由此诞生了基于深度包检测（Deep Packet Inspection，DPI）的网络流识别分类方法。Sen[13]等人发现该方法的确能够改善以往网络流量分类准确率不足的情况。Papagiannaki等在该技术的基础上结合端口号后，能够识别69%的网络业务测试流，能够实现近百分之百的分类流量识别率，虽然基于深度包测试的方法能够弥补以往测试方法的不足，但是本身并不是完美无缺的：如果网络流数据包超出负荷，处理器虽然能够维持运转但是内存消耗量巨大，容易造成硬件设备的损坏；而且移动宽带的拓宽，需要处理和解析的数据流量越来越多，很多重要数据资料无法保存，会影响顾客的使用体验；加密处理虽然能够保障通信数据信息的隐秘性，但是也会降低网络业务流分类的效率和准确度。

不管是基于端口号还是DPI，这些分类识别方法都会泄露隐私信息和违反国家法律规定，而且难以对动态加密信息进行识别分类。而基于主机行为的方法，既不需要端口号，也不需要获取数据包的字符信息，但是也可以进行网络流的分类和识别。Karagiannis等人在研究P2P流量的识别时，发现基于P2P流量额连接模式明显优于深度包检测方法，能够实现近99%的P2P流量识别。之后Karagiannis[17]等人在以往研究成果的基础上，指出基于主机行为的识别分类方法具有明显的优势，不仅能够识别较多的实验数据流量，而且准确率高。可是该种方法的识别分类能力较差，如果首层加密后就会切断与其他域的关联，该种方法也无法正常发挥功能。

上述介绍的方法主要有各自的优缺点，学者专家在总结三种方法的优缺点后创造出更为科学有效的方法——基于机器学习的流统计方法，它不仅将以上方法的优点结合，而且能够改善上述方法的不足之处，受到越来越多学者专家的重视和推崇，应用范围越来越广。目前分类方法分为无监督学习和有监督学习两种。Mcgregor等人将数据包内存、网络流量时间等作为分类标准。Zander等人结合SFS和贝叶斯分类方法，选出有效的特征集后可以自发分类数据流。Erman等人在研究网络流的分类时，将平均包内存、时间和间隔作为WeB、FTP的分类标准。Murthy是决策树概念的首创人，Corinna Cortes等人是向量机(support vector machine，SVM)分类方法的首批拥护者。Zhu Li等人选取9个特征作为流量分类指标，在SVM方法的帮助下发现该种分类方法的准确率较高。Auld等人在研究网络流时，结合神经网络分类标准获得246个特征数据，网络数据流分类识别结果的准确率较高。Williams等人在对比不同的分类方法后，指明每种监督学习分类方法的优势，其中比较典型的就是 C4.5决策树，它不仅能在较短时间内获得分类结果，而且准确率较高，可是无法和其他算法拉开差距，与其他算法也没有本质差别。王宇等人确定了 C4.5决策树算法的适用范围，认为一般复杂情况的网络流可以应用该方法，而且能够保持较高的准确率。徐鹏等人在研究 C4.5随机决策树算法时，通过实践结果证明它的高效性和准确性。

4 小结

无论是基于深度包检测、基于端口还是基于主机行为，这些网络业务流识别和分类方法都有各自的缺点。二十一世纪以来互联网技术的发展，互联网环境复杂多变，因此这些方法都无法满足当前网络业务流的分类需求。相较于上述三种方法而言，基于流统计特征的网络流量分类方法能够较好的满足数据流的分类需求，不仅速度快而且准确率高，可是该种方法也不是完美无缺的，需要解决测试样本敏感的问题，这也需要众多的学者专家和研究者们不断努力，不断进行方法的改进和完善，从而满足当前互联网环境下网络流分类识别的新要求。

[1]刘颖，朱斯燕，孙晨华，李国彦．面向时延约束的多跳自组网络性能建模分析[J/OL]．北京邮电大学学报，2017．

[2]曹静，武君胜，杨文超，王硕晨．认知无线Ad Hoc 网的多尺度跨层路由协议[J/OL]．西安电子科技大学学报，2017．

[3]张元宝，唐伦，陈前斌．基于业务感知的增强型小区间干扰协调算法[J/OL]．计算机应用研究，2017．

[4]高会生，方子希．PTN时分复用业务的时延抖动分析模型[J/OL]．西安电子科技大学学报，2017．