一种基于OPTICS聚类的流量分类算法
2017-05-26黄琳凯
黄琳凯
【摘要】 早期,有人就提议了一个可以避免因为人多导致流量受到干扰的方法,就是实时监控,并对流量进行分类的方法,这种方法在最早的时候才用的是DPI技术进行对信息流的分类,这为以后的聚类算法起到了奠基的作用,通过对OPTICS聚类算法思想的应用,使用数据点的个数对流量进行稠密程度划分,以此来完善信息的聚类,并有针对性的对各个用户提供相应的服务。
【关键词】 OPTICS 聚类算法 网络流量
引言:随着科技的逐渐发展,越来越多的人们开始走向互联网时代,随之而来的是网络业务的繁多。为了能提高网络的服务质量和服务的速度,更多的研究与如何构建客户关心的服务为起点的新型的网络构架。不一样的业务内容,需要不同的服务水平,而网络流量是对客户的运动进行记录和报告的重要的一项东西。进行流量分类的研究,可以让网络的每个业务内容有不一样的服务内容,这样可以使网络或者某些系统进行快速的业务布置,以此提高网络的承受能力,同时改变网络的服务质量。
一、OPTICS算法
本文首先将域数据流特点有关系的信息相结合,然后在对其采取方案,但是各个网络流的内容不同,那么在对其进行分析的时候要将数据包的特征进行检测,就会发现不同的数据包流量。根据上述的一些特点,在对数据包进行抽选的时候,选择深度的检测进行识别。根据图1所示,要想获得更多的特点向量,就要使用OPTICS算法进行聚类,然后对无法识别的数据更具聚类算法将其分类到相应的业务当中。
二、改进的OPTICS算法
1、改进算法思想。OPTICS聚类算法不是根据参数值进行运算,而是对数据对象的顺序进行排列,在每一个业务当中,数据都根据核心距离和可达距离进行排列,在依据其数据点的稠密度进行聚类,这样可以完成自动与互动的聚类解析。这种算法的对象是随机筛选的,以他为起点,朝着最密集的地方发展,最后将所有的数据排列整齐。以OPTICS算法收藏对象的核心距离以及可达距离,随机聚类,然后根據这些的参数金额Min P ts不敏感进行收集。在这种策略的奠基上,对对流量特点进行算法的调整,由此形成了OPTICS聚类算法。根据第一个数据流为基础,计算一他未开始向后的所有数据流与第一个特征向量的可达距离,并确定数据点的方位;同时记录距离基础点的每个数据位置,经过这些计算之后,将相同距离的数据流放到一起,在将其他的有落差的放在一起。
2、算法步骤。提取完信息流之后,根据其产生的向量,类似一个空间的数据点,通过它对OPTICS进行改进,如图2所示。1.将向量作为开始,和核心。2.计算新的数据流的流向特征向量和基本点的向量之间的可达到距离,运用公式对其仅从确定距离的远近,设流量数据点Q的方向,是据点根据原始点的距离远近进行从低到高的排列顺序,并用公式对其进行向量距离的记录;3.同时运用数组CUN{N11,N12...},N11表示激励原始点的最近的激励的特向向量的数量,N12是代表原始点的近距离的特征向量的数量;4.参考最开始的原始点数的DPI的聚类个数,对CUN{N11,N12...}进行分析,并确认和记录他的临界点。5.分别计算临界点和相邻的两种相差的数,然后在进行分析,对于边缘点的类似程度的大小进行分类,以此来完成聚类。选择每个聚类的中心数据点,并在该点上的最小数放到这个数据点上,到达完整的覆盖。
三、实验结果
为了证明这回总算发的实用性,在不同的时间和地点利用Netmate工具收集运营网络中的数据流,整理看多有完整的数据包的采集,Netmata工具可以算出属性特征,把相同的IP地址、源代码、目的地址/端号口等进行分组,分到一起形成1个流,然后运用DPI技术对采集到的数据进行识别。
针对这三组数据,可以看出具体的业务流70.63%、61.48%、85%,无负载的流量分别占总流量的16.7%、25.1%\9.63%;识别不出的业务分别占总流量的8.36%、13.48%、9.64%,还有些业务是无法识别的,对其进行了加密。
从表2看出,DPI的初次检测,大部分的信息流都是可以确认的类型,但是对于加密的数据流量还是没有办法查看,但是运用了聚类算法之后就可以对其分类,OPTICS聚类算法可以进行分类和改进,下面的表3、4是运用聚类算法后的答案,通过这两个表格可以看出改进后的OPTICS一种算法上有所提高。
结论:本文运用的方法是之前使用过的DPI技术,他对数据流进行检测识别,然后进行辨别数据流的业务类型,为以后的聚类个数进行指导。对未识别的数据流,通过OPTICS算法进行聚类,从而对无法识破的数据流的业务类型进行识别,到该方法的最后阶段,聚类算法不在因为人为因素和之前的聚类中心和数据顺序的干扰。这个方法在之前的识别业务类别的时候可以为以后的聚类有个良好的奠基,还能检查出这种方法的有效性和稳定性。
参 考 文 献
[1]张建伟 王玲艳 姚云磊 一种基于OPTICS聚类的流量分类算法[J] 2012.11
[2]邱密 阳爱民 刘永定 使用贝叶斯学习算法分类网络流量[J]计算机工程与应用2010.05
[3]李卫 边江 王盈 动态网络流量分类研究[J]电子科技大学学报 2007.12