面向多类不均衡网络流量的特征选择方法
2022-03-17杨宏
杨 宏
(武汉铁路职业技术学院 湖北·武汉 430205)
0 引言
网络用户使用不同网络的频率不同,产生的流量也就具有了多类不平衡的特征。而根据网络流量使用率对流量进行分类处理,能够有效保障网络QoS值,维护网络的健康安全。由于当前端口号分类计数在对使用不固定端口的流量进行特征分类时,存在准确率偏低的现状,如何通过机器学习的特征分类技术提高此项数据的准确率成为计算机领域的研究热点。本文将对比不同的特征选择方法,通过实验数据,找出平均整体准确率最高的特征选择方法。
1 面向多类不均衡网络流量的特征选择方法
由于互联网应用中对不同的应用程序有不同的使用率,从而所得到的服务中存在着多种类别的不均匀特性。多类型均衡特征是指在数据集,某个类型(大类别)的比例大于其他类别(小类别),大规模收集率高,小类别收集率低。例如,大类别(WWW类别)对应于剑桥大学IP数据集所有样本的百分之八十五以上,而小类别(ATAA类别FTP-P类别等)则相对于不足百分之一。
在对数据集的直接分类中,WWW类型平均召回事件发生率接近为百分之一百,而atta类型的召回率则大致为百分之五十。而小类的比例则非常低,但对正确鉴别它们却十分关键。也因此,正确鉴别付费电话对检测互联网攻击和保障安全都十分关键。所以,很有必要增加小分类模型的可见性。为降低分类平衡的不利因素和增加小类的收集量,数据收集通常确保了特征的总体准确性。而因为重抽样往往破坏了样本的初始分布,所以选择特征的技术也被普遍采用。
选取正确的小类特征不但能够降低分析的时间和空间损耗,同时也能够增加分析的整体精确度。所以,我们提出了一种基于相对不确定性和对称不确定性的混合特征选择方法。首先,由于各种类型的相对不确定性,选择相关性强的特征形成候选集。然后,基于对称性的不确定性,对每个候选特征进行过滤,以保持强分辨率的特征,并去除其他特征。最后,从每个候选特征集中选择特征以形成新的特征集。作为分类器,使用C4.5确定树来评估其效果,并选择最佳的特征排序集。为了过滤特征,FSMID方法为每个类指定候选项选择最佳特征子组后,从这些特征集中选择特征以形成一组新的功能并对其进行评估。因此,FSMID可以确认所选特征集包含与各种类型具有强相关性的功能。将FSMID方法与以前的方法进行比较表明,该方法可以减少多重不平衡对网络流量分类的负面影响。
2 FSMID方法
FSMID方法进行特征选择通常需要两个步骤。首先将关联性较强且具有明显特征的候选特征选择为一个类的集合。然后再将每个候选特征集合中选择一个新的特征,以新的特征为区分,构成一个新的集合。并利用C4.5决策树对数据集进行分类,将分类的结果和数据记录下来,从中选取和确定出最优特征子集。
确定候选特征集合伪代码的算法主要包括三个部分。第1部分是采用FSMID相对不确定性选出RU(fi,cj),利用对称不确定性选出SU(fi,c)子集集合,第2个部分是根据RU(fi,cj)选取出来的子集,为每个类选择与其相关性较强的特征,从而得到多个特征结合。第3部分是根据su值,对特征集合进行挑选过滤,保留其中区分能力较强的特征,同时保证特征集合之间不会存在交集。
搜索最优特征子集过程伪代码主要包括两个部分。第一部分是从Fj的每个集合中找到一个特征来构成新的特征集合,同时通过数据处理清楚的其他特征。第2个步骤是利用分类器对处理后的数据进行整理分类,并将结果记录下来。通过不断重复1、2两个步骤,保证整个特征空间被完全搜索,然后在其中选择一个分类效果最好的特征合集作为最优特征子集。
3 实验分析
3.1 实验数据来源
剑桥大学曾经提供过一份公开数据(Moore数据集),在网络流量特征选择中得到较为广泛的应用。这项数据是由1000人左右的研究人员,通过捕捉网络出口处的三次握手 TCP数据得到的10个原始数据集。然后采取特征提取的方法,整理出248个不同特征的数据集。在对这些数据集进行分类标记时,剑桥大学采用了以内容检测为基本方法的人工标记手段。
在剑桥大学的这份数据中,一共包含12个类别,为了方便实验对比,这些数据集进行了预先处理。去除掉games等四个类样本个数为0的所有样本,每个子数据集仍然包括8个类别,且每个子数据集包含的样板类别数量和占比各不相同。在这项数据集中共有332,554个样本数量。其中,www类型样本占到87.88%,而ftp-p.atta等类别所占比例不足1%。
3.2 实验方案
实验釆用剑桥大学Moore数据集。在子集10数据集(dataset1、dataset2、…、dataset10)中,dataset1加速函数用作训练集,其他子集9数据集用作测试集。在资源选择过程中,将FSMID与非资源选择数据集(完整集)、BFS方法和对称不确定性过滤方法(su-f)进行比较。决策树C4.5对网络流量分类有影响,因此被选为分类器。
实验利用4种方法将得到的特征进行分类,数据表明,各个子数据集上的准确率都能够达到98%以上。使用Fu-Dset进行分类时,平均整体正确率还要提高,达到99.1%。当使用BFS和SU-F进行特征选择时,会将其中大量不相关的特征剔除,导致平均整体正确率相对于FuHset提高了0.3%;其中,FSMID方法在绝大多数子数据集上是平均准确率最高的方法,其准确率高达99.6%,探究其原因主要是因为FSMID方法所选择的特征是与每个类具有相关性的特征。
在上一章中,atta类和ftp-p类的入住率分别为0.44%和0.79%。通过比较四个方法作为子类的准确性发现,在atta类中,两个个数据集的召回率都非常不稳定。由于Atta类是网络攻击服务的流量,它通常伪装成其他类型的服务,以规避入侵检测系统的检测。此外,WWW类的网络服务比例较大,在构建决策树C4.5时形成的节点往往对WWW类有利,对其他类不利,导致其他类标准分类错误。根据FSMID方法,由于与子类在选择相关上的强大功能,错误分类为WWW类的子类数量减少,WWW类的误报率降低。在atta类中,平均召回率提高了.5%。在ftp-p水平,与fulset相比,平均召回率增加了25.7%。
3.3 实验结果分析
实验结果显示,特征1/95/96几乎能够被 SU-F BFS FSMID3种方式进行良好的区分和选取,且按照这三种方法所选的特征基本上都和数据流的空间特征有关,核数据流的时间特征关联性相对较小。
将利用4种方法实验得出的特征进行分类发现整体准确率都在95%以上,且平均整体准确率高达98%。使用Fullset来分类的话,平均整体准确率高达99%以上。而使用其他两种方式进行特征选择时,由于去除了过多不相关的特征,导致其相较于Fullset高出0.3个百分点。FSMID方法在大多数子数据的采集和分类中准确率最高,平均整体准确率高达99.6%。这正是因为FSMID在选择特征时会包含每个类相关的特征。
除此之外,FSMID方法在小内选择上倾向于选择与其相关性较强的特征,这在很大程度上减少了错误分类为WWW类的子类数量减少,WWW类的假正率降低,小类召回率也就随之提升。与Fullset相比,FSMID对于atta类的平均召回率提高了1.5个百分点。同时,FSMID方法的平均g-mean值最高,与Fullset相比,提高了4.9个百分点。
4 结语
网络用户使用不同网络的频率不同,产生的流量也就具有了多类不平衡的特征。而根据网络流量使用率对流量进行分类处理,能够有效保障网络QoS值,维护网络的健康安全。首先,通过利用相对的不确定性在每个类中选择候选集。接着,在各种联合候选资源中,保留了高度对称的不确定特性,而去掉了其他特性。最后,采用了基于决策树C四点五的包装功能选择方式,来判断功能良序子集的最理想数量。实验表明该方法具有更高的总体准确率、小类召回率和g-mean值,可以减少多分类不平衡的负面影响,是未来的研究方向。