交互式网络恶意入侵跳频数据特征自动挖掘方法
2022-08-17付吉菊
付吉菊
(滁州城市职业学院 管理与信息学院,安徽 滁州 239000)
计算机产业的发展促进了移动终端在各个领域中的广泛应用.如今,如果没有计算机,人们的日常工作是不可能完成的[1].人们可以通过网络交流、娱乐、购物而不必外出.计算机的使用大大方便了人们的工作和生活.但是,在享受电脑带来便利的同时,很多用户的账号和密码却经常遭到恶意窃取、木马攻击、钓鱼网站和欺诈诱骗等行为,这些问题给用户造成了巨大的经济损失[2].网络入侵数据特征挖掘技术是一种新型的主动安全保护技术,它是对传统安全技术的一种有效的补充.目前,网络入侵数据特征挖掘技术正逐渐成为一个热门的领域.
中国每年遭受网络攻击的直接经济损失高达1000亿元[3].在当前,开展针对网络攻击的防御技术研究显得十分必要.为此,相关学者进行了大量研究,例如夏景明[4]对随机森林分类系统中的入侵检测进行了研究.采用高斯混合模型聚类方法对数据进行分类,并根据分类结果对其进行检测.通过对随机树进行分类,可以有效地发现网络入侵.利用nsl-kdd网络入侵数据,进行了训练和试验,先采用属性比例的特征抽取法对数据进行分类,再利用随机森林分类器进行聚类,在入侵检测中的正确率要高得多,但是误差较大;李俊[5]等为考虑到网络入侵数据集在采用过程中存在的问题,分析了网络恶意入侵中跳频数据的特点,在记忆和时序的基础上,提出了一种网络入侵检测模型,通过分析网络攻击行为的时序,挖掘出入侵数据的特征,在辨识和收敛方面都有较大的提高,但是在网络入侵数据特征的挖掘方面还有待研究.
基于以上研究背景,总结以往研究经验,本文针对交互式网络恶意入侵跳频数据设计一种特征自动挖掘方法,从而保证交互式网络的安全稳定运行.
1 网络恶意入侵跳频数据特征自动挖掘方法设计
1.1 识别网络恶意入侵跳频数据
针对交互式网络中的恶意入侵跳频数据,在挖掘其特征之前,需要先根据交互式网络的结构特点,识别出跳频数据,通过将跳频数据划分为不同类型[6],采集到具有差异特征的跳频数据样本,具体表示为
(1)
其中,λ表示跳频数据状态空间的测量值组数,dj为跳频数据的状态空间,δ(xk·|Zk|)为网络入侵跳频数据的先验概率分布函数,Zr为跳频数据状态空间的测量值,lh为跳频数据识别的概率密度函数,fl为跳频数据的差异性特点.
根据采集到的跳频数据样本,利用K-聚类算法对不同类型的跳频数据进行聚类[7],公式为
(2)
其中,lk为跳频数据的聚类中心,dk为存在差异特征的跳频数据在识别中的先验概率分布,sr为跳频数据特征的分类阈值,λu为不同类型的跳频数据特征,hp为后验概率分布向量,dp为dk的权重.
根据跳频数据的聚类结果,得到不同类型的网络恶意入侵跳频数据,以跳频数据的类型为依据[8],对网络恶意入侵跳频数据的分布区域进行划分,即
(3)
上述公式中,si是跳频数据在不同尺度上的时间序列,dh是跳频数据中的原始信息,fk是跳频数据的取样数目,fu是跳频数据的训练取样特性,∂i是跳频数据的类别数目,rk是特征向量,kl是具有差别特征的标记资讯.
利用划分得到的跳频数据分布区域,将不同类型的跳频数据依次聚类到各自的分布区域中[9],给出跳频数据识别的阈值Tf,即
(4)
其中,Er为跳频数据所属的属性类型,ki为跳频数据分类识别的后验概率不确定性,vy为跳频数据的信息熵集合,μt为不同类型跳频数据的相似度,ko为跳频数据采集的时间序列权重.
根据给定的跳频数据识别阈值,即可识别到网络恶意入侵跳频数据
(5)
式中,sk表示跳频数据识别值偏离真值的程度.
通过在交互式网络中采集跳频数据样本,聚类处理了跳频数据,并根据跳频数据样本所处的差异性特征分布区域,设置了不同类型跳频数据之间的识别阈值,从而实现对跳频数据的识别.
1.2 检索网络恶意入侵跳频数据的频繁项集
利用识别到的网络恶意入侵跳频数据,对网络恶意入侵数据的统计特征进行监测[10],监测结构如图1所示.
图1 网络恶意入侵数据的统计特征监测结构
针对交互式网络中的恶意攻击数据,结合统计特性监控,提出一种跳频数据的分配算法[11].首先对网络恶意攻击数据库中的频繁项进行提取,并利用频繁项集合构造最小信任度,那么在检索过程中,定义了跳频数据的转发控制协议,即
(6)
上式中,ζth表示跳频数据转发控制的优先级别,G表示转发控制协议的拥塞程度,ϑr表示可靠性概率,hi表示跳频数据转发控制的速率比.
对于交互式网络恶意入侵跳频数据分布的Sink节点EHs(j)和EHs(k),采用Apriori 算法设计网络恶意入侵跳频数据分布算法[12],表示为
(7)
上式中,Vt(k)表示网络恶意入侵跳频数据的统计概率分布,计算公式为
(8)
式中,βi的取值范围在0~1之间.
根据跳频数据在交互式网络中得到信息源分布情况,计算出跳频数据在频繁项集中的权重,即
(9)
其中,Yi1表示标准化前网络恶意入侵跳频数据样本的维度.
利用数据在交互式网络中传输的相互关联数,对基于交互式网络的网络恶意入侵跳频数据特征分配进行了自适应的排序,在引入相关检测技术的基础上,在分布式网络中搜索出跳频数据库中的所有频繁项集合,公式表示为
(10)
上式中,VT表示跳频数据在频繁项集上生成数据序列的速率,J表示频繁项集合,W(p)表示频繁项集合J的二次函数,β表示跳频数据到达频繁项集中的速率.
通过监测网络恶意入侵数据的统计特征,定义了跳频数据的转发控制协议,采用Apriori 算法设计网络恶意入侵跳频数据分布算法,在交互式网络恶意入侵跳频数据的信源分布域中,检索出网络恶意入侵跳频数据的频繁项集.
1.3 构建网络恶意入侵跳频数据特征挖掘模型
通过对跳频数据频繁项的检索,建立了基于跳频数据的特征挖掘模型,利用双线性 Hough变换分析了网络恶意入侵跳频数据的双曲线跳频特征[13],结合跳频分解,定义了跳频数据在基函数集U中的子空间,表示为
(11)
其中,m(T)表示原始跳频数据在基函数集U中的波束域,T0表示跳频数据样本的初始采样时间,Wn(T,V)表示跳频数据特征在频谱区间的伸缩尺度,V0表示初始采样速度,V表示影响跳频数据特征挖掘的干扰强度.
为了计算出跳频数据之间的最佳匹配尺度,在引入跳频分解技术的基础上[14],在频谱函数f和基底函数φγ0之间,构建了跳频数据的概率密度函数,表示为
(12)
(13)
其中,φ0表示跳频数据的初始采样幅值,sn-i表示标准采样点的时间序列,εj表示时频分析中频谱的振荡幅值.
(14)
式中,g()表示数据挖掘函数,通过分析交互式网络中恶意入侵跳频数据的频谱特征,构建了跳频数据特征挖掘模型,实现网络恶意入侵跳频数据特征的挖掘,实现流程如图2所示.
图2 网络恶意入侵跳频数据特征的挖掘流程
图2中,采集到具有差异特征的跳频数据样本后,检索网络恶意入侵跳频数据的频繁项集,结合跳频数据之间的最佳匹配尺度,判断是否满足设定的转发控制协议,联合得出了跳频数据的时间-频率分析模型,求解并输出入侵跳频数据特征.
2 实验分析
2.1 实验数据集
为了验证文中方法对交互式网络恶意入侵数据特征的挖掘效果,本文选择MKK UK08数据集作为实验数据集.MKK UK08数据集是从某局域网上采集的网络连接数据,主要包括远程未授权用户非法进入攻击、拒绝服务攻击、本地用户非法获取特权用户权限攻击以及漏洞扫描探测攻击等四个攻击类型.
MKK UK08数据集中每一条跳频数据都由36个属性特征组成,本文选取其中10个特征进行验证,表1给出了跳频数据的属性特征.
表1 跳频数据的属性特征描述
属性名称特征描述类型Root_shell是否获得了root管理员权限离散型Dst_host_srv_serror_rate同目标同服务不同源主机的连接所占比例连续型Dst_hostcount具有相同目标主机的连接数量连续型Count两秒内对相同一个主机发出的连接数目连续型
2.2 设置评价指标
实验过程中,为了突出文中跳频数据特征挖掘方法的优越性,引入基于随机森林分类器的挖掘方法和基于GRU-RNN的挖掘方法做对比,先利用抗干扰系数指标衡量跳频数据特征的挖掘性能,计算公式为
(15)
其中,Zk表示跳频数据的属性特征,p表示数据采集正确率,T表示数据采集周期,gd表示跳频数据特征之间的关联度.根据公式(15)可以看出,抗干扰系数越小,跳频数据特征挖掘的精度越高,反之则低.
接着采用冗余度指标衡量跳频数据特征挖掘的质量,计算公式为
(16)
其中,εr表示跳频数据特征的观测向量,j表示数据特征的均衡度.通过公式(16)的计算,冗余度越小,说明跳频数据特征挖掘的质量越好,反之则差.
2.3 性能测试
三种方法在挖掘网络恶意入侵跳频数据特征时的抗干扰系数测试结果如图3所示.
图3 抗干扰系数测试结果
根据图3的结果可知,基于随机森林分类器的挖掘方法和基于GRU-RNN的挖掘方法在挖掘跳频数据不同特征时的抗干扰系数比较接近,虽然基于GRU-RNN的挖掘方法较低,但是抗干扰系数仍然在0.2以上,而采用文中方法挖掘跳频数据不同特征时,抗干扰系数一直处于0.1以下,说明文中方法在挖掘跳频数据特征时的性能更好.
2.4 质量测试
跳频数据特征挖掘的冗余度测试结果如图4所示.
图4 冗余度测试结果
图4的结果显示,在冗余度测试中,基于随机森林分类器的挖掘方法和基于GRU-RNN的挖掘方法超过了35%,而采用文中方法挖掘跳频数据特征时,可以降低跳频数据特征的冗余度,将冗余度控制在20%以内,因此文中方法可以提高跳频数据特征挖掘的质量.
3 结束语
本文提出了交互式网络恶意入侵跳频数据特征自动挖掘方法研究,经过实验测试发现,该方法在挖掘交互式网络中的恶意入侵跳频数据特征时,可以提高跳频数据特征挖掘的性能,同时保证跳频数据的质量.但是本文的研究还存在很多不足,在今后的研究中,希望可以利用人工神经网络对跳频数据训练,去掉数据中的冗余特征,进一步提高挖掘的质量.