基于GA-SVM算法的通信网络入侵信号自动识别技术
2021-12-27杨本胜
杨本胜
(广州松田职业学院,广东 广州 511300)
0 引言
入侵信号识别系统可以有效防御入侵行为,综合利用审计数据、安全日志和关键点信息等识别通信网络内是否出现违法或者被入侵的情况。入侵信号识别系统作为防火墙之后的第二道防御措施,可以对整体网络进行实时保护,避免使用人员进行误操作或外部及内部等入侵行为危害通信网络的事情发生,能够在事件发生之前对其响应预测与入侵拦截[1]。
为了符合智能化时代需求,将机器学习加入入侵识别系统已经成为发展的必然趋势。学习算法包括朴素贝叶斯、决策树以及支持向量机(SVM)等。其中,支持向量机的实现是风险最小化算法,利用最佳的分类平面,把未知样本分类误差降至最低,并且存在较强的泛化能力。现阶段的网络数据库具有大量噪声以及冗余变量,正常样本与入侵样本的极度不平衡状态影响识别性能。网络的连接数据为动态传播方式,若采用单一分类器进行分类,不确定性的因素很大,所以本文尝试利用遗传算法(GA)优化支持向量机算法,从而得到GA-SVM算法来降低不确定影响[2]。
通信网络在进行通信时,外界环境非常复杂,若通信网络被入侵,则会造成信息泄露、丢失等情况,严重甚至会威胁到社会安全,所以本文提出基于GA-SVM算法的通信网络入侵信号自动识别技术。入侵信号多为非平稳信号,利用时域以及频域可提取出通信网络中入侵信号所有特征,然后通过对相邻行为非线性的时空动作捕捉、对相邻行为间的工作状态关联性评价以及对行为后续工作状态实行预测,即可实现入侵信号自动识别。
1 提取通信网络入侵信号的时域及频域特征
1.1 入侵信号时域特征提取
通信网络入侵信号的时域特征存在很多种,因为入侵信号和常规信号相比,时域曲线变化剧烈,呈现非平稳特征,因此可利用混沌原理提取非平稳信号时域特征[3]。
先设置采集到的通信网络入侵信号是{x(t)},其中,t=1,2,…,N。利用入侵信号的动力学原理,引入时间延迟τ以及嵌入维数m,得到多维向量的序列X(t),以此获得通信网络入侵信号的时刻特征,具体公式为
(1)
由式(1)可知,想要提取通信网络的入侵信号时域特征,要将起始信号作归一化处理,即
(2)
x′为归一化之后数值[4]。
充分提取通信网络入侵信号的时域特征,确认嵌入维数m以及时间延迟τ非常重要,故利用G-P法以及互信息法来确认2个参数值。
互信息法确认参数1的步骤如下:
a.先采集通信网络的入侵信号,设置(x,y)=[x(t),x(t+τ)],τ=1。
b.建立通信网络入侵起始信号吸引子,设置(x0,y0)为初始点,Δx以及Δy分别为步长。若满足以下条件:x0≤x(i)≤x0+Δx,y0≤y(i)≤y0+Δy,其中i=1,2,…,N,则点[x(i),y(i)]处于吸引子的区域内。
c.设置p[x(i)]=Nx/N,p[y(i)]=Ny/N,p[x(i),y(i)]=Nxy/N,N为互信息的函数值I(x,y)。具体的计算公式为:
(3)
(4)
I(x,y)=H(x)+H(y)-H(x,y)
(5)
d.如果τ=τ+1,那么返回至步骤b,重新计算[5]。
e.在互信息函数到达第一极小值时,可找出通信网络的入侵信号最优值τ。
G-P法确认参数2的步骤如下:
a.通过最佳的τ值,可以确认嵌入维数起始值是m=1。
b.通过临界距离r,来计算Cn(r),能够得到具体公式为
(6)
其中,M=N-(m-1)τ;θ为Heaviside单位函数。
c.利用LS方法拟合logC(r)n~logr,可以获得关联维数D。
d.如果m=m+1,那么返回至步骤b,重新进行计算。
e.在关联维数D的变化非常平稳时,可找到通信网络入侵信号最优m。
1.2 入侵信号频域特征提取
通信网络的入侵信号能量表现形式为信号功率谱密度,即功率谱法能够实现对信号进行分析,通过转变信号的方式,将入侵信号映射至频域内,以频域的角度来提取该信号特征[6]。
现代谱的估计方法中,自回归模型(AR)应用最为广泛,该模型的表达式为
(7)
p为AR模型阶次;ak为各阶的系数;u(n)为0均值方差,是σ2的白噪声。通过确定ak以及σ2,能够得到公式为
(8)
Rx(m)为通过通信网络入侵信号x(n)的自相关函数所建立的p+1阶取样的自相关矩阵,公式为
(9)
而为了确保式(9)内自相关估计存在意义,入侵信号的长度为N≥2p。在参数确认以后,即可通过AR模型算出信号功率谱,具体离散形式AR功率谱的求解公式为
(10)
在非平稳的信号分析过程中,需要知道入侵信号处于某个时间段内频率成分以及该时间段内频率的时间分布状况,通过时域以及频域即可提取通信网络入侵信号的所有特征[7]。
2 基于GA-SVM算法的入侵信号识别研究
在提取到通信网络外部的入侵信号时域以及频域特征时,需要捕捉各入侵信号邻域之间非线性时空动作,将其看作是频率的一种行为模式,以此评价相邻信号行为之间的工作状态关联性,从而预测后续行为的工作状态,按照后续的工作状态入侵度来完成入侵信号的识别[8]。
2.1 相邻行为非线性的时空动作捕捉
长短期的记忆模型全都属于GA-SVM算法,通过回归行为确定边界框方位,从而完成实时追踪和监测;针对正则化的相邻行为以及自身行为来进行整合,以此刷新长短期的记忆模型自身存储单元。正则化的行为公式为
rh=gh⊗rh-1+jh⊗tant(Vyryh+Vtrth-1+sr)+
(11)
2.2 对相邻行为间的工作状态关联性评价
通过长短期记忆的模型隐态信息获取的相邻行为时变属性,利用运行速度的相关性对相邻行为之间工作状态关联性进行评价,可以获得相邻行为之间的工作状态关联性权值τi(h),具体公式为
τi(h)=
(12)
j以及i为相邻行为间的工作状态;在h时间内时,uj(h)以及ui(h)为相邻的行为方式的运行速度,将2个速度相乘,就能够凭借归一化的常数μ实现归一化的方式计算;∂j为用来对关联权重的数值进行计算的,如果在相邻行为之间的工作状态j以及i数值偏差较大,那么τi(h)就会无限接近0,如果相邻行为之间的工作状态j以及i类似度较近[9],那么τi(h)数值就接近1。
2.3 对行为后续工作状态实行预测
通过编码-解码框架,来训练长短记忆模型的预测行为作为后续工作情况,如图1所示。
图1 长短期记忆模型的解码示意
具体的操作步骤如下:
a.GA-SVM算法的预测过程中[10],能够利用长短期记忆模型编码器将工作状态映射到定长隐式的向量内。编码时期的隐式向量公式为
kH=Lr(WH,kH-1)
(13)
kH为现阶段的隐式向量;Lr为利用长短期记忆模型的编码器。将行为工作状态输入值WH,以映射的方式输入到前阶段隐式向量kH-1内。
b.在GA-SVM算法的训练过程中[11],对于长短期的记忆模型解码机器,可以通过定长隐式向量来预测后续行为工作状态。具体隐式向量公式为
kH=La(WH,kH-1)
(14)
La为利用长短期记忆的模型解码器。以定长隐式向量kH-1获取现阶段的隐式向量kH以后,针对目前时间行为的状态输入值WH,可以预测后续时间的行为工作状态WH+1,最后通过预测后续的工作状态完成通信网络入侵信号识别[12]。
3 实验仿真证明
3.1 实验环境
为了验证本文方法是否在实际应用过程中达到合格标准,使用KDD CUP 99数据集内的部分数据,该数据集存在4种入侵行为,分别是扫描攻击(Probe)、用户远程没有授权的访问攻击(U2L)、本地没有授权的权限访问攻击(U2R)以及拒绝式服务攻击(DOS)。该数据集一共收集了2个月的数据,大约包含100万条数据记录,其中,有9 341条为入侵数据。而为了确保实验过程的精确,实验过程选取多次实验的平均值。具体的漏识别率、误识别率以及识别成功率公式为:
(15)
(16)
(17)
D为入侵信号的识别成功率;P为识别精确的入侵样本数据;N为样本总体个数;A为入侵信号的误识别率;F为误识别入侵的正确样本个数;K为正常的样本总数;R为入侵信号的漏识别率;B为入侵的样本总数。
3.2 实验结果和分析
本文方法设定了入侵信号识别阈值(98%),在该阈值范围内,识别结果有效,若超出阈值,则说明识别结果达不到实际应用标准,具体的识别成功率如图2所示。
图2 通信网络入侵信号样本识别成功率
由图2可以看出,本文方法大约在20万条数据时,识别成功率发生上下波动,经过对实验记录进行排查,发现该时间段内网络用户频繁输出信息,导致识别率出现一个降低的状态,不过在网络恢复正常时,识别率也恢复正常,而在识别到37.5万条数据时,识别成功率出现明显下降,直到实验结束。虽然本文方法出现了识别率下降的情况,不过仍然处于阈值之上,说明达到实际应用的标准。
在识别入侵信号的过程中,可能出现误识别,导致识别精度下降。所以需要计算误识别率,保证正常数据的安全,设置误识别率阈值(2%),观察其是否在该阈值范围内,具体如图3所示。
图3 通信网络入侵信号样本误识别率
观察图3能够看出,在实验数据较少时,误识别率非常低,而随着数据增加,误识别率也在增加,在实验数据增加至50万条时,出现大部分上升的情况,直到实验结束,仍然没有超出阈值。因为本文方法事先通过混沌原理提取非平稳信号的时域特征,并利用自回归模型提取出的频域特征,有效地对入侵信号进行分析,降低误识别率。
漏识别率能够影响到识别精度,若发生漏识别的情况,则入侵成功,导致数据丢失、受损,造成严重的危害。因此需要对漏识别率进行严格的把控,设置极低的漏识别率阈值(1%),尽可能地避免漏识别情况发生,实验结果如图4所示。
图4 通信网络入侵信号样本漏识别率
观察图4能够看出,本文方法的漏识别率在数据较少时,没有出现任何漏识别的情况,不过仍然会随着数据的增加,出现漏识别的情况,不过概率极低。这主要是因为在提取完通信网络入侵信号的特征后,捕捉到邻域信号间的非线性时空动作,从而预测后续行为的工作状态,完成入侵信号识别,将漏识别率降到极低,避免正常样本数据受到影响。
上述实验结果表明,本文方法对通信网络入侵信号的识别具有一定的准确性,但随着实验数据的增大,该方法的识别性能呈逐渐下降的趋势,甚至有超出阈值的趋势,说明本文方法虽性能较好,但对于处理大量数据仍具有一定的难度,未来可通过优化迭代的方法进一步提升该方法对于处理大量数据的通信网络入侵信号识别性能。
4 结束语
本文提出的基于GA-SVM算法的通信网络入侵信号自动识别技术,通过提取出入侵信号的时域以及频域特征,再捕捉非线性时刻的相邻行为、评价相邻行为的工作方式以及预测后续的工作状态,从而实现入侵信号的自动识别。虽然该方法能够有效识别出入侵信号,不过仍然存在误识别以及漏识别的情况,基于此本文需要时刻关注网络技术发展状况,实时引入全新的技术方法,保证在第一时间识别出入侵信号,确保通信安全。