基于支持向量机的UDP洪泛流量检测方法
2022-09-21尤方萍
尤方萍
(湖北工业大学 电气与电子工程学院,湖北 武汉 430068)
0 引 言
近年来,网络安全问题成为高校不得不面对的困境,如黑客攻击、隐私泄露、木马泛滥等。如何保障校园网络安全成为众多相关领域学者的重要研究方向。在众多黑客攻击手段中,分布式拒绝服务攻击(Distributed Denial of Service,DDoS)是常见的网络安全问题。当前很多学者采用对DDoS攻击检测展开研究,如长短记忆网络与改进残差神经网络优化的异常流量检测方法、基于深度学习方法、基于小波分析的方法、基于行为特征进行快速学习的动态流量TOP-N排序方法、主成分分析与层次聚类相结合的方法、时间序列预测方法[1-7]。
由于用户数据报协议(User Datagram Protocol,UDP)洪泛攻击在DDoS攻击中占比较高,国内外一些学者对检测UDP洪泛攻击展开研究,传统采用指纹识别方法,但是随着特征库不断扩充,搜索比对攻击指纹特征的时间越长,效果越来越差。在机器学习算法中,支持向量机(Support Vector Machine,SVM)是较好的适配算法,可以在小样本、底维度的场景下,能够得到较高的决策率[8-10]。本论文采用SVM算法来识别检测UDP洪泛流量,首先论述了UDP洪泛攻击的流量特征;然后给出基于SVM的UDP洪泛攻击流量检测方法;之后结合实验环境去检测该方法的有效性。
1 UDP洪泛攻击流量特征
1.1 UDP洪泛攻击原理
UDP洪泛攻击属于流量型攻击,通过构造大量伪造UDP报文,向攻击目标不断发起请求,最终导致被攻击服务器耗尽带宽和硬件资源,从而造成拒绝提供正常服务的后果。
1.2 UDP洪泛攻击流量与正常UDP流量比较
异常UDP流量和正常UDP流量存在诸多差异,具体说明如表1所示。
表1 正常UDP流量和异常UDP流量比较
1.3 UDP流量特征
表2 UDP流量特征
2 基于SVM的UDP洪泛流量检测方法
2.1 SVM算法基本原理
SVM最核心思想在于最优分类面和核函数。
2.1.1 最优分类面
最优分类线能够将两个类别最大化的分隔,在高维空间形成最优分类面。设样本集合:(xi,yi),i=1,… ,n,xi,xi∈Rd,yi∈{+ 1,-1},根据f(x)=ωx+b,得到分类面方程为
使|f(x)|≥1,则f(x)=1的样本里分类面最近。要使分类面对所有样本都能正确分类,则:
此时分类间隔为2/||ω||,间隔最大等价于||ω||2最小。同时满足公式(1)和公式(2),且公式(3)所示函数的最小值就是最优分类面,即:
2.1.2 核函数方法
2017年6月,12岁的嘉琪在上海参加比赛,没想到一举获得中国赛区总冠军,得到了踏出国门的机会,高兴之余妈妈严肃地对嘉琪说:“我允许你骄傲一天,但是你明天就要忘掉这件事,因为你后天就要期末考试了。”妈妈担心街舞会影响嘉琪的学习,去年小升初考试就在HHI比赛的后一周,妈妈原本想劝她停止练舞、专心备考,可就是拗不过她参赛的坚定决心。而嘉琪也很要强,做到了学习、跳舞两不误。因为跳舞,嘉琪整个人的状态都非常积极向上,开心、乐观、活力四射,她将街舞的“劲爆”从舞台带到了生活中。
核函数方法适用于原始空间中求简单最优分类面的非线性分类问题。本文选用应用较为广泛的径向基函数(Radial Basis Function,RBF),公式为
其构造的SVM判别函数如下:
式中:s个支持矢量xi可确定RBF的中心位置,s是中心的数目。
2.2 基于SVM的UDP洪泛流量检测
如图1所示,基于SVM的UDP洪泛流量检测模型包括4个模块,即流量采集及特征提取模块、SVM训练模块、SVM分类模块、UDP异常流量处理模块。具体说明如下。
图1 基于SVM的UDP洪泛流量检测模型
(1)流量特征提取模块。通过网络抓包工具采集UDP网络流量数据,每隔单位时间(默认3 min)就对采集到的UDP报文根据表2所示特征进行逐项统计。统计结果将提交给SVM分类模块进行识别。
(2)SVM训练模块。将已知的带有UDP攻击标签的训练样本集导入SVM训练模块,通过SVM训练和样本校验,得到分类器和识别率;根据识别率对分类器调优,并再次训练和校验;如此反复,直至获取较高的识别率和对应参数。
(3)SVM分类模块。经由SVM训练模块获取的SVM分类器将作为该模块的核心组件,接收特征提取模块传递的数据,进行分类,并将分类结果发送至异常流量处理模块。
(4)异常流量处理模块。根据SVM分类模块的分类结果,进行告警。同时,使用UDP异常流量限流控制组件,对判定为遭受到UDP攻击的目标进行限流保护,对判定为发起UDP攻击的源IP地址进行阻断。
3 实验结果与分析
3.1 实验环境说明
如图2所示,本文使用普通PC计算机、服务器和万兆交换机组建了实验环境。交换机采用华为S9312核心交换机,各终端均采用千兆互联,充分保障数据链路冗余。各终端采用如下设置:(1)正常用户1:普通PC计算机,人工操作,包括浏览网页、调用nslookup、ping等产生基本网络流量;(2)正常用户群:使用OWASP DOS HTTP POST软件模拟正常用户的网站访问和域名解析动作,产生HTTP流量和UDP域名解析流量;(3)攻击者1:使用卢瓦UDP攻击器,针对DNS服务器进行攻击;(4)攻击者2:使用乌龙寺UDP攻击器,针对DNS服务器和Web服务器进行UDP攻击;(5)攻击者3:使用XOIC对全网进行无差别攻击,攻击流量为HTTP和UDP;(6)攻击者4:使用dns2tcp针对DNS进行隧道攻击。
图2 网络攻击模拟实验环境图
3.2 检测方法和实验数据说明
本文采用LibSVM软件进行来对UDP洪泛流量进行检测。其中svmtrain用于训练模型,svmpredict用已有模型进行分类预测。svmtrain中参数包括SVM类型设置、核函数类型设置、核函数中参数设置、损失函数设置等。因此需要优化参数达到最优识别效果。本文使用准确率(Accurency)、召回率(Recall)、精确率(Precision)来评价攻击检测性能。TP表示UDP洪泛攻击流量被正确检测的次数,TN表示正常UDP流量被正确检测的次数,FP表示UDP洪泛攻击流量被错误检测为正常UDP流量的次数,FN表示正常UDP流量被错误检测为UDP洪泛攻击流量的次数,则准确率、召回率、精确率以及F1计算公式为
实验数据如表3所示,训练集和测试集的数据都从如图2所示网络环境获得。训练集数据为30 h网络流量数据,测试集为112 h网络流量数据。由于UDP流量特征提取是默认每3 min提取1次,因此训练集的UDP流量特征记录数有600条,测试集中有2 240条。
表3 网络样本数据信息
表3中,异常UDP流量特征记录中与源IP和端口相关的UDP报文均算异常UDP报文,即一次UDP洪泛攻击。
3.3 实验结果分析
图3是在图2网络环境中112 h网络流量数据的UDP洪泛攻击检测统计图,并给出基于SVM的UDP洪泛流量检测与模拟UDP洪泛攻击对比统计结果,其中蓝色柱状数据显示每2 h进行模拟UDP洪泛攻击的UDP报文数;而红色柱状数据显示每2 h基于SVM的UDP洪泛流量检测的UDP洪泛攻击报文数。这些信息均通过图2中各种模拟攻击者统计获取。
图3 基于SVM的UDP洪泛流量检测与模拟UDP洪泛攻击对比统计图
根据图3可知,基于SVM的UDP洪泛流量检测呈现以下特点。
(1)对于短周期时间内(如3个单位时间组成的短周期)UDP波动较大的情况下,容易产生漏报,尤其在UDP攻击呈断崖式降低时,漏报率较大;
(2)对于连续单位时间,UDP攻击呈持续增长的情况,会产生少量误报,误报情况不足以影响用户正常使用网络;
(3)对于趋于平稳的UDP攻击,SVM可以达到较高识别率,偶尔产生误报和漏报,但不足以影响用户正常使用网络;
(4)对于趋于平稳的UDP攻击突然呈现断崖式降低的情况,SVM出现较高误报率,但会在2~3个单位时间后趋于正常。
基于SVM的UDP洪泛流量检测结果如表4所示。
表4 基于SVM的UDP洪泛流量检测结果
通过表4可看出,基于SVM的UDP洪泛流量检测准确率较高,精确率也较好,召回率检测结果一般,F1值较好。要尽量减少正常UDP流量被错误检测为UDP洪泛攻击流量的次数。
4 结 论
本文主要论述了UDP洪泛攻击的流量特征,并给出基于SVM的UDP洪泛攻击流量检测方法,实验结果表明该方法的有效性。未来,笔者将对DDoS其他攻击方式如TCP洪泛攻击流量检测与控制展开进一步研究。