基于SDN技术的数据中心网络异常流量检测算法
2022-08-15谢燕,裴浪
谢 燕, 裴 浪
(1. 湖南信息学院 计算机科学与技术学院, 长沙 410000; 2. 武汉晴川学院 计算机学院, 武汉 430204)
0 引 言
随着计算机技术不断发展与网络设备的广泛使用[1], 人类日常生活和互联网间关系愈来愈密切, 网络流量剧增, 使网络数据流量呈指数增加。人类在使用网络数据流量的同时, 也面临分布式拒绝服务攻击、 Smurf攻击以及局域网拒绝服务攻击等威胁[2], 这几种攻击采用直接或间接的方式输送海量数据流量, 造成大量异常数据流量生成, 严重威胁客户信息安全。为及时掌握互联网中的数据流量, 网络异常流量检测研究已成为当前数据中心研究重点[3]。
董书琴等[4]针对数据中心网络异常流量检测率低与错误率高的问题, 采用粒子群算法对堆叠降噪自编码设备做优化处理, 根据小批量梯度下降算法对优化结果进行测试。利用最小化含噪数据判断向量和初始送入向量之间的不同, 获取流量特征, 并按照该特征将softmax做测试, 并建立异常检测分类设备, 完成数据异常流量检测。该方法为确保检测效率, 运用大量计算方法, 增加了计算时长, 导致检测时间较长, 检测效率较低。张艳升等[5]针对数据中心网络异常流量检测计算时间较长问题, 使用卷积神经网络构建检测模型, 并采用灰度图像方式对现实收集数据流量特征值做灰度处理, 同时将灰度后的结果输入到卷积神经网络检测模型中, 检测出异常流量。虽然该方法有效缩短检测时间, 但检测精度较低, 导致检测效果不理想。
针对异常检测时间较长与检测精度低的问题, 笔者综合文献优势, 提出基于软件定义网络(SDN: Software-Defined Networking)技术的数据中心网络异常流量检测算法。该算法采用SDN技术特点构建数据传输模型, 为流量特征提取与异常流量检测提供基础; 利用模糊C均值聚类、 四元组算法, 能全部提取出低维数据与高维数据流量特征, 从而提升流量特征提取精度; 按照主成分分析、 矩阵方法向流量空间进行投影, 检测出异常流量, 该流程不但可以检测出异常流量, 还能保证检测结果的精准度。
1 SDN技术下数据中心网络结构分析
SDN技术是一种可以进行可编程的网络结构[6], 由集中式控制、 分布式转发两个相互独立的平面构成。SDN技术能将控制、 数据平面进行集中化调控, 并提供任意形式编程的接口, 为网络提供灵活、 便捷可编程的技术支撑。
SDN能提供网络各层中所需要的功能同时还能构建新的功能, 进而把网络当作抽象服务并管理。该部分主要有如下5种功能。
1) 虚拟机网络划分。软件定义网络可以将虚拟机和物理网络形式划分开, 并对这两种数据中心进行扩建和管理。在不相同的局域网中, 软件定义网络均能保证移动过程中二者间的相互通信。
2) 网络安全运用。采用软件定义网络高效提高网络数据中心流量安全。例如, 提供构建虚拟化安全性能器材, 该方法具有动静态相结合、 可扩展的特点; 使用可以将局域网(LAN: Local Area Network)、 广域网(WAN: Wide Area Network)安全方案与调控聚合送到集中调控平台共同管理的方法。
3) 软件负载均衡。在数据层, 软件定义网络与负载均衡均为流量优化方式。根据服务设备将其分散到若干个数据中心内部, 提高终端用户服务级别。
4) 视频流量优化。服务供应厂商采用网络操作中心的软件定义网络调控服务设备路由, 并分配较高容量的视频输送流量进行管理。
5) 虚拟插线面板。利用虚拟插线面板, 并通过软件定义网络控制设备向交换机流量表中填写静态情况, 此方法能使处于不相同的交换机端口进行连接。软件定义网络的可编程特性保证了插线面板得到快速纠正。
软件定义网络结构由数据、 控制、 应用和管理4部分构成, 如图1所示。
图1 软件定义网络结构
应用层由两个以上SDN应用组成, 可通过北向接口、 SDN控制设备进行交换, 该过程使用编程方法将需邀请的网络行为上传到控制设备。单个SDN应用含有若干个北向接口驱动, 并将自身的功能进行抽象、 封装, 对外提供给北向代理接口, 此过程结束后北向接口由较低等级转换成高等级。
控制平面即软件定义网络控制设备[7], 负责对软件定义网络应用层发出邀请, 并转换成SDN Datapath与供给应用层、 数据层网络抽象模型。所有软件定义网络控制设备均由北向端口代理、 控制逻辑、 控制数据平面端口驱动所组成。
数据平面由两个以上网元组成, 各网元由SDN Datapath集合构成。每个SDN Datapath都有自己逻辑上的网络器材, 只能转发、 处理网络数据技能, 不具有调控能力。每个SDN Datapath由控制层端口代理和转发引擎表、 处理功能共同完成, 缺一不可。
控制管理平面负责静态工作, 例如, 网元配置、 SDN Datapath控制设备、 SDN控制设备、 SDN应用控制范围。
为此, 将软件定义网络加入数据中心网络, 使网络设备间数据交换变得更加便捷, 降低网络运营成本。
2 SDN技术下数据中心网络异常流量检测算法
2.1 数据中心网络流量传输流程
为更好地完成数据中心网络异常流量检测, 以上述SDN技术中心网络为框架, 设定对应网络中心节点为基站, 传输数据流量G(0), 其表达式为
根据簇第1个节点将数据发出, 经过Chunk读取得出Slice数据, 统计流量特征, 实现数据接收与发送, 传输架构如图2所示。
图2 数据中心网络数据传输架构
从图2可以看出, 数据传输是一个三维持续的多输入与多输出系统, 利用时间与频率集合的方式, 建立数据流量传输模型, 即
x(t)=Re{an(t)e-j2πfcτn(t)sl(t-τn(t))e-j2πfct}
(2)
其中数据中心流量传输时间响应脉冲为
(3)
其中an为第n条数据传输通道中数据流量特征主频特点;τn为第n条数据传输途径延迟时间;fc为数据传输通道频率;sl为单分量传送数据。
设P为数据中心网络数据输送节点途径条数, 得到通道数据传输函数为
(4)
其中ai、τi为数据中心网络流量传输损失与传输延迟时间, 据此, 获得数据中心网络流量输送函数流程为
(5)
通过流量特征分布空间重新构建数据中心网络流量传输流程, 即
(6)
其中k为采样频率,v为网络带宽;Wx为时间窗口函数;y(t)与Wy(t,v)分别为数据中心网络流量的时间序列与频域。为此, 完成了数据中心网络流量输送, 为流量特征提取与异常流量检测提供基础。
2.2 数据流量特征提取
在保证计算正确率的基础上减少样本种类数据测试集合数量, 缩短数据特征提取运算时长, 为此, 使用模糊C均值聚类算法对数据流量特征进行提取。
使用模糊C均值聚类算法对流量进行向量量化分析, 获得一个聚类中心。设p为聚类中心数据码元素t的期望支持度, 若其大于设定阈值θ, 则认定是检测部分属性要素的一个频繁项目。在符合约束条件下全部流量的分类属性要素符合如下条件
pt(D)>θ
(7)
将聚类结果做自适应调节, 采用一个四元组方式表示流量有关特征, 即FFP(Xij,Pij,(pk1(D),…,pkf(D)),(Tk1,…,Tkj))。其中Xij为流量在Tk1时间点到达窗口第j次的第i个数据要素;Pij为送出训练的最佳概率数值;pkf(D),(Tk1,…,Tkj)为流量低维数的流量特征集合。
使用分类全局搜索方式对低维数流量进行动态规划, 获取第i个数据网络节点中t元组在模糊聚类部分j次的概率数值
(8)
(9)
其中β为流量高维数部分谱特征量。通过低维数与高维数流量特征提取, 完成了数据中心网络流量的特征提取。
2.3 异常流量检测
采用主成分分析方法将提取的流量特征进行异常检测, 该部分主要分为子空间与阈值检测两部分。
2.3.1 子空间
(10)
(11)
以上完成了整个周期统计数据主成分分析处理流程, 获得该周期数据的模型流量与残差流量[8]。
2.3.2 阈值检测
(12)
(13)
其中h0为正常数据权值;λj为第j特征数值;cα为高斯分布中1-α分位数值。
通过式(12), 式(13)计算, 检测异常流量。
3 实验结果分析
3.1 实验环境
设实验选取两台Ubuntu v13.10系统服务设备, 每台服务设备都配置Intel(R)Xeon(R)CPUE5410处理设备与32 GByte内存。
3.2 计算性能对比
为验证笔者提出的数据中心网络异常流量检测算法性能良好, 从异常流量检测结果TTPR、 错误分类的异常流量占总异常流量比率FFPR、 正确检测异常流量数量与整个流量数量所占比率AACC3个方面将笔者算法与文献[4]算法、 文献[5]算法进行对比分析。
设TTPR为正确分类的异常流量占总异常流量比值, 其数值越大, 则表明异常流量检测结果越好, 计算公式为
(14)
其中TTP为正确检测出异常流量的数量,FFN为错误检测出异常流量的数量。
3种算法通过式(14)得到结果如图3所示。
图3 TTPR对比情况
从图3可以看出, 文献[4-5]算法TTPR数值均在90%以下, 而笔者算法均在90%以上, 因为使用主成分分析方法建立数据流量子空间, 进而检测出数据中心网络异常流量, 有效提升异常检测结果正确率, 使TTPR数值高于文献算法。
设FFPR为错误分类的异常流量占总异常流量比率, 则有
(15)
其中FFP为检测出的异常流量错误数量,TTN为检测出的正常流量数量。
根据式(15)得到FFPR对比结果, 如图4所示。
由图4可以看出, 文献[4-5]算法得到FFPR最大值分别约为34%、 18%, 而笔者算法使用设定阈值、 平方预测误差方式判断数据中心网络残差流量数值情况, 检测出异常流量, 此算法可以有效降低将正常流量归为异常流量中, 使得到的FFPR数值不超过10%,FFPR数值越小表明错误检测概率越低, 故笔者算法优于文献算法。
图4 FFPR对比情况 图5 AACC对比结果
设AACC为正确检测异常流量数量与整个流量数量所占比率, 则有
(16)
根据图5得出, 笔者通过模糊C均值聚类算法提取出流量特征, 并采用主成分分析算法控制异常流量检测TTPR精度, 与设定阈值方式控制异常检测FFPR结果相比, 经过这两项双重控制, 使笔者算法获得AACC数值高于文献算法, 表明笔者算法数据中心网络流量异常判断能力最强。
4 结 语
海量的用户和虚拟化部署形成了繁琐的计算机网络, 特别是数据中心, 要求网络响应灵敏快捷与应对工作负载的网络数据调整, 而已有的传统网络结构已不能满足当今网络需求。为此, 采用SDN技术构建数据传输模型, 通过模糊C均值聚类算法提取出数据流量特征, 并根据主成分分析、 设定阈值的方式检测出异常流量。实验从TACC、FFPR、AACC3个方面均证实笔者计算性能良好, 并且计算使用时间最短。今后还可以将小波分解、 分布式等算法引入进一步提升计算精度。