APP下载

用于异常检测的负选择算法的自体半径分析

2019-06-11◆陶

网络安全技术与应用 2019年6期
关键词:检测器自体半径

◆陶 晶



用于异常检测的负选择算法的自体半径分析

◆陶 晶

(沈阳理工大学现代教育中心 辽宁 110159)

负选择算法是用于异常检测的一种有效方法。可变半径的负选择算法中,检测器的半径对算法性能影响较大。本文通过实验分析并验证了在不同的应用下,自体半径的最佳取值。

异常检测;负选择算法;自体半径

0 引言

V-detector算法作为否定选择算法中的一种,因其首次提出用可变半径的检测器替代以往固定半径的否定选择算法,有效提高了检测器覆盖率,并使用了更少数量的检测器覆盖了更多的非自体区域。使得后来广大学者对否定选择算法的研究中,大多在V-detector之上加以改进,采用zhouji的人造二维数据集进行数据训练,并以V-detector作为实验的比对算法。因自体半径为影响检测器生成,继而影响着最终检测效果。因此对于V-detector训练集半径的研究具有重要的意义。本文使用MV-detector算法,在初始自体集半径的选取上加以改进,以得到V-detector算法的训练集的最优自体参数,为后续研究提供更优的自体集参数选择。

在MV-detector算法中,自体数据集的初始半径采用训练集中自体点到非自体点的最近距离,因在大多数实际应用中,初始训练集只有正常数据且zhouji的训练数据集合全部为自体(正常)数据,因此本章将初始自体半径加以改进,在实验阶段的自体初始距离采用0.01。

1 MV-detector算法的基本定义

否定选择算法(NSA)可分为两个阶段:检测器的生成和非自体检测。检测器的生成阶段,即训练数据随机生成候选检测器并与自体数据进行距离比较,若覆盖任何自体区域则舍弃并重新生成候选检测器,在检测器集训练成熟之后可覆盖非自体空间。

检测器的实际检测性能的好坏会受多个参数影响,如自体样本半径、检测器半径、检测器生成阶段的终止条件。在大多数学者的研究实验中,自体样本数据集的大小都根据前人的经验所设置,因此自体半径是最容易被忽略的影响参数。公茂果和陈文分别通过建立自体集检测器和对自体集进行层次聚类,以对NSA进行优化。在本文中,由自体样本和自体半径覆盖的空间被定义为自身区域。如果自体半径过小,则自体空间覆盖率过低。通过自体半径扩展,使得同样数量的自体样本覆盖更多的自体空间,然而一些非自身区域将被错误地覆盖到自体区域中,且两侧自体边界的不平整导致产生检测器不能覆盖的孔洞区域过多。因此,对于NSA选择合适的自体半径非常重要。

免疫系统的功能是对身体的正常状态维持,人体中使用抗体来区分自体和非自体抗原。在NSA中,抗体被定义为用于识别非自体区域的检测器。因此,生成检测器的质量决定了检测性能。以下是一些基本的NSA定义:

(1)从特征空间中提取的所有样本特征构成抗原集。

尽管NSA中检测器被不断改进,但检测性能仍受自体半径、预期覆盖率、检测器半径、检测器体积等多个参数的影响。陈文等人通过研究证明了大的自体半径会降低误检率;Zhouji预估了检测器的非自体覆盖率,并使用非自体覆盖率作为检测器终止生成条件;J.Q Zeng 提出ANSA算法可根据检测结果定期更新改进检测器半径。近年来广大学者在异常检测算法的参数研究中都取得较好的成绩,并使用检测率与误检率作为检测器效果的衡量标准,然而大多数学者仍忽略了训练集中自体半径对检测结果的影响。

在以往的否定选择算法中,采用检测率DR(detection rate)与虚警率FA(false alarm rate)作为检测器检测质量的衡量标准:

其中,、、、分别指检测器正确识别的自体数量、正确识别的非自体数量、错误识别的自体数量、错误识别的非自体数量。

陈文在文献[3]中提出一种新的评估方法,在原有的检测率与误检率基础之上,提出自体检出率p,自体误检率p,非自体检出率p,非自体误检率p,预期自体检出率率p,预期非自体检出率p,检出率p,误检率p八个指标,并以此共同衡量检测效果。

pppp与公式(2)(3)对比可得:

本文在文献[3]中的算法思想的基础之上,在实验阶段对训练集合加以改进,并改变初试自体半径的选择,以动态迭代的方式定量的计算最佳自体半径,以得到V-detector算法的最优数据集。

在文献[3]中选用样本大小为2200的数据集,训练生成检测器,其中包含2000个自体数据与200个异常数据。因在现实应用中,对网络异常数据的初次检测是没有异常数据进行初始训练的,因此本章将陈文的MV-detector算法进行训练集的改进,使用大小为1000的初始自体集,且1000个样本全部为自体(正常)数据。

在MV-detector算法中,自体数据集的初始半径采用训练集中自体点到非自体点的最近距离,因zhouji的训练数据集合全部为自体数据,因此本文在实验阶段的自体初始距离采用0.01,样本空间为二维实值空间[0,1]2。

2 MV-detector算法的自体样本半径分析

此时应将自体半径减去r以收缩自体样本空间,避免对非自体区域的覆盖,增大检测率的覆盖空间。

在MV-detector算法中,得到基础自体半径之后,基于局部数据密度调整自体元素s的半径的方法如下:

表1 自体半径迭代

3 结论

本章通过引入文献[3]的MV-detector的自体检测率P、非自体检测率P、总真实检测率P等参数,通过迭代的方式获得最佳自体半径。对于zhouji在经典算法V-detector中所使用二维实值数据集,当自体空间为交叉十字形、环形、三角形三种自体分布空间时,自体半径=0.2时为最佳自体半径。

[1]Ji Zhou, Dasgupta D. V-detector: an efficient negative selection algorithm with probably adequate detector coverage. Inform sciences, 2009, 179(10): 1390–1406

[2]李栋,刘树林,刘颖慧,张宏利.基于自适应超环检测器的设备异常度检测方法[J].机械工程学报,2014,50(12):17-24.

[3]Wen Chen ,Tao Li .Parameter analysis of negative selection algorithm[J]. Information Sciences, 2017, 420(12):218-234.

[4]Xin Xiao, Tao Li, Ruirui Zhang. An immune optimiz-ation based real-valued negative selection algorithm[M]. Klu-wer Academic Publishers, 2015

[5]Chen Wen, Tao Li, Xiaojie Liu, et al. A negative sel-ection algorithm based on hierarchical clustering of self set[J]. 2013, 56(8):1-13..

[6]Ji Zhou, Dasgupta D. V-detector:an efficient negativeselection algorithm with probably adequate detector coverage. Inform sciences, 2009, 179(10): 1390–1406

[7]Jinquan Zeng, Xiaojie Liu, Tao Li ,et al. A self-adap-tive negative selection algorithm used for anomaly detection[J]. Progress in Natural Science, 2009, 19(2):261-266.

[8]林伟宁,陈明志,詹云清,刘川葆.一种基于PCA和随机森林分类的入侵检测算法研究[J].信息网络安全,2017(11):50-54.

猜你喜欢

检测器自体半径
X美术馆春季双展:特睿·阿布德拉:要上天了&自体触击
直击多面体的外接球的球心及半径
参数可调的联合子空间目标检测方法 *
基于交通诱导的高速公路交通检测器布设方案研究
将相等线段转化为外接圆半径解题
基于均匀性判定规则的统计MIMO雷达多通道融合检测技术
嘻哈中的真自体
脂肪推土机 Bulldozer “自体脂肪填充”大揭秘!
自体富血小板凝胶在糖尿病足中的作用机制与应用
否定选择算法中高性能检测器的生成