加权最近邻聚类在SOC中的应用
2012-10-17丛佩丽
丛佩丽
辽宁机电职业技术学院信息工程系 辽宁 118009
0 引言
本文在上述安全管理系统的基础上,对报警信息聚类的方法进行研究。聚类分析常采用的分类器有:平均样本法优点是算法简单,但是用一点代表一类,过分集中。平均距离法需要计算待识模式与每一个训练样本的距离,计算量比较大。最近邻法需存储和计算训练样本,容易受噪音的影响。K-近邻法中的K值取值较大时,虽然减少了噪音的干扰,但是会把原是一类的分成多类,当K值取值较小时,又受了噪音的干扰。改进的最近邻以每一个类别以几个子集的平均样本为代表,采取最近邻法进行分类,这样减少了存储量和计算量,减少噪音的干扰,这是通常采用的分类器。
1 加权最近邻聚类报警的设计
1.1 SOC总体系结构设计
SOC关键技术是安全事件的关联信息模型、通用高性能关联引擎、安全事件重要性评估、安全设备联动控制等关键技术。完成安全事件的信息聚类是上述关键技术实现的前提。网络报警的聚类主要是在SOC的收集代理上实现,而且聚类主要是针对同一类型报警信息的纵向聚类。聚类的主要目的是减少网络报警的数量,将多条重复的报警信息在规定的时间阈值和空间阈值内合并成一条。
网络报警信息的规范化过程是指将各类安全信息转化为以统一格式描述的信息的过程,从而带来语义级别的提升。由于网络设备千差万别,所以它们所发出的报警的格式也多种多样,需要进行必要的聚类操作。因此在设计 SOC体系时,本文侧重于收集代理上的信息聚类方法的研究,建立SOC总体结构如图1所示。
图1 SOC总体结构图
1.2 加权最近邻聚类报警模型
定义1 报警信息向量:从报警信息记录的原始报警信息中提取的有助构建进攻场面的特征属性:设备类型、攻击方式、源IP、源端口、目的IP、目的端口、以太网协仪依次作为一条报警信息的七个分量,构建的向量称为报警信息向量。
定义2 报警信息向量空间:由所有报警信息向量构成的7维向量空间称为报警信息向量空间。
在报警信息的聚类过程中,本系统采用了具有权值的最近邻算法进行聚类。海量的报警信息相当于空间点集V,每个点(即报警信息)又可抽象成报警信息向量,相当于点集中的点 P1。如果两个七元组 P1、P2中所有元素均相同,则其距离为0,也就是P2为P1的最近邻,即 MN( P1)=P2。根据报警向量中各元素在攻击中所扮演的角色不同,为其分配一个惟一的权值,分别为ω1,ω2,…ω7,P1,P2,…P7为元素比较标志。如果P1、P2的对应分量相同,则1F为0,否则1F为1。P1、P2间的距离D(P1、P2)定义为:
如果D(P1,P2)≤t则P1,P2属于同一类,可合并为一条报警信息,并且将各个报警信息的次数相加。在丹东水利系统SOC中,报警信息向量的权值ω,距离阈值t,聚类时间阈值和聚类的空间阈值都可以灵活设定。
在聚类过程中为了提高聚类效率,本系统采用了平衡二叉树算法。如图2所示。
图2 SOC 聚类逻辑结构
将每个待聚类的关键字作为二叉树的一个节点,如果新采集的规范化后的网络报警和在平衡二叉树中查找到的节点的关键字依据公式1计算出它们之间的距离D,如果D≤t就将二叉树节点的次数字段和新报警信息的次数相加,如果不同就将该新报警信息插入到平衡二叉树,并调整二叉树为平衡状态。
甜玉米品质:成熟期采集甜玉米可鲜食部分,采用水杨酸硝化法测定硝酸盐含量,采用蒽酮比色法测定可溶性糖含量,采用考马斯亮蓝G250法测定可溶性蛋白含量[16]。
本系统在聚类过程中同时还维护了一个队列,每在平衡二叉树中插入一个节点同时也将该节点入队并记下入队时间。每隔2秒钟轮询队列。用当前时间减去入队时间,如果时间差大于聚类阈值,在平衡二叉树中查找该节点,将该节点提交给网络报警初步关联分析模块,同时将该节点从二叉树中删除,将二叉树调整为平衡状态。如果平衡二叉树节点达到最大值,则新来的报警信息将替换平衡二叉树中时间最久的节点,这样就会出现丢包现象。
2 系统测试
2.1 测试环境
为了满足本系统的技术功能测试要求,搭建了一个由事件收集代理,SOC服务器,SOC数据库服务器,扫描器,审计中心,防火墙,入侵检测系统,服务器和两台测试机组成的测试网络,并可以接入现有的试验网,满足对其网络设备进行安全监控等要求。具体如图3所示。
图3 SOC测试网络拓扑图
2.2 测试工具
(1) SOC Web服务器一台。应用服务器是SOC安全管理平台的分析中心,提供对安全信息的关联分析、安全脆弱性分析、安全事件处理监控与管理、安全状况评估、安全知识库管理等功能。
(2) SOC数据库服务器一台。数据库服务器主要用来保存SOC安全管理平台的数据信息,为SOC安全管理平台提供数据的存储、查询等功能。IP地址设置为192.168.71.30。
(3) 收集代理服务器两台。安全信息收集代理主要完成对设备和主机系统的安全信息的收集、安全域内资产的自动发现等功能。IP地址分别设置为192.168.70.13,210.36.45.13。
(4) 扫描器一台。扫描系统存在的漏洞。
(5) 测试PC两台,模拟发送本系统所支持的其它设备的报警信息。
(6) 防火墙一台。对攻击事件发出网络报警。
(7) 审计中心一台。
(8) IDS一台。对攻击事件发出网络报警。
2.3 测试流程
本系统的主要工作流程如下:
(1) 管理员通过Web浏览器打开Web管理中心界面,通过用户认证后,正式登录Web管理中心。
(2) 配置应用服务器,设置报警聚类的相关参数。
(3) 配置收集代理服务器,设置收集代理的相关参数,确定收集代理收集的目标设备。
(4) 利用测试PC1和PC2发动攻击。
(5) 应用服务器利用数据库中的规则库进行关联分析,并给出告警信息。
2.4 相关测试结果
通过测试,得出了如下结果:
(1) 支持网络报警设备
本系统支持的网络报警设备有:Cisco 系列路由器、Cisco系列交换机、天融信防火墙、东软防火墙、东软IDS、启明IDS、启明扫描器、Nessus扫描器、Nmap扫描器、北电帧中继设备、Linux主机、Window主机、Symantec 防病毒软件。对其它厂家设备实现了可扩展支持。
(2) 支持网络报警格式
本系统支持的网络报警格式有:SNMPTRAP、SYSLOG、文本格式、ODBC格式。对其它协议可扩展支持。
(3) 报警信息收集能力
本系统的报警信息收集能力大于30万条/分钟,关联分析规则库内置了四百余条规则。
(4) 聚类前后报警数量对比如图4所示。
图4 SOC聚类结果对比图
由图4可以看出,聚类前报警数量约为12000多条聚类后仅有4000余条。报警数量减少了约2/3。
3 结论
本文所应用的基于有权值的最近邻聚类技术有效的减少了报警数量,降低了误报率,为进一步进行关联分析奠定了基础,使SOC系统更好发挥作用,确保网络信息安全。
[1]McHugh J. Intrusion and intrusion detection, International Journal of Information Security. 2001.
[2]温辉,徐开勇.网络安全事件关联分析及主动响应机制的研究.计算机应用与软件.2010.
[3]贾丙静,王传安.Web日志挖掘中模糊C均值聚类研究[J].辽东学院学报(自然科学版).2011.
[4]杨德志.基于QPSO参数优化的LS-SVM智能标定[J].辽东学院学报(自然科学版).2011.
[5]吴正桢,陈秀真,李建华.基于聚类和报警先决条件的网络入侵关联分析[J].计算机工程.2007.
[6]胡永丽,龚沛曾.基于模糊C均值和改进的LSA的文档聚类研究.计算机技术与发展.2010.
[7]赵彬,王亚弟等.网络安全运营中心关键技术研究[J].信息安全技术.2009.
[8]严会超,陈联城等.采用综合加权聚类方法的农产品安全监测点规划[J].应用生态学报.2009.
[9]丛佩丽.SOC中报警聚类及关联分析技术的设计与实现[D].大连理工大学.2008.