加权最近邻聚类在SOC中的应用

2012-10-17丛佩丽

网络安全技术与应用 2012年5期

丛佩丽

辽宁机电职业技术学院信息工程系辽宁 118009

0 引言

本文在上述安全管理系统的基础上，对报警信息聚类的方法进行研究。聚类分析常采用的分类器有：平均样本法优点是算法简单，但是用一点代表一类，过分集中。平均距离法需要计算待识模式与每一个训练样本的距离，计算量比较大。最近邻法需存储和计算训练样本，容易受噪音的影响。K-近邻法中的K值取值较大时，虽然减少了噪音的干扰，但是会把原是一类的分成多类，当K值取值较小时，又受了噪音的干扰。改进的最近邻以每一个类别以几个子集的平均样本为代表，采取最近邻法进行分类，这样减少了存储量和计算量，减少噪音的干扰，这是通常采用的分类器。

1 加权最近邻聚类报警的设计

1.1 SOC总体系结构设计

SOC关键技术是安全事件的关联信息模型、通用高性能关联引擎、安全事件重要性评估、安全设备联动控制等关键技术。完成安全事件的信息聚类是上述关键技术实现的前提。网络报警的聚类主要是在SOC的收集代理上实现，而且聚类主要是针对同一类型报警信息的纵向聚类。聚类的主要目的是减少网络报警的数量，将多条重复的报警信息在规定的时间阈值和空间阈值内合并成一条。

网络报警信息的规范化过程是指将各类安全信息转化为以统一格式描述的信息的过程，从而带来语义级别的提升。由于网络设备千差万别，所以它们所发出的报警的格式也多种多样，需要进行必要的聚类操作。因此在设计 SOC体系时，本文侧重于收集代理上的信息聚类方法的研究，建立SOC总体结构如图1所示。

图1 SOC总体结构图

1.2 加权最近邻聚类报警模型

定义1 报警信息向量：从报警信息记录的原始报警信息中提取的有助构建进攻场面的特征属性：设备类型、攻击方式、源IP、源端口、目的IP、目的端口、以太网协仪依次作为一条报警信息的七个分量，构建的向量称为报警信息向量。

定义2 报警信息向量空间：由所有报警信息向量构成的7维向量空间称为报警信息向量空间。

在报警信息的聚类过程中，本系统采用了具有权值的最近邻算法进行聚类。海量的报警信息相当于空间点集V，每个点(即报警信息)又可抽象成报警信息向量，相当于点集中的点 P1。如果两个七元组 P1、P2中所有元素均相同，则其距离为0，也就是P2为P1的最近邻，即 MN( P1)=P2。根据报警向量中各元素在攻击中所扮演的角色不同，为其分配一个惟一的权值，分别为ω1,ω2,…ω7，P1,P2,…P7为元素比较标志。如果P1、P2的对应分量相同，则1F为0，否则1F为1。P1、P2间的距离D(P1、P2)定义为：

如果D(P1，P2)≤t则P1，P2属于同一类，可合并为一条报警信息，并且将各个报警信息的次数相加。在丹东水利系统SOC中，报警信息向量的权值ω，距离阈值t，聚类时间阈值和聚类的空间阈值都可以灵活设定。

在聚类过程中为了提高聚类效率，本系统采用了平衡二叉树算法。如图2所示。

图2 SOC 聚类逻辑结构

将每个待聚类的关键字作为二叉树的一个节点，如果新采集的规范化后的网络报警和在平衡二叉树中查找到的节点的关键字依据公式1计算出它们之间的距离D，如果D≤t就将二叉树节点的次数字段和新报警信息的次数相加，如果不同就将该新报警信息插入到平衡二叉树，并调整二叉树为平衡状态。

甜玉米品质：成熟期采集甜玉米可鲜食部分，采用水杨酸硝化法测定硝酸盐含量，采用蒽酮比色法测定可溶性糖含量，采用考马斯亮蓝G250法测定可溶性蛋白含量［16］。

本系统在聚类过程中同时还维护了一个队列，每在平衡二叉树中插入一个节点同时也将该节点入队并记下入队时间。每隔2秒钟轮询队列。用当前时间减去入队时间，如果时间差大于聚类阈值，在平衡二叉树中查找该节点，将该节点提交给网络报警初步关联分析模块，同时将该节点从二叉树中删除，将二叉树调整为平衡状态。如果平衡二叉树节点达到最大值，则新来的报警信息将替换平衡二叉树中时间最久的节点，这样就会出现丢包现象。