APP下载

基于语义Agent的网络安全数据采集模型*

2014-11-23

舰船电子工程 2014年2期
关键词:数据源异构语义

(洛阳电子装备试验中心 洛阳 471003)

1 引言

随着网络技术的不断发展和网络的迅速普及,人们越来越依赖网络,同时针对计算机和网络的攻击也变得越来越普遍,网络安全面临新的挑战[1]。目前网络正朝着大规模、高度分布式的方向发展,入侵攻击行为也正朝着规模化、分布式、复杂化、多样化、智能化等方向发展和演化[2]。日益严峻的安全威胁迫使各职能部门不得不加强对网络系统的安全防护,不断追求多层次、立体化的安全防御体系,逐步建立了以网络入侵检测、网络防火墙、防病毒系统、终端监控系统等大量异构安全防御技术为基础的纵深防御体系[3]。然而,如果安全防御体系仍然以孤立的单点防御为主,相互间缺乏有效协作,必将形成一个个的安全“孤岛”,无法体现网络系统全局安全态势。因此,网络安全态势感知系统的发展趋势就是要采集并融合处理多源异构网络安全状态数据,从而做到对大规模网络的全面监控,及时掌握网络安全状况。

网络安全数据采集的目的是为网络安全态势感知系统提供数据支撑,防御体系中各类安全传感器产生的数据量大,数据类型、数据格式存在差异,数据之间相互支持或互补,也可能相互矛盾,必然给数据采集和利用带来一定困难。因此,有必要设计一种网络安全数据采集模型,实时采集各类安全传感器产生的数据,并将这些数据统一表示和管理,消除语义理解差异,融合处理各类安全数据,同时鉴于网络安全技术的快速发展和设备的不断更新,设计的数据采集模型必须具备可扩展性。

2 语义Agent技术

Agent是一种在分布式系统或协作系统中能持续自主地发挥作用的计算实体,常简称为智能体或主体。由于Agent具有自治性、社会能力、反应性、能动性、开放性和鲁棒性等特点,将其应用于网络安全数据采集系统中能够在全网络范围内进行统一部署,具有良好的跨平台性和可伸缩性。Agent在配置和更新过程中对网络和主机资源的低开销,使得系统瓶颈出现的可能得到了减少。

语义网技术的发展使得一系列计算机可理解和处理的表达语义信息的语言和技术得以诞生,以支持对网络中多源异构和分布的信息提供智能访问,使得万维网上的信息具有计算机可以理解的语义。语义网的层次结构如图1[4]所示。通过语义网技术,能够实现对信息资源的统一描述,建立信息资源之间的语义联系,使得各计算机程序能够进行语义上的相互交流。

图1 语义网层次结构图

语义Agent技术是语义网技术与Agent技术两者的结合。语义网技术为传统Agent技术的研究注入了新鲜的血液和活力,将语义网技术引入Agent,使得Agent能够更加有效地实现知识的表示、获取、共享和更新,进行语义层次上的分析和推理,使得Agent 之间的交互和协作更加方便快捷[5]。

基于Agent的网络数据采集已经有过很多研究[6~7],基于相关语义技术如XML 的网络数据采集也有过相关研究[8],但是目前还没有人将数据的语义表示与基于Agent的数据采集结合使用,而对数据的语义表示存在易于使用、便于集成等诸多优点,如果在采集后再对数据进行统一语义表示,由于数据存储时间长等原因,可能造成对数据来源、数据表示意义等的模糊混乱问题。为此,本文考虑在存储数据之前完成数据采集与数据的语义表示这两个动作,建立基于语义Agent的网络安全数据采集模型。

3 网络安全数据源

为全面采集网络安全数据,需要对网络安全数据源进行分析,确定数据采集对象,并对采集数据类型进行划分,从而为采集方法的制定和采集工具的设计实现提供支撑。分别对入侵检测系统、防火墙、终端监控系统、网络性能监测、网络防病毒系统和漏洞扫描系统这几类常见的安全数据源[9]及其产生的数据类型进行分析。

3.1 数据源分析

1)入侵检测系统

作为网络安全系统的重要组成部分和其他安全系统的重要补充,入侵检测系统发挥着越来越重要的作用。入侵检测系统分为基于主机的和基于网络的入侵检测系统两种。入侵检测系统最大的挑战是其产生的虚假错误警报以及漏报,其产生的数据形式是报警日志,由于其可能产生虚假错误警报,使得有必要通过其他安全系统来弥补这一缺陷,并通过其他系统对网络安全进行补充,在后期数据处理中要着重解决虚假信息的问题。

2)防火墙

防火墙是建立在内外网边界上的过滤封锁机制,其认为内部网络是安全和可信赖的,而外部网络是不安全和不可靠的。防火墙具有访问控制、内容控制、流量控制等功能,从而可以防止不希望的、未经授权的通信进出被保护的内部网络。防火墙产生的安全数据是网络访问日志,记录网络访问情况,包括内外网进出的访问,并记录在什么时间进行了什么操作。

3)终端监控系统

终端监控系统主要通过相关手段对终端的文件操作、配置修改、网络连接、系统服务、内存使用等进行监控。常用的终端监控方式包括进程监控、服务监控、注册表监控、操作系统性能监控等。相关性能数据包括CPU 利用率、内存利用率、磁盘I/O、数据库并发用户数、注册表信息修改、系统文件修改等。

4)网络性能监测

网络性能监测的主要目的是发现网络瓶颈,优化网络配置,并进一步发现网络中可能存在的危险,更加有效地进行网络性能管理,提供网络服务质量的验证和控制,对服务质量指标进行量化、比较和验证。衡量网络性能的指标主要包括网络连通性、带宽利用率、网络延迟等。

5)网络防病毒系统

网络防病毒系统通过在网络层、邮件网关、Web网关、群件、应用服务器、客户端等节点进行病毒拦截,实现对网络的全方位、多层次防毒。网络防病毒系统产生的安全数据是病毒拦截日志。

6)漏洞扫描系统

漏洞扫描系统的主要功能是识别网络中终端的工作状态(开机/关机)、识别端口状态(监听/关闭)、识别系统及服务类型和版本、扫描并分析系统漏洞和泄露,生成扫描结果和各式报告。

3.2 安全数据分类

计算机网络系统复杂庞大,运行过程中产生的数据具有多源、海量、异构等特点,由于种种原因很难全面、及时、准确地获取这些数据。因此,只能退而求其次,选取具有代表性、信息量相对丰富、采集容易、可靠度较高以及冗余度较低的数据作为系统数据采集对象。同时考虑各数据源之间存在数据交叉和数据互补,应尽量扩大数据采集覆盖面。由于数据实时采集会对系统带来一定的开销,严重时会影响系统性能,为此,通过对数据进行分析,将数据分为静态数据和动态数据[10]。

静态数据是指来自终端监控系统、漏洞扫描系统和防火墙等系统中静态配置的安全信息,这些目标系统配置信息是相对稳定的信息,基本不随网络攻击发生变化,不需要实时采集,只需存放在数据库中定时更新。

动态数据是指受网络攻击影响实时产生的数据,包括日志数据、服务数据、SNMP 数据和Net-Flow 数据。

日志数据包括文件日志、协议日志和API日志等,主要从主机、路由器、交换机以及其他安全系统产生的日志,如入侵检测系统生成的报警日志等。

服务数据包括服务配置文件信息、关键进程状态信息、服务漏洞数据、性能数据等。

SNMP数据是指根据SNMP协议实时采集的网络交换设备和终端设备等设备管理信息库中的相关数据。

NetFlow 数据是指网络交换设备产生的Net-Flow 数据。

4 基于语义Agent的安全数据采集模型

4.1 功能模型

依据网络纵深防御体系,设计如图2所示的基于语义Agent的网络安全数据采集模型,该模型采用三层架构形式,包括数据采集层、管理层和融合存储层。

图2 基于语义Agent的网络安全数据采集模型

根据层次结构模型,各层次的功能为:

1)数据采集层

数据采集层由各数据采集Agent组成,采用分布式数据采集框架,将各数据采集Agent独立部署在网络中,各数据采集Agent与入侵检测系统、防火墙等网络安全设备或系统直接相连,根据数据采集对象的不同部署配置具有相应采集功能的数据采集Agent,通过Agent读取捕获各设备信息或系统输出信息文件,并对数据进行分析处理。

2)管理层

管理层由各管理Agent构成,各管理Agent实现对各个采集Agent的启停管理、状态监控,以及采集规则或策略的动态调整等,并对数据采集Agent上传的安全数据进行语义封装,将封装后的数据汇聚到语义融合Agent。

3)融合存储层

融合存储层由安全信息数据库和语义融合Agent构成,安全信息数据库用于对采集的数据进行存储管理,语义融合Agent用于对汇聚的安全数据进行融合处理,并将融合后数据统一定向到安全信息数据库中。

4.2 系统特点

为了适应大规模网络安全数据的多源异构特性,本文设计的网络安全数据采集模型具有系统可扩展、分布式采集、集中式管理、统一语义封装、数据融合等特点。

1)系统可扩展

新的网络安全问题会不断出现,如果系统具备可扩展能力,可以使系统能够不断发展和扩充,从而能够及时适应新型安全设备数据采集需求。由系统功能结构模型可知,每个数据采集Agent对应一个管理Agent,每对“管理-采集”Agent之间采用内部通信协议进行交互。这种结构使得管理与采集分开,通过管理Agent作为数据库和采集工具的沟通媒介,使得管理接口编写可以独立于具体的采集工具,系统更为通用;采集工具不再受制于管理方式的变化,使得系统进一步兼容了采集工具的差异性。

2)分布式采集

对于大规模计算机网络,安全数据采集点多,采集模型依据Agent是一种分布式系统中的智能体的特点,将Agent思想融入数据采集工具中,将各个安全数据采集Agent独立部署在计算机网络中,并通过一个语义融合Agent对各采集Agent的数据进行融合处理。

3)集中式管理

管理Agent与采集Agent之间通过内部协议进行交互,各管理Agent对外接口一致,使得系统可以通过统一的接口对采集Agent集中控制管理,而具体的控制操作则由管理Agent进行解释执行,这样就使得不同的Agent在采集数据的同时能够接受统一管理。

4)统一语义封装

为了避免数据歧义,解决多源数据引起的数据异构问题,模型采用语义表示方法,将各采集Agent采集的数据进行语义封装,实现了安全数据的统一表示,避免了数据歧义和数据异构带来的数据共享难题。

5)数据融合

在由不同类型安全设备组成的网络防御体系中,同一个攻击往往会在各个安全设备上留下痕迹,这些异构的安全设备从不同侧面反映攻击的影响。因而,对各安全设备的数据采集结果,必然存在一定的冗余,模型对汇聚后的数据进行语义融合,利用来自多个安全数据源信息的互补性,可降低安全数据信息的冗余度,并为后续应用提供更加全面、可靠、准确、有效的数据。

4.3 网络安全数据采集流程

图3为本文设计的安全数据采集框架的数据采集流程。用户在采集数据前对数据采集策略进行设置,由管理层各管理Agent对采集策略进行解释,传达给采集层对应数据采集Agent,数据采集Agent在接收到管理信息后,启动采集进程,采集所需安全数据,并对数据进行分析处理和格式化。各数据采集Agent通过内部协议将格式化数据传输给相应管理Agent,由管理Agent完成语义封装,通过统一外部协议将语义数据汇聚到语义融合Agent,完成安全数据融合,将数据存入安全信息数据库。

图3 安全数据采集流程

4.4 Agent设计

结合Agent在主动性和智能性等方面的优势和语义网技术在异构数据统一描述方面的优势,设计数据采集Agent、管理Agent和语义融合Agent。

1)数据采集Agent

对于不同种类的安全数据类型,需要开发相应的数据采集Agent,比如日志类、服务类数据采集Agent等。各类数据采集Agent采集内容与方式不同,但功能框架基本一致,主要包括数据采集、数据分析处理和数据格式化等模块,如图4所示。

数据采集模块从各个安全数据源采集相关信息,采集内容不同,采用的方法和相关协议也不同。如网元信息采集采用SNMP 协议,流量信息采集采用NetFlow 协议等。

数据分析处理模块接收数据采集模块采集的数据,负责对采集到的数据进行分析处理,包括统计分析、关联分析、指标计算等。

数据格式化模块通过对数据过滤、约简和合并等,按照制定的格式进行数据格式的统一转换。

图4 数据采集Agent功能框架

2)管理Agent

管理Agent负责数据采集Agent的接入和管理,主要包括数据接入、数据格式化处理和数据集成封装等模块,如图5所示。

图5 管理Agent功能框架

数据接入模块负责接收数据采集Agent采集的数据,能适应采集的不同格式要求,完成对各类数据采集Agent的接入。

数据格式化处理模块对接收的各类数据进行格式统一,完成数据格式的统一转换,从而屏蔽各采集Agent细节,为数据集成封装模块提供统一格式数据。

数据集成封装模块采用XML、本体等语义网技术对格式化后的数据进行语义封装。

3)语义融合Agent

语义融合Agent负责汇聚和融合处理各管理Agent上传的语义数据,主要包括数据汇聚、数据关联、数据融合和数据持久化等模块,如图6所示。

图6 语义融合Agent功能框架

数据汇聚模块负责将各个管理Agent封装的语义数据进行汇聚,根据数据时间戳、对象等属性,将数据传输到数据关联模块。

数据关联模块通过对汇聚的语义数据进行分析,依据数据采集对象等属性,将从多个数据源获取的语义数据进行关联,为数据融合奠定基础。

数据融合模块根据数据关联结果,将关联后的数据通过冗余化处理、数据清洗、合并等过程进行融合,充分利用数据源的多源异构特性,实现安全数据的相互补充。

数据持久化模块将融合后的语义数据,存入数据库中,为网络安全态势显示系统或其他系统提供可用数据源。

5 结语

本文首先对网络安全数据的多源异构特性进行分析,并对Agent技术和语义网技术进行了介绍,在此基础上,将语义网技术和Agent技术相结合,给出基于语义Agent的网络安全数据采集模型,对该模型的功能、特点、数据采集流程进行了详细说明,并对模型中的各类Agent进行了具体设计说明。本文提出一种新的、将Agent和语义网技术相结合的数据采集方法,并设计出数据采集框架,对多源异构网络安全数据采集具有一定的指导意义。

[1]张斌,王铭皓,王玮.我国网络犯罪现状与内部网络安全管理模式探讨[J].国土资源信息化,2004(4):6-10.

[2]刘效武.基于多源融合的网络安全态势量化感知与评估[D].哈尔滨:哈尔滨工程大学,2009.

[3]李建平.面向异构数据源的网络安全态势感知模型与方法研究[D].哈尔滨:哈尔滨工程大学,2010.

[4](美)安东尼奥(Antonio,G.),(美)海尔梅莱恩(Harmelen,F.).语义网基本教程[M].北京:机械工业出版社,2008.

[5]傅魁,聂规划.基于语义Agent的谈判提案效用挖掘研究[J].情报杂志,2007(8):75-78.

[6]张晓娜,黄赪东,綦磊升.基于多Agent的网络安全性测试数据采集系统[J].舰船电子工程,2010,30(11):121-124.

[7]王会梅,王永杰,鲜明.基于移动agent的网络攻击效果评估数据采集[J].计算机工程,2007,33(14):160-162.

[8]赵成栋.基于XML 的电信网络管理数据采集与处理[J].计算机工程与应用,2003(22):149-150,163.

[9]彭琪.统一网络安全管理系统中数据采集关键技术的研究[D].武汉:华中师范大学,2008.

[10]马琳茹,杨林,王建新.多源异构安全信息融合关联技术研究[J].系统仿真学报,2008,20(4):981-985.

猜你喜欢

数据源异构语义
ETC拓展应用场景下的多源异构交易系统
真实场景水下语义分割方法及数据集
试论同课异构之“同”与“异”
一种多源数据融合过程中的实体关联性计算方法
语言与语义
多源异构数据整合系统在医疗大数据中的研究
利用属性集相关性与源误差的多真值发现方法研究
吴健:多元异构的数字敦煌
Web 大数据系统数据源选择*
“吃+NP”的语义生成机制研究