基于闲置资源利用的无线分布式审计模型设计
2010-07-10刘勇生
刘勇生
(东莞理工学院 网络与教育技术中心,东莞 523808)
0 引 言
近些年来随着个人数据通信的发展,功能强大的便携式数据终端以及多媒体终端得到了广泛的应用。为了实现使用户能够在任何时间、任何地点均能实现数据通信的目标,要求传统的计算机网络由有线向无线、由固定向移动、由单一业务向多媒体发展,另外由于无线局域网的安装方便、快捷 、费用低、网络扩展性好 等优势,无线局域网技术得到了快速的发展。 由于目前大多数企业都在内部部署了无线局域网。
而随着网络攻击手段的日趋复杂,攻击模型分布式、协同化趋势的日益突显,以及海量存储和高带宽传输技术的快速发展,集中式安全审计系统已无法承担高速、大型分布式网络环境下的安全审计任务。在这种情况下,动态、分布式的安全审计技术成为安全审计技术发展的突破口。
另外根据资料分析,现在企业中安装的计算机,只有40%的计算能力被利用,甚至更低,而其余70%的实际上是被闲置的,这些闲置的计算机资源和计算能力具有相当大的开发潜力。
云计算[1]是对分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)及分布式数据库的改进处理,在互联网宽带技术和虚拟化技术高速发展后萌生出云计算。利用云计算将计算资源集中、统一管理、调度可以大大提高资源的使用效率,减少资源浪费。
综合以上的情况,本文首先介绍当前分布式安全审计系统的研究情况,并针对当前分布式安全审计系统研究面临的数据分析问题,提出改进方法,在无线网络的基础上结合云计算的方法设计了基于剩余计算机资源利用的机制,并给出了一种改进的分布式安全审计系统模型。
1 当前分布式安全审计系统的研究状况
在分布式安全审计技术方面已经开展了较多的研究工作[2],并实现了多种类型的验证系统。这些分布式安全审计系统通常由多个模块组成,这些模块一般分布在网络的不同位置,分别完成数据收集、分析和人机交互等功能。根据分布式安全审计系统是否配有控制中心模块,可将它们分为两类:
1.1 具有控制中心的分布式安全审计系统
这类系统的主要特点是:分布式的数据采集与集中式的数据分析相结合。它通常由基于Agent机制的数据采集器、集中式的数据存储中心、集中式的数据分析中心和用户管理界面构成。数据采集代理是独立运行的软件实体,它负责审计数据的采集,并将审计数据发送到数据存储中心;数据存储中心负责审计数据的存储与维护,并在必要时向数据分析中心提供审计数据;信息分析中心负责对采集到的原始审计数据进行综合分析,通过分析来发现可疑的操作;用户界面为用户提供配置系统参数和察看分析结果的平台。
1.2 无控制中心的分布式安全审计系统
这种系统的主要特点是:分布式的数据采集,相互协作分析复杂的审计数据。它通常是由安全审计代理和通信代理组成。
目前,分布式安全审计系统的设计大多采用具有控制中心的分布式安全审计模型,并将研究的重点放在数据挖掘技术、多智能体技术和规则关联等技术[3]与该模型的结合上。
2 基于闲置资源利用的无线分布式审计模型设计
剩余资源利用的无线分布式审计模型设计的中心思想是将基于控制中心的分布式安全审计系统中的数据分析中心的计算压力分流到无线网络中的各个闲置计算资源中。
2.1 主要解决问题
根据上述分析,基于闲置资源利用的无线分布式审计模型设计的主要解决的问题体现在如下3个方面:
1)如何有效的判断和分配闲置资源,确保在不影响用户正常使用的同时,还能参与分析审计数据。
2)如何保护审计数据的安全,原始审计数据中往往会包含一些私人信息,而这些原始审计如果放在闲置的计算机上分析计算,有可能导致计算机用户隐私信息的泄露或者被攻击者窃听。
3)如何保证在无线网络中各个工作单元频繁的进行协同和数据交换的情况下,不会明显增加网络负载。
2.2 结构模型设计
2.2.1 MapReduce[4]的分布式处理技术
基于闲置资源利用的无线分布式审计模型的核心技术采用MapReduce的分布式处理技术,MapReduce是云计算广泛采用的分布式处理技术,用于大规模数据集(大于1TB)的并行运算,也是简化的分布式编程模式,适合用来处理大量数据的分布式运算,用于解决问题的程序开发模型。
MapReduce模式的思想是将要执行的问题拆解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理达到分布运算的效果,Map之后还会有shuffle的过程,对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。再通过Reduce程序将结果汇整,输出开发者需要的结果。
2.2.2 基于Hadoop[5]架构
基于闲置资源利用的无线分布式审计模型采用Hadoop框架,Hadoop框架用于实现MapReduce算法,能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。
此外,Hadoop框架提供一个分布式文件系统HDFS(Hadoop Distributed File System[6]),它是一个可扩展、结构化、具备日志的分布式文件系统,支持大型、分布式大数据量的读写操作,其容错性较强,分布式文件系统HDFS是Hadoop框架的核心。
图1 Hadoop构架
Hadoop框架还包含一个分布式数据库(HBase)类似GOOGLE的BigTable是一个有序、稀疏、多维度的映射表,HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只要用户喜欢这样做。HBase有良好的伸缩性和高可用性,非常适合用来将数据存储或部署到各个计算节点上。
包含HDFS和HBase的Hadoop 框架具有高容错性、对数据读写的高吞吐率、自动处理失败节点等云计算的核心要素。在架构中MapReduce API提供Map和Reduce处理、HDFS分布式文件系统和HBase分布式数据库提供数据存取。基于Hadoop框架可以非常轻松和方便完成处理海量数据的分布式并行程序,并运行于大规模计算集群上。
2.2.3 系统模型结构组成
基于闲置资源利用的无线分布式审计模型由两部分组成:分布式中间件和节点软件。
分布式中间件安装在审计系统的数据分析中心内,分布式中间件负责资源管理、任务管理等工作。资源管理负责均衡地使用资源节点,检测节点的故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计;任务管理负责执行用户或应用提交的任务,包括完成任务映象(Image)的部署和管理、任务调度、任务执行、任务生命期管理等等;
节点软件被安装在拥有闲置资源的计算机内,通过无线网络与分布式中间件建立连接,判断本机的闲置状态提交分布式中间件,接受分布式中间件的计算任务和调度工作,并将分析结果提交分布式中间件。
为确保数据安全和降低网络负荷,审计数据在传送到节点前都经过压缩和加密处理。由于审计数据是基于XML格式存储,系统使用XQzip[7]技术针对XML格式数据进行压缩,XQzip技术有以下特征:1)达到一个好的压缩率和一个好的压缩/解压缩时间;2)支持在XML压缩数据上的有效的检索处理;3)支持有表达力的检索语言。在压缩过程中XQzip将数据压缩成能分别解压缩的块的序列,同时允许利用XML数据的通用性达到好的压缩,从而避免了整体解压缩。XQzip也通过为XML数据已解压的块设置一个缓冲区有效地减少检索中的解压缩开销。能够大幅度提高系统资源的使用效率。审计数据压缩完毕后会再使用3DES加密算法加密压缩后的数据,确保数据安全保密。
图2 系统模型结构流程图
如图2基于闲置资源利用的无线分布式审计模型的执行过程包括以下步骤。
1)将要执行的数据分析程序复制到Hadoop框架中的Master和每一台无线节点中。
2)Master选择由哪些无线节点来执行Map程序与Reduce程序。
3)分配所有的数据区块到执行Map程序的无线节点中进行Map(切割成小块数据)。
4)将Map后的数据交给数据程序分析并将结果保存到无线节点的本地磁盘。
5)执行Reduce程序的无线节点,远程读取每一份Map结果,进行混合、汇整与排序,同时执行Reduce程序。
6)将结果返回到数据分析中心。
在过程中为了保证计算和存储等操作的完整性,充分利用MapReduce的分布和可靠特性,在数据上传和下载过程中根据各无线节点在指定时间内反馈的信息判断节点的状态是正常还是死亡,若节点死亡则将其负责的任务分配给别的节点,确保数据的完整性。
3 结束语
为了实现充分利用闲置的计算资源,分担大规模分布式网络环境下的安全审计中的数据分析压力,本文提出了基于闲置资源利用的无线分布式审计模型,给出了系统的结构设计。该模型基于Hadoop架构并结合了MapReduce的分布式处理技术,通过该模型的架构可以使拥有闲置资源的无线节点协同完成数据分析工作,采用的压缩和加密技术大大降低了通信的网络负载并保证了数据的安全。由于这一模型设计从目前来讲属于全新的设计,因此还有很多的具体问题需要进一步的验证和改进,并在系统的实现过程中不断完善。
[1] 陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,9:2562-2567.
[2] 张世永.信息安全审计技术的发展和应用[J].电信科学,2003,12:125-128.
[3] 江伟,陈龙,王国胤.用户行为异常检测在安全审计系统中的应用[J].计算机应用,2006,26(7):1637-1639.
[4] Ralf Lammel, Google's MapReduce programming model— Revisited,Data Programmability Team, Microsoft Corp.,Redmond,WA, USA,18.July 2007.
[5] http://hadoop.apache.org/common/docs/current/hdfs_design.html.
[6] http://hadoop.apache.org/.
[7] J.Cheng, and W.Ng, "XQzip: Querying Compressed XML using Structural Indexing," In EDBT 2004, LNCS 2992,2004.