海量网络数据处理平台安全问题研究
2017-04-08王波
王波
摘要:针对海量网络数据的安全问题,该文釆用模糊K-均值算法和朴素贝叶斯分类构建的联合分类算法,以及基于Mahout技术实现分类算法在MapReduce框架上的并行计算,对于原始的网络流量数据进行特征指标提取,建立相应的模型并进行训练,然后使用联合分类器的综合判定算法进行异常流量的判定,从而达到全面的对网络异常流量进行检测,提高海量网络数据处理平台的安全性的目的。
关键词:Hadoop;大数据;网络流量;数据存储;异构
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)05-0007-02
Abstract: For the security problem of massive network data, this paper uses the fuzzy K- algorithm and Naive Bayesian classification to build a joint classification algorithm, and Mahout technology to achieve classification algorithm on the MapReduce framework of parallel computing, the original network traffic data for feature extraction, the establishment of the corresponding model and training, and then use the joint classifier to determine the abnormal traffic, so as to achieve a comprehensive network anomaly traffic detection, improve the security of massive network data processing platform.
Key words: Hadoop; big data; network traffic; network security; parallel computing
1 概述
安全問题是制约云计算技术发展和普及的一个重要问题。虽然研究人员已经开展了许多针对云安全问题的研究工作,但在引入了移动互联网的海量网络数据处理业务后,现有的基于Hadoop的云计算平台仍需要加强对数据流的安全检测。
传统的入侵检测技术在云计算平台中具有很大的局限性,由于虚拟化技术和分布式计算技术的应用,传统的基于网络的入侵检测技术无法对虚拟主机进行有效检测,而基于主机的入侵检测技术也无法检测出黑客的网络攻击。同时,传统的入侵检测技术在检测髙速海量的网络数据流时,其检测效率往往不够理想和准确。同时,当前越来越多的网络攻击行为使用了将信息隐藏在网络报文中,许多木马病毒都需要通过流量检测才能识别。
基于Hadoop的海量网络数据处理平台处在网络环境中,它需要实时接收采集到的海量数据流,同时在平台的应用层,它需要为各类数据用户提供大并发量的数据访问接口。该平台的网络安全具有对异常流量进行快速检测和检测高准确率的要求,而传统的网络安全技术,例如数据加密和安全认证等,已无法解决该海量网络数据处理平台的安全问题。因此,针对海量网络数据处理平台的架构,除了配置传统的网络安全设备,包括防火墙、网络、入侵检测等设备外,还需要对海量数据流检测技术应用于海量网络数据处理平台进行研究,主要包括提高检测准确率和处理速度两个方面进行考虑,开展相关的研究工作。
2 云计算安全问题分析
2.1针对云计算的网络攻击技术研究
云计算釆用基于网络的服务模式,并根据用户需求向用户提供其所需的各类软硬件资源和数据信息[1]。代表产品有Amazon的EC2、IBM的BlueCkmd、谷歌的App Engine等[2]。基于Hadoop的海量网络数据处理平台也存在网络接口用于平台管理和数据流的接收存储,这与现有的大多数云服务类似,均需要在互联网中为用户提供服务。同时近年来,针对网络中云计算集群的攻击[3]也在急剧增加。目前针对云计算的攻击主要包括非法访问、云平台漏洞攻击、滥用权限攻击、云计算环境基于主机或基于网络的攻击、进程劫持等几种情况。
2.2云计算环境的异常流量检测技术分析
针对云计算的安全问题,研究人员已经进行了很多研究工作,许多云安全技术已经被有效地应用到各种云计算应用场景,包括云网络防火墙、入侵检测系统的设计与部署。然而,传统的入侵检测技术初始设计主要针对物理网络的防御,而且一般只是对单一的网络或者对象的检测而云计算的环境极其复杂和多样化,它具有跨地域、异构化、虚拟化等特点,使用传统的入侵检测技术已经无法满足云计算的信息安全防护需要。因此,研究人员提出了许多适用于云安全的入侵检测技术,已用研究成果表明,目前对云环境中兼具基于特征的检测系统和基于异常行为的检测系统二者优点的网络入侵检测方法有着迫切的需求。
在前人研究的基础上,本文针对云计算环境的特殊性,设计更加高效和快速反应的云安全的网络安全检测系统,提出了一种基于分类器联合的分布式异常流量检测技术,该技术基于Hadoop的MapReduce运算机制,并作为海量网络数据处理平台的一个模块。其功能是对云平台网络出口流量进行快速检测,定位出其中的异常流量。该技术对网络流量数据采用基于流统计特征的流量检测,并使用历史的真实流量数据对分类器进行训练建模,再将新釆集的数据与模型匹配分析,再基于多种分类算法联合检测的方式,判定检测的数据流是否正常,达到高效和实用的目的。
3.基于分类器联合的分布式异常流量检测技术
3.1框架说明
本文提出的基于Mahout技术的分布式异常流量检测技术,基于模糊K-均值和朴素贝叶斯分类算法,使用检测探针在海量网络数据处理平台的网络出口位置对流量数据进行探测分析[4],可以实现对大型云计算平台的网络流量近实时异常检测。
不同于传统研究中使用的入侵检测技术,本文提出的异常流量检测计算,以流记录的形式在HDFS中存儲流量特征,并基于Mahout技术在MapReduce框架中对其进行快速分析处理,实现流量记录的存储和高效的异常流量检测。采用对数据流检测的方式,比数据包解析的效率高,不涉及用户隐私。本文提出的异常流量检测技术是一个适用于实际云计算环境的整套解决方案。同时,配合网络硬件监测设备,该系统可以适用于各大数据中心的异常流量近实时检测。结合云存储的相关技术,可以实现网络流量的存储及再分析。
3.2分类算法选择和实现
基于分类器联合的分布式异常流量检测技术基于Hadoop的MapReduce运算机制,并作为海量网络数据处理平台的一个模块,实现对云平台网络流量的检测和异常流量的判定。该技术算法在设计时充分考虑了实用性和高效性,并且已经有相应的成熟软件运行在测试网络的中心服务器上。算法的基本思想是,利用历史测量数据构建训练模型,对新测量数据与模型进行匹配,利用串联式多级判别算法来判定新测量数据是否是异常数据。基于历史流量数据构建模型并进行训练,然后进行该模型对检测到的流记录进行判定分析。本文使用模糊K-均值和朴素贝叶斯分类算法联合判定的方法来对流量数据进行综合判定,并基于Mahout技术实现分类算法在MapReduce框架上的大数据分类计算[5]。
模糊K-均值算法是一种常用的聚类算法,它是在K-均值的基础上将分类进行模糊化处理。其基本原理是通过从原始数据中提取出K组的模糊矩阵再计算出最幵始的聚类中心向量矩阵。然后再通过特定的目标函数,使用多次迭代的方法找到最合适的分组和中心,使得目标函数最小,并按照最大隶属的原则进行分类。在处理大数据时,模糊K-均值算法具有较高的效率和伸缩性,适合本文中对海量网络数据流的处理。
贝叶斯分类器是基于贝叶斯定理构建的一种统计学分类器,它可以用于预测某个数据样本属于某个类别的概率。贝叶斯分类器的一个重要应用是针对海量数据的分类,其具有较高的性能和准确度。
Mahout是一个运行在Hadoop上的用于进行数据分析和机器学习的分布式软件框架,它釆用MapRechice机制实现了一系列可扩展的数据挖掘算法,包括逻辑回归算法、贝叶斯分类器、隐藏马尔可夫模型、K-Means聚类算法、最小哈希聚类算法、奇异值分解算法等等[129]。同时,Mahout作为Apache基金下的开源项目,当前有众多研究人员对其进行扩展和完善,其支持的算法也越来越多,如神经网络、向量相似度、主成分分析等等。
3.3分类器联合判定算法
不同的网络应用业务的流量特征有着很大的区别,本文根据流量统计特征指标来对海量网络数据处理平台的流量进行检测,并基于Mahout技术对流量记录进行快速分类,检测其中的异常流量,提高海量网络数据处理平台的安全性。首先使用流量统计特征指标选择技术来找到上述特征指标中识别度最高的一组集合,然后再使用分类器对其进行学习训练。在选取流量统计特征指标时,如果某个指标可以反映出分类的属性时,则该指标为有价值的指标。在实际的特征选择中,数据的特征指标往往存在着许多冗余,甚至是无价值的指标,因此本文在选取有价值的特征指标时,需要选择出其中与数据分类相关性较大的指标,同时需要保证选取的特征指标之间没有相关性,即指标之间无法彼此预测。
联合判定算法釆用计算当前流量统计样本与历史数据样本临近度的方式来进行分析,综合了模糊K-均值和朴素贝叶斯分类构建的模型,具体包含两部分,对历史数据的离线学习和对流量数据的在线分类。同时,为了验证联合分类算法的准确性,可以在后续使用釆集到的样本流量数据进行实验分析。计算方法如下,读入某数据流的统计信息,经过数据预处理后,获取数据流的特征指标值,按照流量为异常和正常确定分类数,并初始化聚类中心点,计算其与各类别样本所有聚类中心点的欧式距离和隶属度值,重复运算直到各个样本数据的隶属度值稳定,则判定出样本数据是否为异常流量。然后利用训练后的朴素贝叶斯分类器,对其进行异常判定。最后联合模糊K-均值和朴素贝叶斯分类器,对该数据进行最终的异常判定。模糊K-均值算法是无监督的分类算法,朴素贝叶斯分类器是有监督的分类算法,结合有监督和无监督的分类算法,可以避免单一算法的缺陷,较为全面的对网络流量进行异常检测。
4 结论与展望
本文提出一种应用于云计算平台的异常流量检测技术,该技术基于MapReduce技术的异常流量检测技术,通过釆用分布式并行计算模式来对数据进行处理,可以实现对海量数据流的高效检测,避免传统入侵检测技术的效率问题;该技术引入了特征选择技术,从流量数据中提取有价值的流量分类数据,为后续更加有效地检测出异常流量提供帮助;该技术基于分类器联合的检测技术,模糊K-均值算法是无监督的分类算法,朴素贝叶斯分类是有监督的分类算法,通过结合有监督和无监督的分类算法,可以更为全面的对网络异常流量进行检测,以提高海量网络数据处理平台的安全性。
然而,云平台的安全性涉及系统、服务器、网络、用户等多方面的内容,因此对云平台进行安全保障工作时,除了部署传统的安全防御设备外,还需要进行全面的考虑,并针对不同的云平台应用场景,构建完善的网络安全防护体系,是在本文基础上需要进一步研究和深化的主要问题。
参考文献:
[1] Annbrust M,Fox A,Griffith Ret al.,A View of Cloud Computing, Commun Acm, 2010 , 53 ⑷:50-58.
[2] Bhardwaj S,Jain L,Jain S,Cloud Computing: A Study of Infrastructure as a Service (IAAS),International Journal of engineering and information Technology, 2010,2 (1): 60-63.
[3] Zissis D, Lekkas Ds Addressing Cloud Computing Security Issues,Future Gener Comp Sy, 2012, 28 (3): 583-592.
[4] Agarwal D,Gonzdlez J M,Jin Get al., An Infrastructure for Passive Network Monitoring of Application Data Streams, 2003.
[5] 刘军.大数据处理[M].北京:人民邮电出版社,2013.