大数据技术在网络安全分析中的应用
2018-03-07吴世嘉李言鹏
◆吴世嘉 李言鹏
大数据技术在网络安全分析中的应用
◆吴世嘉1李言鹏2
(1. 92269部队 浙江 316000;2.31603部队 江苏 221000)
近年来,随着网络技术的飞速发展,人们对网络信息的安全性越来越重视,网络安全分析的规模不断增长,其中大数据技术在网络安全分析中的应用逐渐成为业内研究的热点。本文从网络安全分析的需求入手,分析了应用大数据技术的必要性,进而从信息的采集、存储、检索、分析等方面深入探讨了大数据技术在网络安全分析中的应用,最后对基于大数据的网络安全分析平台建设问题进行了探讨,希望为网络安全环境的创建提供一定借鉴。
大数据技术;网络安全分析;应用
0 引言
随着信息时代的到来,大数据技术渗透到了各个行业领域,其在网络安全中的应用更是起到了非常重要的作用。当前来说,随着人们对网络安全问题的越来越重视,怎样才能更加有效地应用大数据技术已成为业内研究的热点。基于此,本文就大数据技术在网络安全分析中的应用展开研究,希望能够有效地提高网络安全分析的效率和质量。
1 应用大数据技术的必要性
信息网络技术的发展为人们的工作、生活带来了极大的便利,但也引发了诸多问题,比如:网络架构日渐复杂,数据来源日益丰富,信息数量呈爆炸式增长,已经从TB跃进到PB数量级,在细节上更加细致,影响的范围越来越大,这就给网络安全分析带来了较大的难度;网络系统的性能不断提高,信息传送速度越来越快,对安全数据的采集有了更高的要求;此外,网络的开放性、兼容性也造成了越来越多的安全漏洞。而且,许多不法分子为谋取私利而对网络系统进行频繁的攻击,这就要求我们的网络安全分析必须具备针对性的应对手段。有关调查发现,未来的信息网络离不开大数据技术的应用,随着研究的深入其在多个行业领域都获得了应用。尤其是在网络安全分析中,大数据技术的应用有着速度快、种类多、覆盖范围广等优点,能够充分满足当前对安全数据分析的高效率、大容量的要求。
2 大数据技术在网络安全分析中的应用
对于网络安全分析来说,主要涉及到日志和流量等关键性数据,再加上系统配置、访问控制、应用报告等辅助性数据信息。通过大数据技术的应用,能够将非常分散的日志、流量等汇集起来,并采用灵活的储存、分析技术手段,大大地提高安全分析的效率,降低分析的成本。而且,还可以使用信息关联、场景关联等技术进行深层次的分析,对各类事件之间的关系做出准确的判断,从而能够准确的预估网络攻击、数据漏洞等问题的发生,进一步提高防御的主动性。
2.1 信息的采集
一般来说,信息的采集可以选择Chukwa等技术工具,利用分布采集的方式获取到各种类型的日志信息;对于全流量数据的采集,则可以采取常见的数据镜像的方法。
2.2 信息的存储
考虑到数据的复杂性,以及应用形式的多样性,想要实现高效的信息存储,并不断提升检索的效率,就要针对不同的数据类型采取不同的存储方法。
对于部分原始数据来说,比如系统中的日志、流量等,可以采用GBase、Hbase等技术,检索速度较快,能够实现查询的快速响应。
对于经过标准化处理的数据,可以选择Hahoop进行架构计算,将得到的数据放置到相应的节点上,采用Hive等进行分析,最终获得统计、分析报告,并将结果存储起来。
对于需要实时分析的数据,可以选择Storm、Spark等方法,将得到的数据放置到相应的节点上,当经过节点时能够自动进行分析,获得统计、分析报告,并将结果存储起来。
2.3 信息的检索
在进行安全分析时,还要对信息实施必要的检索,一般采用的是MapReduce方法,将提出的查询请求发送到各个节点进行处理,再通过分布式的计算,能够有效地提高有关数据信息的检索速度。
2.4 数据的分析
数据的分析一般采用的是Storm或者Spark等方法,并结合复杂问题处理及电联分析技术。通过以上方式对实时数据信息、监控信息进行分析,可以觉察到任何异常行为的发生。如果面对的是非实时数据,则可采用Hadoop架构,以及HDFS与MapReduce分布式操作方法,对可能的风险、事态进行分析,并及时的定位攻击源。
2.5 多源数据与多阶段组合的关联分析
大数据技术的应用,对于存储、分析效率的提高有着重要作用,实现了多源数据的快速分析,以及各类安全问题的关联挖掘。比如,对僵尸网络的分析,不只是结合流量同DNS来分析,还可以实现数据源的进一步拓展,涉及到各种数据的集合、溯源数据的攻击、深层次关联外界数据等。又比如,发现某个设备终端被侵袭或者存在安全疏漏,能够判断分析其他终端是否受到类似的攻击或者出现类似的漏洞,使得出现的隐患被及时发现,从而能够提前做出有效的防范。
3 基于大数据技术的网络安全分析平台
3.1 平台架构
网络安全分析平台,主要由以下几个部分构成:
(1)数据采集层,主要用于采集用户基本信息、安全事件等异常数据信息。
(2)大数据存储层,主要应用的是具有分布式特点的存储系统持续存储巨量的数据信息,还能实现各种类型数据的一致性存储,采用均衡算法将庞大的数据依次存储在分布式系统中,同时也为后续的数据检索提供了方便。
(3)数据挖掘分析层,主要用于对数据进行分析,探讨其关联性,并实现特征的提取,从而迅速挖掘出存在安全隐患的事件,察觉各类异常行为并探寻其根源,同时能够对关键数据进行排查以及定位。
(4)数据呈现层,主要用于实现数据结构的可视化呈现,在多层级状态下展现网络系统的状态。
3.2 平台实现的有关技术
(1)信息采集。该平台采用的是Flume、Kafka等相结合的方法实现有关信息的采集。Flume的使用,对于安全数据的整合、分析非常有利,表现出较高的可用性以及稳定性,对数据实施可靠性定制,收到来自不同源头的数据之后,对其进行简单的分析并传输给相应的定制方。
对于活跃性较高的流式数据,可将Kafka用作是数据采集与处理操作之间的缓存。Kafka提供的是具有一定整体性的逻辑服务,使其发展为一个具有分布式特征的数据系统。对于分布式中的数据操作,采用的是Zookeeper框架对其实施有效的管理,最终实现均衡的目标。
(2)信息存储。采用的是HDFS进行信息的存储,该技术有着很高的吞吐量以及容错性,运用元数据对节点系统进行管理,相应的节点被用来存放关联数据,此处是将64兆字节的数据块用作最基础的存储单元。有关节点的数量与文件的大小成反比关系,在某一时间段内假如有过多的访问量,必然会影响到所在系统的整体性能。因此,要想提高信息处理的效率,在该平台中选用的是HDFS存储模块,将得到的数据进行归纳、整理,确保每一个文件的大小都符合要求。
(3)数据分析。在这里采用的是Hive实施数据分析,应用HiveQL语言以充分满足对于非结构化的数据实施快速检索的要求。采用Hive对API实施必要的封装,选择预先定制的各类插件来实现各种数据的处理、分析功能。
对于数据的深度挖掘,采用的是Mahout实现有关Hadoop的学习模式,同时对数据进行有效的整理。考虑到还要用到数据的关联与分析,应用了CPE,将系统数据看作是不同类型的事件,对互相之间的联系进行深层次分析,创建相应的事件关系序列库,能够实现从简单到高级的转换,从而在海量的数据信息中找到潜藏的安全隐患。
4 结语
总的来说,大数据技术的应用具有数据量大、覆盖面广等特点,因此被应用到了诸多行业领域。近年来,随着网络安全分析要求的提高,如何有效地利用大数据技术已逐渐成为业内研究的热点。本文深入分析了应用大数据技术的必要性,对数据的采集、存储、检索、分析等环节进行了深入的探讨,可以说,大数据技术的应用有效地提高了网络系统的安全质量。
[1]管磊,胡光俊,王专.基于大数据的网络安全态势感知技术研究[J].信息网络安全,2016.
[2]王谦,潘辰.基于大数据时代下的网络安全漏洞与防范措施分析[J].网络安全技术与应用,2017.
[3]孙星.大数据时代的网络安全研究[J].电脑知识与技术, 2016.