大数据分析下异构网络安全的关联算法研究
2019-12-11焦冬艳贺桂英
焦冬艳,吴 永,贺桂英
(广东开放大学 信息与工程学院,广东 广州 510091)
0 引 言
在2011年,麦肯锡公司最早提出“大数据”的概念,并且明确提出,数据已经逐渐渗透到世界上不同领域和不同行业,并在每个部分占据越来越重要的地位,未来大数据的发展必将成为人类实际生产应用中提高生产率的主要模式,并将持续引领新的增长浪潮[1-2]。值得注意的是,大数据是指一种分析并处理多样化信息的方式,并不是以数据量的多少而进行划分的。其基本思想是通过对大量信息的分析研究以快捷高效地获取各种有用信息。目前还没有具体的软件能做到这一点,因此,在大数据的环境下高效处理大量数据并获得新颖的知识和价值显得尤为重要。随着互联网技术的广泛普及,大数据逐渐进入了人们的视线[3]。世界上不同国家的企业和机构均在重视关注着大数据的发展,任何一家企业如果能运用现有的资源在大数据时代占据领先地位,那么它的核心竞争力是不容小觑的,并且自身的竞争力将飞速发展。因此,研究和应用大数据的竞争局面必然十分剧烈。欧美等发达国家已经在该领域制定了详细的战略规划,而中国也陆续投入了大量的人力和财力,并取得了不错的成绩[1]。在这一时代背景下,大数据的高效发展和应用,有助于提升整个人类的人均知识水平,在给人类社会发展带来诸多便利的同时,也存在被不法分子利用的危险。他们以破坏网络安全获取非法利益为目的,通过非法技术手段窃取数据信息,影响网络环境数据安全,严重扰乱互联网技术和大数据技术的正常发展。大数据均是基于网络而开发的,保障网络的安全以及数据的安全是发展大数据的前提。基于以上原因,文中介绍了大数据环境下的网络安全现状,利用关联算法探讨了检查并验证现有网络安全的问题,为大数据环境下的异构网络安全监控提供了一些思路,也为信息安全企业提供了一个分析大数据下隐含规律的参考模型。
1 大数据环境下的网络安全
1.1 大数据环境下的网络安全问题
随着APT等高级攻击手段的出现,给大数据环境下的网络安全带来了大量新问题。对于大型企业的多来源、多维度的数据安全比单一安全数据源势必需要更多安全保障措施;随着数据接入的多样性,可供安全人员分析的事件类型也多种多样,若不能有效利用就无法提升系统的整体安全性,而多源异构数据的引入又给安全分析带来了难以避免的复杂性;APT采用一些定制化攻击手法,常规手段难以及时检测,分析人员必须对较长时间的安全数据进行掌握,时间跨度大势必带来更大的数据量,而安全检测的及时性对分析处理的速度提出了较高的要求;安全管理者缺乏对整个网络安全态势的全局实时感知能力。传统方法产生的报警使得安全管理者不能有效掌握系统运行的安全状况,难以评估网络整体安全态势,而作为响应依据,网络安全防护也有实时性要求。现今在大数据环境下的网络安全问题体现在以下几点:
(1)网络安全意识不够。虽然当前的计算机系统已经具有相对完善和功能强大的安全环境和安全措施,但是由于网络技术使用者的安全意识薄弱,即使网络有监控,但仍然存在难以填补的漏洞。
(2)随着网络软件的大量应用,网络软件本身的设计存在某种漏洞或者问题,在使用软件时,网民私密性的个人信息有可能被窃取。
(3)计算机病毒和黑客泛滥。不同的系统软件和程序都存在一定的安全漏洞,病毒可以说是无孔不入。需要网络安全监管部门做出更加具有实效更加科学的安全监管和处理方案。
因此,要解决大数据网络安全行为下的检测与预警问题,最有效和可行的方法还是要依赖于大数据技术本身的能力,上述问题的根本解决途径是大数据环境下网络安全事件关联处理。
1.2 大数据环境下的网络安全特征
大数据环境下的网络安全包含网络流量、API攻击和用户行为三个特征[4]。首先,网络流量异常的产生主要是由于分布式拒绝服务攻击DDoS。一般而言,用户操作网页搜索时需要流量小,但是搜索之后的网络涉及视频、语音和图片等等,这时返回的网络流量远远超出搜索前的。DDos攻击结果与之相反,通过控制端发送命令来操作对方控制端的使用,下行流量会远远大于上行流量。其次是APT攻击,是指持续攻击的网络行为,属于高级行为。它是目前网络安全中危害指数最高的攻击行为,具有高隐蔽性,长潜伏期,绝大部分是经过严密的计划性攻击,能对网络数据造成破坏性的影响。通常当移动设备的系统服务器出现漏洞时,APT攻击会潜入到用户的网络系统并植入各种恶意软件,并且不会被使用者立即察觉。一旦被APT攻击,受到攻击的用户的各种重要数据随时会被窃取,造成严重的损失。最后是用户行为,是指人们在日常的网络活动中进行的社区互动、问题讨论和论坛交流等等搜索浏览行为。这些行为简单反映了不同用户的行为特征,如果被黑客入侵,每个用户的私人信息如银行密码和账户信息都会泄露,更为严重的是,黑客可能会假冒某些用户,破解用户所有密码,更改并盗取用户的资金账户,甚至自行安装恶意软件破坏用户的网络系统。当然,这些均会被网络数据库记录并保存下自动形成黑客对的行为数据,使得用户可以对比自身行为和黑客行为来识别可能的网络行为,保障网络的安全。
2 大数据下的异构网络安全关联算法研究
2.1 关联算法
面向大数据的异构网络安全监控体系对监测到的数据进行逻辑推理和分析最重要的部分就是对数据的关联性分析。面向大数据环境的异构网络安全关联算法设计需要从以下几个方面进行考虑[5]。首先需要考虑各种处理后的核心数据中不同数据项之间的关联关系即规则关联;其次面向大数据环境的异构网络安全监控系统网络中各种相关设备的流量信息也需要重点分析,从而发现其中的规律并提取流量规则;最后异构的各种设备核心数据和设备流量数据之间的相关性也需要协调分析,这种规则间关联使用分布式序列图模式挖掘。如何将大量数据准确、高效地转换成有用以及可靠的信息成为工作人员研究的重要课题。在当今异构网络模式下,对于网络安全的监控难度更大,只有建立科学、健全、完善的异构网络安全监控体系,才能确保监测信息的准确性和可靠性,同时提高监测效率,确保网络安全问题被及时准确地发现并解决。
2.2 大数据下的异构网络安全关联算法研究
在大数据环境下,要提炼核心有效的数据需要明确数据内在的各种内容和联系,并较好地组织各类信息,使得研究人员或者开发人员能轻易获取并处理各种数据之间的关联信息。数据的关联分析是异构网络安全监控系统需要攻克的难点[6]。因此,在大数据背景下,异构网络的安全监控系统具有更加复杂的规则,对其关联的算法则应包括如下几个方面[7]:第一,要弄清各种处理后的核心数据之间的相互关系,也就是规则关联;第二,对整个网络中的所有设备流量使用情况进行重点分析,找出其使用的规律并进一步得到相应的流量规则,使得面向大数据环境的异构网络安全监控在整个网络中高效安全的运行;第三,协调分析异构之间各种设备流量数据和核心数据之间的关系,判断其是否存在一定的相关性,并基于分布式序列图模式进行关联规则的挖掘[4]。在异构网络安全监控系统中,需要分析网络数据系统属性之间的联系,可以使用关联分析及其他模式的挖掘方式。根据以往的研究,采用规范化处理和去除冗余的方式可以聚集有效数据并导出新的属性,一般用四元组(A,P,C,O)来分析和描述不同事件之间的因果联系,其中A、P、C分别指安全事件、前提条件集合、安全事件之后可能发生的不同结果的集合,O指的是与安全事件相关的一组属性的事件总集合。若任意两个事件的属性不同,则表明两个事件会有不同的实例。
在模糊理论的基础上,用e1和e2表示任意两个安全事件,用C(e1)×P(e2)表示事件e1与e2之间的二元模糊因果关系;用μR(c,p)表示整个隶属度函数,并规定其取值区间为[0,1],因此,其在模糊集合R上的隶属度则以序偶函数(c,p)表示,即1表明c和p的模糊因果关系最大,0表示两者基本没有任何模糊因果关系。同时,高级安全事件集合e1的属性集合为A1={u1,u2,…,un},同理,高级安全事件集合e2的属性集合A2={v1,v2,…,vm},同时设定e1与e2的基本属性集分别为B1={u1,u2,…,uq}和B2={v1,v2,…,vq}。如果B1事件和B2事件存在等量关系,称事件e1与e2满足模糊等量约束,如果有另外一函数c使得μ(c,p)集合有相应的值,此时e1和e2事件之间存在模糊等量因果关系,表明集合C(e1)×P(e2)有模糊二元因果联系R。其函数式如下:
其中,u和v为序偶函数(c,p)所对应的一种相关属性;Mat表示其相匹配个数。
用函数W(ui,vi)表示属性事件ui、vi的权值概率[2],其值介于0~1之间,公式如下:
其中,ui、vi,W(ui,vi)可以表示基本属性和非基本属性,前者其值只能为0或者1;而后者其具体值会随相应领域知识的变化而变化[8]。基于上述前提,用支持度函数SupR(C,P)表示C(e1)×P(e2)的二元模糊关系,具体公式如下:
其中,i,j均为大于1的正整数,支持度函数Sup(C,P)的值介于0到1,但不包括0或者1,并且集合P和集合C中相匹配的元素个数则以Mat(C,P)来表示[4]。若支持度阈值TSup∈(0,1),且此时Sup(C,P)的数值要比其高,那么则说明集合C(e1)×P(e2)之间具有二元模糊关系R,即这种安全事件可能存在某种关联。
3 异构化网络安全的实证研究
3.1 网络安全实例测试
考虑到关联算法的实际应用能力,文中在上述研究的基础上,通过对真实数据进行化简,清洗以及不断规划等一系列处理操作并得到核心分析数据库,构建了一个可以提供测试环境以及模拟实际攻击行为的集群实验环境,从而测试和验证大数据环境下异构化网络安全监控平台的不同分析算法。首先新建一个简单的HadoopMapReduce实验集群环境,根据并行规则处理核心数据。此次的实验集群包括6个计算机节点以及1个主控节点[9],其具体的计算节点配置如表1所示。
表1 实验集群中计算节点的配置
续表1
在实验测试环境下,对不同事件的模糊等量约束的因果关联因素采用MapReduce方法的并行处理原则,分析并处理分布式序列图的模式挖掘规则之间的联系和算法差异,实现了高速处理大数据环境下的各种安全海量规则的目标。对于测试环境的参数设置方面,将大数据安全监控的关联分析的漏报率控制在8%左右,而误报率的设置值应低于11%,对基本安全事件行为的最小置信度设置值至少控制在50%以上,而最小支持度的设置值不应少于60%[10]。构建一个大数据安全监控综合检测环境,如图1所示,能全面测试并验证异构网络的安全监控系统的性能、功能等其他参数。
图1 大数据环境下的安全监控系统
3.2 网络安全防护措施
互联网的安全防护是大数据环境下解决安全问题的重中之重,那么维护互联网的安全和加强安全监督力度是保障互联网安全的关键[11-13]。目前维护互联网安全的首要措施是控制访问设置,通过设置用户访问权限以及时监控不明用户,能有效保证互联网络的安全使用。例如,通过输入密码和用户身份认证的形式来阻止黑客的攻击,可以使用访问权限设置。其次,需要对数据进行加密设置,将用户的数据信息进行隐蔽,并加强密码设置的难度系数,使得黑客在攻击用户数据后难以短时间内破解密码,保证了用户数据的安全使用。这是维护安全网络系统的重要手段。然后,为了进一步加强网络安全,需要设置网络隔离,对用户数据存储系统设置防火墙以达到隔离的效果,可以对大量的信息进行识别,有选择性地筛选有效的信息。防火墙设置是对计算机使用内部网络进行隔离,保证被隔离之后的网络一定是安全的,而外部网络很大程度上是具有危险隐患的网络[10]。最后是对用户网络的入侵检测,主要检测并分析互联网系统有效的关键信息,对非法用户的入侵行为作出及时的拦截。这种监控技术采用主动的形式防御网络安全,能消除防火墙的不足,是一种能实现全方位的网络化安全的实时保护技术。
互联网的安全防护不仅仅需要可靠有效的技术来维护,更需要严格有力的管理制度对其监督。一方面,对网络工作人员应该制定严格的管理制度,加强网络安全应急措施;另一方面,建立完善的安全管理体系,提升用户网络安全意识,达到维护网络安全的目的。
4 结束语
面对大数据时代下网络出现的种种问题,不仅需要安全可靠的新技术来维护,更需要严格有力的管理制度对其监督,广大的互联网用户也需要增强安全防护意识,为互联网的安全运行奉献一份力。针对大数据的查询分析复杂和大数据量的特点,分析面向大数据的异构网络安全监控的相关技术,提出对各类异构数据源进行清洗整合。通过安全事件的关联和分布式序列图的模式等方式进行网络安全监控的整体态势分析,为大数据环境下的异构网络安全监控提供了一些思路,也为信息安全企业提供了一个分析大数据下隐含规律的参考模型。